Query:
Refining:
Year
Type
Indexed by
Colleges
Complex
Language
Clean All
Abstract :
非结构化数据存在差异性,对标注模型的构建存在不足,影响标注质量.提出基于多通道卷积神经网络的非结构化数据标注方法.建立Hive分布式查询框架,对其中与标注目标相关的数据进行相似性查找,同时建立众包标注集,确定相关标注概念.对标注集中的标注差异性,利用多通道卷积神经网络对其差异性进行确认,并确定标注任务函数.利用标注任务函数,建立任务标注模型,利用模型中求得函数解值完成标注任务.为了验证设计的非结构化数据标注方法的可行性,实验结果证明设计方法下得到的标注质量更高,方法性能更好,满足设计初衷.
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 米启超 , 赵红梅 , 林丽萍 . 基于多通道卷积神经网络的非结构化数据标注 [J]. | 计算机仿真 , 2021 , 38 (6) : 400-404 . |
MLA | 米启超 等. "基于多通道卷积神经网络的非结构化数据标注" . | 计算机仿真 38 . 6 (2021) : 400-404 . |
APA | 米启超 , 赵红梅 , 林丽萍 . 基于多通道卷积神经网络的非结构化数据标注 . | 计算机仿真 , 2021 , 38 (6) , 400-404 . |
Export to | NoteExpress RIS BibTex |
Abstract :
非结构化数据存在差异性,对标注模型的构建存在不足,影响标注质量。提出基于多通道卷积神经网络的非结构化数据标注方法。建立Hive分布式查询框架,对其中与标注目标相关的数据进行相似性查找,同时建立众包标注集,确定相关标注概念。对标注集中的标注差异性,利用多通道卷积神经网络对其差异性进行确认,并确定标注任务函数。利用标注任务函数,建立任务标注模型,利用模型中求得函数解值完成标注任务。为了验证设计的非结构化数据标注方法的可行性,实验结果证明设计方法下得到的标注质量更高,方法性能更好,满足设计初衷。
Keyword :
标注概念 标注任务函数 非结构化 数据标注 众包标注集
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 米启超 , 赵红梅 , 林丽萍 . 基于多通道卷积神经网络的非结构化数据标注 [J]. | 计算机仿真 , 2021 , 38 (06) : 400-404 . |
MLA | 米启超 等. "基于多通道卷积神经网络的非结构化数据标注" . | 计算机仿真 38 . 06 (2021) : 400-404 . |
APA | 米启超 , 赵红梅 , 林丽萍 . 基于多通道卷积神经网络的非结构化数据标注 . | 计算机仿真 , 2021 , 38 (06) , 400-404 . |
Export to | NoteExpress RIS BibTex |
Abstract :
超大规模数据集和多维度组合查询是存储和检索半结构化数据的研究热点和难点。目前Hive/HBase等分布式数据仓库技术实现了数据的海量存储,但在检索上仅支持单维度的快速索引。已有研究通过R-Tree, KD-Tree和空间曲线实现数据的多维度索引,但这些方法没有考虑半结构化数据的缺省值和离散值的实际情况,甚至需要通过数据采样加速和优化数据存储,不满足数据库实时性的需求。 为了实现对海量数据的实时高效的多维度组合查询,本文提出了一种基于键值存储的半结构化数据多维索引技术MD-Index,并在分布式环境下实现了MD-Index的原型系统。为了发挥分布式并行计算的能力和磁盘顺序读写的优势,MD-Index采用针对数据访问特征的分片策略,并在分片中构建位图索引实现数据的多维度检索。针对高基数属性下等值位图迅速膨胀的问题,本文提出了等值位图合并为区间位图的合并算法和压缩状态下位图索引逻辑运算的BRLE算法。针对分布式系统中负载均衡、数据迁移和分区可用性的问题,本文提出了一种弱一致性哈希分区挂载算法,保障了MD-Index在大规模数据集下横向拓展的能力。此外,本文基于键值存储设计并实现了MD-Index原型系统,解决分布式环境下位图索引一致性问题,实现了数据库增删改查的基本功能,为了进一步提高系统吞吐量,设计了MD-Index的并发架构,实现了数据的批量写入和并行查询。 在实际项目应用方面,已将该系统部署到北京正负电子对撞机实验数据和慧眼卫星天文数据的查询分析环境中,在PB级存储量和万亿级数据量上实现了数据的多维检索和平均每秒200万记录的吞吐量。相比同类多维索引技术Cubrick,在大规模数据集(10TB)下,MD-Index的性能是Cubrick的两倍以上。
Keyword :
多维索引 键值存储 位图索引 一致性哈希
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 高鑫 . 基于键值存储的半结构化数据多维索引的研究与实现 [D]. , . |
MLA | 高鑫 . "基于键值存储的半结构化数据多维索引的研究与实现" . , . |
APA | 高鑫 . 基于键值存储的半结构化数据多维索引的研究与实现 . , . |
Export to | NoteExpress RIS BibTex |
Abstract :
近年来,互联网快速普及,互联网广告行业也蓬勃发展,某广告监测企业内部各个业务系统每天都在产生大量数据,其数据形式多种多样,没有统一的格式,使得不同数据源之间相互独立,无法实现数据效益最大化。本文将通过构建基于数据仓库的数据平台,并设计实现满足广告监测企业需求的数据管理系统。 本文先介绍基于数据仓库的广告监测数据管理系统的研究背景和价值,考虑到广告监测企业数据管理的实际业务需求,确定了采用Hive搭建数据仓库,并结合大数据计算引擎Spark来实现数据ETL流程的设计方案。本文为广告监测数据管理系统建立了自下而上的软件体系结构,依次是:数据源层、数据存储层、数据处理层、数据访问层、数据应用层。一方面,通过HDFS搭建分层架构,并使用Kafka和Sqoop来将不同数据来源的数据传输到HDFS中进行存储,然后借助Spark对数据进行脱敏和一系列的ETL作业,随后将处理后的数据以一种统一的格式装载进数据仓库中;另一方面,通过对广告监测数据管理系统的数据开发、数据质量、数据管理、权限管理等功能模块进行详细设计和编码实现,给用户提供友好的数据管理界面,方便用户对海量广告监测数据进行查看和管理等操作。 最后,对广告监测数据管理系统的各功能模块分别进行了功能性测试和非功能性测试,测试结果表明,基于数据仓库的广告监测数据管理系统,满足企业对海量广告监测数据的处理和管理需求。
Keyword :
ETL Spark 广告监测 数据仓库 数据脱敏
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 乔智 . 基于数据仓库的广告监测数据管理系统的设计与实现 [D]. , . |
MLA | 乔智 . "基于数据仓库的广告监测数据管理系统的设计与实现" . , . |
APA | 乔智 . 基于数据仓库的广告监测数据管理系统的设计与实现 . , . |
Export to | NoteExpress RIS BibTex |
Abstract :
近年来,随着石油开采行业智能化的发展,石油开采所产生的数据量以指数级的速度增长,并且由于钻井平台呈点状分布的特点,收集不易,如何对这部分数据进行有效利用是企业迫切需要解决的问题。比如:信息设备众多、数据的传输与存储方式相对比较独立与互不兼容以及海量异构数据的聚合与应用等问题。因此,本文针对兴源钻井修理公司信息化建设中存在的数据无法有效利用问题,为石油开采企业开发了面向石油开采企业数据仓库系统,聚合企业生产经营中的数据,并对这部分数据进行分析挖掘:首先通过ETL过程将采集到的数据进行处理后存入到利用Hive构建的数据仓库中,之后对数据仓库中的数据使用Apache KyLin对进行OLAP(On-Line Analytical Processing)分析处理,以可视化方式反馈给企业的分析决策人员。 本文针对兴源钻井修理有限公司的现实情况,梳理了石油开采企业的信息数据资源;依照客户提出的的业务需求,完成了本系统的需求分析和相关模块设计与实现。本系统的体系结构分为四层,自顶向下分别是:表示层、逻辑层、访问层以及存储层。数据存储层主要负责数据聚合过程,即将源数据通过ETL过程聚合到数据仓库中为数据访问层的接口提供数据支撑;在此基础上,业务逻辑层实现了本系统的核心功能:ETL作业调度、数据综合查询、数据挖掘功能、OLAP展示功能和元数据管理功能;最后,表示层主要是为用户提供一些交互功能。 本文通过对石油开采企业的数据仓库系统的实现,建立了统一的数据存储平台和管理分析系统,能够有效解决数据无法有效利用的问题,在保证数据的质量的情况下,极大提高了数据的汇总、查询和分析能力,并为用户提供一些直观的展示方式。在满足用户的多元化分析和辅助决策需求的同时,为石油开采企业数据仓库的建设积累了宝贵的经验。
Keyword :
ETL Hive Kylin 数据仓库 数据聚合
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 张静波 . 面向石油开采企业数据仓库系统的设计和实现 [D]. , . |
MLA | 张静波 . "面向石油开采企业数据仓库系统的设计和实现" . , . |
APA | 张静波 . 面向石油开采企业数据仓库系统的设计和实现 . , . |
Export to | NoteExpress RIS BibTex |
Abstract :
Little is known about the extent of heavy metal accumulation in traditional Chinese medicines (TCMs). In this study, the levels of lead (Pb), cadmium (Cd), arsenic (As), and mercury (Hg) in traditional animal medicines were monitored using inductively coupled plasma mass spectroscopy (ICP-MS). Additionally, for the first time, a heavy metal risk assessment strategy was used to evaluate the potential risks of traditional animal medicines by calculating estimated daily intake (EDI), target hazard quotient (THQ), and cancer risk (CR). To obtain a refined risk assessment, the frequency of exposure to traditional animal medicines was determined from questionnaire data, and the safe factor for TCM was applied. Based on the standard levels for leech, it was found that earthworm, hive, scorpion, and leech accumulated high levels of heavy metals. The combined THQ (cTHQ) values indicated that ingestion of most traditional animal medicines would not pose a risk to the health of either male or female human beings. However, it was indicated that attention should be paid to the potential risk associated with cicada slough, earthworm, scorpion, turtle shells, and hive. Among heavy metals, As and Hg contributed to a major extent to the risk to human health. The CR assessment for Pb and As indicated that, with the exception of earthworm, the cancer risk was less than the acceptable lifetime risk for both males and females. Owing to the higher body weight, both THQ and CR were generally lower for males than for females.
Keyword :
Cancer risk (CR) Estimated daily intake (EDI) Heavy metals Risk assessment Target hazard quotient (THQ) Traditional animal medicine
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | Zuo, Tian-Tian , Li, Yao-Lei , He, Huai-Zhen et al. Refined assessment of heavy metal-associated health risk due to the consumption of traditional animal medicines in humans [J]. | ENVIRONMENTAL MONITORING AND ASSESSMENT , 2019 , 191 (3) . |
MLA | Zuo, Tian-Tian et al. "Refined assessment of heavy metal-associated health risk due to the consumption of traditional animal medicines in humans" . | ENVIRONMENTAL MONITORING AND ASSESSMENT 191 . 3 (2019) . |
APA | Zuo, Tian-Tian , Li, Yao-Lei , He, Huai-Zhen , Jin, Hong-Yu , Zhang, Lei , Sun, Lei et al. Refined assessment of heavy metal-associated health risk due to the consumption of traditional animal medicines in humans . | ENVIRONMENTAL MONITORING AND ASSESSMENT , 2019 , 191 (3) . |
Export to | NoteExpress RIS BibTex |
Abstract :
Honey bee parasitic mites (<i>Tropilaelaps mercedesae</i> and <i>Varroa destructor</i>) detect temperature, humidity, and odor but the underlying sensory mechanisms are poorly understood. To uncover how <i>T. mercedesae</i> responds to environmental stimuli inside a hive, we first identified the sensilla-rich sensory organ on the foreleg tarsus. The organ appeared to correspond to Haller's organ in ticks and contained four types of sensilla, which may respond to different stimuli based on their morphology. We searched for differentially expressed genes between the forelegs and hindlegs to identify mRNAs potentially associated with the sensory organ. The forelegs were enriched with mRNAs encoding sensory proteins such as ionotropic receptors (IRs) and gustatory receptors, as well as proteins involved in ciliary transport. We also found that <i>T. mercedesae</i> IR25a and IR93a were capable of rescuing temperature and humidity preference defects in <i>Drosophila melanogaster IR25a</i> and <i>IR93a</i> mutants. These results demonstrate that the structures and physiological functions of ancient IRs have been conserved during arthropod evolution. Our study provides insight into the sensory mechanisms of honey bee parasitic mites, as well as potential targets for methods to control the most serious honey bee pest.
Keyword :
ciliary transport honey bee decline honey bee parasitic mite ionotropic receptors sensory organ
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | Lei Jing , Liu Qiushi , Kadowaki Tatsuhiko . Honey Bee Parasitic Mite Contains the Sensilla-Rich Sensory Organ on the Foreleg Tarsus Expressing Ionotropic Receptors With Conserved Functions. [J]. | Frontiers in physiology , 2019 , 10 : 556 . |
MLA | Lei Jing et al. "Honey Bee Parasitic Mite Contains the Sensilla-Rich Sensory Organ on the Foreleg Tarsus Expressing Ionotropic Receptors With Conserved Functions." . | Frontiers in physiology 10 (2019) : 556 . |
APA | Lei Jing , Liu Qiushi , Kadowaki Tatsuhiko . Honey Bee Parasitic Mite Contains the Sensilla-Rich Sensory Organ on the Foreleg Tarsus Expressing Ionotropic Receptors With Conserved Functions. . | Frontiers in physiology , 2019 , 10 , 556 . |
Export to | NoteExpress RIS BibTex |
Abstract :
随着近年来空气质量的恶化,空气污染得到了政府以及民众的高度重视。环保部责令全国重点污染源搭建了CEMS系统(固定污染源烟气排放连续监测系统),然而企业采用不正当手段对排污数据进行篡改的行为仍时有发生。随着数据量的不断攀升,造假数据根据业务经验已难以进行识别,造假数据的分析判断成了丞待解决的问题。 本文通过分析业务文件确认CEMS数据中的造假以及异动数据类型,从而构建造假研判模型,在该模型基础上进行系统实现。CEMS造假研判系统构建在长天长大数据平台基础之上,使用Vue+SpringBoot框架进行Web系统构建,其底层数据存储在Hive数据仓库中,采用Spark+MLlib进行分布式数据处理。本文通过功能模型和动态模型对CEMS造假研判系统的功能性需求和非功能性需求进行分析,明确使用系统的用户角色,使用用例图和活动图对系统各模块进行描述;设计部分对系统的物理结构和功能模块进行了概要设计,给出了数据仓库的逻辑模型以及核心ETL设计规则,使用时序图和类图对分布式数据处理系统以及Web应用系统各模块进行了详细设计;实现数据ETL代码,完成滑动窗口、Logistic回归算法以及5种异常的Spark代码开发,编程实现Web应用系统并对系统的运行结果进行了展示,最后对系统进行了功能和性能测试。 根据系统实际运行的结果表明,系统很好的完成了设计目标,而且运行稳定,并可以同时支持大量用户并发访问。通过对CEMS数据的计算处理,系统为各个用户提供了数据异动以及数据造假分析的决策支持。
Keyword :
CEMS系统 Spark SpringBoot框架 长天长大数据平台 数据造假
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 杨超 . 基于长天长大数据平台的CEMS数据造假研判系统 的设计与实现 [D]. , . |
MLA | 杨超 . "基于长天长大数据平台的CEMS数据造假研判系统 的设计与实现" . , . |
APA | 杨超 . 基于长天长大数据平台的CEMS数据造假研判系统 的设计与实现 . , . |
Export to | NoteExpress RIS BibTex |
Abstract :
微博在目前国内所有新兴的轻博客社交网络中稳坐头把交椅,在生活中被人们大量的使用,定位为快速、新鲜、准确。对于用户有很强的粘性,用户不论喜欢什么类型的内容都能在上面找到。它已经渗透到用户的日常生活的点滴之中,但是目前用户的主动使用的频次并不如同类型的社交网络,比如微信,一个很大的原因是微信会由于关系链路经常通过新消息提示的方式对用户进行唤醒,从而提高使用频次,基于这点,目前对微博来说,新鲜并且符合用户兴趣的事件推送是微博数据挖掘亟待解决的问题之一,而这其中兴趣推送最重要的问题就是如何解决用户兴趣的建模问题。 论文首先对用户兴趣模型的定义以及使用的相关技术进行深入了解,使用Hadoop2.0以及附属生态产品做为基本的大数据处理平台,深入分析了Map/Reduce和Spark并行计算框架的区别和优劣以及实际中快速开发数据处理的数据仓库工具Hive等。同时介绍了TF-IDF算法以及共轭先验的相关理论,接着,本文基于推送场景下的用户点击数据进行了分析,提取了其中的有效点击数据,并尝试使用TF-IDF进行兴趣特征化,输出用户在相关特征的权重值。针对短文本特征化中存在的一些失真和误差,考虑对文本进行数学建模,使用类似概率预测的方式,使TF-IDF在短文本中也可以使用,使得挖掘结果的准确性得到了提高。在此模型的基础上,将模型进行实现为一个系统,并对兴趣推荐系统进行了详细的需求分析,分析了整个系统的功能模型,结构模型,行为模型和非功能需求。根据需求分析最终对系统的物理结构,层次结构和功能模块进行了设计,并给出用户兴趣挖掘模块、用户兴趣查询模块、用户兴趣模型管理模块等主要功能模块的详细设计,用户兴趣挖掘模块用来离线计算用户的点击数据并合并到Hive库中,本文采用大数据相关技术结合SSH技术对系统进行了实现,并进行了功能测试和性能测试。 测试结果表明,本系统可挖掘用户的兴趣,具有相比于之前算法更好的AUC,实际流量测试结果也表明点击率有5-6%的提升,并且整个系统稳定运行,易于扩展和维护,有助于推送团队进一步的进行更新迭代。
Keyword :
TF-IDF 共轭先验 推送 微博 用户兴趣
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 崔炜 . 基于微博推送场景的用户兴趣挖掘系统设计与实现 [D]. , . |
MLA | 崔炜 . "基于微博推送场景的用户兴趣挖掘系统设计与实现" . , . |
APA | 崔炜 . 基于微博推送场景的用户兴趣挖掘系统设计与实现 . , . |
Export to | NoteExpress RIS BibTex |
Abstract :
移动网络已经成为现代生活中非常重要的组成部分,并深深地影响着人们的社会行为。随着移动互联网应用的普及化,移动数据用户所产生的流量数据快速增长,传统流量分析技术已经无法完成海量数据处理的任务,对于海量数据的采集、储存和分析成了首要任务。本文针对该问题设计与实现了基于Hadoop的移动设备流量数据分析系统。 本文首先介绍了Hadoop架构以及相关组件。讲述了相关技术对于大数据处理提供的解决思想,同时介绍了聚类算法相关理论,然后对系统进行需求分析,确定了主要的需求后对系统进行了设计与实现。系统主要包括四个模块:数据日志采集模块、数据离线处理模块、数据在线计算模块、数据存储模块。数据日志采集模块中,主要是对用户的流量消费数据进行采集,实现了Flume的多级流动以及多路复用模式,将用户的消费数据发送到HDFS以及Kafka消息队列之中;数据离线处理模块通过定时器的设定,每段时间定期处理用户的消费数据,并且利用MapReduce进行数据的清洗工作,通过Hive的HQL操作根据业务逻辑规则进行数据分析,还通过Mahout完成聚类用户的实现;数据在线计算模块主要是实时的监控用户流量消费日志,及时地计算用户的流量消费情况以及用户流量套餐使用情况,该模块基于流式计算框架,通过HBase存储中间数据,完成用户的在线数据计算;数据存储模块主要负责对用户数据的持久化的工作,我们选了数据仓库Hive、非关系数据库HBase、关系型数据库MySql共同存储我们的数据。 本文最后对系统四个模块进行了功能性与非功能性测试,测试的结果表明该系统可以满足用户的需求。非功能性测试的结果表明系统提高了Flume写入HDFS的速度;移动设备流量数据的在线计算随着数据量的增加,计算速度趋于稳定。
Keyword :
Flume Hadoop 流式计算 数据分析
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 殷浩天 . 基于Hadoop的移动设备流量数据分析系统的设计与实现 [D]. , . |
MLA | 殷浩天 . "基于Hadoop的移动设备流量数据分析系统的设计与实现" . , . |
APA | 殷浩天 . 基于Hadoop的移动设备流量数据分析系统的设计与实现 . , . |
Export to | NoteExpress RIS BibTex |
Export
Results: |
Selected to |
Format: |