带有可信度评价的大数据分析源信息系统及群异常检测机制

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:maxiao19810628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代是大数据的时代,遍布全球的数据网络每时每刻都在处理并存储着海量的数据。截至2017年,整个数据网中共存有2.7ZB的数据,而且其增长速度每年都会翻一番。人们越来越注意到这些数据中隐藏着的内涵和价值。数据挖掘、机器学习等若干学科雨后春笋般兴起发展。不论是哪种学科,数据流水线式的处理机制被越来越广泛地接受和使用。尤其对于大数据分析(Big Data Analytics)来说,编写和改进一套完整的数据分析流水线(Data Analytic Pipeline)和科学工作流(Scientific Workflow)是大数据工程师和数据分析科学家们的主要任务。为了完善这一整套运行机制,人们提出了“源(Provenance)”的概念。即,数据处理工作流的历史记录(包括操作的和数据的)。这些记录可以帮助数据分析师们更好地了解数据处理流水线的工作细节,使得对数据处理工作流程的分析粒度逐步变小,更加便于流水线的逐步调试和修改。然而,目前对于大数据的“源”信息的管理工具和平台还并未得到很好的发展。目前已有的工具基本都是在图数据库(Graph Database)的基础上进行的架构和开发,只适应于相对较为固定的流水线结构和语义(Semantics)。而对于现在越来越复杂的流水线来说,调试和语义变更变得越来越频繁,而且流水线的规模也在迅速增长,一些被称为“技术债务(Technical Debt)”的问题和现象越来越明显。其次,数据量的极大膨胀让用户很难决定何时存储何种中间结果,对不同存储方案的变更也会导致大量的成本。另外,流水线的评价体系(对数据和操作)还尚未引起足够的重视,现在并没有一条统一的标准和方案来评价流水线处理的质量和能力。而这正是现在大数据分析面临的主要问题之一。人为失误,恶意攻击,这些都会导致数据质量下降,数据处理可信度(Trustworthiness)的丧失。本文将主要从两个方面入手解决大数据源信息的采集和评估问题:1)设计并构建基于流(Stream)的源信息系统:LogProv;2)在系统的基础上设计并实现对于工作流的评价机制。LogProv的框架主体基于Apache Pig以及Hadoop,它主要由四个部分组成:1)分布式计算集群;2)分布式存储集群;3)日志仓库;4)统筹调度其他三个部件以及提供系统服务接口的中央服务器。计算集群主要在Apache Pig引擎的调度下完成基本的数据处理任务,输出中间及最终结果,同时产生工作流的语义信息。语义信息由Pig中的用户定义函数(User Defined Functions,UDFs)捕捉,并告知中央服务器,与此同时,通知存储集群记录中间及最终结果。服务器接收到语义信息之后将其存储在日志仓库中,并为匹配的中间或最终结果分配全局唯一的标识符。在流水线处理完成之后,服务器还将接受用户发起的查询请求,查询日志仓库和数据仓库,恢复工作流语义信息或返回数据结果。目前提供的查询的方式与SQL查询的语法相同。通过构造简单的工作流,LogProv统计了墨尔本基隆地区无线热点的热度顺序。整个系统完整地根据用户制定的需求保留了工作流的语义信息,并正确地存储了中间数据以及最终的结果,整个流程的性能损耗不超过10%。LogProv对于用户的查询请求,反应速度也很快,包括网络传输损耗,查询结果的返回时间均在毫秒级别。LogProv本身集成了基于Elo算法的反馈评价机制,它将同一目标的不同实现路径定义为独立的竞争者,每个竞争者根据裁判的不同反馈可以获得不同加分或者减分,最后根据每个路径的得分情况,评价选择最优的一条路径。测试显示,该算法可以很好地区分不同的路径上的操作节点。对于数据节点的评价机制,本文研究了基于统计距离(Statistical Distance)的异常检测(Anomaly Detection)机制。该机制通过学习同一数据节点中的数据分布特征,分析每个数据群的分布相似度,进而归约为一维单点异常的检测问题进行检测。而且,通过统计距离归约后的单点异常问题具备更好的数学性质,因而比一般单点异常处理难度更低,精度更高。对于群异常(Collective Anomaly)检测算法的测试采用的是淘宝网店交易数据,从正常数据中检测刷单行为。测试显示,该算法的分类器效果非常明显,灵敏度高于一般刷单程度,而且可以动态适应交易特征的变化,具有很高的实用价值。
其他文献
绘本《藏在名画里的猫》因角色造型、场面设计、绘画语言的运用及其出色的创意、联想、幽默的表现手法和丰富的人文精神,使其蕴藏着众多可借鉴的优秀美术资源,具有很好的教育价
提高可再生能源消纳率,是新能源大规模并网亟待解决的关键问题,微电网是解决这一问题的重要途径之一。良好的运行控制策略是微电网稳定运行的基础,本文以国家电网公司科技攻
卡罗尔·希曼诺夫斯基是继肖邦之后波兰最著名的音乐家之一,本文选取了他晚期民族音乐的代表作《玛祖卡》Op.50中的第12首为研究目标,采用文献收集,实践总结等方法,对该首作品的创作背景、曲式分析、演奏技法三个方面进行了详细的论述。尤其是演奏技法方面,作者结合自身演奏体会,分别在多声部、和弦、节奏和速度、踏板方面进行了详细的分析。
闫华,中国少儿版画研究会副会长,全国美术教学工作宝联合会副会长,中国少儿造型艺术学会理事,四川省美术家协会少儿艺委会副主任,四川省少儿美术教育研究会秘书长,成都市教育学会美
荷式篮球(以下简称:荷球)运动是2004年引入我国大陆的一个体育项目,至今已有十多年的发展历程,具备了基本的推广基础。为了更好地提高荷球的教学效果,本文通过查阅相关文献资
卵巢恶性肿瘤是妇科恶性肿瘤中预后最差的肿瘤,经积极的彻底的癌细胞减灭手术和初次化疗后,仍有相当多的病例复发,卵巢癌的预后取决于及时诊断和是否获得适当的手术和系统治疗,到目前为止,晚期卵巢恶性肿瘤的治疗仍是以手术为主,术后辅助化疗或放疗。上皮性卵巢癌一线药物治疗是以铂类为基础的联合化疗。对于复发性卵巢癌的治疗,铂类药物(顺铂或卡铂)仍是一线治疗方案中最重要的药物。卡铂作为第二代铂类化疗药具有疗效更好
经过对教材的深入钻研与教育活动的多次实践,我体会到:新小班美工活动的核心是通过丰富多变、新奇有趣的各种美工游戏,激发幼儿参与活动的兴趣,吸引他们在做做玩玩中探索发现、自
应用题一直以来都是小学数学的教学重点,在数学题中的分数占比也较高,提高小学数学应用题的教学质量,不仅能帮助学生提高解题能力,还能锻炼学生的思维能力和创新能力,有益于
幼儿园成人空间往往在设计之初会被视为次要空间而忽视其重要性,在建筑设计阶段,经常会规划的比较零碎或者冗多,没有发挥应有作用,显得空间局促。但是我们认为在进行幼儿园空间设