基于多结构数据立方体的多维分析挖掘模型

被引量 : 6次 | 上传用户:a76s333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅速发展促使现代社会进入到了“网络化社会”的时代。每天互联网上都会产生海量的数据,而以文本数据为代表的以半结构化或非结构化的形式产生和存储的数据占了其中绝大部分。如何科学有效的对这些文本数据进行处理、分析,进而获取其中有价值的信息成为了各大公司和组织亟待解决的问题。为此业界从不同方向进行了探索,其中使用OLAP (联机分析处理)操作对其进行分析挖掘是其中一种可行的研究方向。常规的数据立方体是构建在结构化数据之上的,难以有效的支持非结构化的数据。因此对非结构化数据的立方体构建方法进行研究是具有十分重要意义的。本文以对海量短文本热门主题的分析挖掘任务为研究背景,提出了一种构建文本立方体的方案。该方案在文本立方体的维度获取和度量计算两方面进行了研究:1、结合分布式聚类方法生成文本的主题,进而获得非结构化数据集的主题维度,该方法大大简少了文本立方体维度构建的人工成本。2、提出了一种基于文本TFIDF值的事实表度量单元计算方法,从而允许在文本立方体中应用常规的OLAP计算函数对文本集的主题热度进行度量,无需定义新的度量方法。针对本应用中文本数据集巨大,预处理过程复杂,单机处理效率低下的特点,本文设计并实现了一套基于MapReduce分布式并行计算框架下的预处理方案。实验结果表明,该方法具有较强的实用性和可扩展性,它能够高效的为大规模文本数据集构建立方体模型,在构建的文本立方体上使用OLAP操作进行分析能够有效的挖掘文本数据集中所包含的热门信息,大大提高了文本数据分析挖掘的效率
其他文献
在我国供水水量需求不断增长的同时,水资源短缺问题也越来越严重,水源受到污染已是普遍的问题。本课题从原水水质改善、原水预处理、常规工艺强化、深度处理技术及消毒工艺改
改革开放后,宁波成为外来人员进入的一个重要地区。外来务工人员在为城市繁荣和国家现代化建设做出贡献的同时,居住条件却极其简陋,住房条件改善成为这类人群强烈的心声。宁
MgZnO薄膜具有带隙可调范围宽(3.3eV至7.8eV可调),外延生长温度低,抗辐射能力强及其它优良的紫外光电性能,近年来成为了紫外探测领域的研究热点之一。然而,目前高Mg组分MgZnO基紫外
西方哲学史上第一次把“爱”进行形而上学讨论的哲学著作是柏拉图的《会饮》,柏拉图的《会饮》中对“爱若斯”的认识过程和得出的爱若斯本质,都在西方哲学史和人类文明史上产
经过丹麦哥本哈根联合国气候大会和墨西哥坎昆会议,低碳经济的概念深入人心,低碳发展、低碳生活已经成为人们生活的一部分。在我国,对低碳经济的认识也从否定、怀疑到逐渐认
本文以界定夫妻财产约定的性质及在司法实务中的法律适用为主要内容。首先,本文整理了我国对于夫妻财产约定如何定性存在的理论争议与域外的立法情况;其次通过案例分析将相关
在中国共产党第十七次全国代表大会上,胡锦涛在政治报告中首次提出了“推动当代中国马克思主义大众化”的战略命题。党的十八大政治报告中再次强调了“推进马克思主义中国化
20世纪70年代的后工业社会使西方福利国家走上了新自由主义的变革之路,社会组织不断兴起,逐渐取代国家和市场在某些领域的职能。如今,社会组织已渗透到西方社会的各个领域,成
自20世纪七八十年代以来,BOT逐渐成为基础设施民营化过程中的一种常见方式。BOT项目能否取得成功受到许多因素的影响,其中BOT项目的特许权期是决定项目成败与否的关键因素之
GPS(全球定位系统)飞行器定位中,飞行器起飞后,基准站与移动站的距离和高程差逐渐增大,对流层、电离层延迟残差对定位精度的影响也将越来越大。利用在短基线条件下,用Kalman滤