文本数据聚类算法的若干关键技术及应用研究

被引量 : 0次 | 上传用户:crazyliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是数据挖掘和信息检索领域的一个重要研究方向。随着互联网技术的飞速发展,网络文本信息的容量与日剧增,人民迫切需要从这些文本中获得更多有用的信息和提高在互联网上的信息获取效率。本文对文本聚类分析中的K-Means聚类算法的初始质心选择,话题检测中的聚类算法的缺陷和大数据下聚类算法的应用三个问题进行了深入研究。首先针对k均值算法对初始质心敏感和k均值算法不能够获得稳定的聚类结果的问题,提出一种基于小世界网络的方法来选择k均值算法的初始质心。实验证明该方法能够得到一个稳定的效果较好的聚类结果,能够有效的被应用于文本聚类的领域。其次主要是针对目前存在的聚类方法用于话题检测的不足,提出一种全新的基于网络分解的文本聚类算法。该方法有效地保证了毫无意义的文本不被用来构成话题。尽管该算法在F度量值稍微差于二分k均值算法,但是在簇间平均相似度和整体相似度都优于二分k均值算法。能够有效地用来进行话题的检测。最后主要针对基于网络分解的文本聚类算法在大规模数据处理中所遇到的数据量大和效率的问题,提出一种基于Hadoop的并行网络分解聚类算法,并成功将该算法应用于大数据聚类。
其他文献
目的 观察川崎病 (KD)伴冠状动脉病变 (CAD)的远期恢复情况。方法 对 2 6 2例确诊KD住院患儿 ,于急期或亚急期行心电图及超声心动图检查 ,并于病程不同时期 (6个月至 10年
1991年深圳万科天景花园第一届业主委员会的诞生,是我国业主自治从“单位制”到“街区制”转变的重大里程碑。经过二十几年的发展,我国大部分城市社区的商品房小区都成立了业
本文以乡镇的日常政治和乡镇干部的日常行为为表述对象,以乡镇干部“策略化行为”的动机、行动空间和行动边界为研究目标而展开。本文的研究视角是日常政治,本研究尝试通过体
乡土小说以其强烈的底层关怀意识和时代责任感,成为新世纪文学的重要组成部分。新世纪以来反映乡村面貌和城乡关系的作品层出不穷,在这类作品中出现了一批集中描写“庄稼”的
二氧化钛纳米光催化剂在污水治理、太阳能电池和传感器等领域具有广泛应用,但单一的二氧化钛对可见光无响应,吸附能力较差且光生电子-空穴易在催化剂内部及表面复合,使其效率
法国现代画家巴尔蒂斯其绘画观念和表现手法都对现、当代世界绘画界产生了巨大的影响作用。特别是绘画中的具象表现理念和绘画手法既带有强烈的现代绘画意识,同时又具有西方古
碳纤维增强复合材料(Carbon Fibre-reinforced Polymer,简称CFRP)和玻璃纤维增强复合材料(Glass Fibre-reinforced Polymer,简称GFRP)是目前加固工程中使用较为广泛的两种加固材
邵阳服装企业兴起于上个世纪九十年代,红极一时,衰弱于沿海地区的改革开放。而今天,服装产业发展正在形成由沿海向内地的梯度转移。邵阳作为一个中部地区的三线城市,在承载服
物流业近年来在我国发展比较迅速,物流港口的建设不仅可以有效解决城市交通拥堵问题,而且能够带动国内国际贸易的发展。但是我国的科学技术和相关管理理论发展还比较慢,另外财政
态度研究是系统功能语言学中的一项重要课题。与文本话语一样,图文话语也反映着一定的态度。不过,相较于文本话语,图文话语中的态度研究方兴未艾。本文以100篇汉语图文批评性