大规模文档聚类中若干关键问题的研究

被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是一个来源已久且与人们的生活息息相关的实用技术,在现实生活中有很多领域需要聚类技术,尤其随着信息产业的发展、网络的进步,人们每天接触的信息与日剧增,如何对这些大规模的信息进行处理已经成为当今研究的热点,而聚类恰恰可以作为该问题的一个很好的解决办法。聚类不依赖任何先验知识而将相似的数据划分到一个类别中,由于类别数是远小于数据数的,因此对大量数据进行聚类后,用户可以快速发现自己感兴趣的信息所在的类别。由于网络信息大多以文本形式表示,因此文档聚类已逐渐成为一个热门的研究领域,然而随着文档数量的增多,传统的文档聚类算法已经无法对大规模文档聚类中存在的向量稀疏性和语义相似性等问题进行处理。因此,本文从以下四个方面研究了大规模文档聚类算法中存在的特有问题,并给出了相应的解决方法。第一,传统的基于统计信息的特征选择方法选取的特征不仅无法完全覆盖文档的主题,并且其中含有大量的冗余信息。随着文档规模的增大,此方法会严重增加特征空间的维数而降低了聚类的效率。基于此本文提出了一种基于主题分析的特征选择技术,该方法通过构建词汇链从多个侧面分析文档所描述的主题信息,然后在词汇链中选择能够充分代表该链所述信息的特征作为聚类特征,此方法能够有效提升聚类的效率。第二,随着文档规模的增大,特征空间中存在大量的文档具有语义相似性,而传统聚类算法中的相似度计算方法是无法发现这个问题的。基于此本文将语义相似度引入聚类中,使聚类算法能够发现文档间的语义相似性从而提升聚类的准确度。同时不同的特征对文档的划分能力是不同的,而传统聚类算法中的相似度计算方法将所有特征的权值看作是同等重要的,基于此本文提出了一种基于特征分布的特征权值量化方法,其可以通过统计特征的分布来计算特征在文档与神经元相似度计算中权值,此方法能够提升那些可以有效描述数据间相似性的特征在相似度计算中的作用。第三,随着文档规模的增大,作为每个文档类的代表特征仅占特征空间的很小一部分,而传统聚类算法以特征空间内的所有特征构造类别特征集合,此方法显然会引入无关特征的干扰而降低聚类的准确率。针对此问题,本文提出了一种基于向量压缩的神经元聚类算法,该算法首先从特征空间中选择能够代表类别描述信息的特征对文档进行划分,然后通过神经元算法对划分进行迭代调整以得到更加优化的类别特征表示和类别划分结果,其可以有效降低聚类的运行时间并提升聚类的准确度。另外本文还提出了一种基于概率的多阶段聚类算法,该算法通过选择与类别相关的特征构造类别特征集合可以有效避免无关特征对聚类结果的干扰,因此具有很高的聚类准确率。最后,随着网络信息的实时更新,用户想一次性拥有完整的待聚类数据是非常困难的,因此本文提出了一种基于抽样数据的增量聚类算法,该算法可以对数据进行实时聚类。同时本文还提出了一种拓扑结构可变的神经元聚类算法,该算法可以有效模拟数据在不同时间段内的分布情况,此算法还被应用于数据进化分析中以分析不同时间段内数据的改变情况。
其他文献
目的分析阿加曲班联合氯吡格雷治疗急性后循环脑梗死的临床效果。方法选取2017年1月~2018年2月我院收治的67例急性后循环脑梗死患者作为研究对象,采用随机选号的方法分为对照
上海市重大决策咨询研究课题《改革传统职称制度推行职业资格制度的对策研究》,提出了上海建立与工程技术性行业发展相结合的工程师职业资格制度的实施方案。这是上海实施科教
针对混合动力客车发动机停机所导致的排气温度偏低引起NO_x排放升高的问题,通过引入排气温度及NO_x含量等信号进行发动机起停优化控制,提升整车排气温度,降低NO_x等污染物排
无土栽培是通过人工创造的根系环境取代土壤环境来进行农作物栽培的农业生产方式,是现代农业的重要发展方向。无土栽培技术目前已经在欧洲、北美、日本、以色列等发达国家和
临床上肠道易激综合征(IBS)患者有逐渐增多的趋势,其中老年患者的比例较大,患者症状多持续存在或间歇发作,严重影响生活质量,需要积极治疗,而临床上单一的药物治疗效果并不理想
由于汽车保有量的急剧增加以及不同城市间频繁的客、货流往来,城际道路交通拥堵现象时常发生,严重制约了不同城市间的物资调配,影响了都市经济圈的建设以及城际交通的发展。
以大连獐子岛野生菲律宾蛤仔为材料,对“壳宽型”、“壳扁型”蛤仔两个壳型的壳长、壳宽、壳高、活体质量、软体质量、产卵量及其子代的生长和存活进行比较。试验结果表明,相
传媒改革的不断深入和产业化道路的延伸,中国媒体将大部分注意力转移到了市场经营上。作为媒体发展的一个必经阶段,电视同质化现象也日益凸显出来。电视剧资源的占有在很大程
目的探讨一体化护理模式在膝骨性关节炎康复中的作用。方法将我院2016年1月—2017年1月骨伤康复科60例膝骨性关节炎患者纳入研究,数字随机法分为对照组及观察组,各30例。两组