论文部分内容阅读
在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于信息管理和信息检索等具有重要意义。
短消息具有动态性、错综复杂性、非规范性、大规模性等特点,这些给数据挖掘带来极大挑战。本文以短消息挖掘为背景,研究短消息聚类相关技术,涉及短消息预处理、合成会话、相似性度量以及聚类算法的研究,其中重点对相似性度量和聚类算法进行了研究,并试图提高聚类准确性和聚类算法的可伸缩性,为聚类输出提供实际应用。研究的主要内容如下:
首先提出了短消息文本聚类场景系统。聚类系统包括数据接收采集、归档消息数据库、聚类节点、输出节点四部分。本文描述了聚类场景系统的结构体系,分析各个部分的功能,其中重点研究了接收采集部分需要处理的问题:如何采集,能否按时间段划分消息记录,如何合成会话等。该系统的提出为本文展开短消息聚类相关技术研究提供了基础。
接着提出了基于语义的短文本相似性度量方法。本文的相似性度量方法基于词法分类器Hownet,通过Hownet计算词语的语义距离,得到词语相似度,并可结合特征词权重一起计算文本相似度。该方法能够解决短文本的关键词稀疏带来的相似度偏离问题。
针对短消息的文本聚类算法,本文提出了基于频繁词集和Ant-Tree的混合聚类方法SMHC。基于频繁词集的文本聚类算法执行效率很高,且可以适应高维的大规模数据。Ant-Tree算法得到的聚簇更接近于数据的真实分类,且算法基于树结构,执行效率较高。基于频繁词集和Ant-Tree的混合聚类方法,利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇;计算轮廓系数来消除初始聚簇中的重叠,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出。而且聚类结果保留了树状层级结构,为应用提供了更丰富的信息。
最后设计了应用于聊天软件中的短消息文本挖掘系统,介绍了该系统的总体结构,阐述了各单元的功能结构与设计实现。