论文部分内容阅读
随着互联网通信技术的发展、现代生活节奏的加快,手机、论坛、在线聊天、微博等大量的即时交互式工具得到广泛普及和应用,也因此产生了大量的短消息文本数据。这些短文本数据蕴含了大量的知识,对这些短消息文本进行分析和挖掘,对于网络热点信息提取、舆情把握、信息理解、商品推荐等都具有重要意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,它们大多比较规范并且文本中词语多次出现的可能性很高,同一个簇中的文本在文字上都有一定的相交或者覆盖,而两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大。短消息文本自身的语言特点决定了它在自然语言处理中的处理技术与普通长文本有所不同。短消息文本最显著的特点就是文本长度很短,文本特征极其稀少,这决定了提取短消息文本的语言特征非常困难,也最终导致在后续的自然语言处理中难度大幅增加。现实中短消息文本存在交互的特点,数据量随着时间的推移不断增加,导致每次处理的数据量都异常庞大,这对短消息文本处理技术的时间效率提出了比常规文本更高的要求。短消息文本由于其来源主要是现实交流环境中,这决定了它的表达方式都极其简洁,缩略用语、不规范用语、错误拼写比较多,这给文本处理带来了很多噪声,也进一步增加了从这些干扰较多的短消息文本中提取有用信息的难度。因此,对短消息文本进行聚类处理研究具有一定的现实意义,同时也存在着极大的挑战。本文以短消息文本挖掘为背景,以短消息文本聚类相关技术为研究内容,展开了从短消息文本采集、预处理、特征提取、相似性度量到短消息文本聚类算法比较的一系列研究。由于短消息文本具有动态性、交互性、非规范性,以及大规模性等特点,这从聚类有效性、聚类算法的时间复杂度和聚类结果可理解性三个方面对短消息文本聚类提出了要求。本文针对上述要求,以提高聚类结果有效性和聚类算法的时间复杂度为主要目标,开展了一系列面向短消息文本的相关研究和探索。本文主要研究内容及成果包括以下几点:本文首先对文本聚类的相关理论和技术进行了较为广泛和深入的比较研究,并着重于文本表示模型、文本聚类算法、聚类结果评价三个方面进行阐述与比较,并对他们的研究现状、理论基础和技术方法等方面进行了较为详细的论述。对短消息文本的数据来源以及特性进行了总结,并对短消息文本的预处理技术,包括中文分词、特征提取与选择等进行了一定的研究与说明。根据经典的向量空间模型文本聚类处理的流程与步骤,采用向量空间模型对短消息文本进行向量表示,并使用广为使用的K-Means算法对短消息数据集进行聚类处理,得到了聚类结果并对其进行了一定的分析与评价。将已在英文文本聚类中取得较好聚类效果的后缀树聚类算法(STC),应用到短消息中文文本聚类中,并结合中文文本聚类中的特征表示、特征提取和聚类算法等问题进行了改进,以适应短消息文本聚类的特点。通过对同一短消息文本数据集进行基于上述两种算法的对比实验,本文得出这样的结论:在短消息文本聚类中,基于后缀树模型的STC聚类算法比基于向量空间模型的K-Means算法在聚类结果的有效性和时间复杂度两个方面都具有相当大的优势,可以将其运用在中文短消息文本聚类中。最后根据实验结果和项目的需要设计并实现了一个面向短消息文本的聚类原型系统,该系统能抓取基于Web的短消息文本,并对短消息文本数据集进行聚类处理、发现其中的热点话题,也可以读取本地的短消息文本数据集,对其进行聚类分析并将聚类结果直观的进行展示。