面向短消息文本的聚类技术研究与应用

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:heiefei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网通信技术的发展、现代生活节奏的加快,手机、论坛、在线聊天、微博等大量的即时交互式工具得到广泛普及和应用,也因此产生了大量的短消息文本数据。这些短文本数据蕴含了大量的知识,对这些短消息文本进行分析和挖掘,对于网络热点信息提取、舆情把握、信息理解、商品推荐等都具有重要意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,它们大多比较规范并且文本中词语多次出现的可能性很高,同一个簇中的文本在文字上都有一定的相交或者覆盖,而两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大。短消息文本自身的语言特点决定了它在自然语言处理中的处理技术与普通长文本有所不同。短消息文本最显著的特点就是文本长度很短,文本特征极其稀少,这决定了提取短消息文本的语言特征非常困难,也最终导致在后续的自然语言处理中难度大幅增加。现实中短消息文本存在交互的特点,数据量随着时间的推移不断增加,导致每次处理的数据量都异常庞大,这对短消息文本处理技术的时间效率提出了比常规文本更高的要求。短消息文本由于其来源主要是现实交流环境中,这决定了它的表达方式都极其简洁,缩略用语、不规范用语、错误拼写比较多,这给文本处理带来了很多噪声,也进一步增加了从这些干扰较多的短消息文本中提取有用信息的难度。因此,对短消息文本进行聚类处理研究具有一定的现实意义,同时也存在着极大的挑战。本文以短消息文本挖掘为背景,以短消息文本聚类相关技术为研究内容,展开了从短消息文本采集、预处理、特征提取、相似性度量到短消息文本聚类算法比较的一系列研究。由于短消息文本具有动态性、交互性、非规范性,以及大规模性等特点,这从聚类有效性、聚类算法的时间复杂度和聚类结果可理解性三个方面对短消息文本聚类提出了要求。本文针对上述要求,以提高聚类结果有效性和聚类算法的时间复杂度为主要目标,开展了一系列面向短消息文本的相关研究和探索。本文主要研究内容及成果包括以下几点:本文首先对文本聚类的相关理论和技术进行了较为广泛和深入的比较研究,并着重于文本表示模型、文本聚类算法、聚类结果评价三个方面进行阐述与比较,并对他们的研究现状、理论基础和技术方法等方面进行了较为详细的论述。对短消息文本的数据来源以及特性进行了总结,并对短消息文本的预处理技术,包括中文分词、特征提取与选择等进行了一定的研究与说明。根据经典的向量空间模型文本聚类处理的流程与步骤,采用向量空间模型对短消息文本进行向量表示,并使用广为使用的K-Means算法对短消息数据集进行聚类处理,得到了聚类结果并对其进行了一定的分析与评价。将已在英文文本聚类中取得较好聚类效果的后缀树聚类算法(STC),应用到短消息中文文本聚类中,并结合中文文本聚类中的特征表示、特征提取和聚类算法等问题进行了改进,以适应短消息文本聚类的特点。通过对同一短消息文本数据集进行基于上述两种算法的对比实验,本文得出这样的结论:在短消息文本聚类中,基于后缀树模型的STC聚类算法比基于向量空间模型的K-Means算法在聚类结果的有效性和时间复杂度两个方面都具有相当大的优势,可以将其运用在中文短消息文本聚类中。最后根据实验结果和项目的需要设计并实现了一个面向短消息文本的聚类原型系统,该系统能抓取基于Web的短消息文本,并对短消息文本数据集进行聚类处理、发现其中的热点话题,也可以读取本地的短消息文本数据集,对其进行聚类分析并将聚类结果直观的进行展示。
其他文献
随着信息技术的飞速发展,电子数据正在以爆炸般的速度膨胀,而企业管理者只需要看到海量数据中的有用信息,也即由这些数据聚合而成的报表,方便做出正确的决策。由此带来的是对
无线传感器网络是近年来发展起来的一种新型数据获取技术,被列为21世纪改变世界的十大技术之一,而作为无线传感器网络支撑技术之一的定位是该领域的一个研究热点。由于RSSI可
更高速率传输,更大系统容量,更广业务覆盖,更合理资源分配,已经成为未来移动通信发展的主流趋势和演变目标。下一代网络发展的核心宗旨是满足日益增长的用户需求,实现更高的
随着互连网在中国的迅速发展,网络结构日渐复杂。电信运营商需要通过可靠、有效的网络业务流量监测系统对其网络进行及时、准确的流量分析,进而挖掘网络资源潜力,控制网络互
云计算的特点是具有强大的计算能力和存储能力,而云安全是将防病毒技术与云计算技术相结合的一种网络安全技术。入侵检测技术在网络安全技术中占有重要地位,但目前的入侵检测
近几年来,随着遥感图像技术的发展与进步,利用卫星高分辨率遥感图像获取飞机相关信息已成为监测机场动态的常用手段之一,而机场遥感图像中的飞机检测在获取飞机信息的过程中发挥
云计算是一种商业化计算模型,能够将超大规模计算和海量存储能力通过网络提供给用户,就像水、电和煤气一样,取用方便,费用低廉。如何将云计算的资源合理有效地分配给用户,减
SIP协议是在Internet这样一种结构的网络环境中,实现实时通讯应用的一种信令协议。由于SIP的灵活性和方便扩展性,使得3GPP在R5中采用了SIP作为会话控制协议来设计IMS系统。但
地震资料数据处理中,地震资料去噪是一个相当重要的步骤,如果去噪效果不好会直接影响叠加效果,因此必须针对各种不同的噪音采用不同的去噪方法,以提高信噪比。随着石油勘探的不断
随着计算机和通信技术的不断发展,开放的协议标准和层出不穷的应用方式吸引着通讯网络采用IP网络体系架构,从而向新一代的通讯网络演进。PSTN网络向NGN网络演进,同时GSM以及3