面向短消息的文本聚类研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:fangzhang004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于信息管理和信息检索等具有重要意义。   短消息具有动态性、错综复杂性、非规范性、大规模性等特点,这些给数据挖掘带来极大挑战。本文以短消息挖掘为背景,研究短消息聚类相关技术,涉及短消息预处理、合成会话、相似性度量以及聚类算法的研究,其中重点对相似性度量和聚类算法进行了研究,并试图提高聚类准确性和聚类算法的可伸缩性,为聚类输出提供实际应用。研究的主要内容如下:   首先提出了短消息文本聚类场景系统。聚类系统包括数据接收采集、归档消息数据库、聚类节点、输出节点四部分。本文描述了聚类场景系统的结构体系,分析各个部分的功能,其中重点研究了接收采集部分需要处理的问题:如何采集,能否按时间段划分消息记录,如何合成会话等。该系统的提出为本文展开短消息聚类相关技术研究提供了基础。   接着提出了基于语义的短文本相似性度量方法。本文的相似性度量方法基于词法分类器Hownet,通过Hownet计算词语的语义距离,得到词语相似度,并可结合特征词权重一起计算文本相似度。该方法能够解决短文本的关键词稀疏带来的相似度偏离问题。   针对短消息的文本聚类算法,本文提出了基于频繁词集和Ant-Tree的混合聚类方法SMHC。基于频繁词集的文本聚类算法执行效率很高,且可以适应高维的大规模数据。Ant-Tree算法得到的聚簇更接近于数据的真实分类,且算法基于树结构,执行效率较高。基于频繁词集和Ant-Tree的混合聚类方法,利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇;计算轮廓系数来消除初始聚簇中的重叠,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出。而且聚类结果保留了树状层级结构,为应用提供了更丰富的信息。   最后设计了应用于聊天软件中的短消息文本挖掘系统,介绍了该系统的总体结构,阐述了各单元的功能结构与设计实现。
其他文献
随着我国城市化建设的不断深入,为了更好地为广大市民服务,各城市都相继开通了12319城建服务热线,受理市民各类求助与诉求,服务内容涉及公交、供水、供气、出租,市政道路、排水等
情感分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。随着互联网上主观性评论文本的增多,情感分析的应用需求也逐渐增多,同时也为自然语言处理的研究提出
近几年来,随着社会经济的发展和全面对外开放,我国的高等教育事业得到了蓬勃发展,主要表现为办学规模不断扩大、学生人数不断增多,并普遍出现了多校区办学的特点。这样一种发
三维人脸表情研究是计算机辅助设计研究领域、图形学研究领域和计算机视觉研究领域的重点研究内容。该研究对人脸识别、计算机影视动画制作以及人机交互的发展均起着重要的作
网络编码概念是在2000年提出的,通过网络编码可以获得组播的最大容量。网络编码改变了传统的“存储-转发”模式,取而代之的是“存储-编码-转发”的方式,在提高吞吐量、改善负
社会标注系统是一个为网站用户提供标签标注功能的应用系统。随着Web2.0的兴起,以社会标注机制作为主要功能的内容共享系统发展迅速,其中的典型应用比如共享网页的Delicious
最近几年,随着经济的发展,科学技术的进步,计算机视觉技术和多媒体处理技术得到了迅猛的发展,目标检测与跟踪技术的研究成为了计算机视觉领域的两个重要课题,是更高层次视觉
利用OpenAPI,将Inernet上的碎片化数据混搭在一起构建新型的应用,已成为当前Web应用开发中的一种潮流和趋势。然而,开发人员在搭建Mashup应用时面临诸多困难和挑战。本文旨在
智能视频监控领域的行人流量统计技术是指采用基于计算机视觉的方法统计某一时间段内出入某个通道的行人流量。因其高度的适应性和非侵入性,该技术可以自然融入到已广泛使用的
在石油勘探和开发过程中,为了评价储层的好坏,需对井下取得的储层岩石样品进行孔隙结构分析,其中储层结构分析所需的主要参数是由毛管压力曲线确定的。所以,岩石毛管压力曲线