论文部分内容阅读
在电子商务技术日趋成熟的今天,随着移动终端——手机的日益普及,手机短信作为无线数据通讯的一个基本业务,为人们相互间交流提供了新的手段,并且越来越受到广大手机用户的青睐。短信的日益普及引起了政府部门对短信舆情的关注,短信舆情与一般的舆情不同,它覆盖的范围广,发送的速度快,并且舆情的爆发点具有不易发现和控制等特点,所以能够及时和有效的发现短信中的舆情具有十分重要的意义。本文在分析国内外有关热点发现和文本处理技术现状的基础上,从短信舆情信息处理平台的整体设计和实现过程入手,深入分析了短信舆情信息处理平台的结构设计和系统处理流程以及系统业务流程等方面的问题,介绍了平台中的系统管理模块、短信信息采集模块、短信信息处理模块、热点信息发现模块的主要功能,同时设计了系统的数据库结构。论文具体分析了短信舆情信息处理平台实现中所涉及的关键技术,包括短信数据获取、文本特征预处理、文本聚类和热点发现。在深入研究这些关键技术的基础之上,论文结合关键技术的应用,提出了一种适合短信数据的数据采集方法,利用SMPP协议解析,将短信内容提取存储到数据库中,然后提出了一种基于MM和RMM改进的一种中文词典分词算法,接着对聚类算法中的相似度公式进行了对比,选取广义的Jaccard相似度公式并对其改进使运算结果更加准确,利用Carrot2聚类引擎将分词后的结果聚类,提高聚类速度,最后利用热度打分的策略综合计算出当前手机短信中流传的热点话题,并采集了一定数量的短信样本进行效果测试,得出热度最高的短信话题。仿真结果表明,热度打分策略具有一定的准确度。本论文基于以上的工作,最终设计了短信舆情信息处理平台,在实验室测试范围内运行稳定。