论文部分内容阅读
随着互联网技术的发展和移动设备的普及,文本数据呈现爆炸式的增长,每天所积累、存储的数据量越来越多。面对如此海量的数据,如何从众多杂乱无章的数据中获取到实际需要和关注的信息变得困难异常。因此,找到一种有效避免信息过载,从海量数据中快速获取有效信息的方法,在今天已经成为热点问题之一。虽然搜索引擎的出现为人们从海量数据中寻找有用信息提供了极大的帮助。然而搜索引擎一般是基于关键词匹配来完成信息的查找,查询结果是离散化和碎片化的,不能很好的体现获取信息的时序性和关联性。所以主题模型在信息提取中的应用,对于用户在新闻资讯中个性化和垂直化的分析需求具有非常重要的现实意义。本文主要从关键词提取、层次主题发现、主题演变可视化分析和网络热点分析系统集成4个方面展开研究与实现。1)关键词提取,基于TextRank模型进行研究,分析了当前TextRank模型关键词提取的特点,提出了一种词在文档内的词距和位置分布加权的TextRank模型,应用于网络新闻文本的关键词提取。词在文档内的词距和位置分布加权是马尔可夫链的应用扩展,通过迭代计算权重用于生成TextRank模型的概率转移矩阵。本文改进模型与其他模型进行实验比较,当关键词个数取3、5、7和10时本文改进方法的F值增量提升分别为1.29%、3.14%、5.43%和5.88%,验证了本文提出方法的有效性。2)层次主题发现,基于PEM-HLTA模型提出了一种改进的PWA-PEM-HLTA模型,首次应用于中文网络新闻文本层次主题发现。改进模型的方法在原模型的词选择预处理过程中加入词性信息,在原模型的计算过程中进行Aitken加速。使用三个数据集,NIPS论文数据集、Reuters数据集和采集的网络文本数据集进行实验对比。在标准的NIPS和Reuters数据集上,改进模型平均运行效率提高5倍。在网络文本数据集上,改进模型平均运行效率提升4.7倍。验证了本文改进模型的有效性。3)主题演变可视化分析,本文对现有文本可视化模型主题静态展示和动态展示方法进行分析研究,设计了一种文本主题动态数据以静态方式可视化呈现模型。对新闻文本主题内容同时在层次、时序和细节三个维度进行宏观可视化呈现,并基于2018年8月27日“昆山砍人”事件进行分析说明。4)基于以上三个研究内容,本文参考分层结构设计并实现了一个低耦合、高内聚的网络热点分析系统。该系统集成了关键词提取、层次主题发现和主题演化分析研究内容,包括从后端进行数据获取、预处理、分析和前端信息展示等功能模块。