论文部分内容阅读
热点主题词提取技术是网络舆情热点话题发现的基础,即利用计算机对海量的网络信息进行处理并提取热点主题词,能给进一步进行与网络舆情相关的热点话题挖掘提供很好的利用结果;另外,它也是用来研究提高信息检索速度,或作为准确抽取自动摘要的有效方法。本文针对传统热点主题词提取技术中的噪音词库的建立和热点主题词的判定展开了研究,提出了相应的改进算法,并对热点
关键词的提取问题进行了有效的探讨。
首先,本文对网络舆情热点主题词提取技术的现状和发展进行了简要的回顾。文中分别对网络舆情信息挖掘的相关技术和主题词提取算法作了分析。网络舆情信息挖掘主要包括信息来源和信息采集等部分,舆情信息分析关键技术包括话题检测与跟踪和文本倾向性分析等。主题词提取算法中介绍了常用的几种主题词提取算法并对其进行比较分析,包括基于语义的主题词提取等。
然后,本文着重研究了基于多级过滤的主题词提取算法,详细描述了其整体流程图,通过分析其相关技术和整体逻辑结构,针对传统的基于词频的噪音词提取方法和主题词提取方法的缺点,做了进一步的改进,主要分为改进的噪音词提取模块和热点主题词提取模块,把概率论与数理统计中方差的概念引入到对噪音词提取的方法中,以此提出了基于联合方差的噪音词提取方法,并详细描述了改进后噪音词提取算法的步骤和流程图。同时为了进一步提高热点主题词的可信度,改进传统的对热点主题词的判定方法,提出了基于关注度的热点主题词提取方法,并把热点主题词提取的实验结果与新浪网中的热点新闻标题进行验证比较。实验证明,本文改进的算法具有稳定性和高效性,并具有一定的可信度。
此外,分别使用大规模数据语料和真实新闻语料对本文提出的基于联合方差的噪音词提取方法和基于主题词关注度的提取方法进行了实验,并对测试结果进行了比较和分析。实验结果表明,本文改进的基于多级过滤的主题词提取方法对于处理新闻语料热点主题词发现的问题具有一定的优势。
本文最后对论文所做的工作进行了总结与评述,并提炼了热点主题词提取中值得继续研究的若干问题,为以后的研究奠定了基础。