论文部分内容阅读
互联网的高速发展使得人们获取新闻信息更加快捷方便,因此产生的在线新闻数据呈爆炸式增长。其中蕴含了大量丰富有效的舆情事件相关信息,从中挖掘描述事件各侧面内容的子话题可以从多角度了解掌握舆情事件全貌,获取公众关注侧重点,把握事件走向,以及为后续事件的演化分析、管理决策等提供基础。然而,传统的话题发现方法无法满足当前在线新闻子话题发现的细粒度分析要求,如无法从海量信息中找出准确有效的子话题类别、子话题之间区分度低和子话题表达语义不清晰等。因此,展开在线新闻子话题发现研究具有重要意义。本文在阅读现有的国内外相关文献基础上,分析话题发现领域各类较常使用的技术优缺点,结合在线新闻数据特点,对在线新闻子话题发现方法展开研究,主要工作如下:(1)论文首先对LDA主题模型进行分析,针对其易向高频词倾斜而忽略具有话题代表性的低频特征词缺点,提出了基于特征加权的LDA模型——LDA-FW,并将该模型与其他传统方法在搜狗新闻语料上进行实验对比,证明了该方法的有效性。(2)针对同一事件在线新闻子话题之间区分度不高、子话题关键词语义不连贯等问题,提出了基于LDA-FW和关键词优化的子话题发现方法。该方法在LDA-FW模型的基础上又进一步提出了通过过滤垃圾主题和合并相似主题的子话题过滤整合机制,利用词向量扩展子话题关键词,基于网络传播思想进行子话题关键词筛选和文档子话题划分。通过该方法提高子话题发现的准确率和可读性。(3)面向金融舆情事件在线新闻进行子话题发现研究,对金融舆情事件做出细粒度分析。将基于LDA-FW和关键词优化的子话题发现方法应用于爬取的三类金融舆情事件语料,从子话题关键词提取效果和文档子话题划分效果对比分析各类算法优越性,并对金融舆情子话题发现结果做出分析。实验结果表明,与其他子话题发现方法相比,本文所提出的在线新闻子话题发现方法在相关评价指标下均具有较好的效果,能够有效提高子话题发现质量,为子话题发现研究提供参考。