论文部分内容阅读
新闻报道由于其叙述详实规范,来源可靠,观点客观等特点,对经济形势研究、国内国际政治研究等领域都有着十分重要的作用,成为了如今互联网时代产生的海量数据中的重要信息源。因此如何运用计算机技术自动挖掘出有价值的新闻热点内容,并通过可视化方法将新闻热点的内容全方位地呈现给用户,是一个重要的研究课题。当前主流的新闻热点挖掘方法主要基于传统聚类技术等非监督学习技术或命名实体识别等监督学习技术,取得了很好的效果。但传统方法在挖掘新闻热点之间的层次结构性、时序性和语义性三类关联关系上存在很大的局限。因此,我们提出了一种基于概率主题模型的创新性的新闻热点关联挖掘算法。该算法继承了 LDA为代表的主题模型无需大量标注信息、适合长文本建模等优势,并能够有效挖掘新闻热点在层次结构、时序和语义上的关联。挖掘出新闻热点后,读者希望以尽可能少的时间,来获得尽可能多的信息,比如一段时间范围内的新闻热点,与新闻热点相关的新闻文本原文,新闻热点相关新闻图片等信息,本文运用了可视化技术展示新闻热点在以上三方面的关联,并从各个维度解释和分析大量的新闻文本数据。本文的工作主要解决了以下四方面的问题:1.本文挖掘了新闻热点间的层次结构关联,并提出全新的可视化布局对层次化的新闻热点进行了可视化。2.本文挖掘了新闻热点间的时序关联,并采用动态可视化技术呈现了新闻热点在时序上的演化行为。3.本文挖掘了新闻热点间的语义关联,并采用投影等可视化方式多维地呈现新闻热点间的语义关联。4.本文结合上述三点新闻热点关联挖掘与可视化技术,集成了"新闻热点关联分析系统",方便读者分析新闻热点间的关联。本文的研究成果应用于973计划项目"面向公共安全的跨媒体计算理论与方法"的子课题"跨媒体搜索与内容整合",在项目中挖掘了新闻热点与新闻热点间的关联关系并做可视化呈现。