论文部分内容阅读
新闻分析的研究是一个交叉性的前沿学科,具有广泛的应用前景。新闻分析的研究会促进自然语言处理技术的发展,同时也将在信息检索、决策支持、文本挖掘等应用领域发挥积极的作用。互联网媒体有着大量的新闻稿件,通过该课题的研究,可以很好的了解在专题报道中新闻稿件专题所持的态度,民众关心该专题的热度,不同地区的民众对该专题的参与程度,以及与该专题所涉及到的不同角度的问题,该专题新闻之间的关联关系等,都是及时了解及观察民众舆情的一个重要窗口,为决策部门制定相关政策提供一定的参考,具有十分重要的实用价值与社会效益。本论文的研究将借助于自然语言处理与数据挖掘技术,进行人物、地点、机构、关键词的重要内容提取和排序;借助于情感分析技术,完成专题情感分析;正负面新闻分析及专题新闻基于时间的热度分析;稿件数量时间轴分布分析,并构建专题新闻文本集信息可视化的概念模型和展现模型,对关键内容进行可视化展现。本论文的主要研究工作有以下四点:第一、新闻情感分析技术的研究与实现。本文对情感分析的研究作用于新闻层面,针对新闻文本的情感分析可以了解媒体以及领域专家对某个事件或国家政策的态度。方便人民大众做出自己的判断。对于新闻情感分析算法的研究,本文融合了自然语言处理、数据挖掘等算法。第二、实体提取算法的研究与实现。在本论文中,我们主要把CRF算法用在实体提取领域。通过训练模型自动识别出人名、地名和组织机构名三种实体。通过模板匹配的方式识别时间和日期实体。第三、关键词抽取算法的研究与实现。我们将LDA算法作用于专题新闻的关键词抽取技术。同时考虑中文的语义表达提出了组合词生成算法,主要解决现有分词系统的局限性。最后,本文的研究依托实体提取算法、关键词提取算法和情感分析算法,将多维数据展示技术相结合,设计并实现了专题新闻分析系统。此系统可以展示某一专题下出现次数最多的实体以及和实体相关的新闻文章;可以展示某一专题下最能表现主题思想的关键词;可以将某一专题新闻的情感分析结果以柱状图的形式展现出来;可以展现以时间为线索的新闻热点关注。本论文的研究有以下创新之处:在情感分析算法中,对于新闻标题和新闻正文采取了不同的算法。标题情感分析中加入了中性识别算法。正文情感分析加入了主观句识别和主体词识别算法。