论文部分内容阅读
负面新闻对银行、风险投资公司等机构具有重要参考价值,但是现有通用搜索引擎一般都不提供负面新闻筛选功能;而人工筛选相关主题负面新闻,效率低、工作量大,不能满足应用需求。高效而准确地自动检索、识别与特定主题(词)相关负面新闻,具有很好的理论意义和应用价值。本文在大量分析、研究负面新闻网页语料文本特征的基础上,提出了一种融合依存语法及简化的格语法,结合情感词典进行关键句群语义倾向识别,进而识别负面新闻的方法。通过对该方法进行实现,并应用到实际系统中,验证了方法的有效性。论文的具体工作和贡献如下:1.提出了一种实用的关键句群提取方法。该方法依据加权图和统计的思想,过滤网页新闻中的文本噪声,来提取与主题关键字相关的关键句,作为文本情感分析的原始语料。2.基于依存语法及简化的格语法理论,提出了一种利用HowNet情感词典进行关键句群语义倾向识别,进而识别负面新闻的方法。3.基于开源项目FudanNLP中文语言处理分析工具包,对本文所提出的关键句群提取方法以及负面新闻识别方法,在目标原型系统“负面新闻自动检索系统(Negative News Automatic Retrieval System, NNARS)"中进行了实现。本文除了参与系统总体设计外,主要具体负责以下功能模块的实现:1)可在后台定时调用主流新闻检索引擎,根据关键词抓取相关新闻网页;2)从新闻网页自动提取原始预料--新闻主题及内容文本;3)利用基于本文方法所实现的核心算法,针对原始新闻预料进行倾向筛选识别。4.对本文算法进行了实验,实验结果及原型系统的初步应用,验证了本文核心算法及所完成系统的可用性。