论文部分内容阅读
随着一带一路国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。互联网上中越两国媒体的新闻报道,为全面了解两国相关事件提供了全面信息。本文研究汉语越南语双语新闻事件关联分析方法,旨在利用互联网上的汉越双语新闻,发现中国和越南共同关注的热点事件以及这些事件之间的关联。通过汉越双语新闻找到中越两国共同关注的事件,并对事件进行关联分析所面临的关键问题是:1.目前没有针对汉语-越南语双语新闻事件关联分析进行训练和评价的公开数据集,在模型训练和方法效果评价上缺乏数据支撑。2.中越两国媒体在对同一事件进行报道时各自的侧重点和态度不同。如何对报道同一事件的双语新闻进行归类是一大难点。3.新闻事件并不是孤立存在的,一个事件的发生会对其他事件造成影响。因此如何计算新闻事件的影响力是一大难点。本文针对这些关键问题对构建汉语-越南语双语事件关联分析数据集,汉越双语新闻事件归类方法,汉越双语事件关联分析方法展开研究,取得了如下成果(1)构建了汉语越南双语事件关联分析数据集。构建小规模汉语-越南语双语句对齐语料,利用汉语-越南语双语句对齐语料构建双语向量空间,将双语新闻置于同一特征空间下统一表征。人工构建了 20个事件簇用于评价汉越双语新闻事件归类效果。构建了 600个相关事件新闻集合和600个无关事件新闻集合用于评价跨语言新闻事件关联分析方法的效果。(2)提出了汉语-越南语双语新闻事件归类方法。该文首先利用汉语-越南语双语句对齐语料构建了基于词义的汉越双语向量空间,将汉语和越南语双语新闻置于同一特征空间下统一表征。针对新闻事件的特点,该文利用基于密度和事件要素的新闻聚类方法对新闻进行归类,将报道同一事件的新闻聚类到同一簇中。实验结果表明该方法有效提升了跨语言新闻事件归类的效果。(3)提出了汉越双语新闻事件关联分析方法。该文提出了基于因子图模型的局部密切度传播算法。首先使用双语主题概率模型,从双语文档中获得双语主题以及主题概率分布。然后基于新闻事件的文本相似度构建事件因子图模型,在因子图上对相互关联的事件使用局部密切度传播算法计算某一主题下所有相互关联的事件间的影响力。最后得到不同主题下事件间的影响力拓扑图。实验结果表明该文提出的方法相比相似度计算和词语共现的方法取得了更好效果。(4)利用JavaEE设计并实现了汉越双语事件归类和关联分析的原型系统。通过该系统用户可以查看中国和越南互联网上新闻;查看中越两国共同关注的事件以及报道这些事件的新闻;查看双语新闻事件之间的关联关系。