汉语越南语双语新闻事件关联分析

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:chenzhong1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着一带一路国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。互联网上中越两国媒体的新闻报道,为全面了解两国相关事件提供了全面信息。本文研究汉语越南语双语新闻事件关联分析方法,旨在利用互联网上的汉越双语新闻,发现中国和越南共同关注的热点事件以及这些事件之间的关联。通过汉越双语新闻找到中越两国共同关注的事件,并对事件进行关联分析所面临的关键问题是:1.目前没有针对汉语-越南语双语新闻事件关联分析进行训练和评价的公开数据集,在模型训练和方法效果评价上缺乏数据支撑。2.中越两国媒体在对同一事件进行报道时各自的侧重点和态度不同。如何对报道同一事件的双语新闻进行归类是一大难点。3.新闻事件并不是孤立存在的,一个事件的发生会对其他事件造成影响。因此如何计算新闻事件的影响力是一大难点。本文针对这些关键问题对构建汉语-越南语双语事件关联分析数据集,汉越双语新闻事件归类方法,汉越双语事件关联分析方法展开研究,取得了如下成果(1)构建了汉语越南双语事件关联分析数据集。构建小规模汉语-越南语双语句对齐语料,利用汉语-越南语双语句对齐语料构建双语向量空间,将双语新闻置于同一特征空间下统一表征。人工构建了 20个事件簇用于评价汉越双语新闻事件归类效果。构建了 600个相关事件新闻集合和600个无关事件新闻集合用于评价跨语言新闻事件关联分析方法的效果。(2)提出了汉语-越南语双语新闻事件归类方法。该文首先利用汉语-越南语双语句对齐语料构建了基于词义的汉越双语向量空间,将汉语和越南语双语新闻置于同一特征空间下统一表征。针对新闻事件的特点,该文利用基于密度和事件要素的新闻聚类方法对新闻进行归类,将报道同一事件的新闻聚类到同一簇中。实验结果表明该方法有效提升了跨语言新闻事件归类的效果。(3)提出了汉越双语新闻事件关联分析方法。该文提出了基于因子图模型的局部密切度传播算法。首先使用双语主题概率模型,从双语文档中获得双语主题以及主题概率分布。然后基于新闻事件的文本相似度构建事件因子图模型,在因子图上对相互关联的事件使用局部密切度传播算法计算某一主题下所有相互关联的事件间的影响力。最后得到不同主题下事件间的影响力拓扑图。实验结果表明该文提出的方法相比相似度计算和词语共现的方法取得了更好效果。(4)利用JavaEE设计并实现了汉越双语事件归类和关联分析的原型系统。通过该系统用户可以查看中国和越南互联网上新闻;查看中越两国共同关注的事件以及报道这些事件的新闻;查看双语新闻事件之间的关联关系。
其他文献
目的探讨社区护理干预对老年慢性心力衰竭患者再住院及自护能力的影响。方法采用抽取随机数字法将150例老年慢性心力衰竭患者分成干预组72例和对照组78例,对干预组进行面对面
针对尺度不变的特征变换(SIFT)算法提取的特征点数目多、匹配耗时长、匹配精度不高等问题,提出了一种基于局部显著边缘特征的快速图像配准算法。该算法利用SIFT算法提取待选特征
从教材引入(整体引入、章节引入)、教材定位、写作方式、著作形式等方面论述了国内外教材的不同编写风格和特点。它山之石,可以攻玉,希望能为国内基础物理教材的编写提供一些借鉴
江西省龙南县杨村镇有耕地1.8万亩,人口4.1万,18万亩山林,是典型的人多田少的山区乡镇。近年来,他们继承历史传统,发挥自身优势,选准香菇为镇域经济发展的突破口,1997年8月被
业务部门作为企业财富的直接创造者,在企业价值提升过程中起着关键性作用,财务部门作为企业财富的管理者,掌握着全方位的经营信息,二者的高效融合、协同配合,对推动公司提质
油井加药现在有三种方式,井口间隙加药加药不匀,效率低,井口连续加药对药药剂筛选要求高、且加快油套管腐蚀,井下固体加药加药速度不好控制,针对这些矛盾,作者研制了井下液体连续加
目的分析早期慢性肾功能衰竭患者采取中西医结合治疗的临床疗效。方法该次选择2015年5月—2019年3月该院收治早期慢性肾衰竭患者115例为研究对象,分为观察组与对照组,对照组
对园路铺装的形式及铺装艺术设计进行了探讨,以期有助于实例的分析,引起深入的思考,使园林园路铺装及装饰设计好上加好。
M2/GDP实质上是从一个角度展示整个经济发展的问题,它蕴涵了国民经济发展中的各种关系,其水平与变动由一国的融资体制所决定.从国别比较看,以银行主导型融资体制为主的国家,
为提高北斗定位系统(BDS)的估计精度,克服传统平淡卡尔曼滤波(UKF)算法中可能因状态量协方差矩阵失去正定性而导致滤波器发散的问题,将平方根平淡卡尔曼滤波(SRUKF)算法应用于BDS定位