汉越跨语言可比新闻观点句抽取与情感分类方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:sweetyjiaxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,随着部分劳动密集型产业向越南的迁移,中国和越南在政治经济领域的交流合作愈发密切,及时把握越南新闻媒体的舆情及观点表达对中越政治、经济领域的交流有着重要的影响。由于语言障碍,在网络上获取的越南语新闻很难去人工理解和分析其舆情观点。同时可以发现汉越可比语料间内容关联度较高,主题高度相关,主题词有部分区别,可在双语语料间共享使用。基于这种特点,本文研究了汉越可比新闻观点句抽取和情感分类方法,在与越南语可比的汉语新闻的帮助下,准确地获得越南语新闻的观点句和情感表达。本文主要完成了以下研究工作:(1)融入共享主题信息的汉越新闻观点句抽取方法。汉越可比新闻多描述相似新闻内容,具有可共享的新闻主题,从中提取到的共享主题特征对于观点句抽取任务有着重要的指导作用,可以弥补单语主题特征由于语料稀缺带来的准确度较低的特点。首先对汉越可比新闻篇章语料进行LDA主题建模,提取出越南语新闻和其可比汉语新闻的主题特征,使越南语篇章可以得到对应的汉越共享主题特征;然后借助双语主题词表和双语情感词典训练双语词嵌入模型,使汉越双语编码在同一语义空间,解决汉越标记语料不平衡的问题;最后将主题特征和位置特征、情感特征融入词向量,使越南语句子语义信息与主题、情感、位置信息相结合,更好的进行观点句的识别。实验结果表明,融入共享主题特征能够有效的提升多文档观点句识别的准确率,具有有效性和先进性。(2)融入多观点句特征的汉越可比新闻情感分类方法。在引入汉语有标注语料时为了防止噪声的影响,需要筛选出与越南语语义表达习惯接近的汉语语料。同时观点句是文章情感表达的重要特征,对多观点句排序加权可以更加层次化的引入篇章的观点句信息辅助情感分类。因此,首先通过汉越可比语料观点句相关度计算筛选出高质量汉语篇章作为有效输入;通过对前面获得的观点句进行重点信息排序,再加权获得多观点句特征矩阵并融入选择性门控网络;利用transformer的自注意力机制对重点信息进行关注,最后通过softmax获得新闻的情感倾向分类结果。实验表明,相关度筛选和融入多观点句特征能有效提升越南语新闻情感分类的效果。
其他文献
目标跟踪广泛应用于视频监控、人机交互、视觉导航、医学诊断等多个领域,近些年目标跟踪的技术取得了重大发展,但仍然面临着一些挑战。目标快速运动导致边界效应,边缘处检测时受背景信息的干扰,导致跟踪框漂移。跟踪的目标长时间被完全遮挡后又出现到视野中,跟踪算法对背景错误响应影响目标模型更新结果,从而导致跟踪失败。因此,本文基于核相关滤波的跟踪算法的基础上进行深入研究,提出一些改进的方法,主要研究的内容和创新
随着对地观测技术的快速发展,人们获取的空间数据呈指数级增长。并行计算,作为高性能计算的一种典型实现方式,它是指在物理层面同时使用多种资源解决计算问题,或者从逻辑层面将算法拆解成几个可同时执行的模块;其目的正是为了提高计算速度,扩大处理问题的规模。与之相对,对于传统GIS基础串行算法的并行化也成为了当下GIS学科研究的热点。现有的并行化空间分析的研究大多基于算法层面,实现难度较高,且往往依托于特定平
由于电解镍被广泛应用于机械加工及航天制造中,且两个领域对于电解镍的质量要求不同,因此冶镍企业为了满足不同领域对电解镍质量的不同要求,在电解镍出槽后,加入了人工筛选环节。该环节由数名员工将摞在翻板架上的电解镍逐块翻开检查,搬出需要剪切的低品级电解镍,并画出剪切线,由剪切员工按照剪切线剪切。整个过程全部为人工作业,工人劳动强度大,检验标准不固定,急需进行自动化改造。根据企业现行检测情况,在查阅资料后得
骨龄评估是一种应用于临床诊断和医学治疗的技术,目的是确定儿童的骨骼年龄和实际年龄之间是是否存在差异。传统的骨龄评估方法是根据患者手骨X射线图像中各个骨化中心的发育程度,由医生结合经验人工推断骨龄,具有主观性强、误差较大、评估过程较复杂、耗时长等局限性。鉴于目前骨龄评定方法的不足,提出了一种基于深度卷积神经网络的自动骨龄评定方法。本文的主要内容和研究结果如下:(1)提出了基于U-Net的手骨分割方法
区块链技术因其所具有的高度可信、不可篡改、可追溯等特性,在学术界以及工业界引起了广泛的关注。区块链技术改变了传统的中心化信任的模式,它通过多方参与,多方共同记账的方式解决了信任问题,从而能够使交易双方放心的利用区块链平台进行交易活动。区块链技术在金融领域的探索与应用比较多,而它所具有的良好的特性使其在供应链、医疗、物联网、能源等领域也有了初步的应用。能源生产、交换、传输、消耗的过程中会产生大量的数
铝型材作为工业型材的重要制品,工件缺陷检测是其生产流程中的重要工序,而表面细微缺陷检测作为工件缺陷检测的重要工作,影响着铝型材的实用性、外观性与舒适性。由于细微缺陷图像表征性差,样本难以采集,导致了样本空间的不均衡与细微缺陷的难以识别问题。然而目前并无行之有效的方法对不均衡样本空间的表面细微缺陷完成识别。为提升不均衡样本空间细微缺陷的识别精度,本文以铝型材表面缺陷作为研究对象,对铝型材表面缺陷样本
过程能力分析是六西格玛管理中一种常用的质量改进方法。根据过程能力指数进行过程能力分析,根据分析结果可以了解生产制造过程满足生产要求的程度,然后根据过程指数的不同可以给出相应的改进措施。因此,过程能力指数是进行过程能力分析的重要指标。随着机器视觉系统的快速发展及在各个领域中的广泛应用,许多产品信息更多的是以图像数据的方式展现。与人工测量相比机器视觉系统具有避免因疲劳导致的误差增大、避免人为的感性影响
发动机制造过程涉及到的制造环节众多,工艺过程十分复杂,大幅提升了制造过程溯源的难度和溯源技术的要求。目前,发动机制造过程质量溯源面临着溯源公信力不足、数据中心化存储隐患、信息记录存储安全难以保障的问题,导致生产制造的汽车发动机出现了各种质量问题,给用户与车企带来了巨大的损失。针对上述问题,本文将具有去中心化、防篡改、易溯源、自信任等特点的区块链技术引入到发动机制造过程质量溯源体系中,提出了一种基于
薄膜晶体管液晶显示器(Thin Film Transistor-Liquid Crystal Display,TFT-LCD)凭借其体积小、功耗低和响应速度快等优点在新型显示器行业占据越来越大的市场份额,制造商之间的竞争也变得尤为激烈。因此,提高产品质量和生产效率成为制造商保持优越性的重要因素。然而,TFT-LCD制作过程中缺陷种类较多,采用人工目视检测方法具有稳定性差、耗时长、检测标准难以统一等
元谋县位于云南省中北部,北接四川省攀枝花。境内植被覆盖度较低,山地与半山地区域占比较大,区域内发生的地质灾害次数较多,使得当地人民的生命财产安全饱受威胁。地质灾害风险性评价不仅考虑地质灾害发生的可能性,还考虑到地质灾害发生后会造成的损失程度,这样做出的评价结果,可以为当地发展规划提供一定的理论依据。本文以元谋县为研究区域,通过野外实际调查及收集资料得到元谋县地质条件及地质灾害发育特征。本文选取了坡