基于单句表示的篇章可信度识别方法

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户：pazixu

【摘要】

：

事件可信度表示文本中事件的真实状况,描述了事件是一个事实,或者是一种可能性,又或是一种不可能,是自然语言处理中一个重要的语义任务.目前,大多数关于事件可信度分析的方法都集中在句子级,很少涉及篇章级的事件可信度分析.本文基于卷积神经网络,结合篇章中的句子级特征(包括句子的语义、语法以及线索词特征表示),使用对抗训练来识别篇章可信度.在中英文数据集上的结果显示,本文的方法与Qian的相比,微平均F1值

【作者】

：

张刘敏张赟李培峰

【机构】

：

苏州大学计算机科学与技术学院苏州 215006

【出处】

：

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

【发表日期】

：

2019年8期

【关键词】

：

篇章可信度自动识别句子级特征卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

数据可视化-无限可能的艺术

"Big Data"泛指数据集的大小超过了通常的数据库，数据管理软件所能获取，存储，管理和分析范围的结构化与非结构化数据.

会议

大数据可视化技术自助服务功能报告管理功能

使用TerarkDB提升MyRocks的性能--随机读场景下的MySQL性能优化

MyRocks=MySQL+RocksDB(存储引擎),基于MySQL-5.6增加了一些MysSQL-5.7的Feature,增加了一些针对RocksDB特有的语法和功能,但有部分功能不支持。

会议

关系型数据库管理系统存储引擎TerarkDB技术随机读性能

数据与基石-中国Oracle用户使用情况分析报告

2016年，Bethune平台共计为18个行业的485位用户(个人/企业)的1841套Oracle数据库提供了3356次数据库健康检查服务。

会议

数据库健康检查服务报错分析

数据库的并发控制技术深度探索

文章分享了数据库的事务处理技术和数据库的并发访问控制技术，介绍了数据的异常现象以及出现的原因，阐述了并发访问控制的关键技术。

会议

数据库事务处理技术并发访问控制

分布式数据库的架构与分片设计

首先介绍了分布式数据库的四种架构，其次阐述了数据分片架构设计，然后论述了分布式数据库核心定位，最后进行了存储位置和访问位置的全透明分析。

会议

分布式数据库数据架构数据分片存储位置访问位置

三元搭配视角下的汉语动词语义角色知识库构建

动词语义角色一直是国内外语言学界研究的重点和难点.在自然语言处理领域,相关的语言资源也在逐步构建.于汉语而言,国内大部分工作集中在语义角色标注上.该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系.在该体系指导下,对汉语动词进行了穷尽式地语义角色认定及相关知识加工,以构建汉语动词语义角色知识库.截至目前,该工程考察了5260个动词,加工了语义

会议

汉语动词语义角色知识库三元搭配

基于篇章主题的中文宏观篇章主次关系识别方法

篇章分析是自然语言处理领域研究的热点和重点.作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容.本文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法.该方法利用篇章单元间,篇章单元与篇章主题间的语义交互来识别主次关系,并有选择地应用篇章主题信息,有效提高了主次关系核心的识别.在中文MCDTB语料库上的实验结果显示

会议

篇章分析篇章主题主次关系语义识别

结合字形特征与迭代学习的金融领域命名实体识别

该文主要研究针对中文金融文本领域的命名实体识别.从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型.该模型完全端到端且不涉及任何特征工程,它将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果不断进行改进.由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,对此,本文构建了一个大规模的金融领域命名实体语料

会议

中文金融文本命名实体识别字形特征迭代学习

基于神经网络无监督藏文正字检错法

在缺乏标注数据的条件下本文把藏文正字检错任务视为一个分类问题,首先从语言知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明本方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果显示本方法的结果优于两个基线模型.本方法在相同领域测试集上句子分类的正确率达到93.74％,不同领域测试集上也能达到83.6％.对错误音节的识别结果为74.53％,同时

会议

藏文正字检错神经网络无监督学习

基于语谱图的江西境内赣方言自动分区研究

汉语方言分区研究是语言学的重要组成部分.鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区.该文首先构建了江西省11个省辖市,91个下辖县级行政区的时长约1500分钟的1223条语音语料库.然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚

会议

赣方言自动分区语谱图聚类算法

基于单句表示的篇章可信度识别方法

与本文相关的学术论文