基于半监督学习的文本实体关系抽取研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xiajie318
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是自然语言处理的一个热门方向,研究人员不仅仅满足于对命名实体的识别,更致力于对海量的实体之间所存在的关联进行挖掘,其研究成果可应用于知识库构建、信息检索、问答系统等多个领域。半监督学习通过少部分种子标记样本和大量无标记样本迭代训练得到分类模型,是机器学习中一个常用而有效的方法。本文以半监督学习中的协同训练方法为基础,以提高关系分类效果为目标,提出了一种文本实体关系抽取方法。首先,借助工具对语料从词法分析和句法分析两个角度进行处理,提取关键特征并构造特征向量,生成语料特征相关的稀疏矩阵,这为后续的分类模型训练奠定了良好的基础。然后,在关系抽取任务中加入样本优化模块。由于半监督分类方法对样本具有较高敏感性,因此本文提出了融合样本去噪和多数类欠采样的样本优化方法。在对样本进行标记并预分类之后,采用本文提出的考虑环境因素的样本去噪方法删除远离所有样本的离群点和处于某类样本中类型不同的孤立点,保留安全样本与边界样本,配合多数类欠采样方法,实现了样本去噪和平衡化。该方法有效提升了实体关系抽取的效果。最后,设计并构建了采用增强的Tri-training协同训练方法的实体关系分类模型,提出了一种基于样本信息熵和代表性的度量方法,对具有较高度量值的无标记样本进行筛选,并应用到协同训练过程中。通过少量的种子标记样本训练三个初始分类器,按照编号顺次将分类器设为目标分类器,并在每一轮迭代中使用其余两个分类器对筛选得到的无标记样本进行标记,将结果输入目标分类器中进行训练。迭代达到终止条件后,使用投票法得到最终的实体关系分类模型。采用经优化的样本进行实验,结果证明增强的Tri-training方法优于传统的协同训练方法。
其他文献
近年来,网络推手现象在我国颇为引人注意,已引起政府重视,而相关具体规范却没有及时出台。如何规制商业网络推手现象,取决于如何看待商业网络推手在网络中的行为,以及如何按
高速铁路能够提高铁路运输能力,加快铁路运行效率,对推动国民经济的发展具有重要作用。随着我国高速铁路的快速发展,铁路安全运行成为重要课题。钢轨检测是保障高铁安全运行
目的 开发研制适合我国城市社区人群高血压的临床路径。方法 采用文献法、专家会议法、现场考察和预试验的方法, 研制中国城市社区人群的高血压临床路径。结果 建立高血压
医院档案作为医院医疗、科研、教学、管理活动和成果的重要历史凭证,是医院发展过程中的重要文化财富和文化资源。医院档案也是医院文化建设的第一手资料,医院档案在当前医院
新农村新能源建设可以促进农村的可持续发展、可以形成新的农业产业链条、可以有效提高农民生活质量、可以加速城乡一体化进程、可以缓解国家能源紧张局面。本从这五个方面论
从法社会学的立场出发,权利体现了人们交往行为中的利益结构关系。新型权利是在国家实在法上没有规定但在司法实践中因当事人向法院提起诉讼而经司法裁判认可或者尽管未经其
<正> 孔子论诗,标志着我国古代文学批评已经出现。尔后,许多著名的思想家和政论家,在他们的著作中,曾经有过和文学理论相近似的论述,在我国古代文学批评史上,产生过一定的影
对变压器PT断线闭锁继电器误动进行分析 ,发现其在原理上存在缺陷 ,提出解决措施。
目的 研究银杏叶提取物对人乳腺癌MCF7细胞脂肪酸合酶 (fattyacidsynthase ,FAS)的抑制作用。方法 MTT法测定人乳腺癌MCF7细胞增殖速度 ,采用超速离心技术部分纯化人乳腺癌
目的评价浅低温体外循环中搏动灌注对儿童脑血流的影响。方法 30例儿童随机分为搏动组(P组,15例)和非搏动组(NP组,15例)。主动脉阻断期间,P组给予搏动灌注,NP组给予非搏动灌