基于卷积神经网络的中文人物关系抽取方法研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:gbbzwklk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前这个数据为王的时代,互联网上积累了大量基于自然语言的文本数据,从中可以提取出许多有价值的知识,应用到知识问答、商业推荐、广告系统等多个领域。目前研究文本挖掘的方法不胜枚举,但是专门针对人物关系抽取的研究相对较少,比较先进的就是机器学习的方法,但特征的选取还是需要人工。针对此现状,本文以从互联网上大量包含人物关系的中文自由文本为对象做文本挖掘,提出了一种基于卷积神经网络的中文人物关系抽取方法。本文具体工作主要包含以下几方面:(1)本文首先研究了文本预处理的整个流程,重点研究了隐马尔可夫和条件随机场两种最经典的分词算法,并成功将这两种算法应用到中文分词上,通过实验结果分析,选定适合本文数据集的模型,并完成分词和词性标注的工作。(2)本文研究了两种词向量表达算法,首先研究了独热编码并总结出其存在的缺陷,接着研究了基于分布式表示的词向量算法,重点研究了基于分布式的Word2vec模型,分别用两种不同的训练方法完成了对该模型的两种不同架构的训练,并通过实验,证明了最后生成的词向量包含了原始词语的语义信息,最后成功运用训练好的模型完成了对本文数据集的词向量转化工作。(3)本文将人物关系抽取任务转化成文本分类问题,提出用卷积神经网络(Convolutional Neural Network,CNN)提取词向量特征并对人物关系进行分类的方法。并用该方法从互联网上的人物社交数据中提取出了常见的5类人物关系,准确率最高达到了92.87%,平均召回率达到了86.92%,对于召回率不太理想的两类,本文又分析了原因。最后证明本文提出的方法可以应用到工程中完成对人物关系抽取的任务。
其他文献
目的:副结核病又称约翰病,是由副结核分枝杆菌引起牛、羊、马鹿等反刍动物的一种渐进性消瘦和肉芽肿肠炎为主要特征的传染病。目前,我国马鹿的存栏约13万头,主要有3个品种,分布在塔里木河流域的塔河马鹿是其中之一,养鹿业已成为当地畜牧业发展的重要组成。但由于管理环节的缺失和防疫意识的淡薄,导致以腹泻、消瘦为主要特征的各种疫病高发,发病原因与副结核感染有关,但尚未进行相关的深入研究。为此,本研究以塔河马鹿为
通过认知隐喻的跨范畴的运作方式,探讨了隐喻对外语写作教学的意义和实际应用的可行性。认为隐喻意识可以扩展教学和学习的维度,是教师尝试帮助学生克服词汇量匮乏、逻辑不连
本文利用近期在福建全省范围内所作的一项代表性随机抽样调查,对两代流动人口在城镇定居意愿的差异进行深入考察,希望以此获得对两代流动人口在城镇定居意愿及其影响因素的更为
报纸
目前寻找肝癌细胞特异性或肝癌表面抗原特异性抗体己为众多学者关注。而噬菌体抗体库是筛选特异性抗体的有利工具,CD147分子是癌细胞表面高表达的膜蛋白。 本实验目的即构
这次会议的主要任务是认真贯彻落实中央一号文件和中央农村工作会议以及全国农业工作会议精神,总结“十五”和2005年农药管理工作的成效和经验,分析形势,理清思路,明确“十一
随着医学影像设备数字化的不断发展,医学影像学在颅脑诊疗过程中的作用显得格外重要,一方面医学影像学可以在患者没有痛苦的情况下达到疾病早期诊断和治疗的目的,容易被患者所接
总结了苏州环保事业发展的五大亮点,即环保优先:投入力度在全国名列前茅;“3个宁可”:坚持招商引资生态高标准;与时俱进:注重环境法规与政策的针对性;公平主导:推行生态补偿引领
为了廓清在西学东渐和在科学传播的背景下《格致汇编》的编者、作者群体及其科学传播实践价值,调阅了从清1876(清光绪二年)至1892(清光绪十八年)间《格致汇编》共60期的原始
今年7月,北京市教委发文叫停幼儿园兴趣特长班,禁止其变相创收。开学时人们发现诸多幼儿园照旧收钱照旧开班。家长怕孩子“输在起跑线上”;幼儿园称“设兴趣班应家长要求”;学前
随着我国经济实力的日益强大,党和国家非常重视海洋强国的战略部署,包括在东海、南海海域开展生命救助、海洋安全监管、海上指挥管理,打击海上各种违法活动,维护我国海洋权益等方面。海事巡逻船发展面临着良好的发展机遇,现役的千吨级海事巡逻船功不可没,但是目前普遍存在几个问题:由于吨位低,对抗恶劣海况能力有限,无法执行远海任务;系统通联手段少,近海通信方式依靠运营商的移动网络,移动基站覆盖不到的地方使用微波,