基于Web的大规模中文人物信息提取研究

被引量 : 0次 | 上传用户:flame_earth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代人越来越依赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。网络上有海量的人物信息,但是这些信息格式多样、内容纷乱,大量的垃圾信息又充斥其中,如何从互联网中自动高效地抽取准确的信息相对复杂,有很多问题需要解决。本文研究了一个从网页数据采集、网页正文抽取、中文分词处理到人物信息结构化的完整过程,每个部分都对应论文的一章。首先是网页数据的采集。论文详述了人物信息网页来源的选取和网页的下载方法。网页下载越来越困难,网站对爬虫程序的限制越来越严,甚至采取了各种反爬虫措施,比如对同一IP访问频率的限制。作者自己编写程序下载网页数据,针对网站的不同情况采用了三种网页数据的下载方式:一般下载方式、代理下载方式和动态网页数据的下载方式。然后是对网页正文进行抽取。论文综述了网页正文抽取的相关研究,采用了基于统计和DOM的方法进行正文抽取。方法采用的统计信息是正文字长、超链接数和结束标点符号数。对每个容器标签,统计三个信息值后,利用它们的数量比值判断标签是否正文标签,进而抽取正文。接着是对网页正文进行分词处理。常见的分词系统在实体识别方面存在不足,不能很好适用于知识抽取、自然语言处理等。本文分词处理使用的是西南交大思维与智慧研究所开发的分词系统,该系统在实体识别方面显著优于其它分词系统。机构名识别算法由本文作者实现,算法基于词频统计。实验中训练数据主要通过百度百科词条整理得到。训练时,作者利用百度百科词条名在词条文本中的频数统计,进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。最后是网页人物信息的结构化。网页上的人物信息一般以半结构化和非结构化呈现,人物信息抽取的最后部分就是抽取半结构化和非结构化的人物信息并保存为结构化的人物信息。对于半结构化人物信息,需要正文去匹配人物属性词典,然后结合简单规则,直接提取属性值就行了,方法简单而有效。对于非结构化人物信息的提取,采用基于规则的提取方法,过程中建立触发词库和规则库,触发词库包括基本人物属性和对应的触发词,规则库是人工定义的提取属性值的规则。
其他文献
随着中美贸易的迅速增长,中美之间贸易摩擦也不断加剧。中美贸易摩擦的产生有各方面的原因,分析了其中最主要、最直接原因,即中美贸易不平衡,并从美方和中方的角度分别阐述了
目的观察针康法对局灶性脑缺血大鼠缺血区BDNF、S100β、GFAP蛋白和BDNF、Caspase-3基因的表达,探讨该方法促进脑缺血大鼠神经功能恢复的可能机制。方法建立大鼠永久性局灶性
以黄芪桂枝五物汤等4个汤方治疗腓肠肌痉挛的不同证型为例,从中可以看到,遵从中医的思路和方法,从病因病机、辨证论治入手,巧妙应用古老的经方,可以解决现代很多疑难疾病。同
从品种选择、基地选择、整地施肥、播种育苗、田间管理、病虫害防治、采收等方面总结高山萝卜越夏栽培技术。
由于经济发展的不平衡,能源与资源浪费十分严重,环境问题日益突出,在这种情况下,低碳经济受到了越来越多的关注。分析目前我国低碳会计发展中存在的一些问题,我国应制定相关
吸收合并的资本运作方式对企业现有的资源进行专业化整合,以较低的成本,形成企业的产业化发展,实现资本整合与增值,引领企业走专业化发展道路,是企业做大做强的必然选择。我
由于我国林业事业的逐渐发展,空间统计分析在林业的建立过程中得到了充分性的发展。通过这种技术形式的应用,可以为林业的发展建立科学化以及规律性的发展形式。因此,在现阶
地震模拟振动台试验方法通过加载期望的波形来模拟一定的振动环境,不仅可以了解结构物抗震的宏观性能和地震作用下工程结构物的破坏机理,还可以了解地震作用下结构物的薄弱部
本文运用考古学墓葬研究及民族志的资料,对目前青海地区出土的史前瓮棺葬作了简要的分析。
东安金矿床是黑龙江省近几年来发现的浅成低温热液金矿床。矿床受隐角砾岩和断裂控制,赋存于中生代陆相火山—侵入岩及晚印支期碱长花岗岩强硅化带中。NNE向库尔滨壳断裂及其