大规模真实文本中的人物职衔信息提取研究

来源 :北京语言大学 | 被引量 : 6次 | 上传用户:ywbll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,互联网技术迅速发展,产生了各种应用。人物搜索引擎作为互联网技术应用的一部分,这两年刚刚兴起,还不成熟。各大公司建设人力资源库也需要对人才的简历信息进行结构化处理。本文研究了大规模真实文本中人物简历信息的提取方法和规则,并以人物的职衔信息的提取为研究对象,做了检验。1.本文对含人物简历信息的文本做了简单分析。将含人物简历信息的文本按照写作目的分为求职性简历和介绍性简历两类,按照结构化程度分为半结构化和非结构化简历两类,并对各自的特点做了相应分析。2.明确了提取任务是提取简历信息和以及简历信息所对应人名的实体对。3.提出了以简历信息短语的前接成分定界和以指示成分指向对应人名的抽取方法。4.编写了辅助标注软件。5.选取498篇文本作为封闭测试的训练语料库,从中标注了职衔、年龄和出生日期、性别、毕业院校、受处罚情况、家庭关系、享年和卒年、籍贯和出生地、所得荣誉、专业、学历、政治面目、作品、婚否、民族、宗教信仰共16项简历项,共计2341条简历信息对。其中,职衔信息是最丰富的,共1643条,约占总数的70.2%。6.我们以标注的语料为研究对象,从中训练出简历信息触发词列表、OC_P前接成分表、OC_P指示成分表、并列人名的提取规则四个部分的知识用于职衔信息对的抽取。7.编写程序,应用知识库中的规则实现自动提取。提取的准确率和召回率各为85.4%和87.2%。8.对职衔信息误提(共245对)和漏提(共210对)的结果进行考察,提出了进一步提高召回率和准确率的方案。本文以真实文本中所含的简历信息对为研究对象,提出了以简历信息的指示成分的类别直接定位人名的思路,本文的研究方法对其他实体对的抽取研究也有一定借鉴意义。
其他文献
阴阳毒病出现于《金匮要略》中,现代学者对其疾病实质多有讨论,现代疾病如登革热、流行性出血热、急性白血病、系统性红斑狼疮等疾病在某些阶段与阴阳毒病极为相似,适当运用
目前,规划环境评价工作处于起步阶段,相关研究较多的侧重于理论研究方面,实证研究较少,还没有形成统一的方法学体系。规划环境影响评价的技术方法上的缺陷是制约规划环境评价
国内IPTV实现方式与传统实现方式的差异对IPTV服务质量监控技术提出了新的挑战,本文总结了国外主流解决方案与国内IPTV监控需求的差距,深入研究了IPTV服务质量监控技术,针对
本文面向合成孔径雷达(SAR)图像舰船目标检测应用,在总结目前典型的单视SAR幅度图像海杂波分布模型及其参数估计方法的基础上,采用直方图拟合的方法,分析了SAR海洋杂波的统计
随着社会经济的不断发展,人们对医院服务质量的重视程度逐渐提高,该文通过管理人员综合素养参差不齐、质量管理工作流于形式、护理流程较为死板,对基层医院护理质量管理中存
意象在李佩甫的小说中频繁出现,其实他的意象并不是无序的、偶然的,而是有他的规律性,这是作者有意识的创作。在他的所有创作中,连续有规律出现的意象有草、花、树、昆虫、家
目的一直以来广大医家都热衷于用中药大黄治疗CRF,但大黄的炮制品种繁多,且各种炮制品在临床治疗CRF时都有应用,另外生大黄随着煎煮时间的变化其水煎剂的成分含量亦发生改变,
近年来,福建省莆田市住房城乡建设局党组按照“系统化布局、项目化防控、信息化管理”工作思路,加强廉政风险防控体系建设,取得了积极的成效。$$  严查案件剖析风险$$  查找
期刊
艺术语言中辞面常常只是一个外壳,辞内则常常超越这一外壳,实现意义的扩展和延伸,“艺术语言”就是在超越了“理”的同时实现了完美的自然回归,应着人类本性,情感的表达冲出