论文部分内容阅读
20世纪90年代以来,互联网技术迅速发展,产生了各种应用。人物搜索引擎作为互联网技术应用的一部分,这两年刚刚兴起,还不成熟。各大公司建设人力资源库也需要对人才的简历信息进行结构化处理。本文研究了大规模真实文本中人物简历信息的提取方法和规则,并以人物的职衔信息的提取为研究对象,做了检验。1.本文对含人物简历信息的文本做了简单分析。将含人物简历信息的文本按照写作目的分为求职性简历和介绍性简历两类,按照结构化程度分为半结构化和非结构化简历两类,并对各自的特点做了相应分析。2.明确了提取任务是提取简历信息和以及简历信息所对应人名的实体对。3.提出了以简历信息短语的前接成分定界和以指示成分指向对应人名的抽取方法。4.编写了辅助标注软件。5.选取498篇文本作为封闭测试的训练语料库,从中标注了职衔、年龄和出生日期、性别、毕业院校、受处罚情况、家庭关系、享年和卒年、籍贯和出生地、所得荣誉、专业、学历、政治面目、作品、婚否、民族、宗教信仰共16项简历项,共计2341条简历信息对。其中,职衔信息是最丰富的,共1643条,约占总数的70.2%。6.我们以标注的语料为研究对象,从中训练出简历信息触发词列表、OC_P前接成分表、OC_P指示成分表、并列人名的提取规则四个部分的知识用于职衔信息对的抽取。7.编写程序,应用知识库中的规则实现自动提取。提取的准确率和召回率各为85.4%和87.2%。8.对职衔信息误提(共245对)和漏提(共210对)的结果进行考察,提出了进一步提高召回率和准确率的方案。本文以真实文本中所含的简历信息对为研究对象,提出了以简历信息的指示成分的类别直接定位人名的思路,本文的研究方法对其他实体对的抽取研究也有一定借鉴意义。