论文部分内容阅读
研究从非结构化文本中抽取指定人物职衔履历信息的方法.针对履历信息中知识密集的特点,定义职衔履历知识结构,提出从字符串模式和依存上下文两个角度刻画履历信息.采用弱监督知识与人工标注知识协同挖掘的方法,从大规模在线文本中挖掘知识,简历履历信息知识库,实现组织机构名和职衔信息的识别,生成高覆盖度履历信息候选集.此后根据人物、不同履历属性间的接续关系和依存句法特征,建立基于规则的属性联合抽取系统,对候选集履历信息进行再次抽取,最终得到准确的履历信息.该方法在CLP2014-PAE测试集上最终抽取结果的F值比人工标注数据上的CRF序列标注模型高11.58%,比评测中类似项目最好成绩高21%.