中文职衔履历信息的知识协同挖掘和属性联合抽取

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:yuerenqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  研究从非结构化文本中抽取指定人物职衔履历信息的方法.针对履历信息中知识密集的特点,定义职衔履历知识结构,提出从字符串模式和依存上下文两个角度刻画履历信息.采用弱监督知识与人工标注知识协同挖掘的方法,从大规模在线文本中挖掘知识,简历履历信息知识库,实现组织机构名和职衔信息的识别,生成高覆盖度履历信息候选集.此后根据人物、不同履历属性间的接续关系和依存句法特征,建立基于规则的属性联合抽取系统,对候选集履历信息进行再次抽取,最终得到准确的履历信息.该方法在CLP2014-PAE测试集上最终抽取结果的F值比人工标注数据上的CRF序列标注模型高11.58%,比评测中类似项目最好成绩高21%.
其他文献
图书流通量在中职图书馆中起着举足轻重的作用,关心和支持图书馆工作的人员均应积极促进图书流通,提高图书利用率。本文介绍了几种增加图书流通量的有效方法。 Book circula
泛素-蛋白酶体途径是真核细胞内最为重要的蛋白质降解系统,它通过选择性清除细胞内错误折叠的以及特定环境下需要降解的蛋白质,对维持细胞正常的生理功能发挥至关重要的作用。
  针对电子政务云跨域访问中用户资源共享控制分级分域的安全需求,提出了一种基于SAML断言的联合访问控制方案。该方案采用了云计算典型访问控制机制——身份和访问控制管
犬瘟热(CD)是一种由犬瘟热病毒(CDV)引起的犬急性传染病。CDV属于副粘病毒科的麻疹病毒属。主要引起犬科、鼬科和浣熊科动物犬瘟热的发生,大熊猫和小熊猫等我国珍稀野生动物也
  目的随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处
会议
本文针对当前职校生语文学习中存在的问题,积极寻找解决途径,以期能充分调动学生的学习积极性,激发学生的学习兴趣,有针对性地加强和改进学校的教学质量。 This article aim
  近年来我国经济高速发展,汽车保有量与日俱增,有关车辆事故和犯罪的事件常有发生,套牌车、假牌车的数量也越来越多,仅仅依靠现在的车牌识别技术获取车辆信息已经不能满足现实
会议
蓄热技术可用于解决热能供给与需求失配的矛盾,是提高能源利用效率和保护环境的重要技术.近年来,随着中国经济的快速发展和人们生活水平的不断提高,建筑能耗占总能耗的比例也
  Phytohormone ethylene controls diverse developmental and physiological processes such as fruit ripening via modulation of ethylene signaling pathway.Our pre
会议
本文采用改性AlO载体,用浸渍法制备了丙酮一步法合成甲基异丁基酮(MIBK)Pd/改性AlO催化剂.采用固定床小试、中试装置考察了改性AlO载体、活性组分Pd含量、原料规格、制备条件