术语自动抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jk305
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,术语在各个领域层出不穷。术语自动提取日益受到人们的关注,已经成为自然语言处理的一项重要任务,可以应用到本体构建、专业搜索、文本分类等各个领域。因此,术语抽取研究是信息处理领域的基础性课题。术语是为有效表达领域知识而产生的完整的语言单位,因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型,我们在分析各种模型优缺点的基础上,综合了几个模型的优点,提出一种新的术语抽取方法,实现优势互补,从而提高了准确率和召回率。本文的研究工作主要包括以下几个方面:第一,详细分析了术语在文本中的使用特点,并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。第二,为了能有效抽取低频词汇,选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题,本文提出将似然比的抽取结果用C-value进行处理。两者相结合,在保证似然比方法高召回率的前提下,也提高了抽取的准确率。实验证明,这两种方法的结合是有效的。第三,在术语提取的特征运用上,既考虑了术语的内部结合紧密特性,又考虑了术语的边界自由特性,提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明,在术语提取中集成多方面信息,可以取得更好的效果。第四,所用的方法完全基于统计,与语言无关,所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料,实验证明,该方法能有效处理中英文混合语料。本文设计并实现的术语自动抽取系统,只需给出领域语料,便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注,不局限于某一个领域,不需要语料库进行训练,简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取,前4000个候选串的准确率约70.8%。
其他文献
目的对"项目学习自行车"一体化教学模式在《刺法灸法学》中的实践进行调研和分析。方法选择黑龙江中医药大学2017届针灸推拿学专业本科学生213人作为研究对象,分2个班授课,1
针对哈尔滨市生态园林城市建设过程中存在的生态道德水准低,法治不健全,重经济功能轻社会、生态功能,生态效益差,缺少大的生态网络系统等问题,提出了相应的对策建议,对哈尔滨市生态
随着社会科学技术的不断进步,困扰煤矿开采的一些问题也逐渐得到了解决。为了保证煤矿开采的安全性,防治水灾害对煤矿开采造成的影响,该文通过对煤矿井水灾的危害分析,来对煤
【正】 一、新形势下县级财源建设面临的新情况、新问题 我国经济体制改革的目标是建立社会主义市场经济体制。从今年起,财税、金融、投资、外汇外贸等一系列重大改革措施陆
学习基础会计阶段,要求学生掌握会计的基本理论知识及操作技能。在目前民办本科高校会计专业的教学中,理论知识与实践能力的培养仍然是分开教学。为了解决这一问题,本文提出
针对一类网络控制系统(NCSs)中存在的随机网络时延问题,本文在传感器和执行器时间驱动、离散控制器事件驱动方式下,将NCSs描述为切换系统模型。结合极点配置和特征根连续变化
传统建筑样式符号是其所在地的区域性地域文化的汇集和凝练,其象征着城市的精、气、神,是构建现代城市的视觉形象体系的重要基石.提取城市传统的地域性建筑中的视觉符号元素
目的评价肠内营养支持健康教育对结直肠癌术后患者认知及营养状况的效果。方法将2016年1月至2017年12月行手术治疗后伴有营养风险的结直肠癌患者120例,按随机数字表法随机分
目的探究改良外剥内扎术治疗环状混合痔的临床疗效。方法选择我院于2018年2月至2019年2月收治的环状混合痔患者200例,根据随机选择法分为观察组和治疗组,各100例。其中观察组
权利是人之所以为人的自主性的体现和保障。法律将应有权利设定为法定权利,必须制定相应的制度保障其实现,成为权利主体所能真正享有的实有权利。司法救济在法定权利实现中起