基于领域特殊性和统计语言知识的新词抽取方法

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:xzjwl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着经济社会的快速发展,大量新词出现在人们生活中。在自然语言处理领域,许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术,新词抽取技术具有巨大的研究价值和实际应用前景。本文提出了一种新颖的新词抽取方法,主要工作如下:1.提出了一个基于领域特殊性和统计语言知识的新词抽取方法。通过观察、分析语料的特点,采用基于领域特殊性的垃圾串过滤方法过滤垃圾串,得到候选新词列表;然后基于统计语言知识(包括词频、内部结合紧密性)对新词进行抽取。实验验证了该方法的有效性。2.新词抽取方法的优化,从两个方面对新词抽取方法进行了优化:优化内部结合紧密性,采用EMI来衡量,替换PMI;引入上下文外部特征,采用左熵和右熵来衡量词语的自由度。并从多方面采用多种方法评估比较该方法的效果,评估不同统计特征的结合以及调整参数。实验结果显示,相比未优化前的方法,新词抽取的效果得到大大提升,准确率最大提升39%,召回率最大提升63%。3.新词抽取方法的应用验证,将抽取的新词应用在分词系统中,实验结果显示,在含有新词的语料上,分词效果提升了10%;另外,新词抽取方法能够应用在英文领域词典的构建上。实验验证了本文方法可扩展性和语言独立性的特点。基于领域特殊性和统计语言知识的新词抽取方法是一种无监督的方法,它不需要训练语料,不需要定义规则,克服了传统方法的缺点。此外,本文方法具有很强的可扩展性和语言独立性,能够抽取大量的新词和领域词语。
其他文献
博物馆社会教育功能日渐重要,发挥教育功能就是实践习近平总书记提出的"让文物活起来"这一理论。博物馆的文物如何活起来,是如今博物馆工作者普遍思考的问题。馆藏文物的活跃
兰州重离子加速器装置HIRFL是目前我国规模最大、加速离子种类最多、能量最高的重离子研究装置,主要技术指标达到国际先进水平,是世界上几个重要的核物理研究设施之一.HIRFL
开展学科化服务是高校图书馆信息服务的发展方向,本文论述了目前高校图书馆开展学科化信息服务中出现的问题,并进一步探讨了解决的方法.提出了相应的建议。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
空中交通管理单位受理航空公司提交的飞行计划申请,传统的模式是各地分散受理,存在资源重复设置、自动化程度低、沟通反馈机制差等缺点。面向统一模式的飞行电报自动受理方法
针对新桥硫铁矿时常出现顶板垮塌的安全问题,分析了该矿采场顶板冒落的原因和巷道顶板事故的成因;并介绍了该矿采场顶板管理的措施和巷道支护技术。多年的生产实践表明,该矿的顶
开磷集团马路坪矿采用锚杆护顶分段空场法开采,开挖后采场顶板用预应力锚索进行支护。为保证采场预应力锚索加固技术安全、经济、可靠,通过力学模型对矿山的预应力锚索的极限承
将初中英语教学与信息技术进行整合,要以提高课堂趣味性为出发点,加入游戏、故事、歌曲等新鲜元素,吸引学生学习兴趣,为学生营造一个更舒适的学习氛围。只有不断提高学生对英