基于领域特殊性和统计语言知识的新词抽取方法

来源 :北京理工大学 | 被引量 : 0次 | 上传用户：xzjwl

【摘要】

：

近年来,随着经济社会的快速发展,大量新词出现在人们生活中。在自然语言处理领域,许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术,新词抽取技术

【作者】

：

梅莉莉

【出处】

：

北京理工大学

【发表日期】

：

2016年期

【关键词】

：

新词抽取分词领域特殊性统计语言知识领域词语抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着经济社会的快速发展,大量新词出现在人们生活中。在自然语言处理领域,许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术,新词抽取技术具有巨大的研究价值和实际应用前景。本文提出了一种新颖的新词抽取方法,主要工作如下:1.提出了一个基于领域特殊性和统计语言知识的新词抽取方法。通过观察、分析语料的特点,采用基于领域特殊性的垃圾串过滤方法过滤垃圾串,得到候选新词列表;然后基于统计语言知识(包括词频、内部结合紧密性)对新词进行抽取。实验验证了该方法的有效性。2.新词抽取方法的优化,从两个方面对新词抽取方法进行了优化:优化内部结合紧密性,采用EMI来衡量,替换PMI;引入上下文外部特征,采用左熵和右熵来衡量词语的自由度。并从多方面采用多种方法评估比较该方法的效果,评估不同统计特征的结合以及调整参数。实验结果显示,相比未优化前的方法,新词抽取的效果得到大大提升,准确率最大提升39%,召回率最大提升63%。3.新词抽取方法的应用验证,将抽取的新词应用在分词系统中,实验结果显示,在含有新词的语料上,分词效果提升了10%;另外,新词抽取方法能够应用在英文领域词典的构建上。实验验证了本文方法可扩展性和语言独立性的特点。基于领域特殊性和统计语言知识的新词抽取方法是一种无监督的方法,它不需要训练语料,不需要定义规则,克服了传统方法的缺点。此外,本文方法具有很强的可扩展性和语言独立性,能够抽取大量的新词和领域词语。

其他文献

博物馆,如何让你的文物活起来

博物馆社会教育功能日渐重要,发挥教育功能就是实践习近平总书记提出的"让文物活起来"这一理论。博物馆的文物如何活起来,是如今博物馆工作者普遍思考的问题。馆藏文物的活跃

期刊

博物馆藏品展厅文物社会教育

兰州重离子加速器研究装置HIRFL

兰州重离子加速器装置HIRFL是目前我国规模最大、加速离子种类最多、能量最高的重离子研究装置,主要技术指标达到国际先进水平,是世界上几个重要的核物理研究设施之一.HIRFL

期刊

重离子加速器回旋加速器同步加速器储存环离子

高校图书馆学科化信息服务的思考

开展学科化服务是高校图书馆信息服务的发展方向，本文论述了目前高校图书馆开展学科化信息服务中出现的问题，并进一步探讨了解决的方法．提出了相应的建议。

期刊

学科化服务学科馆员高校图书馆服务模式subject service subject librarian university library servi

营养、家庭经济因素与儿童期及成年后肥胖关系的研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

儿童期肥胖成年期肥胖膳食模式社会经济地位生命早期营养不良

面向统一模式的飞行电报自动受理关键技术研究

空中交通管理单位受理航空公司提交的飞行计划申请,传统的模式是各地分散受理,存在资源重复设置、自动化程度低、沟通反馈机制差等缺点。面向统一模式的飞行电报自动受理方法

期刊

放行报统一模式自动受理

新桥硫铁矿采场及巷道顶板安全维护实践

针对新桥硫铁矿时常出现顶板垮塌的安全问题，分析了该矿采场顶板冒落的原因和巷道顶板事故的成因；并介绍了该矿采场顶板管理的措施和巷道支护技术。多年的生产实践表明，该矿的顶

期刊

上向水平分层充填采矿法顶板支护顶板管理upward horizontal cut and fill stoping method support of r

马路坪磷矿采场长锚索支护顶板锚固规律研究

开磷集团马路坪矿采用锚杆护顶分段空场法开采，开挖后采场顶板用预应力锚索进行支护。为保证采场预应力锚索加固技术安全、经济、可靠，通过力学模型对矿山的预应力锚索的极限承

期刊

磷矿开采采场稳定长锚索支护锚固规律phosphate ore mining stope stability long cablesupports an

信息技术条件下的农村初中英语教学研究

将初中英语教学与信息技术进行整合,要以提高课堂趣味性为出发点,加入游戏、故事、歌曲等新鲜元素,吸引学生学习兴趣,为学生营造一个更舒适的学习氛围。只有不断提高学生对英

期刊

信息技术英语教学农村

基于领域特殊性和统计语言知识的新词抽取方法

其他学术论文