网络新词发现算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zxhua2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网正深刻地影响着人们的学习、工作、生活娱乐等各个方面,也改变了人们日常的沟通表达方式,网络新词的不断涌现就是一个很好的证明。在印欧体系语言中词语之间会存在空格这种天然的分隔符号,与之不同的是中文词语之间没有这种的空格。而中文的最小独立语言单位是词,所以要想让计算机有效地识别中文最初需要对其进行分词。但是新词的涌现会让中文分词后的结果产生很多不好辨别的“字符串碎片”,而这些“字符串碎片”会对分词结果的准确率造成了很大的影响。有学者做过研究统计,导致中文分词错误的大部分原因是由新词引起的。假如我们能够迅速地识别网络新词并将识别到的新词及时加入到中文词典进行更新,这对于提高中文分词系统的准确率和效率将有非常大的帮助。因此对新词识别的研究现已成为了中文自然语言处理中一个非常重要的问题。近年来,很多学者和研究机构在新词识别这一领域做了许多研究工作,也取得了一些成果,但是新词识别的准确率还不够高。为了解决这个问题,本文基于微博消息的特点提出了一种新词识别方法。首先为了确保语料的时效性,本文利用网络爬虫抓取新浪微博消息构建了一个语料库。其次利用原子切分和N-gram算法对微博消息进行切分统计获得候选字符串,并对其进行过滤得到候选新词。接着本文根据微博消息的特点(大信息量和用词趋简性的特点)提出了一种新词识别方法。然后本文将新词识别和分词结合起来,并利用分词后的结果来检测识别候选新词。最后本文利用平均互信息对上面提出的方法做了进一步的改进,提升了新词识别的效率。对比其他新词识别方法,实验结果表明本文提出的新词识别方法能有效地识别新词。
其他文献
随着IP网络飞速发展与普及,网络的优化设计变得越来越重要。其中,如何在满足网络性能要求的情况下进行网络优化,建立起经济、高性能、可靠的网络,已经成为网络优化设计的一个重要
软件自动化测试是软件测试体系中的一个重要分支,是实现测试自动化战略的重要组成部分。实施正确合理的自动化测试能分担手工测试的工作量,特别是对回归测试,功能测试等,从而保证
人脸检测与识别技术是人工智能和机器视觉领域内最具挑战性的研究课题之一。让计算机可以像人类一样能够记忆、识别人脸一直是众多计算机科学工作者追求的目标。人脸自动识别
近年来,随着信息技术的快速发展、网络传输速率的大幅提高、以及移动通讯设备的逐渐普及,移动增值业务作为移动应用的一个主要方面,得到了空前的发展。 在名目繁多的增值业务
随着社交网络的飞速发展,越来越多的用户参与到微博等在线社交活动中。微博实时更新的热点话题,是与社会事件和人们关注的焦点有密切关系的。提炼微博话题的情感摘要,可方便
多媒体技术和Internet技术的普及导致了大量图像信息的出现,传统的文本关键词检索方法已经不能适应图像信息的检索需求,基于内容的图像检索技术成为目前研究的热点。本文在对基
随着信息时代的来临,互联网上的海量信息给人们的工作、学习、生活带来了诸多便利,但是网络上还充斥着许多含有色情、反动、暴力等内容的敏感信息,对青少年的成长甚至对社会秩序
Internet技术的迅速发展使得网络成为人们获取知识的主要途径之一。近年来,E-learning的应用和研究领域飞速发展,为用户提供了前所未有的丰富的学习资源和灵活的学习方式,同时使
在过去的十年里,随着 IEEE802.11p标准和IEEE1609标准的出现,一些智能交通系统的传输结构正在发生改变。一种新型的网络--车辆自组织网络(VANET)也应运而生。VANET是移动自组织网
知识融合算法是知识融合的核心部分,其目的是将多个知识库进行融合,形成新知识库。在人类认知的世界和各应用领域中,很多概念是模糊不清的,不再是精确表示的。模糊知识融合算法过