基于统计的无监督新词和组合词发现算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:babyleah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。  当前新词识别算法包括有监督和无监督两种,但是有监督需要一个详细标注的语料库,往往获得这样的一个语料库是相当困难的。不同的是无监督所需要的先验知识就要少得多,并且能方便的使用相应的度量准则衡量一个候选词成为一个新词的可能性。然而当前无监督算法收词频的影响较大,对稀疏的文本数据集来说处理效果是不能令人满意的。  本文主要研究基于统计的无监督中文新词发现算法和组合词识别算法。并相应的提出了:重叠子字符串新词度量准则和改进的重叠子字符串组合词度量准则。重叠子字符串新词度量准则从候选词的内部和候选词的外部同时考虑一个候选词成为新词的可能性,并使用相对词频,所以能较好的处理相对稀疏的文本数据。并与另外三个现存的新词发现算法做了实验对比,实验结果表明我们的新词发现算法,比这三个对比算法有较大改进。改进的重叠子字符串组合词度量准则,主要是面对当前自然语言处理中的概念抽取问题,能较好的获取文本集中的概念。本文在实验中将改进前和改进后的算法做了对比,实验结果表明改进后的重叠子字符串组合词度量准则较改进前的有较大提升。  由于本文算法的特性,使用的是相对词频,所以对词频高的词并没有较大的偏倚,且能给较低词频的词较高的算法统计结果,所以如果需要处理的文本集较大时,可以将其分割成许多较小的数据集,这样就能并行的处理每个数据集,使系统的负载能力更强。
其他文献
服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,
本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成,其中事件发生在时间间隔内,我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以
中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不
随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信
无线传感网络的覆盖控制是无线传感器网络的一个基本问题,它反映了传感器网络所能提供的“感知”服务质量。在野外、敌对等环境中布置无线传感器网络的时候,往往只能采用空投
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶
美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确
时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变