基于统计的无监督新词和组合词发现算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：babyleah

【摘要】

：

当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。　　当前新词识别

【作者】

：

白雪东

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2011年期

【关键词】

：

无监督新词组合词发现算法中文分词系统文本数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。　　当前新词识别算法包括有监督和无监督两种,但是有监督需要一个详细标注的语料库,往往获得这样的一个语料库是相当困难的。不同的是无监督所需要的先验知识就要少得多,并且能方便的使用相应的度量准则衡量一个候选词成为一个新词的可能性。然而当前无监督算法收词频的影响较大,对稀疏的文本数据集来说处理效果是不能令人满意的。　　本文主要研究基于统计的无监督中文新词发现算法和组合词识别算法。并相应的提出了:重叠子字符串新词度量准则和改进的重叠子字符串组合词度量准则。重叠子字符串新词度量准则从候选词的内部和候选词的外部同时考虑一个候选词成为新词的可能性,并使用相对词频,所以能较好的处理相对稀疏的文本数据。并与另外三个现存的新词发现算法做了实验对比,实验结果表明我们的新词发现算法,比这三个对比算法有较大改进。改进的重叠子字符串组合词度量准则,主要是面对当前自然语言处理中的概念抽取问题,能较好的获取文本集中的概念。本文在实验中将改进前和改进后的算法做了对比,实验结果表明改进后的重叠子字符串组合词度量准则较改进前的有较大提升。　　由于本文算法的特性,使用的是相对词频,所以对词频高的词并没有较大的偏倚,且能给较低词频的词较高的算法统计结果,所以如果需要处理的文本集较大时,可以将其分割成许多较小的数据集,这样就能并行的处理每个数据集,使系统的负载能力更强。

其他文献

可信自治式服务协同中柔性自维护机制研究

服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,

学位

契约履行服务协同虚拟组织政策柔性调度自维护

基于间隔事件的时间模式挖掘算法研究

本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成，其中事件发生在时间间隔内，我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以

学位

间隔事件时间模式挖掘算法剪枝策略Apriori算法

呼吸气体信号分析与识别

中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代

学位

呼吸诊断气体模式识别数据处理稀疏表示最优化模型

基于Map-Reduce并行计算模式的大量数据自动聚类算法研究

作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不

学位

并行计算模式自动聚类算法无监督学习数据挖掘

健康领域热点事件自动检测与跟踪

随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信

学位

健康领域热点事件自动检测话题跟踪网络信息处理类别特征域领域词典动态特征提取

基于鱼群算法的无线传感器网络覆盖优化研究

无线传感网络的覆盖控制是无线传感器网络的一个基本问题,它反映了传感器网络所能提供的“感知”服务质量。在野外、敌对等环境中布置无线传感器网络的时候,往往只能采用空投

学位

无线传感网络(WSN)鱼群算法节点调度覆盖优化能量均衡

安卓平台下基于相似度的恶意软件特征提取与检测研究

随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶

学位

安卓程序恶意软件谷歌距离SVM源码分析

基于角色带信任度的使用控制模型的研究与管理

美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的

学位

RTUCON模型信任度角色信息访问控制时序逻辑网络安全

分布式容错检查点算法研究与软件设计

计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确

学位

分布式系统容错检查点算法马尔可夫决策过程

基于神经网络的多模型融合金融时间序列分析方法

时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变

学位

金融时间序列基金净值支持向量回归机神经网络

基于统计的无监督新词和组合词发现算法研究

其他学术论文