基于粗集的汉语建模及其应用研究

被引量 : 0次 | 上传用户:huapdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言建模是保证计算机能够以可计算的方式对各种语言信息进行有效的处理与应用的基础,尽管基于统计的自然语言模型已经获得了成功应用,当前人们仍然面临如何更加高效、准确地获取语言学知识,同时对各种冗余信息进行有效剪切的问题。为了解决上述问题,同时考虑到粗集技术能够有效地解决信息冗余、冲突、模糊等问题,本文通过引入粗集技术,探索从大规模非结构化的自然语言文本中自动获取语言学规则的方法与模型,研究借助粗集技术来考察自然语言建模的特点以及建模过程中所面临的主要问题、相应的解决方法,在此基础上,进一步研究所建立的语言模型在自然语言处理中的应用。本文研究的主要内容包括以下四部分: 第一,本文以汉语音字转换任务所面临的问题为起点,研究文本信息的结构化方法,并在此基础上建立了一个基于粗集的从大规模文本语料库中获取汉语音字转换规则的语言学知识发现模型,研究了模型的实现方法,并通过实验评测了模型的性能。模型的主要优点在于能够针对不同应用所提供的特征来完成对规则库的约简,降低信息冗余,尽管模型所挖掘的规则是应用相关的,但由于所有规则是自动获取的,所以模型本身仍然具有很好的移植性。第二,由于传统的统计语言模型不能有效解决远距离约束问题,为解决这一问题,我们研究了将粗规则集与统计语言模型进行融合的方法。首先针对存储空间受限的应用领域,研究了基于候选剪切及基于线性插值的方法来融合粗规则集以及字tri-gram模型时的模型性能及特点,然后针对通用领域,研究了在最大熵框架下将粗规则集与基于词的tri-gram模型进行融合的方法,并在此基础上建立了一个基于最大熵和粗规则集的统计语言模型。实验结果表明,将粗规则集与统计语言模型进行融合能够有效的改进传统统计语言的性能。第三,汉语语义的量化建模是进行语义辨识以及语义相似度计算的基础,本文通过采用统计的方法来建立词空间,并将一个词语的上下文映射到该词空间来进行词语的语义量化并建立了相应的量化模型。为了减少计算语义相似度的时间复杂度,我们引入了粗集技术中的属性约简算法来进行词矢量空间的属性约简及坐标词选择,研究了对连续的属性值的离散化处理问题。通过采用伪词的方法对语义量化模型的评测结果显示模型具有较强的语义量化能力及实际
其他文献
本专题针对预制式二次设备舱距离一次设备距离近,电磁辐射干扰大的特点,对二次设备舱体的电磁屏蔽性能进行了研究,同时,对舱体及屏柜的接地方式,接地件材料进行了优化。
在网络时代中,少儿网民占总体网民的比重在不断上升。但是,在成人化的网络世界里,真正属于少年儿童的空间很少,网络给少年儿童带来的负面效应日益凸现,社会各界都在关注这一
随着社会的进步和人们生活水平的提高,人们对带宽的需求也快速增长。以无源光网络(PON)技术为代表的光纤接入技术在全球获得了广泛的应用,在中国的发展最快,应用规模最大。但在
嘉兴地处中国“长三角经济圈”中心,经济发达,交通便利。制革工业历史悠久,皮革文化底蕴深厚,皮张加工产业特色显著,是中国牛皮革沙发、沙发套、裘革皮服装及其制品的主要加工出口
在环境保护工作中,环境监测和环境监察为两个重要的组成部分,通过二者的互相配合使用,对环境进行统一的管理与监督,从而更好地实施环境保护工作。下面笔者就环境监测和环境监
目的:关于病患护理工作,探讨PDCA循环管理模式对其的促进作用和临床实效性。方法:选取60例作为试验对象,对此60例患者的护理工作实施PDCA循环管理模式,作为A组。另外从本科病
目的总结难愈性伤口应用负压封闭引流(VSD)技术的效果和护理要点。方法回顾性分析2009年2月至2012年3月对48例难愈性创面病人应用VSD技术后的疗效。结果使用VSD较传统方法效
本文分析了高职院校开展网络创业教育的意义,勾画了网络创业课程的知识体系,提出了网络创业课程的实施策略,并结合笔者的研究与教学实践,总结归纳了开展网络创业教育的四种实
随着生产力发展,人民生活水平和身体素质的提升,广大人民群众对体育运动和赛事的热情日渐高涨。提高国民的身体素质是建设社会主义现代化国家的重要任务。高校学生作为建设祖
目的:观察电针配合腹部走罐治疗单纯性肥胖症的临床疗效。方法:34例单纯性肥胖症患者采用电针配合腹部走罐的方法治疗,隔日1次,10次为1疗程。结果:34例患者中,显效18例,有效1