半监督算法在自然语言处理中应用的研究

被引量 : 0次 | 上传用户:zhj8028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术的发展给人们生活带来了很多方便。有监督学习方法在自然语言处理领域取得了巨大成功,然而由于其依赖大量的标注语料,很难扩展到标注语料缺乏的情况。自然语言处理领域有很多任务缺乏标注语料,但是未标注语料却很容易获得,此时,半监督学习是一个好的选择。半监督学习主要研究内容是如何同时利用标记数据和无标记数据,获得比仅能利用标记数据的有监督学习方法更好的性能。目前,半监督学习受限于高昂的计算代价,不能很好的应用与规模较大的自然语言处理任务中。本文主要研究了如何将基于主动学习(active learning)以及基于图(graph based)的半监督机器学习算法更好的应用于自然语言处理任务中。首先,本文提出了一种基于主动学习策略的半监督支持向量机框架,使用平均随机梯度下降(ASGD)方法做模型求解,并重点研究了合理的主动学习策略,将时间和空间复杂度都降到了线性。在文本分类和情感分类的实验结果证明我们的方法能够和其他主流的半监督支持向量机达到相当的效果,并且大幅的提升了训练速度。同时,该学习框架也可以推广到其他半监督学习模型中。然后,本文研究了基于图的半监督算法在词性标注上的应用,将基于锚图的标记传播算法应用到了词性标注任务中,重点研究了自然语言处理中数据稀疏的解决办法,探讨了词向量的使用方式。实验结果表明基于图的半监督算法结合词向量的上下文特征表示方式可以有效提高词性标注准确率。本文又对上述两种机制的算法进行了深入的分析比较,从理论和实验上分析了两种方法的原理,基本假设,时间空间复杂度和适合的特征,并给出了面对实际问题时如何选择两种方法的建议。最后,本文将基于图的半监督算法应用于跨语言词性标注任务中,解决未登录词的词性估计问题,实验结果证明,相比于传统的标记传播算法,基于锚图的标记传播算法结合词向量特征的表示方式可以更有效的利用语料的信息,提高跨语言词性标注的准确率。
其他文献
<正>赛缪尔·约翰逊认思:咖啡馆不只是出售咖啡的场所,还是一种思想、一种生活方式、一种社交模型、一种哲学理念。这就体现出了设计咖啡店不仅仅是设计出可以饮用咖啡的店子
地铁屏蔽门作为城市轨道交通系统中的重要组成部分,保障其控制系统的供电是屏蔽门安全可靠运行的基本前提。根据地铁屏蔽门控制系统供电直流UPS电源模组的要求,该文首先设计
<正>春秋时代战争频繁,《左传》记录的就有大大小小几百次。《左传》中的战争叙述,是作者用力用心、荡气回肠的文字。战争乃两军相攻,车毂击驰,杖戟相迫,死伤之状,惨不忍睹。
<正>观人学源远流长,最早被当作甄别人才的标准,出现在儒家的文献典籍中:"昔尧取人以状,舜取人以色,禹取人以言,汤取人以声,文王取人以度,此四代五王之取人以治天下如此"(《
能源当中农村能源是非常重要的组成体系。农村能源消费方式的落后及能源结构的不合理不仅影响农村地区居民的居住环境,同时也对农村环境、经济、社会的和谐发展产生了制约。
近年来,银行竞争愈演愈烈:一方面,随着互联网金融的发展、利率市场化的推行,银行依靠存贷利差等传统业务收入逐渐减少;另一方面,银行物理网点承受着房租飞涨、人工成本上升等压力。虽然线下物理网点逐渐式微,但是银行物理网点作为吸收存款、获取收益的触角和主要场所,纯线上渠道仍无法完全将其取代,银行物理网点仍有其存在的必要性。面对互联网金融等多重现实压力与挑战,如何提高银行的经营效益,是摆在其面前的一项亟待解
内容当前互联网金融环境可以说是瞬息万变的,金融机构内储存了庞大的数据,客户数据也呈现出爆发式的增长。为了提升系统的处理和运算能力、更好地服务客户,云金融概念被提出。互
伴随着经济全球化的进程的不断加速,区际间的交流与合作日显密切,区域间经济合作己成为一个地区融入到更大区域追求经济快速发展的重要手段与方式,同时也成为了世界经济发展的趋
无机纳米粒子相对于其体相微米粒子往往会展现出特异的物理化学性质,当这些纳米粒子聚集(或者说组装)在一起时,又会进一步表现出区别于无序纳米粒子的独特电学、光学等性质。金纳
微细切削技术是在传统切削理论和技术的基础上,融合了多项高新技术发展起来的面向微小型结构件加工需求的微细加工技术。作为微细切削加工的执行单元,微细切削刀具的设计与制造