中文微博文本规范化方法及关键技术研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:gaccia_zhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介及社会公共舆论、企业品牌和产品推广、传统媒体传播的重要平台。然而由于微博文本存在大量的非规范词现象,使得传统的自然语言工具在处理微博文本时性能较低。因此文本规范化已成为微博文本分析的一个重要预处理过程。不同于英文非规范词通常属于词典外的词,中文非规范词形式更加复杂,如语音替换、缩写、释义和新词等。本文主要研究基于中文微博文本的规范化。传统的方法通常把非规范词看作是一个拼写错误,采用噪音模型或翻译模型来进行规范化。另一些方法尝试从语义的角度来研究文本规范化,但仍面临着一些关键挑战。本文根据中文微博文本的语言特点,研究了中文微博文本规范化所面临的三个关键问题:非规范词词义学习、非规范词与规范词对关系挖掘和文本规范化与分词联合处理。具体工作如下:一、基于词汇链超图的词义归纳模型微博中非规范词大部分表示为新的词义,识别非规范词可以看作是一个消歧任务,但传统的词典显然已不能满足要求,关键是如何从微博文本中学习或归纳微博词义。词义归纳是一个非监督任务,目的是从大规范文本中归纳目标单词的词义。本文提出一个基于词汇链超图的词义归纳模型。该模型采用词汇链表示目标单词的多实例间高阶语义关系,然后利用词汇链来构建超图模型。该模型从全局的角度抓住了复杂的高阶语义关系。实验结果显示本文所提模型的有效性。此外实验显示了词汇链对系统性能的影响,且显示单词的词义数目及语义粒度对词义归纳系统的性能有较大影响。二、基于嵌入表示学习的非规范词-规范词对关系挖掘非规范词通常有固定的规范词与之对应,构建非规范词典有助于文本规范化。其关键是如何从大规模微博文本中挖掘出非规范词-规范词对关系。假设非规范词与规范词具有相同的词义,本文提出一个基于嵌入表示的多词义学习模型,该模型克服了传统多词嵌入表示中不同词的词义表示是相互独立的,提出在学习全局的多词义嵌入表示方法时,同时学习出同义关系。该模型通过引入窗口位置信息,有效的解决了表示偏差问题。利用该模型,采用过滤和分类等后处理,提出一个从大规模微博语料中挖掘非规范词-规范词对关系的框架。实验结果显示该方法的有效性。三、联合分词、词性标注和文本规范化模型本文探索文本规范化及其应用研究。针对中文微博存在分词问题,提出一个联合分词、词性标注和文本规范化模型。该模型在基于迁移的联合分词与词性标注模型的基础上,通常增加迁移行为来对文本进行规范化。分词在规范的文本中进行,而好的分词有助于发现非规范化词,从而有利于规范化。该模型能有效利用标准的标注语料进行训练,克服了缺少语料的问题。使用两类特征对模型打分,其中规范文本特征可作为公共特征,非规范化文本作为域特征,自然的实现了特征扩充,使该模型具有较好的域适应性。实验结果显示,联合模型能使三个任务彼此受益,且语言统计特征有助于提高它们的性能。
其他文献
分析了公安院校当前在计算机基础课程教学中存在的问题,并针对这些问题提出一些改进的措施和建议,以适应当前公安教育的需要。
目的:通过对78例颈椎病的针刀为主治疗,观察临床疗效,探讨治疗机理。方法:78例颈椎病患者,以针刀局部松解为主,辅以手法、牵引、中药治疗。结果:78例患者中,痊愈32例(占41%)显效23例(占29
目的分析超早期神经康复护理对高血压脑出血患者预后的影响。方法选取2017年5月-2018年5月在我院接受治疗的重症高血压脑出血患者共80例分为观察组和对照组,其中对照组采用常
文章运用2009年我国证券市场数据资料,分析了公允价值变动损益的价值相关性,结果发现,市场无法区分高持续性经营收益和低持续性公允价值变动收益在证券估值中的作用,建议通过
钢丝绳的可靠性计算本钢工学院殷宏1引言钢丝绳是一种常用的起重零件,由于它是由钢丝捻制而成的,内部钢丝的受力情况很复杂,因此,迄今为止的钢丝绳选择方法仍然采用静拉力安全系数
目的分析并探讨腹腔镜辅助经肛内镜结直肠癌根治术的临床效果及安全性。方法选取2009年3月至2014年4月结直肠癌患者80例。根据治疗方法将患者分为腹腔镜伴肛内镜组和传统开腹
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的 探讨3D腹腔镜根治术治疗右半结肠癌的临床疗效及安全性。方法 回顾性分析2014年1月至2016年1月接受治疗的53例右半结肠癌患者的临床资料,根据手术方式分为3D组28例和2D
螺旋锥齿轮啮合时产生的附加动载荷是螺旋锥齿轮传动产生振动,噪声的主要原因。本文根据国家提出了以附加动载荷和振最小为双目标的模糊优化数学模型。在充分考虑影响螺旋锥齿
¥南京建筑工程学院@张元元@王强@严骏多年来,在机械设备的预防维修过程中,油液分析技术被用来预测即将到来的机械故障。油液分析的基本依据是,所有机械系统在运转过程中均同时经历着