中文微博文本规范化方法及关键技术研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户：gaccia_zhou

【摘要】

：

近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒

【作者】

：

钱涛

【出处】

：

武汉大学

【发表日期】

：

2016年01期

【关键词】

：

中文微博文本规范化词义学习关系挖掘联合模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介及社会公共舆论、企业品牌和产品推广、传统媒体传播的重要平台。然而由于微博文本存在大量的非规范词现象,使得传统的自然语言工具在处理微博文本时性能较低。因此文本规范化已成为微博文本分析的一个重要预处理过程。不同于英文非规范词通常属于词典外的词,中文非规范词形式更加复杂,如语音替换、缩写、释义和新词等。本文主要研究基于中文微博文本的规范化。传统的方法通常把非规范词看作是一个拼写错误,采用噪音模型或翻译模型来进行规范化。另一些方法尝试从语义的角度来研究文本规范化,但仍面临着一些关键挑战。本文根据中文微博文本的语言特点,研究了中文微博文本规范化所面临的三个关键问题：非规范词词义学习、非规范词与规范词对关系挖掘和文本规范化与分词联合处理。具体工作如下：一、基于词汇链超图的词义归纳模型微博中非规范词大部分表示为新的词义,识别非规范词可以看作是一个消歧任务,但传统的词典显然已不能满足要求,关键是如何从微博文本中学习或归纳微博词义。词义归纳是一个非监督任务,目的是从大规范文本中归纳目标单词的词义。本文提出一个基于词汇链超图的词义归纳模型。该模型采用词汇链表示目标单词的多实例间高阶语义关系,然后利用词汇链来构建超图模型。该模型从全局的角度抓住了复杂的高阶语义关系。实验结果显示本文所提模型的有效性。此外实验显示了词汇链对系统性能的影响,且显示单词的词义数目及语义粒度对词义归纳系统的性能有较大影响。二、基于嵌入表示学习的非规范词-规范词对关系挖掘非规范词通常有固定的规范词与之对应,构建非规范词典有助于文本规范化。其关键是如何从大规模微博文本中挖掘出非规范词-规范词对关系。假设非规范词与规范词具有相同的词义,本文提出一个基于嵌入表示的多词义学习模型,该模型克服了传统多词嵌入表示中不同词的词义表示是相互独立的,提出在学习全局的多词义嵌入表示方法时,同时学习出同义关系。该模型通过引入窗口位置信息,有效的解决了表示偏差问题。利用该模型,采用过滤和分类等后处理,提出一个从大规模微博语料中挖掘非规范词-规范词对关系的框架。实验结果显示该方法的有效性。三、联合分词、词性标注和文本规范化模型本文探索文本规范化及其应用研究。针对中文微博存在分词问题,提出一个联合分词、词性标注和文本规范化模型。该模型在基于迁移的联合分词与词性标注模型的基础上,通常增加迁移行为来对文本进行规范化。分词在规范的文本中进行,而好的分词有助于发现非规范化词,从而有利于规范化。该模型能有效利用标准的标注语料进行训练,克服了缺少语料的问题。使用两类特征对模型打分,其中规范文本特征可作为公共特征,非规范化文本作为域特征,自然的实现了特征扩充,使该模型具有较好的域适应性。实验结果显示,联合模型能使三个任务彼此受益,且语言统计特征有助于提高它们的性能。

其他文献

针刀为主综合治疗颈椎病78例

目的：通过对78例颈椎病的针刀为主治疗，观察临床疗效，探讨治疗机理。方法：78例颈椎病患者，以针刀局部松解为主，辅以手法、牵引、中药治疗。结果：78例患者中，痊愈32例（占41％）显效23例（占29

期刊

颈椎病针刀疗法手法

超早期神经康复护理对高血压脑出血患者预后的影响

目的分析超早期神经康复护理对高血压脑出血患者预后的影响。方法选取2017年5月-2018年5月在我院接受治疗的重症高血压脑出血患者共80例分为观察组和对照组,其中对照组采用常

期刊

超早期手术干预脑出血神经功能康复

公允价值会计存在的问题与应对策略——来自我国A股市场2009年价值相关性分析的证据

文章运用2009年我国证券市场数据资料,分析了公允价值变动损益的价值相关性,结果发现,市场无法区分高持续性经营收益和低持续性公允价值变动收益在证券估值中的作用,建议通过

期刊

公允价值价值相关性应对策略

腹腔镜辅助经肛内镜结直肠癌根治术的安全性及可行性

目的分析并探讨腹腔镜辅助经肛内镜结直肠癌根治术的临床效果及安全性。方法选取2009年3月至2014年4月结直肠癌患者80例。根据治疗方法将患者分为腹腔镜伴肛内镜组和传统开腹

期刊

直肠肿瘤直肠镜检查结直肠外科手术Rectal neoplasms Proctoscopy Colorectal surgery

丛枝菌根对西瓜蔓枯病的抑制效果及作用机理

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

西瓜丛枝菌根菌剂活性氧、活性氮

3D与2D腹腔镜根治术治疗右半结肠癌的疗效对比

目的探讨3D腹腔镜根治术治疗右半结肠癌的临床疗效及安全性。方法回顾性分析2014年1月至2016年1月接受治疗的53例右半结肠癌患者的临床资料,根据手术方式分为3D组28例和2D

期刊

结肠肿瘤肠系膜腹腔镜疗效比较研究Colonic neoplasmsMesenteryLaparoscopesComparative effectiven

中文微博文本规范化方法及关键技术研究

其他学术论文