基于迁移的微博分词和文本规范化联合模型

来源 :华南理工大学学报：自然科学版 | 被引量 : 0次 | 上传用户：lvlaoban0

【摘要】

：

传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分

【作者】

：

钱涛姬东鸿戴文华

【机构】

：

武汉大学计算机学院,湖北科技学院计算机科学与技术学院

【出处】

：

华南理工大学学报：自然科学版

【发表日期】

：

2015年11期

【关键词】

：

分词文本规范化域适应迁移模型微博

【基金项目】

：

国家自然科学基金重点资助项目（61133012）,国家自然科学基金资助项目（61173062,61373108）,国家社会科学基金重点资助项目（11＆ZDl89）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.

其他文献

名字

小鸡问：“为什么人类都有名字，而我们没有？”母鸡说：“那是因为我们还没死，死了就有很多名字啦！”小鸡又问：“那我们会叫什么名字？”母鸡说：“炸鸡、咖喱鸡、白斩鸡、烧鸡、叫花鸡……”（周继红）

期刊

中学生作文语文学习课外阅读

三“细”成精彩——小班健康活动《蚂蚁运粮》听课随感

小班健康活动《蚂蚁运粮》是我听过的一节相当成功的公开课,执教者以＂精＂＂异＂＂活＂的细节使教学精彩纷呈,魅力无限。一、精彩片段回放【片段一】执教者扮蚂蚁妈妈,幼儿扮蚂蚁宝宝,听

期刊

健康活动蚂蚁小班“细”随感听课准备运动执教者

还是亲妈好

我独自出门总是迷路，基本每次都得给老妈打电话求助：“我现在在……然后往哪儿走？”而我老妈對我说得最多的话就是“站那儿别动”“拐反了，又拐错了”“赶紧停住，站在原地，等我去接你”。嗯，还是亲妈让人放心。

期刊

中学生作文语文学习课外阅读

基于迁移的微博分词和文本规范化联合模型

其他学术论文