基于迁移的微博分词和文本规范化联合模型

来源 :华南理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:lvlaoban0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.
其他文献
小鸡问:“为什么人类都有名字,而我们没有?”母鸡说:“那是因为我们还没死,死了就有很多名字啦!”小鸡又问:“那我们会叫什么名字?”母鸡说:“炸鸡、咖喱鸡、白斩鸡、烧鸡、叫花鸡……”(周继红)
小班健康活动《蚂蚁运粮》是我听过的一节相当成功的公开课,执教者以"精""异""活"的细节使教学精彩纷呈,魅力无限。一、精彩片段回放【片段一】执教者扮蚂蚁妈妈,幼儿扮蚂蚁宝宝,听
我独自出门总是迷路,基本每次都得给老妈打电话求助:“我现在在……然后往哪儿走?”而我老妈對我说得最多的话就是“站那儿别动”“拐反了,又拐错了”“赶紧停住,站在原地,等我去接你”。嗯,还是亲妈让人放心。