【摘 要】
:
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分
【机 构】
:
武汉大学计算机学院,湖北科技学院计算机科学与技术学院
【基金项目】
:
国家自然科学基金重点资助项目(61133012),国家自然科学基金资助项目(61173062,61373108),国家社会科学基金重点资助项目(11&ZDl89)
论文部分内容阅读
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.
其他文献
小鸡问:“为什么人类都有名字,而我们没有?”母鸡说:“那是因为我们还没死,死了就有很多名字啦!”小鸡又问:“那我们会叫什么名字?”母鸡说:“炸鸡、咖喱鸡、白斩鸡、烧鸡、叫花鸡……”(周继红)
小班健康活动《蚂蚁运粮》是我听过的一节相当成功的公开课,执教者以"精""异""活"的细节使教学精彩纷呈,魅力无限。一、精彩片段回放【片段一】执教者扮蚂蚁妈妈,幼儿扮蚂蚁宝宝,听
我独自出门总是迷路,基本每次都得给老妈打电话求助:“我现在在……然后往哪儿走?”而我老妈對我说得最多的话就是“站那儿别动”“拐反了,又拐错了”“赶紧停住,站在原地,等我去接你”。嗯,还是亲妈让人放心。