【摘 要】
:
社交媒体具有文本不规范的特点,现有自然语言处理工具直接应用于社交媒体文本时效果不甚理想,并且基于关键词的算法和应用也达不到预期效果。因此,研究如何更好地规范化社交
【机 构】
:
四川大学计算机学院,浙江师范大学数理与信息工程学院,中国民用航空总局第二研究所信息技术分公司
【基金项目】
:
浙江省自然科学基金(LY12F02010), 四川省科学支撑项目(2014GZ0063)
论文部分内容阅读
社交媒体具有文本不规范的特点,现有自然语言处理工具直接应用于社交媒体文本时效果不甚理想,并且基于关键词的算法和应用也达不到预期效果。因此,研究如何更好地规范化社交媒体文本是非常有意义和价值的。本文基于社交媒体文本中非规范词与其规范形式具有相似上下文的假设,引入词嵌入模型来更好地刻画上下文的相似性,提出了一种改进的基于图的社交媒体文本规范化方法,该方法是无监督并且语言无关的,可以处理不同类型语言的大规模无标注社交媒体文本。实验结果表明,该方法能够改进前人方法的不足,并且在与相关方法的对比实验中取得了最好的F
其他文献
该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法.并且在
将含有低拷贝数的mini-F replicon,一个卡那霉素抗性基因和一个lacZα基因8.6kb的DNA片段经同源重组置换到棉铃虫核型多角体病毒基因组中的多角体蛋白基因内,构建了既能在E.col
高致病性禽流感最近在东南亚及我国部份地区暴发流行,引致养禽业巨大损失,并危及人类健康.流感病毒继SARS冠状病毒之后,一时成为热点话题.
2017年9月21日至22日,"第十六届少数民族语言文字信息处理学术研讨会"在广西壮族自治区桂林市隆重召开。本次会议由中国中文信息学会和中国中文信息学会民族语言文字信息专业委
不久前,我们一行应赵泰来邀请,来到南国广州,游览参观了这里远近闻名的宝墨园和新落成的南粤园。宝墨园和南粤苑坐落在广州市番禺区。宝墨园建筑面
现有的手写汉字脱机笔迹鉴别方法存在只能针对特定字符或需要大量样本字符等问题,为此提出一种基于笔画曲率特征的笔迹鉴别方法。首先运用数学形态学对采集的笔迹图像进行预
时间 可以回到起点 已经 不是昨天 有多少起点 就留下多少个感叹
研究了文山松毛虫质型多角体病毒(DpCPV-W)在Sf21细胞中的离体增殖行为,并进行了空斑试验,结果显示DpCPV-W毒株能够在Sf21细胞中增殖,也能在Sf21细胞上形成空斑,并能产生形态
为了解乙脑减毒活疫苗株SA14-12-1-7的神经毒力减毒机 制,用RT-PCR方法分别扩增不同减毒程度毒株的E基因,克隆、测序,继而对各毒株序列进 行比较.结果表明SA14-12-1-7强毒株