融合词频特性及邻接变化数的微博新词识别

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户：echo19

【摘要】

：

大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻

【作者】

：

周超严馨余正涛洪旭东线岩团

【机构】

：

昆明理工大学信息工程与自动化学院计算机系,云南省计算机技术应用重点实验室,

【出处】

：

山东大学学报(理学版)

【发表日期】

：

2015年03期

【关键词】

：

邻接变化数微博新词字串频率统计成词规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。 A large number of new words accompanied with the rapid development of microblogging generated these new words with fast propagation and flexible combination with other features of the word, and in the word segmentation is easy to be cut into different strings. This paper proposes a new method of word recognition based on the combination of word frequency characteristics and adjacent changes. Firstly, the method divides the large-scale Weibo corpus, and then combines the adjacent strings in the two stop-phrases with each other to obtain new candidate strings according to the combined string frequency statistics. Then, Screening new candidate words, and finally by neighbors changing the characteristics of the word to remove the rubbish string to obtain new words. The new word discovery experiment was carried out on the COAE 2014 evaluation task using this method, with an accuracy rate of 36.5% and a good result.

其他文献

注塑成型工艺对汽车座椅塑料件力学性能的影响分析

在进行汽车座椅注塑成型技术的研发中,可以在进行技术设计的过程中使用限软件为技术的平台,将汽车座椅塑料件的注塑成型技术进行模拟,在注塑过程汽车的座椅塑料件进行实际工

期刊

注塑成型汽车座椅塑料件力学

早期汉语儿童语言中“了”的习得

儿童在早期习得汉语语言的过程中,和时体有关的词＂了＂大量出现。然而,在儿童早期的语料中,表示完成体标记的＂了1＂和表示现实关联性的＂了2＂的句法位置是重合的,确定早期＂了＂的性质对认

期刊

儿童语言习得了时体习得体标记

前驱体对多元醇还原制备超细镍粉的影响

采用Ni（NO3）2·6H2O、NaOH、乙二醇（EG）和聚乙烯吡咯烷酮（PVP）为原料，用多元醇法制备超细镍粉。研究前驱体对产物粒径和形貌的影响。结果表明，前驱体制备过程中，pH值应控制在11左

期刊

金属材料超细镍粉多元醇法前驱体

19世纪福州基督教教堂建筑研究

教堂建筑作为见证基督教在福州发展的一面镜子,折射着时代的文化。本文通过教堂建筑遗存的调研和史料的考证,从福州的近代开埠概况、福州基督教的教堂建设和教堂建筑的基本特

期刊

福州基督教教堂建筑建设基本特征

环境温度对电机温升的影响

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

电机温升物理量冷却条件温升系数

自然数集的分拆及其表示函数

令N表示全体非负整数的集合.对给定的集合A C N及n∈N,令R_1（A,n）表示方程n=a＋a＇,a,a＇∈A的解的个数.令R_2（A,n）和R_3（A,n）分别表示方程n=a＋a＇,

期刊

分拆表示函数幂级数

构建服务型政府学术话语的新路径:评《走向服务型政府的行政精神》

在行政学发展史上,服务型政府这个概念是中国学者结合我国行政改革实践首先提出来的,是中国学者对世界行政学理论发展的贡献,是中国学术话语对世界行政学话语建构的贡献。张

期刊

行政学理论学术话语服务型政府建设历史与逻辑话语建构张康之本位价值研究定位

浅析黄芪治疗小儿肾病综合征的研究进展

参考医学文献对小儿肾病综合征及黄芪的论述,分析相关验案,总结黄芪治疗小儿肾病综合征的禁忌证及适应证、炮制及用量,常见药对配伍的用药经验。黄芪治疗小儿肾病综合征主要

期刊

肾病综合征黄芪儿童

融合词频特性及邻接变化数的微博新词识别

其他学术论文