融合词频特性及邻接变化数的微博新词识别

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:echo19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。 A large number of new words accompanied with the rapid development of microblogging generated these new words with fast propagation and flexible combination with other features of the word, and in the word segmentation is easy to be cut into different strings. This paper proposes a new method of word recognition based on the combination of word frequency characteristics and adjacent changes. Firstly, the method divides the large-scale Weibo corpus, and then combines the adjacent strings in the two stop-phrases with each other to obtain new candidate strings according to the combined string frequency statistics. Then, Screening new candidate words, and finally by neighbors changing the characteristics of the word to remove the rubbish string to obtain new words. The new word discovery experiment was carried out on the COAE 2014 evaluation task using this method, with an accuracy rate of 36.5% and a good result.
其他文献
在进行汽车座椅注塑成型技术的研发中,可以在进行技术设计的过程中使用限软件为技术的平台,将汽车座椅塑料件的注塑成型技术进行模拟,在注塑过程汽车的座椅塑料件进行实际工
儿童在早期习得汉语语言的过程中,和时体有关的词"了"大量出现。然而,在儿童早期的语料中,表示完成体标记的"了1"和表示现实关联性的"了2"的句法位置是重合的,确定早期"了"的性质对认
采用Ni(NO3)2·6H2O、NaOH、乙二醇(EG)和聚乙烯吡咯烷酮(PVP)为原料,用多元醇法制备超细镍粉。研究前驱体对产物粒径和形貌的影响。结果表明,前驱体制备过程中,pH值应控制在11左
教堂建筑作为见证基督教在福州发展的一面镜子,折射着时代的文化。本文通过教堂建筑遗存的调研和史料的考证,从福州的近代开埠概况、福州基督教的教堂建设和教堂建筑的基本特
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
令N表示全体非负整数的集合.对给定的集合A C N及n∈N,令R_1(A,n)表示方程n=a+a',a,a'∈A的解的个数.令R_2(A,n)和R_3(A,n)分别表示方程n=a+a',
在行政学发展史上,服务型政府这个概念是中国学者结合我国行政改革实践首先提出来的,是中国学者对世界行政学理论发展的贡献,是中国学术话语对世界行政学话语建构的贡献。张
参考医学文献对小儿肾病综合征及黄芪的论述,分析相关验案,总结黄芪治疗小儿肾病综合征的禁忌证及适应证、炮制及用量,常见药对配伍的用药经验。黄芪治疗小儿肾病综合征主要