论文部分内容阅读
针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新词统计方法。实验结果表明:提出的基于信息传播特性的新词发现方法在查准率、召回率都要比使用中文ICTCLAP9115分词方法分词更好,更具有优势。