论文部分内容阅读
为了对微博语料中的新词进行有效的识别,针对微博语料独有的文本特性,该文提出基于SVM和特征相关性的微博新词发现方法。采用N元递增模型得到候选词集合以及每个候选词的基础特征向量,并结合已有的词典和部分人工标注进行正负样本的标注。通过相关性分析构造新的候选词特征,并构造新的特征向量。然后利用SVM模型训练得到最大间隔分离超平面并对测试集中的语料进行新词判定。通过对比实验验证了该方法的有效性。