论文部分内容阅读
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.