论文部分内容阅读
针对中文词汇构成特点,本文提出了一种基于质子串分解的网络新词汇自动识别方法.我们从Internet上采集网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词);并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的词汇(合词),提高了中文自动术语抽取中长串抽取的精确度.该方法目前已在国家网络媒体监测项目中用来抽取网络中的新词汇.