论文部分内容阅读
本文提出了一种非受限无词典抽词模型,该模型通过自增长算法获取中文文档中的汉字结合模式,并引入支持度、置信度等概念来筛选词条.实验表明:在无需词典支持和利用语料库学习的前提下,该算法能够快速、准确地抽取中文文档中的中、高频词条.适于对词条频度敏感,而又对计算速度要求很高的中文信息处理应用,例如实时文档自动分类系统.