论文部分内容阅读
针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,本文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。