论文部分内容阅读
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。在对Hash算法和现有分词词典机制研究基础上,根据汉语中四字成语较多这一事实,提出了四字哈希的分词词典机制(该机制未见有相关论文报道),基于这种词典设计了一种快速的分词算法。理论分析表明该算法的时间复杂度比现有的分词算法都有很大的改进,但在存储空间上要比其它的分词算法大1M左右。因1M左右的内存和实时信息处理中的响应时间比起来不重要,所以这个算法是很有实用价值的。歧义字段切分和未登录词识别是影响中文自动分词切分精度的两个主要因素。针对歧义字段切分,首先分析了歧义产生的根源,然后研究了歧义字段的识别和处理方法,在此基础上提出了一种基于知识库的交集型歧义字段切分算法和一种改进的上下文相关的歧义字段切分算法。前者在使用的过程中,可以通过知识学习的手段,以丰富系统的知识,提高分词的精度,缺点是分词知识的选取和知识库的构造比较困难;后者充分挖掘了歧义字段所处的上下文环境等信息,可以更加精确地模拟人类的思维方式。未登录词中的专有名词的识别是中文自动分词技术的又一个难点。文章提出的统计和规则相结合的中文姓名自动识别方法摒弃了统计方法中纯粹利用统计算法的局限性,消除了规则方法中的姓名识别规则或多或少地存在遗漏的问题,具有两者的优点。