论文部分内容阅读
文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后,机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务,目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下: (1) 基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF/IDF等权重法。该类权重法普遍存在两大缺点:一是需要计算词汇在整个数据集中频率,标引效率较低;二是不能直接应用于中文等东方语种文献。否则,必须首先解决分词技术问题。本文的研究成果是提出了一种不需要进行中文分词,且不依赖文本数据集,能够同时适宜于中英文文献的文本表达方法。该方法的主要创新点包括:提出了基于N-Gram的GF/GL权重法,能够根据单篇文献中各个N-gram的出现频率和长度计算它们表达文献主题内容的重要性;提出了根据文献N-gram权重值和子父串关系筛选文献关键词的算法。该算法不需要复杂的参数定义,能够灵活控制文献标引深度和标引专指度。实验结果表明,本文提出的文本表达方法能够获得比TF/IDF更优的标引性能。 (2) 标引词的语义异构性处理。通过文本表达获得的标引词,通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法,会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标引词语义转换模型,可以用于建立来源于多个索引语言的标引词之间的语义关系,解决标引词的语义异构性问题。该模型的优点表现在:克服了人工转换方法成本高、效率低的缺点;克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点;能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换;能够较大范围地集成具有语义关系的标引词,克服特征抽取方法受限于数据集的缺点。该方法既可用于文本表达结果的规范控制,也可用于文献检索系统中多种索引语言的自动语义集成,从而实现应用单种索引语言进行跨数据库检索。 (3) 粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、