论文部分内容阅读
信息技术的飞速发展和互联网技术的快速变革使得人类社会进入了信息极大丰富和快速更新的时代,特别是近年来各种社交网络的出现,每天有海量文本信息不断在网络上产生和传播。人们所面对的问题不再是如何获取信息,而是如何从大量信息中迅速有效地提取出所需信息。文本分类作为一项具有较大使用价值的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需的信息和分流信息。随着分类技术在信息检索、舆情分析、信息过滤、新闻分类和数字图书馆等多个领域的广泛应用,文本分类关键技术的研究已经成为信息处理领域的一个前沿课题,有着广泛的应用前景和重要的研究意义。本文对文本语义表示及多层分类关键技术进行了系统的研究,所取得的主要研究成果为:1.提出了一种基于文本语义图的文本表示模型。为了解决词频统计文本表示方法中词语语义信息缺失的问题,本文在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型:文本语义图。利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具有较强语义关系的词语合并成词包作为图的节点,节点权值用词包所包含词语的数目及词频计算;不同词包中词语间的上下文关系作为图的有向边,有向边权值用其邻接节点的最大权值表示,该模型较大程度地保留文本中词语上下文信息的同时强化了词语的语义内涵。2.提出了一种基于虚拟分类树的多层文本分类方法。针对现有多层分类方法采用自上而下建立分类模型,样本数据被多次重复学习的问题,提出了一种基于虚拟分类树的多层文本分类方法。该分类方法采用了自底向上的方式构建分类器。在自顶向下文本分类过程中,计算经过预处理后的文档向量与关联分类器之间的相似程度,并选择其中的最大值用来确定该文档所属的类别,直到将文档归结到叶子结点。3.提出了多层文本分类的增量学习算法。结合单文档调整与新增样本集的学习问题分析,提出了两种模式下基于多层分类模型的增量学习算法:单文档调整通过寻找分类路径与实际路径的最左不匹配结点重新学习并更新虚拟分类树分类模型;新增样本集利用增量特征选择算法增量更新特征空间,并重新计算权值以提升分类模型的准确性。4.提出了一种多层文本分类性能评价方法。为了准确评价多层文本分类方法,利用多层分类结构中类别之间的层次关系和“亲疏”关系,提出了一组能够准确描述多层分类性能的扩展评价指标,并利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。5.设计了一种文本信息处理过程模型。针对文本情报处理的应用模式,设计了文本信息处理的过程模型,包括文本信息采集、热点聚合分类、全文信息检索和文本信息综合整编四个阶段。在此基础上,开发了文本信息处理系统,该系统能够实现文本信息的预处理、分析处理和整编处理,为信息工作人员提供软件平台以提升信息处理工作的效率。