文本分类和检索研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:donggua_dg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,大量的电子信息成几何级数增长。面对浩瀚的信息海洋,如何从中间获取自己所需的信息,成为越来越多的人的迫切要求。文本信息在电子信息中占有很重要的地位,文本信息检索和分类技术的研究,有着重大的理论价值和现实需求。   本文面向大规模的中文文本,在文本检索和文本分类方面展开了研究与探索:   首先,针对文本检索,作了相关的研究。中文文本检索有多种模型:布尔逻辑模型、基于统计的VSM模型、基于概率的模型、基于语义网络的模型等。在分析这些模型的基础上,本文利用概念网络作为工具,对文本检索进行了探讨。文中阐述了如何利用概念网络组织领域知识,以及如何把领域知识应用到文本检索中的方法。   其次,对文本自动分类技术作了研究。目前大多数文本分类系统都是基于VSM模型的,即将文本表示成向量,然后通过计算向量间的距离决定向量类别的归属。本文针对VSM模型一般不考虑特征间的关系和文本结构方面的关系而导致分类不准的问题,对基于知识树的文本分类方法进行了研究。   该方法模仿人类在进行分类时的行为,以知识树所组织的知识作为分类的依据。在计算文本与类别的关联度的过程中,考虑了文本的结构方面的信息,对关键词进行动态加权。实验结果表明,相较于基于向量空间模型的KNN分类方法,这种分类方法能明显地提高分类的召回率。同时,实验结果也指出,该方法的分类效果可以在知识树进一步完善的情况下得到进一步的改良。
其他文献
过程神经元网络是根据生物神经系统信息处理机制并结合实际问题的应用背景提出的一种新的人工神经网络模型。网络的输入输出可为过程或时变函数。过程式输入放宽了传统神经元
  随着计算机技术、网络技术越来越广泛的运用,e-制造(称为数字制造或网络化制造)已经成为机械制造企业现代化的标志。 本文对面向网络化制造的数控远程管理与监控系统的
本文研究和实践的主要工作是工作流仿真,主要包括:1.基于工作流分层模型,提出了工作流仿真模型,并研究了几个影响业务流程性能的因素,同时给出了几种关键性能指标(KPI)的计算方法,
  随着3G时代即将到来,移动数据服务越来越受到关注。嵌入式微浏览器是运行移动数据业务最重要载体之一。它搭载于移动终端,用户通过它可以方便的访问移动互联网。 本文研
P2P-VoD(Peer-to-Peer-Video-on-Demand)系统由于节点动态、网络异构、单点瓶颈等P2P网络特性,以及用户对媒体的实时性要求,系统服务质量很难保证。Peer节点间高性能的数据调
基于内容的网络是分布式事件模型领域中提出的一种新型的通讯结构,其根据消息的内容而不是显式的地址进行数据包的转发,一方面支持大规模的多对多、异步、匿名的通讯,另一方面结
移动Ad Hoc网络是分布式自组织、自愈合网络。该网络的特点是动态的拓扑结构、有限的资源、多跳的通信以及脆弱的网络安全等。根据移动Ad Hoc网络自身的特性,在该网络中进行
随着刺绣CAD的迅猛发展,人们对刺绣CAD的要求也越来越高,打版专家们需要更具有表现力的曲线工具,以及更智能化的刺绣技术来代替人类的设计工作。但现在国际上流行的刺绣CAD系统
本文介绍了项重写系统(TRSs)形式简洁且计算能力强,在计算科学里是一种受到广泛研究和应用的形式计算模型。对于项重写系统本身的性质(如合流性、终止性、等价性等)有大量的研
  人体运动分析是近年来模式识别、智能人机接口以及虚拟现实等研究领域中一个备受关注的前沿方向。它不仅具有重要的研究意义,而且在智能监控、体育运动分析、动画生成等方