文本分类和检索研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：donggua_dg

【摘要】

：

随着Internet的迅猛发展，大量的电子信息成几何级数增长。面对浩瀚的信息海洋，如何从中间获取自己所需的信息，成为越来越多的人的迫切要求。文本信息在电子信息中占有很重要的地

【作者】

：

李小兵

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2005年期

【关键词】

：

文本检索文本分类概念网络领域知识动态加权

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅猛发展，大量的电子信息成几何级数增长。面对浩瀚的信息海洋，如何从中间获取自己所需的信息，成为越来越多的人的迫切要求。文本信息在电子信息中占有很重要的地位，文本信息检索和分类技术的研究，有着重大的理论价值和现实需求。　　本文面向大规模的中文文本，在文本检索和文本分类方面展开了研究与探索：　　首先，针对文本检索，作了相关的研究。中文文本检索有多种模型：布尔逻辑模型、基于统计的VSM模型、基于概率的模型、基于语义网络的模型等。在分析这些模型的基础上，本文利用概念网络作为工具，对文本检索进行了探讨。文中阐述了如何利用概念网络组织领域知识，以及如何把领域知识应用到文本检索中的方法。　　其次，对文本自动分类技术作了研究。目前大多数文本分类系统都是基于VSM模型的，即将文本表示成向量，然后通过计算向量间的距离决定向量类别的归属。本文针对VSM模型一般不考虑特征间的关系和文本结构方面的关系而导致分类不准的问题，对基于知识树的文本分类方法进行了研究。　　该方法模仿人类在进行分类时的行为，以知识树所组织的知识作为分类的依据。在计算文本与类别的关联度的过程中，考虑了文本的结构方面的信息，对关键词进行动态加权。实验结果表明，相较于基于向量空间模型的KNN分类方法，这种分类方法能明显地提高分类的召回率。同时，实验结果也指出，该方法的分类效果可以在知识树进一步完善的情况下得到进一步的改良。

其他文献

过程神经网络模型及学习算法研究

过程神经元网络是根据生物神经系统信息处理机制并结合实际问题的应用背景提出的一种新的人工神经网络模型。网络的输入输出可为过程或时变函数。过程式输入放宽了传统神经元

学位

人工智能过程神经元过程神经网络函数逼近学习算法

面向网络化制造的数控远程管理与监控系统的研究与实现

　　随着计算机技术、网络技术越来越广泛的运用，e-制造(称为数字制造或网络化制造)已经成为机械制造企业现代化的标志。本文对面向网络化制造的数控远程管理与监控系统的

学位

机械制造数控装备数控系统网络加工代理

基于Petri网的工作流仿真模型与实现

本文研究和实践的主要工作是工作流仿真，主要包括：1.基于工作流分层模型，提出了工作流仿真模型，并研究了几个影响业务流程性能的因素，同时给出了几种关键性能指标(KPI)的计算方法，

学位

工作流仿真模型角色层次结构业务流程管理流程周期

基于J2ME的嵌入式微浏览器的设计与实现

　　随着3G时代即将到来，移动数据服务越来越受到关注。嵌入式微浏览器是运行移动数据业务最重要载体之一。它搭载于移动终端，用户通过它可以方便的访问移动互联网。本文研

学位

移动数据服务3G时代微浏览器双栈协议J2ME程序

基于网络编码的P2P-VoD系统数据调度算法研究及仿真设计

P2P-VoD(Peer-to-Peer-Video-on-Demand)系统由于节点动态、网络异构、单点瓶颈等P2P网络特性,以及用户对媒体的实时性要求,系统服务质量很难保证。Peer节点间高性能的数据调

学位

流媒体对等网视频点播数据调度自适应网络编码NS2仿真器

分层主动兴趣管理及其应用研究

基于内容的网络是分布式事件模型领域中提出的一种新型的通讯结构，其根据消息的内容而不是显式的地址进行数据包的转发，一方面支持大规模的多对多、异步、匿名的通讯，另一方面结

学位

分布式虚拟环境主动兴趣管理分层兴趣过滤虚拟人运动LOD

基于ECC的Ad Hoc组密钥管理及分簇算法研究

移动Ad Hoc网络是分布式自组织、自愈合网络。该网络的特点是动态的拓扑结构、有限的资源、多跳的通信以及脆弱的网络安全等。根据移动Ad Hoc网络自身的特性,在该网络中进行

学位

移动Ad Hoc网椭圆曲线密码体制组密钥分簇算法能耗负载平衡NS-2

智能刺绣CAD系统中若干技术的研究

随着刺绣CAD的迅猛发展，人们对刺绣CAD的要求也越来越高，打版专家们需要更具有表现力的曲线工具，以及更智能化的刺绣技术来代替人类的设计工作。但现在国际上流行的刺绣CAD系统

学位

刺绣CAD面绣编针算法

基于DTRC的形式自动证明平台的设计与开发

本文介绍了项重写系统(TRSs)形式简洁且计算能力强，在计算科学里是一种受到广泛研究和应用的形式计算模型。对于项重写系统本身的性质(如合流性、终止性、等价性等)有大量的研

学位

自动证明平台项重写系统覆盖集归纳重写策略等式推理

人体运动跟踪与动作编排方法的研究与实现

　　人体运动分析是近年来模式识别、智能人机接口以及虚拟现实等研究领域中一个备受关注的前沿方向。它不仅具有重要的研究意义，而且在智能监控、体育运动分析、动画生成等方

学位

模式识别运动捕获人体轮廓匹配运动编排虚拟现实

文本分类和检索研究

与本文相关的学术论文