论文部分内容阅读
随着网络技术的迅猛发展,网上的信息数量成指数级别增长,如何有效组织、检索、处理这些信息成为当前研究的重要课题。信息检索是指从海量文本信息中找到与给定信息需求想关的一定数量文档的过程。传统的信息检索,比较关注于检索结果的准确性等特性,对检索资源(如时间)的限制讨论的比较少。本文正是针对上述问题,提出了一种基于支持向量机的最优搜索模型,讨论了在资源受限制条件下的搜索策略。本文主要内容为:1.研究了分布式信息检索中的资源描述和资源选择方法。提出了一种新的基于支持向量机的最优搜索模型,同时考虑检索的资源限制和准确度问题。2.对文本分类的支持向量机与核函数方法进行了深入分析。以往的大多数研究,主要关注文本的向量空间模型表示法,对文本序列表示法的分类研究比较少。本文在字符串序列核函数与词序列核函数的基础上,提出了一种新的基于句子级别核函数,并给出两种可行算法,句集合核函数与旬序列核函数。3.研究了支持向量机软件包LIBSVM并加以改进。LIBSVM的CSharp2.6版,只支持基本的核函数计算:如线性核函数、多项式核函数、RBF核函数等,对于用户自定义的核函数还没有提供支持。而本文提出的核函数是基于句子级别的特定类型核函数,也会用到序列核函数的算法,所以必须要求软件包能够提供自定义核函数的功能。4.综合所有的研究成果,独立完成了一个文本分类及检索系统。