论文部分内容阅读
随着网络的快速发展,Internet正在成为化学信息的主要载体。然而Web信息的急速膨胀,对化学工作者有效利用化学网络资源提出了巨大挑战。面向化学主题的专业搜索引擎可以帮助专业用户更快更准地定位到所需资源。基于统计学习的文本分类技术是专业搜索引擎采用的一种重要技术,可以有效地提高爬行、检索效率。支持向量机(SVM)方法是用于解决分类问题的一种新的学习方法,本文对其进行了深入研究,主要工作包括以下几个方面:
1、建立了基于SVM方法的文本分类系统。该系统采用模块化的结构,使得文本分类过程中的主要步骤相对独立,各个步骤产生的中间结果可以重用,从而提高训练、测试效率。
2、研究了参数、特征选择方法、特征项数目、语言差异等因素对SVM方法分类性能的影响。实验表明,互信息特征选择方法的选择效果较好;特征项数目设定为1000即能够满足分类的要求。
3、研究了不同的分词算法、分类算法对中文分类性能的影响。实验表明,ICTCLAS分词系统分词效果好,而逆向最大匹配法能够满足小型系统的需求,并能够处理专业词汇;SVM方法和kNN方法明显好于Rocchio法,SVM方法优于kNN方法。
4、研究了通过增加化学专业词汇权重来提高化学与非化学分类性能的方法。实验表明,对不经过特征选择方法过滤的专业词汇增加权重,可较好地提高分类性能。
5、研究了利用丰富的未标记数据资源来提高监督学习性能的方法。在人工标记少量样本的情况下,该方法采用Rocchio法和kNN方法从大量未标记的数据中,挑选出一定数量的相似度较高的文本加入到训练集中。实验表明,该方法能够弥补训练样本的不足,有效提高分类性能。
6、研究了应用SVM方法来指导化学主题爬虫爬行的方法。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,基于SVM方法的主题爬虫消除了初始URL对资源采集的影响,提高了对化学资源的采集效率。