基于支持向量机方法的文本分类技术研究及其在化学领域中的应用

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户:shinemun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,Internet正在成为化学信息的主要载体。然而Web信息的急速膨胀,对化学工作者有效利用化学网络资源提出了巨大挑战。面向化学主题的专业搜索引擎可以帮助专业用户更快更准地定位到所需资源。基于统计学习的文本分类技术是专业搜索引擎采用的一种重要技术,可以有效地提高爬行、检索效率。支持向量机(SVM)方法是用于解决分类问题的一种新的学习方法,本文对其进行了深入研究,主要工作包括以下几个方面:   1、建立了基于SVM方法的文本分类系统。该系统采用模块化的结构,使得文本分类过程中的主要步骤相对独立,各个步骤产生的中间结果可以重用,从而提高训练、测试效率。   2、研究了参数、特征选择方法、特征项数目、语言差异等因素对SVM方法分类性能的影响。实验表明,互信息特征选择方法的选择效果较好;特征项数目设定为1000即能够满足分类的要求。   3、研究了不同的分词算法、分类算法对中文分类性能的影响。实验表明,ICTCLAS分词系统分词效果好,而逆向最大匹配法能够满足小型系统的需求,并能够处理专业词汇;SVM方法和kNN方法明显好于Rocchio法,SVM方法优于kNN方法。   4、研究了通过增加化学专业词汇权重来提高化学与非化学分类性能的方法。实验表明,对不经过特征选择方法过滤的专业词汇增加权重,可较好地提高分类性能。   5、研究了利用丰富的未标记数据资源来提高监督学习性能的方法。在人工标记少量样本的情况下,该方法采用Rocchio法和kNN方法从大量未标记的数据中,挑选出一定数量的相似度较高的文本加入到训练集中。实验表明,该方法能够弥补训练样本的不足,有效提高分类性能。   6、研究了应用SVM方法来指导化学主题爬虫爬行的方法。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,基于SVM方法的主题爬虫消除了初始URL对资源采集的影响,提高了对化学资源的采集效率。  
其他文献
具有中国自主知识产权的灰熔聚流化床煤气化工艺因其适应煤种宽、气化条件温和、氧耗低、投资低、成本低是一项应用前景广阔的洁净煤技术。灰熔聚流化床煤气化工艺的工业示范
学位
目的:肥厚型心肌病(hypertrophic cardiomyopathy,HCM)合并左室心尖室壁瘤(left ventricular apical aneurysm,LVA)是HCM一种不常见的临床类型.既往报道较少,其临床特征和预
会议
目的:探讨经皮球囊二尖瓣成形术远期疗效.方法:观察经皮球囊二尖瓣成形术远期疗效,并进行随访.结果:本组病人男性67人,女性152人.年龄最小33岁,最大79岁,平均年龄52.91岁.术
会议
费托(F-T)合成是将合成气转化为液体燃料的重要技术之一。浆态床反应器因其具有结构简单、传热传质性能好、控温简单等优点,成为目前费托合成工业化的首选。由于浆态床反应器
学位
随着新课改学习的不断深入,教师的教学方法和学生的学习方式都发生了很大改变,师生平等、师生互动的课堂局面也渐渐形成,但面对更多自主、探究、体验的机会,自觉性差的学生缺
2009年3-11月,对乌梁素海湿地雁鸭类资源进行了详细调查;在迁徙季节,对该湿地雁鸭类迁徙时间(最早迁来时间,最晚迁走时间,迁徙高峰期)、最大迁徙密度及出现地点等迁徙情况进行了认
固体酸具有催化活性高、可回收循环利用、经济且对设备不造成腐蚀等优点,在化工生产、制药工程等领域有着广泛的应用。但是,在有水参与或者生成的反应体系中,有些固体酸催化剂容
本文主要对3,5-二甲基苯酚气相甲基化制备2,3,5-三甲基苯酚的主催化剂、助剂和载体进行了筛选,确定了以氧化铁为主催化剂,氧化镁和氧化铬为助剂,氧化铝为载体的新型催化剂,确定了催