支持向量机在化学主题爬虫中的应用

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户:xxuhhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。 Crawlers, an important part of search engines, crawl automatically along hyperlinks on web pages to gather resources. In order to improve the efficiency of collection of resources on a specific topic, text classification technology is used to guide the reptiles crawling. This paper applies SVM-based text automatic classification technology to chemical subject crawler, and scans the crawling webpage by SVM classifier to guide it to crawl the chemistry related webpage. The comparison with the theme crawler based on the breadth-first algorithm based on the breadth-first algorithm and the keyword matching algorithm shows that the theme crawler based on the SVM classifier can effectively improve the collection efficiency for the chemical Web resources.
其他文献
目的:探讨动脉粥样硬化性脑梗死(简称脑梗死,cerebralinfarction,CI)患者中血清脂联素(adiponectin)的变化规律,及其与脑梗死的相关性,以期寻找adiponectin在脑梗死发病中的作用
目的:基质金属蛋白酶的含量和活性在脑缺血和缺血再灌注、脑动脉瘤形成、颈动脉斑块、脑动静脉畸形等病理状态下明显增高,提示该蛋白酶与脑血管疾病的发生关系密切。而在这其中
课题一:基于书写动作的定量化上肢运动功能评价研究  第一部分、基于书写动作的定量化上肢运动功能评价法在正常人群中的应用研究  背景:上肢运动功能评价可为神经系统疾