面向Web挖掘的主题网络爬虫的研究与实现

被引量 : 0次 | 上传用户：andykoy

【摘要】

：

随着互联网的迅速发展，越来越多的信息资源以网络为媒介呈现在人们面前，而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们掌握资讯的主流方式之一。但是由于Web信息

【作者】

：

张晓雷

【发表日期】

：

2012年期

【关键词】

：

Web挖掘主题网络爬虫相关度计算搜索算法文本分类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅速发展，越来越多的信息资源以网络为媒介呈现在人们面前，而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们掌握资讯的主流方式之一。但是由于Web信息资源的爆炸式增长及其半结构化、实时性、异构性和离散性等的特点，如何对Web资源进行挖掘分析、提取人们需要的特定主题的信息，已经成为一项重要的研究课题。本文的研究内容是基于企业竞争情报、面向Web挖掘的主题式搜索，在介绍了课题的研究背景和现状之后，着重讨论了Web挖掘和主题搜索引擎的核心技术。具体的研究工作如下：主题网络爬虫：综合分析了现有搜索引擎的网络搜索算法，改进了相关的搜索策略，提出了一种非贪婪遗传搜索算法。Web文档分析：本文利用HTML Tidy工具将Web文档转换为其对应的树型结构，然后根据用户的需求利用不同的遍历算法提取相关的信息；爬虫系统对网页的正文内容进行提取和分词之后，采用经过改进的特征项权重计算方法建立文本的特征向量。主题相关性评价：在利用向量空间模型对网页正文内容进行主题相关性评价的基础上，系统结合超链接的锚文本、自身字符串和它所在的网页对其进行了主题相关性的计算。在以上研究内容的基础上，设计并实现了基于企业竞争情报的主题网络爬虫系统。

其他文献

水性聚氨酯复膜胶的制备与表征

利用聚酯二元醇、甲苯二异氰酸酯和二羟甲基丙酸合成水性聚氨酯复膜胶乳液。考察了-NCO含量、扩链剂对水性聚氨酯复膜胶力学性能的影响。利用红外光谱仪和电子万能试验机对水

期刊

水性聚氨酯亲水性扩链剂合成性能

软传播概念新解

本文的研究对象是软传播概念。“软传播”最早以概念形式出现是在2000年张凤铸等著的《影视艺术新论》中，其观点是“将具有审美情趣、文化意义的信息通过潜移默化的方式渗透到

学位

软传播概念新解

追忆父亲

<正>父亲节将至,朋友圈里都是抽时间回去看看父亲之语,也许是受了影响,几日来父亲的音容笑貌总是浮现眼前,父亲离世后妹妹写了一些回忆父亲的文章,我却久未动笔,字里行间,纸

期刊

父亲

CRH6A型动车组一、二级检修问题分析与处理

介绍了时速200 km CRH6A型动车组在一、二级检修时出现的问题,且进行原因分析,并提出了处理方法。这些方法不仅提高了动车组运行可靠性,也对日后运用检修有参考和借鉴的意义

期刊

CRH6A型动车组一、二级检修刮雨器塞拉门

虚拟游戏币的消费刺激效应分析——基于模拟游戏决策实验

科技的进步带动娱乐方式和支付方式的转变,网络游戏产业呈现迅速增长的趋势,人们在虚拟世界的消费比重越来越大.本文意图探究虚拟世界的“货币体系”及虚拟币的消费刺激效应.

期刊

移动支付虚拟币消费意愿

Twitter网微博客传播特征的研究

近年来走进大众视野的微博客，以浪潮般的强劲之力影响着网络传媒行业。然而，现今的网络传播学术研究领域对微博客传播特征的研究甚少。与此同时，即将举行的2012年伦敦奥运会作为

学位

Twitter网微博客伦敦奥运会筹备期传播特征

认知视角下《生活大爆炸》中的隐喻研究

近些年来，席卷全球的美国情景喜剧引发越来越多人的关注，其中不乏一些专业的英语学习者，他们通过欣赏这些美国情景喜剧进行英语学习或研究。不同的学者，通过不同的角度和切入点得

学位

隐喻认知概念隐喻概念整合

学校里的病态竞争与道德教育

竞争是自然界的普遍法则,更是一种社会存在。改革开放以来,随着我国社会经济的发展,竞争精神已渗透到社会生活的各个领域,在一定程度上加速了社会的发展。但是,由于社会资源

学位

病态竞争学校伦理逻辑道德教育

基于行动导向的高职实训课教学设计研究

近几年来，中国高等职业教育发展迅速，高等职业教育教学改革也在广泛开展。实训教学是高职教学中最为重要的环节，但由于长期受学科体系的影响，有些高职院校并没有建立一个科学的实

学位

行动导向高职院校实训教学

高中现当代抒情散文教学研究

现当代散文在篇幅方面短小，人文意蕴方面很丰富，语言更是自然灵动。阅读这样的作品更能提升人格、陶冶情操，也最能考察一个人对作品体验、感悟、鉴赏的程度和水平。新课改后随着

学位

抒情散文高中现当代散文教学策略

面向Web挖掘的主题网络爬虫的研究与实现

其他学术论文