面向Web挖掘的主题网络爬虫的研究与实现

被引量 : 0次 | 上传用户:andykoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,越来越多的信息资源以网络为媒介呈现在人们面前,而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们掌握资讯的主流方式之一。但是由于Web信息资源的爆炸式增长及其半结构化、实时性、异构性和离散性等的特点,如何对Web资源进行挖掘分析、提取人们需要的特定主题的信息,已经成为一项重要的研究课题。本文的研究内容是基于企业竞争情报、面向Web挖掘的主题式搜索,在介绍了课题的研究背景和现状之后,着重讨论了Web挖掘和主题搜索引擎的核心技术。具体的研究工作如下:主题网络爬虫:综合分析了现有搜索引擎的网络搜索算法,改进了相关的搜索策略,提出了一种非贪婪遗传搜索算法。Web文档分析:本文利用HTML Tidy工具将Web文档转换为其对应的树型结构,然后根据用户的需求利用不同的遍历算法提取相关的信息;爬虫系统对网页的正文内容进行提取和分词之后,采用经过改进的特征项权重计算方法建立文本的特征向量。主题相关性评价:在利用向量空间模型对网页正文内容进行主题相关性评价的基础上,系统结合超链接的锚文本、自身字符串和它所在的网页对其进行了主题相关性的计算。在以上研究内容的基础上,设计并实现了基于企业竞争情报的主题网络爬虫系统。
其他文献
利用聚酯二元醇、甲苯二异氰酸酯和二羟甲基丙酸合成水性聚氨酯复膜胶乳液。考察了-NCO含量、扩链剂对水性聚氨酯复膜胶力学性能的影响。利用红外光谱仪和电子万能试验机对水
本文的研究对象是软传播概念。“软传播”最早以概念形式出现是在2000年张凤铸等著的《影视艺术新论》中,其观点是“将具有审美情趣、文化意义的信息通过潜移默化的方式渗透到
<正>父亲节将至,朋友圈里都是抽时间回去看看父亲之语,也许是受了影响,几日来父亲的音容笑貌总是浮现眼前,父亲离世后妹妹写了一些回忆父亲的文章,我却久未动笔,字里行间,纸
期刊
介绍了时速200 km CRH6A型动车组在一、二级检修时出现的问题,且进行原因分析,并提出了处理方法。这些方法不仅提高了动车组运行可靠性,也对日后运用检修有参考和借鉴的意义
科技的进步带动娱乐方式和支付方式的转变,网络游戏产业呈现迅速增长的趋势,人们在虚拟世界的消费比重越来越大.本文意图探究虚拟世界的“货币体系”及虚拟币的消费刺激效应.
近年来走进大众视野的微博客,以浪潮般的强劲之力影响着网络传媒行业。然而,现今的网络传播学术研究领域对微博客传播特征的研究甚少。与此同时,即将举行的2012年伦敦奥运会作为
近些年来,席卷全球的美国情景喜剧引发越来越多人的关注,其中不乏一些专业的英语学习者,他们通过欣赏这些美国情景喜剧进行英语学习或研究。不同的学者,通过不同的角度和切入点得
竞争是自然界的普遍法则,更是一种社会存在。改革开放以来,随着我国社会经济的发展,竞争精神已渗透到社会生活的各个领域,在一定程度上加速了社会的发展。但是,由于社会资源
近几年来,中国高等职业教育发展迅速,高等职业教育教学改革也在广泛开展。实训教学是高职教学中最为重要的环节,但由于长期受学科体系的影响,有些高职院校并没有建立一个科学的实
现当代散文在篇幅方面短小,人文意蕴方面很丰富,语言更是自然灵动。阅读这样的作品更能提升人格、陶冶情操,也最能考察一个人对作品体验、感悟、鉴赏的程度和水平。新课改后随着