基于改进Shark-Search算法的主题爬虫研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:fenfeixueer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中信息过载对人们从网络中获取感兴趣的内容形成了巨大挑战,传统搜索引擎在一定程度上能满足人们对网络内容的检索需求,但也存在信息驳杂、检索结果不相关等问题。为此人们研发了垂直搜索引擎,满足了用户对特定领域更为精细的检索需求。主题爬虫是垂直搜索引擎的核心组成部分,为垂直搜索引擎采集特定领域的网络数据,本文的主要研究内容即为主题爬虫。主题爬虫通过预定义的主题对网页进行爬取,在爬取过程中过滤与主题无关的网页,采用特定的搜索策略预测控制网页爬取的顺序与路线,以达到在减少无关网页访问的基础上爬取更多主题相关网页的目的。Shark-Search算法是一种基于网页内容元素的启发式主题爬虫算法,因其实现简单、爬取效率高等优点被广泛运用。然而Shark-Search算法也存在主题判别不准确,爬取过程中出现“近视问题”和“隧道问题”等不足。本文对主题爬虫的原理以及实现细节进行了全方位的介绍,并且围绕主题判别以及爬虫搜索策略两个方面对Shark-Search进行改进,以提高其爬取性能。主要工作有:1.针对向量空间模型仅使用关键词匹配计算相关度而忽视词语语义信息的问题,提出一种新的主题相关度计算模型:通过word2vec以及LDA构建主题词向量,对词语进行语义扩充;结合网页半结构化特征改进TF-IDF算法并提取网页关键词,并将网页与主题使用对应关键词主题词向量的加权平均表示,使用余弦距离计算主题相关度。实验结果表明,本文提出的相关度计算模型在网页主题判别方面优于传统的空间向量模型;2.针对Shark-Search算法在链接评价时只考虑了链接的内容属性而忽略链接的网络结构属性的“近视问题”,根据互联网的内容聚合原则,提出了一种基于url聚类的链接评价方法,计算链接在网络结构方面的得分,与Shark-Search算法原有的链接内容得分共同构成链接得分,不仅解决了 Shark-Search算法的“近视问题”,并且降低了因锚文本缺失造成的错误率;3.为了更好地解决主题爬虫的“隧道问题”,扩大爬虫的覆盖面积,本文对Shark-Search算法中的隧道穿越机制进行优化,结合HITS算法思想对网页进行hub类型判定,针对不同类型的网页制定不同的隧道穿越策略,优化后的算法和Shark-Search相比能更快停止无关搜索并能提高对长隧道的穿越成功率;4.将本文提出的主题相关度计算模型引入Shark-Search算法中,代替原有的向量空间模型,并结合以上对Shark-Search算法搜索策略的改进提出一种基于改进Shark-Search算法的主题爬虫,与其他主题爬虫算法进行对比实验,在查准率和收获率方面都高出5%以上,验证了本文提出的主题爬虫算法的有效性。
其他文献
学位
过去数十年的城市快速化的发展取得了巨大的成就,但同时也为城市公共空间品质、街道空间舒适性带来了巨大的压力和挑战。而随着城市更新升级的不断加速以及人们对于美好城市生活的向往,城市公共空间的品质越来越受到重视。作为城市公共空间的重要组成部分,街道空间环境与人的工作和生活休戚相关,影响着人的安全性、舒适度感知等各种体验。其中,在以天空、行道树和建筑为主体构成的街道景观下,透过建筑与行道树之间的间隙射入街
税收是国家财政收入的主要来源,发挥着组织国家财政收入、调节和监督社会经济生活三项职能,在维护社会的正常运行秩序方面占据着至关重要的位置。因此,税收流失不但会减少国家财政收入,阻碍政府社会公共服务职能的履行,甚至影响经济的稳定运行和健康发展。企业作为以盈利为目的的经济组织,以法定纳税人身份对税收的缴纳不利于其利润最大化目标的实现,因此企业的避税行为屡禁不止。随着各国政府不断完善税收监管法律法规,企业
网络时代信息技术的普及,以个人数据形式在网络上存储和传播的个人隐私信息受到了前所未有的威胁。其中,最典型的即为当前流行的“人肉搜索”行为。人肉搜索虽然在一定程度上具有道德规范和舆论监督的作用,但由于人肉搜索中涉及的许多个人信息往往属于宪法和法律明确规定的公民隐私权保护的范畴,本质上属于对于网络隐私权的侵权行为。基于网络隐私权保护在网络时代的高度重要性,域外发达国家大都制定或建立了相应的法律保护体系
随着产品内贸易的发展,传统的以最终品贸易为核心的统计方法逐渐不能反映国际贸易的真实状况,因此学者们重新发展出一套以中间品贸易为核心的增加值统计方法。根据增加值贸易统计方法,近年来中国的制造业全球价值链地位虽然有所提高,但是仍然处于全球价值链的中下游,从国际贸易中获得的收益远远低于处于价值链上游的国家。同时随着发达国家“再工业化”战略和“制造业回归”政策的相继提出,制造业在一国经济发展中的地位越发重
刑法违法性认识体系性地位问题,是刑法理论与司法实践亟待解决的问题,传统的“不知法律不免责”原则于世界范围内皆受到了冲击,域内外刑法理论界不约而同地尝试将违法性认识纳入刑法体系之中,并在各自刑法理论体系中产生了各具特色的理论观点。这些理论虽然因各国法律体系的不同存在差异,但仍然可以于作用上分为将违法性认识作为犯罪故意之要素与将违法性认识作为影响责任之要素两大类。其中,将违法性认识作为犯罪故意之要素的
司法实践中,强迫交易罪与抢劫罪频发,强迫交易罪与抢劫罪均为我国较为常见、多发的犯罪类型。虽然强迫交易罪与抢劫罪在法理上内涵较为明确,但在实践中存在很多交叉区域,因而极易引发混淆,甚至产生“同案不同判”现象,不利于司法公信力的提升以及司法工作的顺利开展。本文以行为人的犯罪手段以及“交易”的表现形式为视角,重点研究强迫交易罪与以交易为幌子的抢劫罪的差异,并针对一些争议性问题予以深入探究,进而对强迫交易
细菌纤维素(Bacterial Cellulose,BC)又名椰果、椰纤果,是以产纤维素细菌(如Komagataeibacter)经液态发酵合成的纯度极高的葡萄糖多聚物,其性能优良、应用广泛。近年来BC的研究热点着眼于以农、工业废弃物为碳源替代昂贵的合成培养基,其中以椰子水作为BC生产原料的研究不仅历史悠久,而且已实现规模化生产、商业化应用。长期生产实践证明,椰子水是BC生产最重要、最成功的原料,
“网络爬虫”是一项用于互联网信息搜集的技术手段。随着大数据时代的到来,数据成为众多经营者的核心竞争资源,有的经营者为获得竞争优势,不当利用爬虫技术获取数据的行为有可能构成不正当竞争,反不正当竞争法为维护市场公平竞争秩序,需要对该种行为进行规制。当前,立法存在滞后,《反不正当竞争法》中的类型化条款无法涵盖各种新型互联网不正当竞争行为,司法实践中,大多适用一般条款规制爬虫抓取数据行为。本文基于此,将爬
真核生物的染色质是由DNA缠绕组蛋白构成的核小体组成,其中DNA和组蛋白上都可以发生表观遗传修饰,从而影响染色质的结构以及转录因子或其他蛋白质与DNA的结合,进一步激活或者抑制基因的表达,调节细胞行为。组蛋白的翻译后修饰通常是可逆的,由两种对立的酶以及其连接因子所构成的复合物在特异位点连接或者移除修饰,这两类酶称为writer和eraser。另外还有一类能特异的识别修饰位点的蛋白质,称为reade