面向检验检疫领域主题爬虫的研究及系统实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:angelasun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,全球信息数据总量在互联网的推动下急剧地增长,据国际数据公司(IDC)预计,至2020年,全球的数据总量将以每年50%的增长率达到40ZB,其中文件、视频、音频等非结构化信息占数据生产总量的90%。在这样的背景下,用户在数据海洋中对信息精度和深度的要求日益提高,特别是针对专业领域内的特殊查询需求,通用搜索引擎收集的信息驳杂而不精确。有鉴于此,本文把文本分类问题作为主要的研究对象,从垂直搜索引擎出发,深度探究了其中的数据采集、关键词搜索等技术,并以实际项目为依托,基于检验检疫这一特定的主题领域实现了具体的数据采集、搜索子系统。本文主要的贡献如下:1、概述了爬虫系统实现过程中的用到的关键技术,如网页去噪、正文提取、海量URL和文档的去重、NoSQL数据库等。此外为了应对网页中动态内容的解析和下载,本文提出了基于协议控制的JavaScript解析策略。2、分别列举讨论了基于网络拓扑、网页正文、用户访问行为的网页抓取策略,对比其优缺点后,本文提出了基于URL密度聚类的网页抓取策略,通过聚集簇的方式来对相关网页进行划分和抓取。3、对比传统的文本分类器的优缺点,本文结合词向量Word2vec和深度学习的方法,提出了基于Attention机制的层次化长短时分类网络用于文本分类任务,分别从单词和句子的维度提取结构化特征来将整个文本表征为特征向量。4、结合“973计划”中的子课题,本文实现了面向检验检疫领域的数据采集子系统和数据搜索子系统,数据采集、清洗、存储、分类和索引等服务部署在多台服务器构成的分布式环境中,有效地提高了计算性能和系统的稳定性。
其他文献
秘密共享是密码学研究中的一个重要分支,在信息安全存储、多方安全计算、面向组的分布式安全协议等方面具有重要的应用价值。它已经成为构建安全协议/方案的一个基本工具。本
秘密共享是一种在一组用户间共享秘密的方式,每个用户都拿到了秘密的一个份额。当足够多的数据份额组合在一起,通过一定的组合方式,秘密就可以被重建。Shamir的(t,n)秘密共享
模式识别旨在根据研究对象的特征或属性,利用计算机来模拟或实现人的学习及辨识能力。而特征提取是模式识别所研究的关键问题之一,可有效缓解模式识别领域经常出现的“维数灾
扬声器是一种可以将电信号转换为声信号的电声换能器,其电声转换效率却极低,最高仅仅只有5%,一些扬声器的转换效率甚至低至1%,绝大部分电能都转化成了扬声器工作过程中的焦耳
稀土资源是我国重要的不可再生的战略性资源,它有“工业黄金”、“工业维生素”之称,广泛应用于涉及消费类电子产品、航空航天、风力发电、新能源汽车、医疗器械、汽车零部件、石油化工、军事工业等战略性新兴产业发展及传统制造业的性能提升。自2018年3月22日以来,中美贸易摩擦持续加剧,虽然曾一度因两国领导人达成共识而得以缓和,但美国从2019年5月10日起对价值2000亿进口中国产品征收关税从10%提高到2
随着服务业的迅猛发展,人们对服务越来越重视,企业重视服务也就成了大势所趋。与此同时,随着人们生活水平的提高,对汽车的需求日益旺盛,我国的汽车服务市场已经进入了快速发
铁载体是由细菌、真菌等微生物或植物在限铁条件下合成并分泌的一种与Fe(Ⅲ)具有高亲和力的低分子量铁螯合剂,用于摄取铁元素。假单胞菌(Pseudomonas)是一类分布广泛、种类繁多、适应性极强革兰氏阴性菌,能产生多种不同结构的铁载体。有研究表明假单胞菌所产生的铁载体不仅能帮助细菌摄取铁,还与菌株的致病性相关联,同时还具有抗生素、抗肿瘤和抗疟疾,金属酶抑制剂等生物活性。东湖假单胞菌(Pseudomo
人脸动画在工业界有着广泛的应用,但传统人脸动画制作方法费时、费力、高成本,因此找到一个简单、方便、低成本的人脸动画制作方法具有重大意义。本文提出了一个基于单目视频
我国国土辽阔,地形地貌多样,对于广大无气象站点或者气象站点分布稀少的地形复杂地区,气温预测一直以来都是研究的难点和热点问题。新疆地区地处内陆,融雪水资源为流域内重要的径流来源,气象数据作为积雪—融雪模拟模型重要影响因子,是模型研究的前提和保障,对区域气候模拟和防灾减灾至关重要。本文针对我国典型高寒山区新疆天山中段玛纳斯河流域积雪—融雪过程模拟中气温空间数据的制备问题,以气象站点稀少的玛纳斯河流域为
物联网时代移动通信设备的爆炸式增长,带来了Wi-Fi频谱资源紧缺的问题。近年来可见光通信技术的兴起,为缓解频谱紧缺问题开辟了一条新的道路。可见光通信技术具有众多优点,如