自动化信息采集系统的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:zhangfegnlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息与数据大爆炸的时代,针对互联网上的数据信息,可以进行数据挖掘,提取有价值的信息并预测某些事件的发生。现代主流的搜索引擎,例如:谷歌、百度等,都会在全球部署自己的信息采集系统(爬虫系统)。在信息采集系统中,最重要的一部分是如何解析网页,提取出感兴趣的数据信息,在一般的信息采集系统中,需要对网站的不用模块或者不同网站个性化制定信息抽取规则,特别是遇到网页结构相似的情况,将会耗费大量的人力资源。自动化信息采集能够解决这一方面的问题,现有的自动化页面解析算法一般是通过模板生成或者机器学习方式进行自动化信息抽取,最常见的算法包括启发式方式、树对齐方式以及模板生成方式例如RoadRunner等,这些现有的算法存在的问题是提取出的信息包含噪声信息、数据抽取时间过长的缺点等。为了解决上述问题,本文的主要研究内容体现在三个方面。第一,为了解决自动化网页信息提取中人工干预以及噪声信息所占比重过高的问题,提出了一种基于标签的网页正文块的三叉树的解决方案。本文通过大量分析确定了能够正确描述网页正文分布的标签,并确定了标签的阈值,最后结合三叉树信息抽取模型,制定统一的信息抽取规则。实验表明:该信息抽取算法比同类抽取算法无论是在时间上还是在噪声信息所占比例上,都表现出良好的性能。第二,为了能够更好地适应自动化信息抽取,需要解决网页结构分类。目前比较常见的网页结构分类算法是基于DOM树的编辑距离,但是该算法最突出的缺点是时间消耗过长。本文结合了现有主流的站点之间网页模板套用低可能性,及同一个站点内不同版块可能存在差别的特点,提出基于网页标签属性的字符串编辑距离的网页结构相似性判断方法。实验表明:该算法判定网页结构相似的时间大约是DOM树编辑距离方法的3/4。第三,设计一个自动化信息采集系统。在系统实现过程中,为了加快信息的采集速度,采用分布式架构;为了能够实现爬虫动态配置,采用ZooKeeper作为配置中心。底层数据持久化采用MySQL数据库。该系统的实现避免了人工制定信息抽取规则。
其他文献
在国家加快城市化建设的步伐中,城市旅游的发展也在齐头并进。而一个城市旅游客源市场规模折射出城市旅游产业发展状况。本文引入"引力模型"的思想,通过旅游城市供给的吸引力
目的:探讨腹腔镜辅助胃肠手术的安全性及可行性。方法:回顾性分析2010年3月-2013年4月本院行腹腔镜胃肠手术的92例患者的临床资料,分析其手术情况及术后生存率。结果:72例顺
为解决利用光电效应测量普朗克常量实验中拐点法读取遏止电压的随意性和测量误差较大问题,利用Origin软件,对光电管伏安特性曲线求微分,再在微分曲线上确定拐点,获得准确的遏
<正>概述车联网,顾名思义就是车与车之间的网络,是物联网在交通行业的具体应用。车联网是战略性新兴产业中物联网以及智能化汽车两大领域的重要交集,是指装载在车辆上的电子
大体积高强混凝土施工温度控制与防裂技术张柏堂(北京市第三城市建设工程公司)北京西客站预埋地铁车站工程为多跨大断面箱形结构。现浇混凝土量达80985m3,每m2建筑面积折合混凝土2.24m3。伸缩缝
<正>纵观近几年高考物理试题,不难发现实验题所占的比重较大,可见实验能力是高考物理考试中极其重要的内容,而这却是很多考生失分较多、薄弱的环节,所以对近几年高考物理实验
阐述制作询问笔录的重要意义,介绍当前询问笔录制作中存在的问题,并就如何正确、灵活运用询问技巧、提高制作笔录水平和质量提出了几点思考和建议。
<正>临床实习是医学生必经的一个重要阶段,也是理论与实践相结合的良好平台。怎么样才能将临床实习工作做好呢?每位实习医学生实习所处的环境各不相同,在实习中遇到的问题也
<正> 铁力地处小兴安岭西南,地理位置均在北纬47°属于高寒地区,春夏季昼夜温差大,均在10℃以上。香菇是变温结实性菌类,昼夜温差超过10℃以上,生长良好,产量高、个大肉厚、
本文通过在三道湾子金矿外围浅覆盖区浅钻技术在化探方法中的应用研究,介绍了浅钻设备的选择、供水方式、工作质量和工作效率,总结了影响工程进度的原因及钻机的特点。通过实