基于DOM的智能网页信息抽取技术研究

被引量 : 0次 | 上传用户:pp6vip123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web已经发展成为一种巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由HTML描述的Web页面只适合人类的浏览,应用程序无法直接解析并利用Web上的丰富信息。Web中一类重要的信息网页是数据提供网站的动态Web页面,如各种门户新闻网站、电子商务网站等等。这类网页中自由文本数据少,网页结构化程度高,往往数量巨大且内容丰富,因而信息抽取工作非常有价值。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。为了增强Web数据的可用性,提供更多的增值服务,出现了Web信息抽取技术。它通过包装(Wrapper)现有的Web信息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。本文设计了一个基于DOM模型的智能网页信息自动抽取系统,做到能够对网页文本进行分析处理、特征提取与选择、文本分类以及页面区域的分割与重构等,从而将抽取的有用信息以结构化数据存储在数据库中,并且可以随时应用于针对特定信息查询的应用程序中。首先,本文简述了信息抽取技术的研究与发展,对几种典型的Web信息抽取技术进行了综合比较,然后详细介绍了DOM模型的理论和编程实践以及文本分类技术。接下来,本文详细阐述了网页主体信息抽取的体系结构、设计方法和处理流程。首先讨论了基于DOM分析器的文本预处理的解决方案,然后使用信息增益作为特征评估函数,以它的值作为评估函数值,用以对网页文本进行特征项加权,进行文本特征提取。在文本自动分类的章节中,介绍了使用KNN-SVM算法进行自动分类,并介绍了利用映射表进行页面区域分割,再根据内容相关性进行页面重构。最后,文章给出了基于DOM的智能网页信息抽取系统的原型,取得了较好的实验结果。从一系列动态网站提供的Web网页的抽取实验,以及与其他一些通过多个页面的信息抽取的算法的结果对比可以看出,本文提出的Web信息抽取技术实现了较高的抽取精度。
其他文献
近来,世界银行、美国政府及智库等外部舆论针对中国国企改革提出的观点引起了较大争议。我们在看到国际舆论有关中国国企改革观点的局限性和片面性的同时,也应吸收其部分观点
从现代主义到现代主义之后──现代建筑的部分质变程庆平事物的根本性质是由事物内部的矛盾决定的。建筑的根本性质在于它为什么服务所决定。历史建筑——现代建筑之前的建筑
目前,我国的老龄化状况不断增强,已经逐渐步入了老龄化社会,老年人在医疗护理方面的需求越来越多,要求也越来越高,但是我国现有的养老和医疗服务却无法与之相符合,而我国多数
目的探讨甲状腺围手术期患者的整体护理要点。方法回顾性分析172例甲状腺围手术期患者的护理方法。手术主要分为一般甲状腺手术与甲亢甲状腺手术两大类。结果通过术前护理与
<正> 一、支护上荷载的选择按下列顺序进行1.根据下述条件验算岩壁稳定性Hηγ=(KRηH)/(ηγ)式中:Hηγ-井筒深度,各种岩层由坚硬的到不
<正>作为浙江省、杭州市改革开放试验田、自主创新主战场,高新区一直致力于"发展高科技、实现产业化",已经发展成为浙江省最重要的科技成果产业化基地、技术创新示范基地、创
党的十七大报告指出,科学发展观"是我国经济社会发展的重要指导方针,是发展中国特色社会主义必须坚持和贯彻的重大战略思想。"科学发展观的本质和核心是以人为本,这便内在的
近似商业标记是指使用在相同或类似商品或服务上的相同或近似的商业符号。目前,我国市场上近似商业标记共存的客观现象已非常普遍,但我国立法和司法实践中对近似商业标记共存
目的调查我院临床护理过程中常见的护理不良事件,分析护理不良事件的发生原因,提出防范措施,确保对患者治疗护理的及时性、准确性和安全性。方法通过对2013年6月至2014年6月2
随着开放式创新时代的到来,为新技术寻找走向市场的商业模式逐渐成为国内外最关注的问题之一。开放式创新环境下,高新技术企业的创新经营环境发生了很大的变化:知识的快速扩