网页信息自动提取的设计与实现

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：liongliong586

【摘要】

：

网页信息自动提取是一种重要的网络应用技术，用于提取各类网页的专门信息。网页信息自动提取的设计基于网页的半结构化特征，其流程是先获取HTML源文件，然后去掉HTML标记和无关信

【作者】

：

栗勇兵韩平董启雄

【机构】

：

装备学院信息管理中心

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2012年18期

【关键词】

：

网页信息提取设计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页信息自动提取是一种重要的网络应用技术，用于提取各类网页的专门信息。网页信息自动提取的设计基于网页的半结构化特征，其流程是先获取HTML源文件，然后去掉HTML标记和无关信息，再进行语义匹配，提取信息到特定的数据结构，进行CSV格式化输出，就可以得到所需的信息。在网站企业化、网店普遍化和网络购物盛行的背号下，推广和应用网页信息自动提取技术，有着重要的经济价值和意义。

其他文献

“自落渣钻爆开挖技术”在高陡边坡明挖施工中的应用

水电工程施工受外界影响因素较多,高边坡开挖一般均需布置施工道路,在缺乏道路布置的条件下,明挖只能采用人工方式,其施工工效低下,安全、质量问题突出。苗家坝水电站出口闸

期刊

自落渣梯段布孔炮孔深度逐排缩小逐层削薄翻渣苗家坝水电站

防火墙技术在网络安全中的应用研究

摘要：互联网到今天已经从基本信息共享向电子商务、网络应用等更为复杂的方面发展，随着商业应用的增加，网络安全逐渐成为一个潜在的巨大问题。其中也会涉及到是否构成犯罪行为的问题。防火墙技术的引入给予管理和提高网络的安全性，提供了一个必要而便捷的方式。文中论述了防火墙部署原则，并从防火墙部署的位置详细阐述了防火墙的选择标准其安全体系的构成。　　关键词：网络安全；防火墙技术　　中图分类号：TP393.08

期刊

网络安全防火墙技术Network securityFirewall technology

华东地区沙门菌的流行病学调查及鼠伤寒沙门菌基因缺失弱毒疫苗的研制

沙门菌是一种重要的食源性人兽共患病原菌,不仅能引起多种畜禽疾病(鸡白痢、鸡伤寒、鸡副伤寒、猪副伤寒等),给养殖业造成严重经济损失,而且能够通过污染食物引起人类食物中

学位

沙门菌aroA基因luxS基因缺失弱毒疫苗

利用乡土地理案例培养合作探究能力

课程标准倡导自主学习、合作学习和探究学习，倡导开展地理观测、地理考察、地理实验、地理调查和地理专题研究等实践活动，强调学生的学习过程、直接参与和亲身体验。要求教师积

期刊

乡土地理教学案例合作学习探究能力培养高中地理教材研究性学习学生健康

浅谈云计算技术的发展

2007年底人们正式提出了云计算的概念，到今天为止，基本上所有IT行业的巨头都把云计算技术作为未来发展的主要战略之一，云计算被视为计算机未来发展的一个主要的趋势，它的商业前景

期刊

云计算高可靠性云的发展Cloud computingHigh reliabilityCloud development

网页信息自动提取的设计与实现

其他学术论文