基于开始定界符的自动Web信息抽取

来源 :微型电脑应用 | 被引量 : 0次 | 上传用户:XUCHUNLIAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。
其他文献
美国发型杂志《Hair Magazine》一年一度的最佳发型评选近日揭晓,超级名模凯特·摩斯新形象清爽迷人,受到一致好评,成为2003年的最佳发型;珍妮弗·安妮斯顿及凯特&#1
一、研究目的1.研究人类遗传资源的整合方法,建立资源整合技术体系,开展各类人类遗传资源的整合;2.利用整合的遗传资源进行汉族群体遗传多样性与遗传结构的初步研究。二、研
目的:研究血透室护理中不安全因素及有效预防措施。方法:纳入本院接收的86例血液透析患者作为研究对象,以患者是否实施干预为基准,分为实验组43例实施预防措施、对照组43例未
目的:分析影响肝胆外科腹腔镜病区护理质量的影响因素,同时制定改善方案。方法:选取本病区240例患者为研究对象,采用随机分组,常规组和观察组各120例,常规组实施肝胆外科传统
通过介绍内浮盘结构下浮动吸油臂的设置模式,并从结构及连接模式方面分析共特点,列出安装及使用过程中需要注意的事项。
近几年来,我国枣树人工栽植及嫁接改良面积不断扩大,为枣农带来了一定的经济效益。但由于枣树是开花量大而坐果率低的树种,其落花、落蕾、落果都很严重。华北地区的自然坐果率只
【正】 作为"93届中国化妆洗涤美容美发商品交易会"(以下简称化洗会)即"中国国际化妆品节(上海)"的重中之重——第八届中国化妆品营销论坛已于2004年5月6日在上海光大酒店影
随着我国科学技术的飞速发展,机电一体化技术也取得了相当显著的成绩,其应用范围也是越来越广,尤其是在工程机械制造方面,更是发挥着至关重要的作用。不仅有效提高了工程机械
毛泽东曾经说过:“中国的改革和建设靠我们来领导……我们所以要整风,现在要整风,将来还要整风,要不断地把我们身上的错误东西整掉,就是为了使我们能够更好地担负起这项任务
<正>2018年3月15日,由全国微型电动汽车产业创新联盟、中关村新型电池技术创新联盟、山东省汽车行业协会、山东汽车工程学会共同主办的"2018中国(济南)新能源汽车产业发展峰