基于自然标注的网页信息抽取研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:yongjianok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据。文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法。从实验结果上看,本方法优于其他方法。
其他文献
针对编队对岸上目标进行巡航导弹攻击时的舰机协同问题,根据巡航导弹航路区域和目标的方位、距离以及编队队形,建立了反潜直升机安全警戒扇面角模型。以此为基础,分析了不同
<正>随着人工关节技术的发展,全髋关节置换术已逐渐成为一项常规手术。比起手术的进步和普及,国内术后康复则相对滞后。人工髋关节术后康复治疗和功能训练常常被临床医生所忽
会议
研究了森林生态价值补偿政策基础、生态效益补偿对象选择、补偿原则以及资金来源途径。(1)提出森林生态"效益源"的概念,分析森林生态效益的现实存在形式;(2)从法理的角度,对
新一代动力节电器。经国家质检中心检测,各项技术指标均达到国际IEC和国家GB12747—91标准。
随着风格的不断变化,带有童趣元素的设计表达了一种新的概念步入人们的生活,给女装设计带来新鲜和创新。充满玩味、有趣的设计让人们的生活态度乐观向上。为了让产品和消费者
功能性氨基酸是指可以通过调节动物机体的关键代谢通路,对人和动物的生长发育、繁殖健康有促进作用,对生命活动起到诸多生理调控作用的氨基酸。一些功能性氨基酸及其产物对母
<正>因美国次贷问题引发的金融危机业已演变成波及全球的金融海啸,并迅速发展成为蛀蚀全球经济的风暴,受其影响,全球建筑市场也遭到了重创。在国内,政府通过进行宏观调控的方
关于隐性思想政治教育的研究是近些年来新兴的研究课题,文章试图从隐性思想政治教育的研究领域及其方法论对其进行横向梳理。总体上看,我国关于隐性思想政治教育的研究还应转
对于小学生来说课外阅读是课内知识的延续,而且课外阅读能够在很大程度上激发学生的阅读兴趣,从而培养学生良好的阅读习惯,让小学生能够拥有良好的语文素养,但是就目前我国的
随着我国高速公路事业的发展,大型车辆不断增多,公路交通安全设施尤其是桥梁护栏,由于发生事故的严重性,其防护能力应相应提高,同时,对于一些景区的公路护栏,要求不但保证其防护能力