【摘 要】
:
Web信息抽取(Web Information Extraction)是当前Web信息处理中的重要课题。其主要任务是对页面中的目标数据进行分析,进而进行语义标注。具有语义标记的数据可精确地回答用户
论文部分内容阅读
Web信息抽取(Web Information Extraction)是当前Web信息处理中的重要课题。其主要任务是对页面中的目标数据进行分析,进而进行语义标注。具有语义标记的数据可精确地回答用户的查询,有极广阔的应用前景。目前,Web信息抽取技术以知识工程、自然语言处理和统计学习为基础。其中基于统计学习的技术是当前研究的热点。
本文将信息抽取问题分为特征获取、页面浅语义化表示和信息抽取(语义标注)三个部分,分别进行研究,并通过实验分析来验证方法的有效性。
在特征提取部分引入了文本主题和页面分隔线两类特征。在比较特征权重计算、特征选择方法、分类器和中文分词技术的基础上,构建并简化了用于获取文本主题特征的文本分类模块。在Sogou语料库上两次文本分类实验的平均F1值为81.25%。本文还将图像识别方法用于页面分隔线的提取,实验表明该方法能较为准确地提取页面分隔线。
在页面浅语义化表示部分,首先提出了简化HTML布局规则和页面代码的页面结构调整算法,该算法用HTML扩展子集重新描述页面,这种最简描述较好地解决了因页面模型复杂化而导致算法适应能力下降的问题。然后研究了基于分隔线和混合距离的页面分块算法,以分离页面中内容不相关的块,获取页面的块语义。实验表明,在分块任务中结构调整和分隔线特征分别使F1值提高了+8.43%和+12.8%。
在信息抽取部分,将层次条件随机域(HCRF)模型用于标注页面数据的语义。研究了页面特征组合,以及页面浅语义化表示和文本主题特征对信息抽取性能的影响。实验结果表明整体研究方案是有效的。对比实验还表明采用文本主题特征和页面浅语义化表示能改善信息抽取性能,在相同样本上的F1值分别提高了+3.9%和+8.8%。
其他文献
在新形势媒体发展背景下,如果不能根本性的对县级媒体新闻节目加以改进和提升,就会导致节目质量越来越低、收视率也将变得很低,对于信息的传播和舆论的导向就会发生不利的影
随着国民经济的不断发展,科学技术水平的不断提升,测绘技术也不断进步,现代地理信息系统逐步代替了传统的测绘技术,而测绘作为工程项目施工过程中十分重要的环节,受到管理人
变频器通过改变电机工作电源频率的方式来控制电机运行实际需要的电源电压,可有效降低工业生产能耗,目前在我国工业生产中已经得到了广泛的应用.变频器在运行时产生的谐波电
在高等院校里,学生干部是学生中的优秀者,在学习生活、校园文化建设等方面起着带头和模范作用,是教师和广大学生之间沟通的纽带和桥梁,是高等院校学生工作的重要组成部分及重要力量。然而,在新的形势下,高等院校的学生干部也面临着许多新情况,陷入了困境。如何帮助这些学生干部走出困境,已是摆在我们教育工作者面前的一个重要的课题。 一、学生干部面临的困境 一个学校精神面貌的好坏,学生工作是否能顺利进行
虹膜识别是一种高效的生物特征识别技术。本文首先运用sobel算子来提取图像的粗略边缘,推广领域概念将9×9像素范围作为联通法则,这样得到有限个联通区域。对每个区域根据几
随着经济的发展,我国的电力行业的发展也有了一定的改善.随着人们生活水平的提高,人们的用电量在近些年来呈现逐年递增的态势,随着人们生活质量的改善,变电站面临着新的机遇
科技的进步,促进人们对能源需求的增多.随着新能源产品的诞生,中国电力的需求量逐渐增加.2013-2019年中国火力发电量一直处于攀升的趋势,中国火力发电量至今已超过5万亿k W·
汽轮机数字电液调节系统是确保汽轮发电机组安全、经济运行的重要控制系统。通过对调节系统各环节参数进行辨识,可以实现系统性能预测、控制优化、状态监测与故障诊断。本文以两种随机优化算法,经典的遗传算法和新型的微粒群优化算法为研究对象,针对它们存在的缺陷提出相应的改进措施,通过典型算例的测试,结果表明改进策略能有效提高算法的计算速度和优化精度。最后,将两种改进的随机算法结合起来构成混合算法,用于汽轮机数字