【摘 要】
:
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信
【机 构】
:
中国科学院大学计算机与控制学院,中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
【基金项目】
:
国家重点研发计划(2017YFB0803302,2016YFB1000902),国家重点基础研究发展计划(973)(2014CB340405),国家重点基础研究发展计划(973)(2014CB340401),国家自然科学基金(61433014).
论文部分内容阅读
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达
其他文献
治安学提升为公安学下的二级学科,表明治安学学科已经成熟为公安学下有关治安领域的独立知识体系。此后的治安学专业应从厘清治安学专业内涵,密切与治安部门的联系,打造"双师
随着高等教育规模的不断扩大,各高校普遍存在教育经费紧缺的现象。如何筹措教育经费,缓解资金缺口已经成为地方高校急需解决的问题。本文主张地方高校主动引入市场机制,开源节流
大学生社会实践是高等教育的重要组成部分,也是高校思想政治教育的重要环节,在大学生成长成才中发挥着重要作用。近年来,在各高校普遍深入开展下,大学生社会实践活动也取得了
本文证明了Taylor中位定理和推广的广义中值定理中的ξ满足当b→a时,(ξ-a)/(b-a)→1/(n+2),推广了文[2]中的结果。
提高学生的职业技能和实践能力是高校秘书学专业人才培养的必然要求。秘书学专业应强化课堂实训教学,可运用案例分析法、实际操练法、情境模拟法和实战演练法等实训方法优化课
教材体系是整个教学体系的依据和基础,同时也是教师在教学过程中讲授知识,实现教学目标的根本依托。我国高职院校思想政治理论课由教材体系向教学体系转化过程中面临着教学方
本文首次报导了河南境内大别山——桐柏山区水生植被。文中叙述水生植被30个群落。对每个群落的分布、外藐特征、盖度和经济意义等作了阐述。
学风建设的好坏关乎当前高校人才培养质量,关乎高校软实力的提升。文章基于对武汉某高校不及格学生群体的实证研究发现,大学生陷入学业困境不仅是学生个体学习心态与行为模式偏
职业教育是与经济联系最紧密的教育类型,服务经济转型,是我国高等职业教育必须明确的发展方向。为了承担起服务经济发展方式转变的时代责任,高等职业教育必须加快发展方式转变。
本科院校,特别是地方本科院校,其办学理念是:立足地方,融入地方,服务基层;培养目标是毕业生真正成为具有创新精神和实践能力的应用型高级专门人才。用什么来衡量、成就这个培