【摘 要】
:
随着Internet/Web技术的快速普及和迅猛发展,Web上的数据容量空前增长,成为世界上最大的数据源。但对某一用户而言,真正有用的信息却是少量的。这就是所谓的Rich Data Poor I
论文部分内容阅读
随着Internet/Web技术的快速普及和迅猛发展,Web上的数据容量空前增长,成为世界上最大的数据源。但对某一用户而言,真正有用的信息却是少量的。这就是所谓的Rich Data Poor Information问题。由此产生了Web信息抽取技术,现已成为当前研究热点之一。本文采用基于规则和统计相结合的信息抽取算法,同时利用本体(ontology)思想,对需要抽取的数据进行描述,进而再生成规则,开发了人物信息抽取系统PeopleInfoAbstract,实现了半结构化人物信息的自动提取。该系统分为网页采集模块、网页预处理模块、信息抽取模块、检索模块四大模块。网页采集模块首先界定了本文的研究对象,对研究对象进行定义和分类,接着从范围、数量、原则、方法四个方面介绍了采集标准。网页预处理模块通过将HTML文档解析成DOM树,实现了两种预处理方法:提取网页正文区和去掉所有HTML标签。该模块采用海量科技开发的版式分析来得到网页的正文区。信息抽取模块实现了半结构化人物信息的自动提取。通过在大语料中对人物的字段名(即人物属性名)进行程序统计,创建了一个字段名词典,该词典共收录了4624个有效字段名。通过对提取出的字段名采用查字典的方式进行有效性检验,当字段名有效时再提取其对应的字段值,否则不提取,大大提高了信息提取的准确率。该算法将字段值分为短字段值和长字段值,采用不同的提取规则。对于字段值的有效性检验,本文采用本体(ontology)思想,对需要抽取的字段值数据进行特征描述,生成有效性检验规则,进而来判断字段值的有效性。检索模块实现了按姓名对抽取到的人物信息进行查询和浏览。通过对系统测试,平均准确率和召回率达到90%以上,并且适应性良好。
其他文献
水面无人艇是一种用于搜索和侦查海洋信息的工具,近些年来逐步受到各海洋强国的高度重视。由于水面无人艇需要克服预先所不知道的外界干扰来独立完成任务,这就要求水面无人艇
近年来,供应链管理作为新兴的企业生产管理模式发展得如火如荼,供应链管理的研究也成为学术界的研究热点。然而,要提高供应链管理水平,就要明确了解供应链运作状况,这就需要对供应
油品调合是炼油厂储运管理系统的关键组成部分,优化油品调合可以给炼油厂带来显著的经济效益,其手段是采用计算机控制下的在线管道调合工艺,以智能的优化调和为模型,在满足质
20世纪末以来,对复杂网络的研究开始更多地关注节点数量众多、连接结构复杂的实际网络的拓扑结构及其动力学行为。同步是其中一种重要的动力学行为。和以前的研究不同之处在于
交互式用户身份验证(HIPs,Human Interaction Proofs)是一种网络安全前端预防措施,鉴别网络用户的身份,避免服务器遭受网络中恶意代码的攻击。HIPs被称为R-图灵测试,它的目的
生物发酵工业作为现代生物技术工业的重要组成部分,已经被广泛用于食品、制药等各个领域,并显示出良好的发展态势和巨大的市场潜力。但由于生物发酵过程是一种复杂的生化反应
双目视觉技术是计算机视觉领域中必不可少的一部分,它是由多门学科互相交融所形成。其关键内容是利用双目摄像机获取目标物的左右两幅二维图像,从左右两幅二维图像中求取目标
欠驱动机械系统是指系统的独立控制变量个数小于系统自由度个数的一类非线性系统。它在减少执行元件个数,减轻系统重量以及降低成本方面具有很大的优势,因此对它的研究具有重要
在智能自动化研究领域,现在基于群体智能特征的仿生类算法研究正受到越来越多学者的关注。作为群体智能的典型实现,蚁群算法正在受到学术界的广注关注。它是在20世纪90年代,由意
随着一户一表改造工程的开展,城市化规模的不断扩大,户用计量仪表(水表、电表、煤气表)的使用量在高速增长;随着阶梯水价、分时计价等新的收费方式的实施,传统的户用计量仪表和人