基于众包的网络表格语义恢复

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:BESTWANGLOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网中存在大量结构化的表格数据,但这些数据大多数都缺少表头、实体列和外键。对于表格数据,表头等结构信息是进行数据检索和表格融合的重要基础。目前,人们提出了很多机器算法来恢复网络表格的结构消息,但在算法准确性和稳定性方面都有待提高。近年来,众包技术被越来越广泛的应用于自然语言处理、图片识别等领域。本文提出引入众包技术解决网络表格的结构信息恢复问题,在机器算法的基础上通过工人来完成表头、实体列和外键的标注任务。在表头和实体列恢复方面,论文提出了任务约简的理论模型和算法,通过引入典型属性的概念,对传统聚类算法进行改进,在聚类的基础上从表格中挑选少量代表元组呈现给工人,使标注任务得到明显简化;此外,论文提出了基于答案可信度的评估模型,通过对工人不同领域的动态评分完成相应的任务推荐和答案决策。大量实验表明,本文提出的工人评估模型能显著提高答案的准确性,而任务约简模型能在保证不影响答案准确行的前提下明显减少工人完成任务的时间。在外键标注方面,针对网络表格的数据特点,论文提出了类外键的概念,并结合网络表格的数据特点设计了对应的评分机制,为外键标注提供高质量的候选答案。为了控制外键人工标注的成本,首次提出了基于属性依赖关系的任务约减方法和基于冲突检测的动态问题规划方案,在降低任务复杂度的同时减少了问题数量。大量实验结果表明,本文提出的外键检测算法能提高候选外键的准确性和召回率,成本控制方法能显著减少问题的数量。
其他文献
随着信息社会的高速发展,信息数据量日益膨胀,如何把这些数据转换成有用的信息和知识将是数据挖掘领域要解决的核心问题。模式挖掘是数据挖掘中重要的一部分,通过模式挖掘与
Internet技术和无线通信技术已经成为自20世纪末到21世纪初期以来,世界科学技术发展中最活跃的领域之一。电信网络技术和以IP技术为代表的计算机网络技术的融合,推动信息通信
蛋白质分子的结构非常复杂,对其结构进行预测需要建立一个简化模型,并采用优化算法求解稳定状态下最小能量值,但算法的数据计算量非常庞大。因此,利用分布并行技术提高算法的
为适应银行电子化和业务发展需要,扩大稽核范围,提高稽核效率,防范金融风险,许多银行都建立了自己的稽核流程管理系统。稽核流程管理系统是利用计算机系统对被稽核单位业务数
由于科技的发展与Internet的普及,越来越多的软件系统的运行环境从封闭和静态逐步转变为开放、动态而多变的状态,并且软件系统的在线维护和演化成为系统要素,同时,分布式中间
经过数十年的发展,我国医疗信息化在取得诸多成绩的同时,依然存在着不少的问题。区域卫生医疗信息化的发展严重滞后,其中普遍存在的“信息孤岛”,“政策发展与新技术交叉”问
互联网应用的飞速发展,使目前网络上聚集了海量资源。而这些资源大多处于闲置状态,这就引发了人们对如何利用这些闲置资源来解决实际问题的思考。然而在互联网环境下,对成长
数据融合技术产生于20世纪80年代,在多传感器遥感图像的融合、机动目标跟踪、航迹关联、多传感器目标定位、识别与分类、分布信息融合、数据关联、态势评估与威胁估计以及在
随着互联网、多媒体技术和计算机视觉的快速发展,海量的数字图像的处理成为日益现实而紧迫的问题,即如何从如此纷繁复杂的图像中快速的找到我们所需要的信息。近年来,主要以
尽管目前海运行业目前已普遍使用计算机处理业务,并且由于公共信息基础设施和内部网的建设,一般海运企业都已有了基本的信息处理环境。但是这种息化的认识深度有限,大部分企