【摘 要】
:
实体解析是关于识别和解析不同数据集合中的数据对,使其匹配现实世界中相应实体的过程。实体解析是存在于数据库管理,信息检索和机器学习等众多研究领域中的长期挑战。随着大
论文部分内容阅读
实体解析是关于识别和解析不同数据集合中的数据对,使其匹配现实世界中相应实体的过程。实体解析是存在于数据库管理,信息检索和机器学习等众多研究领域中的长期挑战。随着大数据时代的到来和数据自带的语意模糊性,实体解析的任务变得越来越繁琐和复杂。然而,众包平台的出现为解决数据的寓意模糊性提供了有效的解决途径。因此本文就如何利用人类的智慧来解决实体解析的问题进行了初步的探讨,本文主要分三个大部分来探讨。第一部分主要介绍了本文的选题背景以及相关工作,尤其是介绍近些年实体解析的研究情况和基于众包的实体解析的研究成果。而众包平台解决实体解析问题的关键是众包问题的产生策略,即Human Intelligence Task(HIT)的产生策略。该部分首先介绍了众包在实体解析中的两种HIT生成模型,即基于关联的HIT生成模型和基于概率的HIT生成模型。最后通过对这两种模型的优缺点进行对比,基于概率的HIT生成模型被确定为本文要探讨的应用模型。本文第二部分探讨如何调整和转化相应的HIT生成模型,使其能够解决实体解析中的HIT生成问题。不同于其他HIT生成模型,本文将用户的错误率考虑进来,探讨了用户答题的错误率对于HIT生成效率和精度的影响。与此同时,该部分分别提出了两个HIT的概率生成模型框架,即最佳HIT生成模型1EPMQ和多HIT生成模型NEPMQ。除此之外,该部分证明了NEPMQ方法的HIT生成策略是一个NP-hard问题。为了解决这个NP-hard问题,本文分别提出了一个近似算法和一个启发算法。为验证本文提出的概率模型框架的可行性和有效性,本文第三部分基于小数据集进行了实体解析模拟实验并对本文进行了总结。根据模拟实验的解析结果,讨论并评估本文相应的概率模型和算法。通过对实验结果的评估,证明了本文提出的基于概率的HIT生成模型框架及其算法的可行性和有效性。
其他文献
车道线检测与跟踪为自动驾驶及车辆偏移预警提供了有力的支撑,一直是汽车行业研究的热点和难点。车辆偏移预警系统通过对车辆行驶路线进行监测,防止车辆轨迹偏移,从而减少交
免疫算法作为三大模仿人体机制的算法之一,有着较强的全局收敛性,高效的并行记忆功能,良好的嵌入性能。它与鸟群算法,粒子群算法组合形成新的混合算法并应用于PID控制器参数整定和肺结核模型参数估计是本文研究的焦点内容。对于PID(Proportional Integral Derivative)控制器采用ITAE误差性能指标作为目标函数,并利用基于Levy飞行策略和精英免疫策略的自适应鸟群算法对其进行参
原子间的长程相互作用在低能、低温碰撞中(如超冷碰撞,超冷光缔合光谱,Bose-Einstein condensations(BEC)等)起着重要作用。在超冷环境下,原子间的长程相互作用时间长,范围广
近年来,半导体光催化在治理环境污染和解决水资源问题方面显示出了巨大潜力,无论是在实验室科研还是试验阶段的光催化污水处理厂中都取得了不错的进展。在众多的光催化剂中,Ti_O2以其高效、廉价、无毒、可持续、使用方便等优势被广泛使用。然而使用后的催化剂颗粒回收的高成本和复杂性,阻碍了其商业化的进程。光催化剂与膜分离技术的复合将有效解决这一问题,并有望实现大规模的商业化运用。本文对PVDF超滤膜进行了导电
双电子复合(DR)过程作为重要的电子-离子非弹性碰撞现象之一,是实验室高温等离子体和天体等离子体中影响等离子体电离平衡的一种重要的原子动力学过程,对建立等离子体电离平衡
协同制造作为一种新的制造模式,相比传统的生产调度模式有着生产周期短、响应速度快、生产成本低等优点。但由于资源的分布性和异构性导致协同制造面临着以下问题:企业的协作
在小学语文教材中,略读课文的比重随年级升高整体上也在增加,反映出略读课文在语文中占据一定地位。略读课文的出现是让学生在阅读中获取信息,利用从精读课文中学到的阅读技能来独立阅读,从而逐步培养自身的略读能力。但在实践中,一线教师对略读课文的教学却存在一些需要探讨的问题,本研究的目的是发现略读教学中存在的问题,并对原因进行分析,提出有利于略读教学的优化策略,使略读课文在语文教学中真正发挥价值。本文以部编
制动盘作为轨道车辆制动装置的关键元件,直接关系到轨道车辆制动性能的好坏。行驶于高寒、风沙地区的轨道车辆制动盘出现严重磨粒磨损现象,不仅提高了维修成本也对轨道车辆的制动性能产生影响,增加制动隐患。本文以高速列车铸钢制动盘为研究对象,运用有限元仿真和实验相结合的方法对磨粒磨损过程的特性与机理进行分析研究。具体研究内容如下:(1)分析制动盘制动界面嵌入型磨粒的磨损机制;对磨损过程中单颗磨粒的几何形状进行
光电探测器件在军事、通信、生物、医学等领域具有重要的应用价值。低维材料由于高的比表面积和优异的物理化学性能成为构建高性能光电探测器的理想基元。因此本文主要关注低
本文计算了镱原子的基态6s21S0与激发态6s6p3P0o和6s6p3P1o的标量与张量静态电偶极极化率。这些参数对许多与激光冷却与操控镱原子的相关实验具有非常重要的应用价值。通过采