用于模式匹配的众包发包方法及优化策略

来源 :上海海洋大学 | 被引量 : 1次 | 上传用户:eagleqizha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和网络的迅速发展,各个应用领域之间的合作越来越频繁,数据的互操作性越来越重要。由于各领域生产方式的高度自治,导致了数据模式的异构性,为实现数据共享和使用,解决“信息孤岛”的现状就需要数据集成的工作。模式匹配作为数据集成过程中的一个基础性问题,受到了学术界的关注,并提出了许多匹配方法以及研发出了各种模式匹配工具。使用模式匹配工具能大大提高模式匹配效率,但其给出的结果是带有不确定性的,且这种不确定性很难通过优化模式匹配的方法来进行消除。人类的智慧和生活经验能帮助减少这种不确定性。随着众包概念的提出,众包这种将任务分发给一组分布式网络用户的新型问题解决模式在许多领域得到了广泛的应用。在数据库领域,运用众包的方式来帮助解决模式匹配工具在匹配过程中产生的不确定性问题成为一个研究的热点。本文在运用众包的方式解决模式匹配问题的基础之上,针对众包发包流程进行了研究,提出了一种用于模式匹配的众包发包方法及优化策略。通过本文给出的方法和策略可以为众包问题发布者节省费用和时间成本。本文的研究工作包括两部分,具体如下:本文基于熵和贝塔分布提出了一种用于模式匹配众包方法中的问题发布方法:Entropy-Beta。该方法引入了熵的概念,对模式匹配不确定性的大小给出度量,在此基础之上根据每个问题相对于模式匹配结果集熵的大小来选择最佳的问题进行发布,使每次发布的问题都能最大程度的减少模式匹配工具结果中的不确定性,以提高解决问题的效率。同时基于Beta分布的方法对众包工作者提供的答案精确度进行计算,并根据计算的结果动态的对发布问题的顺序进行调整,以保证解决问题的精确度。在Entropy-Beta方法的基础之上,本文引入了经济学中的边际原理思想,提出了用于模式匹配众包方法中的发包优化策略:MarP(Marginal Principle)。该策略综合考虑了解决模式匹配不确定性的精确度以及发布问题的成本。根据边际原理的思想对发布问题的顺序进行了优化调整,使其满足边际报酬递减的原则。其次,在发包的过程中给出了发包成本和减少的模式匹配不确定性大小(即发包收益)之间的对比方法。并根据两者之间的大小给出了停止问题发布的判断条件,以保证问题发布者所花费的成本能获得相对最大程度的模式匹配不确定性大小的减少。最后,本文采用四组实验数据,通仿真实验和招募志愿者实验两种实验方法,从解决模式匹配不确定性问题的效率、精确度以及成本三方面进行实验。通过实验结果的对比,验证了本文提出的发包方法及优化策略能更好的满足问题的发布者对于解决模式匹配问题的需求。本文的创新点主要体现以下两个方面:1、针对用于模式匹配的众包发包流程,提出了一种基于熵的问题发布排序方法。该方法能选择出对解决模式匹配不确定性问题贡献最大的问题进行优先发布,提高了解决问题的效率。2、基于边际原理提出了对用于模式匹配的众包发包流程优化策略。该策略根据发包成本和收益的对比来判断何时停止问题的发布,保证了问题发布者所花费的费用能获得相对最大的收益。
其他文献
范畴三段论推理是演绎推理的基础,也是哲学、逻辑学、心理学、认知科学和人工智能等所感兴趣的研究领域。推理形式上,心理学对范畴三段论推理的研究揭示出范畴三段论推理第一格
计算机网络技术的发展使得网上信息资源快速膨胀,并具备了传统信息所没有的海量、分布性、变化快、无结构化等特点。这些特点的出现向人们利用信息的能力提出了挑战。目前人们
膜系统的基本模型由膜结构组成,膜结构又由一些细胞膜构成,它们分层地嵌套在称为皮肤的主膜里,我们一般用广义表来表示膜结构。膜划分区域,并包含了一些物质在里面,每种物质通常不
近些年随着农业信息化的不断推进,越来越多的信息技术被引入到农业生产中去。如何实现水稻高产、稳产的目标,成为现代农业研究方向的一个重要课题。近几年物联网技术得到快速
在嵌入式系统飞速发展的今天,各种嵌入式系统正广泛应用于生产和生活的各个领域。面对嵌入式系统功能的复杂化,对性能要求、功耗要求的不断提高,越来越多的嵌入式应用需要基于异
随着计算机技术的发展,社会信息化程度的不断提高,计算机水平成为考核个人能力的一个重要标志,计算机考试也已经深入到每一个行业。尤其在教育行业中,传统手工阅卷已经逐渐走向计
移动Ad Hoc网络是一种不需要基础设施的多跳无线网络,网络中的节点既具有无线终端的收发功能又具有为其它节点转发信息的功能。网络中所有节点地位平等、功能相同,没有中心控
嵌入式系统的应用越来越广泛,随着嵌入式系统与网络的日益结合,在嵌入式实时操作系统中引入TCP/IP协议栈,以支持嵌入式设备接入网络,成为嵌入式领域重要的研究方向。作为嵌入
当前,嵌入式系统已经成为人们生活中的一部分。可以在很多应用中找到它们,如家用电器、工业设备、医疗设备、通信设备以及汽车应用等。有些嵌入式系统位于远离其使用者或操作者
聚类和分类是当前计算机人工智能领域的研究热点之一。人们渴望快速而准确地获取并处理信息,可是互联网上数据不但数量庞大,而且结构各异。信息自动聚类和分类技术,成为充分