【摘 要】
:
随着互联网的发展,网络数据质量良莠不齐,用于机器学习的数据集往往需要专门的技术人员进行数据标注。人工标注不仅耗时耗力,而且人员理解存在差异,导致同一数据被标记的关键词信息大不相同,使得人工标注遭遇瓶颈,众包模式的出现解决了上述问题。本文在深入研究了众包模式、激励机制、博弈论基本原理的基础上,设计并实现了一个基于众包模式的数据采集标注系统。主要研究内容如下:(1)提出了一种加权的多数投票算法。针对现
论文部分内容阅读
随着互联网的发展,网络数据质量良莠不齐,用于机器学习的数据集往往需要专门的技术人员进行数据标注。人工标注不仅耗时耗力,而且人员理解存在差异,导致同一数据被标记的关键词信息大不相同,使得人工标注遭遇瓶颈,众包模式的出现解决了上述问题。本文在深入研究了众包模式、激励机制、博弈论基本原理的基础上,设计并实现了一个基于众包模式的数据采集标注系统。主要研究内容如下:(1)提出了一种加权的多数投票算法。针对现有的众包模式不能够对数据采集和标注结果进行评估的缺陷,提出了一种基于加权的多数投票算法。由于众包任务采用冗余分发的形式,通过对结果的比较分析数据结果,在众多结果中去除无效信息和错误信息,最终获取高质量结果,并根据任务完成度、难易度确定积分数目的奖励机制。(2)提出了一种改进的K-medoids聚类算法。针对已有加权多数投票算法存在的一些片面性,本文在加权多数投票算法的基础上又提出了一种K-medoids聚类改进算法,对原有聚类评价函数进行改进,对肘部法确定K值,轮廓系数评估聚类效果,并将选项的加权频率作为特征值,采用正向或极差化法对数据进行标准化,计算样本间的欧式距离,通过K-medoids算法模拟不同用户能力下的数据分布,推断出正确的聚集数据,从而提高系统整体采集标注质量。(3)设计了基于众包模式的数据采集标注系统。本文设计的基于众包模式的数据采集标注系统,满足文本、图片、语言、视频四种模式的任务需求,以微信小程序为载体,主要分为任务发布模块、采集模块、标注模块、审核模块、激励模块。最后,本系统已完成功能测试和性能测试,测试表明数据采集标注系统满足任务需求,加权的多数投票算法和改进的K-medoids聚类算法的实验结果证明,有效提高了众包的标注数据质量。
其他文献
20世纪90年代以来,随着我国工业化的高速发展,对仪器仪表的设备需求呈现粗放式增长。MZ企业抓住时代契机进入仪器仪表细分市场,专注于气体检测仪代理业务,成为众多仪器仪表代理企业中的一员,历经13年的发展,MZ企业在国内西南地区的气体检测仪市场有了稳定的基础。然而,近年来随着中国经济发展进入新常态,对气体检测仪设备的需求进入平缓增长阶段。与此同时,气体检测仪设备同质化越来越严重,以及行业销售渠道日趋
我国政府逐渐将以算法、算力(云计算)和大数据为核心要素的人工智能技术嵌入到其管理和服务过程中去,从而推动着行政范式向“自动化行政”转化。自动化行政是指行政主体为保障行政权力的有效行使和提高行政效能等目标的实现,利用以人工智能技术为基础的自动化系统或设备开展行政管理活动,实施行政行为,且根据自动化系统或设备的自主程度及其在行为过程或行政程序中的参与度和完成度,从而产生半自动化或全自动化处理的行政管理
在越来越强调政务公开、有法必依的“互联网+政务”时代,行政处罚决定公开制度与新出台的个人信息保护制度出现了多层次的冲突。为在现有法律框架内对二者进行协调,本文采用比较分析、价值分析的研究方法,以在推进信息公开中强调信息保护的视角力求达到二者的合理平衡。首先,分析梳理政府信息公开中规范行政行为、促进信息流转、加强社会治理三个方面的规范目的;随后,引出行政处罚决定作为一类特殊的政府信息,明确行政处罚决
“双减”政策背景下,小学数学作业设计需做到减负提质和提质增效,这就要求教师要充分明确数学作业设计要点,持续性创新作业设计。基于小学生的身心发展特点及数学学习能力,教师应把握“双减”对数学作业设计的要求,重点从趣味性、生活化、差异化、探究性等方面着手设计,以多样化作业增强学生学习体验,提升学生学习质量效率,促进学生实现全面化发展。
近年来,国家对生态文明建设提出更高要求,与此同时,随着城镇化的快速推进,新城数量不断增加,城市病问题也日益突出,如何围绕生态理念做好品质新城的开发成为高质量发展的重要突破口。通过剖析新城在环境、空间、产业3方面的困境,围绕生态要素、管控手段、产业体系探讨基于“生态+”理念的品质新城规划策略。同时,以长沙市洋湖生态新城为例,提出全周期闭环管理模式、全要素规划设计策略、全方位建设维护机制3条实践路径,
在“双减”政策背景下,必须解决当前数学教育中被忽略、掩盖的“重术不重道”问题:将数学本质中蕴含的思想与文化严重异化为解题训练,让小学数学“越减越负”.基于“双减”目标,在数学教育中“术以载道”,以数学文化发展中蕴含的数学思想为暗线,基于小学生素养学习设计高效的小学数学探究性实践作业,重视师范生探究性实践作业设计的课程群整体性,充分利用“全媒体”教学资源,激发师范生学习探究的兴趣点,助力小学生数学思
提出了固相萃取-液相色谱-串联质谱法测定尿液中四氢大麻酚(THC)和Δ~9-四氢大麻酸(THC-COOH)含量的方法。取尿液样品1 mL,加入1 mol·L-1 NaOH溶液1 mL,于60℃加热15 min后过活化好的MAX混合阴离子固相萃取柱。用1 mL 2%(体积分数)氨水溶液固定目标物,用1 mL 80%(体积分数)甲醇溶液进行淋洗,最后用1 mL含5%(体积分数)甲酸的甲醇溶液进行洗脱,
<正>数据标注在从劳动密集型向技术密集型转换的同时,也在利用AI提升效率。不过在许多全新的领域,机器始终无法代替人类。清晰且标准化的数据适合AI标注,但模糊且繁琐的社会性数据只能由人来进行。数据标注的准确性决定了人工智能算法的有效性,因此,数据标注不仅需要有系统的方法、技术和工具,还需要真正认识目前现有数据标注存在的问题,并针对目前的混乱性,给出自己的解决方案。本文概述了数据标注的类型、数据标注工
双光子光刻技术用于制造具有复杂三维结构的微小物体。随着光刻技术的发展以及对光刻结构多功能性的需求,对光刻胶提出了更高的要求。传统的基于丙烯酸酯的光刻胶存在机械性能可调性弱,可降解性差等问题,这限制了该技术在生物应用的潜力。作为丙烯酸酯聚合的替代反应之一,巯基-烯聚合的可控性更强。在本文中,我们探索了基于巯基-烯聚合的光刻胶体系,开发了两种光刻胶,实现了丙烯酸酯体系中不能实现的高力学性能可调性和可降