基于最优化方法的真值发现算法研究

来源 :哈尔滨工业大学 | 被引量 : 1次 | 上传用户:ISE7ENAK
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,各行各业已迎来大数据时代。分析大量数据的一大挑战是数据的准确性。数据,甚至描述同一个对象或事件,都可以来自多种数据源,如众包平台上的工人和社交媒体用户。然而,噪声数据是不可避免的。面对令人望而生畏的数据规模,利用人工“贴标签”或标注哪个数据源更可靠是不现实的。因此,从多个噪声数据源中识别出正确可用的信息,即真值发现的任务是十分必要的。
  目前,面向多源数据的真值发现技术主要面临两方面的挑战:在结构层面,基于多源数据的真值发现需考虑数据组成的不同特点和应用场景,精细定义不同场合下的真值发现问题。在算法层面,基于多源数据的真值发现需考虑不同层面的信息冲突,设计高效的算法,利用多种线索挖掘更有价值的信息。现有的真值发现方法在结构层面和算法层面都存在缺陷,不能很好的解决多源数据真值发现相关问题。
  本文综合运用数据清洗、数据挖掘、自然语言处理的相关理论、技术和方法,对于多源数据真值发现进行了系统研究。本文主要面向三种数据模型:第一种为多源同构数据,其具有明确的实体-属性-数据源的对应结构;第二种为多源异构数据,其不同数据源描述的实体和属性信息可能以不同形式存在;第三种为文本数据,其直观上不体现出实体-属性-数据源的对应结构,数据中包含大量无关词汇。在三种数据模型的基础上,本文从多源数据存在的关联性、不一致性、稀疏性和异质性四方面重要性质出发,对多源数据真值发现问题进行了研究,主要研究内容如下:
  首先,面向多源结构数据,本文提出了一种基于函数依赖的无监督真值发现算法AutoRepair,同时利用了基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法的优点。AutoRepair使用函数依赖,一种常见的约束类型来检测冲突,并使用源可靠性作为依据来发现和修复这些冲突中的错误。然后,再利用修复后的结果重新评估源的可靠性。由于源可靠性是未知的,为确保更好的性能,AutoRepair将上述真值发现过程建模为一个迭代过程,并在合成数据集和真实数据集上进行了大量的实验。实验结果清楚地表明了AutoRepair的优越性,其性能优于基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法。
  其次,为更好的形式化多源结构数据中实体属性之间、实体属性与外部知识之间存在的多种联系,本文提出了一种基于否定约束和源可靠性的真值发现方法。该方法的关键部分是将完整性约束的之一的否定约束整合到真值发现过程中。本文将基于否定约束的真值发现描述为一个优化问题,并设计了一个迭代算法CTD来解决该优化问题。通过该算法,真值发现的结果不仅得到可靠数据源的支持,而且满足给定的否定约束。此外,本文还提出了两种优化策略,以确保在大规模约束条件下的可扩展性。在真实数据集上的实验结果表明,CTD具有较高的精度和可扩展性。
  再次,为解决多源异构数据上实体属性不对应导致的真值发现信息不足问题,本文将模式发现引入真值发现,通过挖掘数据上潜在的模式来发现真值。本文将该过程描述为一个优化问题,将共享相似模式的实体视为一个组,并使用优化框架通过识别潜在分组和每个组的模式对问题进行建模,潜在分组、组级代表、源可靠性和属性权重定义为四组未知变量。为解决该优化问题,本文提出了一个名为PatternFinder的算法,它可以迭代地学习四组变量。在合成数据集和真实数据集上的实验结果证明了PatternFinder的优越性,其在效率和有效性方面都优于最新的基线方法。
  最后,考虑到基于全局挖掘的文本模式可提取多个句子中的相关事实元组信息,本文通过同时评估模式和事实元组来解决文本数据上的真值发现问题。本文考虑了模式可靠性和事实元组可信度,将可信的事实元组作为获得真值的途径。为学习模式可靠性和事实元组可信度之间的复杂关系,本文提出了一种基于CNN和LSTM混合架构的深度学习模型,并同时使用模式和元组标签来训练模型。对于元组编码,我们采用CNN来提取元组的每个组成部分,即实体名称、属性名称和属性值的固定大小的编码表示。然后将模式编码为其提取的事实元组编码的语义组合。为了消除噪声,本文在模式编码过程中同时考虑了元组可信度和频率,并利用长短期记忆模型(LSTM)提取元组可信度信息的特征编码。在三个真实数据集上的大量实验表明,该模型显著提高了基于模式评估的真值发现中模式和元组的质量。
其他文献
风电机组的不断大型化发展对其叶片设计技术带来很大的挑战。叶片是风电机组实现风能转化为机械能的核心部件,其性能优劣将直接影响风能的利用效率。而基于动量叶素(BEM)理论的叶片设计方法,将二维翼型作为组成叶片的基本展向元素,翼型的气动参数是进行叶片气动性能计算、载荷分析及校核等的基础。因此,准确获得风电机组翼型的气动特性对研究及设计风电机组叶片的气动性能非常重要。风洞试验是研究翼型气动特性的可靠手段,
学位
质子交换膜燃料电池(PEMFC)具有重量轻、污染物少、效率高、运行时间长等优点,作为未来的新型能源,其具有广阔的应用前景。为了推动燃料电池的商业化,已有不少学者开展了大量研究并取得了进展,然而,PEMFC在低温环境下的应用仍然面临挑战。在零下温度条件下,氧还原反应(ORR)的产物水难以及时排出,在催化层和气体扩散层中积累成冰,阻碍反应物在催化剂层/气体扩散层中的传输,减少电化学活性面积(ECA),
温室气体过度排放引起的全球气候变化已成为当今国际社会普遍关注的问题,在保持经济社会持续发展的同时应对气候变化的挑战,需要各国共同转向低碳发展路径,因此,碳排放空间将成为越来越稀缺的自然资源和生产要素。碳排放权交易机制把碳排放空间作为一种稀缺环境资源来进行量化管理,是碳排放约束的重要手段。电力行业是碳排放量最大的行业,也是国内外碳市场最重要的参与主体,关于碳排放约束对电力行业竞争力的影响机理及其低碳
学位
永磁直驱风力发电系统是一个强耦合非线性的复杂系统,同时由于风能具有随机性和突发性,机组的数学模型会随着静态工作点的变化而变化,表现出严重的时变和非线性特性,所以常规的PI控制器难以获得较好的控制效果。滑模变结构控制是一种特殊的非线性控制,不需要建立精确的数学模型,滑动模态的设计与对象参数和扰动无关,使得滑模变结构控制具有动态响应速度快、对系统参数变化以及扰动不灵敏、物理实现简单的优点。所以滑模变结
隔离型变换器具有电气隔离的优点,已得到广泛应用。由于开关管工作在开关模式,隔离变换器中存在电位高频跳变的节点,由此引起共模传导干扰。抑制隔离型变换器的原始共模传导干扰,可以减小共模EMI滤波器的体积和重量,从而提高其功率密度。本文研究抑制隔离型变换器原始共模传导干扰的屏蔽-无源对消复合技术。在隔离型变换器中,共模传导干扰的主要路径有两条,一条是变压器原副边绕组之间的分布电容,另一条是原边电路中电位
并网逆变器高性能并联运行对提高分布式发电系统的容量具有重要意义。并联系统中各逆变器输出电压中的载波边带谐波相位会受到各逆变器控制载波相位的影响,在闭环控制的作用下,并联系统内部易于激起循环流通的高频谐振环流,不利于并联系统的稳定运行。针对并联逆变器间谐振环流受控制载波相位异步影响的问题,本文研究基于虚拟振荡器的无互联线载波同步控制策略,以提高并联系统的冗余性与灵活性。首先,针对基于有源阻尼控制的L
电动汽车车载锂电池的能量均衡是电池能量管理系统(BMS)的重要组成部分。调压问题是制约开关电容变换器发展的重要因素。本文主要对串联锂电池的均衡和对部分功率调压开关谐振腔变换器(PPVR-STC)的小信号建模及闭环控制进行研究。首先对现有的串联锂电池均衡电路进行分类及优缺点总结。本文采用了电池组之间、组内单体之间分别均衡的分层均衡方案。针对电池组之间的均衡,提出了一种多绕组CLLC顶层均衡电路,该均
双输入逆变拓扑不仅通过单个逆变器集成两个输入端,实现两个电源同时或分时向负载供电;而且在新能源发电场合,相较于传统的两级式逆变器,能实现部分能量的单级传输,因此具有高集成度、高效率和高功率密度等优点。目前对于双输入结构逆变拓扑的研究还比较少,尤其是在电机变频调速等需要逆变器四象限运行的场合,仍为一片空白。本文以此为出发点,提出一种基于双降压型、具备四象限运行能力的双输入五电平逆变拓扑,以解决双输入
目前,我军对地攻击弹着点检测评估主要采用人工报靶方法,该方法人力消耗大,实时性差,精度差,己远远不能满足现代化科技练兵的实际需要。为提高我军现代化作战水平,迎合现代化、科技化战争的需求,精确打击效能评估系统应运而生,它主要利用无线传感器网络来实现对弹着点的定位。其中传感器节点的自身定位是弹着点定位的前提和基础。集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获
随着人们对社会安全要求的增加,基于生物特征识别的智能身份鉴别方法逐渐受到广泛的关注。由于虹膜识别具有高可靠性和非侵犯性,它正成为生物特征识别领域中的一个研究热点。作为一个应用性很强的研究课题,虹膜识别正在从实验室走向社会应用,但是虹膜识别的研究还远远没有达到完善的程度。本文的工作以建立基于虹膜识别的身份鉴别原型系统为目标,重点研究了虹膜定位和虹膜特征提取与匹配方法。基于虹膜内外边缘近似为圆,当以圆
学位