论文部分内容阅读
随着信息技术的飞速发展,各行各业已迎来大数据时代。分析大量数据的一大挑战是数据的准确性。数据,甚至描述同一个对象或事件,都可以来自多种数据源,如众包平台上的工人和社交媒体用户。然而,噪声数据是不可避免的。面对令人望而生畏的数据规模,利用人工“贴标签”或标注哪个数据源更可靠是不现实的。因此,从多个噪声数据源中识别出正确可用的信息,即真值发现的任务是十分必要的。
目前,面向多源数据的真值发现技术主要面临两方面的挑战:在结构层面,基于多源数据的真值发现需考虑数据组成的不同特点和应用场景,精细定义不同场合下的真值发现问题。在算法层面,基于多源数据的真值发现需考虑不同层面的信息冲突,设计高效的算法,利用多种线索挖掘更有价值的信息。现有的真值发现方法在结构层面和算法层面都存在缺陷,不能很好的解决多源数据真值发现相关问题。
本文综合运用数据清洗、数据挖掘、自然语言处理的相关理论、技术和方法,对于多源数据真值发现进行了系统研究。本文主要面向三种数据模型:第一种为多源同构数据,其具有明确的实体-属性-数据源的对应结构;第二种为多源异构数据,其不同数据源描述的实体和属性信息可能以不同形式存在;第三种为文本数据,其直观上不体现出实体-属性-数据源的对应结构,数据中包含大量无关词汇。在三种数据模型的基础上,本文从多源数据存在的关联性、不一致性、稀疏性和异质性四方面重要性质出发,对多源数据真值发现问题进行了研究,主要研究内容如下:
首先,面向多源结构数据,本文提出了一种基于函数依赖的无监督真值发现算法AutoRepair,同时利用了基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法的优点。AutoRepair使用函数依赖,一种常见的约束类型来检测冲突,并使用源可靠性作为依据来发现和修复这些冲突中的错误。然后,再利用修复后的结果重新评估源的可靠性。由于源可靠性是未知的,为确保更好的性能,AutoRepair将上述真值发现过程建模为一个迭代过程,并在合成数据集和真实数据集上进行了大量的实验。实验结果清楚地表明了AutoRepair的优越性,其性能优于基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法。
其次,为更好的形式化多源结构数据中实体属性之间、实体属性与外部知识之间存在的多种联系,本文提出了一种基于否定约束和源可靠性的真值发现方法。该方法的关键部分是将完整性约束的之一的否定约束整合到真值发现过程中。本文将基于否定约束的真值发现描述为一个优化问题,并设计了一个迭代算法CTD来解决该优化问题。通过该算法,真值发现的结果不仅得到可靠数据源的支持,而且满足给定的否定约束。此外,本文还提出了两种优化策略,以确保在大规模约束条件下的可扩展性。在真实数据集上的实验结果表明,CTD具有较高的精度和可扩展性。
再次,为解决多源异构数据上实体属性不对应导致的真值发现信息不足问题,本文将模式发现引入真值发现,通过挖掘数据上潜在的模式来发现真值。本文将该过程描述为一个优化问题,将共享相似模式的实体视为一个组,并使用优化框架通过识别潜在分组和每个组的模式对问题进行建模,潜在分组、组级代表、源可靠性和属性权重定义为四组未知变量。为解决该优化问题,本文提出了一个名为PatternFinder的算法,它可以迭代地学习四组变量。在合成数据集和真实数据集上的实验结果证明了PatternFinder的优越性,其在效率和有效性方面都优于最新的基线方法。
最后,考虑到基于全局挖掘的文本模式可提取多个句子中的相关事实元组信息,本文通过同时评估模式和事实元组来解决文本数据上的真值发现问题。本文考虑了模式可靠性和事实元组可信度,将可信的事实元组作为获得真值的途径。为学习模式可靠性和事实元组可信度之间的复杂关系,本文提出了一种基于CNN和LSTM混合架构的深度学习模型,并同时使用模式和元组标签来训练模型。对于元组编码,我们采用CNN来提取元组的每个组成部分,即实体名称、属性名称和属性值的固定大小的编码表示。然后将模式编码为其提取的事实元组编码的语义组合。为了消除噪声,本文在模式编码过程中同时考虑了元组可信度和频率,并利用长短期记忆模型(LSTM)提取元组可信度信息的特征编码。在三个真实数据集上的大量实验表明,该模型显著提高了基于模式评估的真值发现中模式和元组的质量。
目前,面向多源数据的真值发现技术主要面临两方面的挑战:在结构层面,基于多源数据的真值发现需考虑数据组成的不同特点和应用场景,精细定义不同场合下的真值发现问题。在算法层面,基于多源数据的真值发现需考虑不同层面的信息冲突,设计高效的算法,利用多种线索挖掘更有价值的信息。现有的真值发现方法在结构层面和算法层面都存在缺陷,不能很好的解决多源数据真值发现相关问题。
本文综合运用数据清洗、数据挖掘、自然语言处理的相关理论、技术和方法,对于多源数据真值发现进行了系统研究。本文主要面向三种数据模型:第一种为多源同构数据,其具有明确的实体-属性-数据源的对应结构;第二种为多源异构数据,其不同数据源描述的实体和属性信息可能以不同形式存在;第三种为文本数据,其直观上不体现出实体-属性-数据源的对应结构,数据中包含大量无关词汇。在三种数据模型的基础上,本文从多源数据存在的关联性、不一致性、稀疏性和异质性四方面重要性质出发,对多源数据真值发现问题进行了研究,主要研究内容如下:
首先,面向多源结构数据,本文提出了一种基于函数依赖的无监督真值发现算法AutoRepair,同时利用了基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法的优点。AutoRepair使用函数依赖,一种常见的约束类型来检测冲突,并使用源可靠性作为依据来发现和修复这些冲突中的错误。然后,再利用修复后的结果重新评估源的可靠性。由于源可靠性是未知的,为确保更好的性能,AutoRepair将上述真值发现过程建模为一个迭代过程,并在合成数据集和真实数据集上进行了大量的实验。实验结果清楚地表明了AutoRepair的优越性,其性能优于基于源可靠性估计的真值发现方法和基于函数依赖的数据修复方法。
其次,为更好的形式化多源结构数据中实体属性之间、实体属性与外部知识之间存在的多种联系,本文提出了一种基于否定约束和源可靠性的真值发现方法。该方法的关键部分是将完整性约束的之一的否定约束整合到真值发现过程中。本文将基于否定约束的真值发现描述为一个优化问题,并设计了一个迭代算法CTD来解决该优化问题。通过该算法,真值发现的结果不仅得到可靠数据源的支持,而且满足给定的否定约束。此外,本文还提出了两种优化策略,以确保在大规模约束条件下的可扩展性。在真实数据集上的实验结果表明,CTD具有较高的精度和可扩展性。
再次,为解决多源异构数据上实体属性不对应导致的真值发现信息不足问题,本文将模式发现引入真值发现,通过挖掘数据上潜在的模式来发现真值。本文将该过程描述为一个优化问题,将共享相似模式的实体视为一个组,并使用优化框架通过识别潜在分组和每个组的模式对问题进行建模,潜在分组、组级代表、源可靠性和属性权重定义为四组未知变量。为解决该优化问题,本文提出了一个名为PatternFinder的算法,它可以迭代地学习四组变量。在合成数据集和真实数据集上的实验结果证明了PatternFinder的优越性,其在效率和有效性方面都优于最新的基线方法。
最后,考虑到基于全局挖掘的文本模式可提取多个句子中的相关事实元组信息,本文通过同时评估模式和事实元组来解决文本数据上的真值发现问题。本文考虑了模式可靠性和事实元组可信度,将可信的事实元组作为获得真值的途径。为学习模式可靠性和事实元组可信度之间的复杂关系,本文提出了一种基于CNN和LSTM混合架构的深度学习模型,并同时使用模式和元组标签来训练模型。对于元组编码,我们采用CNN来提取元组的每个组成部分,即实体名称、属性名称和属性值的固定大小的编码表示。然后将模式编码为其提取的事实元组编码的语义组合。为了消除噪声,本文在模式编码过程中同时考虑了元组可信度和频率,并利用长短期记忆模型(LSTM)提取元组可信度信息的特征编码。在三个真实数据集上的大量实验表明,该模型显著提高了基于模式评估的真值发现中模式和元组的质量。