论文部分内容阅读
大数据时代下,虽然数据量巨大,但是大量有价值的信息却很少被挖掘出来加以利用。数据量的增加并不会给企业带来利益,只有对数据进行有效适当的分析,对潜藏在数据内部的规律和知识进行挖掘并加以利用,才能发挥数据的真正作用。大数据具有规模性(Volume),多样性(Variety),高速性(Velocity)和低价值性(Value)的4V特征。其中,多样性和低价值性的特点会导致数据集更加容易出现质量问题。不完备和不一致是两种常见的质量问题,而大数据规模巨大,结构复杂的特点,更加加剧了数据不完备和不一致的程度。基于以上原因,数据分析技术面临前所未有的挑战。传统的分析技术对于数据质量较为敏感,在分析具有不完备和不一致数据的时候不能得到可靠结果;同时由于分析手段、分析能力限制,无法实时快速的分析数据量过大、类型复杂的数据。因此,迫切需要新的数据分析方法,可以对不完备不一致数据进行快速有效的分析,发现有价值的知识或信息。软集合是一种新的处理不确定问题的数学工具,可以克服传统方法参数化工具不足的缺点。因此在分析不确定信息的两个重要表现形式——不完备和不一致数据上具有较大的优势。另外,由于软集合具有不同于传统方法的一些特点,使其在大数据分析中具有巨大潜能。首先,软集合理论对分析对象的类型以及描述对象的形式没有限制,这些对象可以是结构化数据,也可以是半结构化和非结构化数据;可以是确定的数据也可以是不确定的低价值数据。其次,软集合可以直接建立近似模型并求近似解,而不用像传统分析方法需要建立精确模型求解精确解,当无法求得精确解时再通过近似解替代精确解。所以软集合比传统方法具有更好的鲁棒性和更低的时间空间复杂度。因此,本文基于软集合及其扩展理论提出了不完备和不一致数据分析方法,并着重关注了数据分析中的分类决策问题,这些方法不仅扩展了软集合理论的应用范围,而且丰富了不完备不一致数据分析方法,对大数据环境下具体数据分析技术也有一定借鉴意义。本文首先阐述了研究背景和意义,分析了大数据环境下不完备不一致数据的来源,在对不完备和不一致数据分析方法的相关文献的整理,详细的理论综述基础上,提出了基于软集合的不完备和不一致数据分析及决策方法。本文主要进行了以下几个方面的研究:①针对已有的基于软集合的不完备数据分析方法存在的计算复杂和分析结果不可靠的缺点,提出了新的数据分析技术——占优方法。该方法采取的是直接分析策略,可以无需对未知数据进行填充,直接对原始数据集进行分析并得到决策结果。通过将占优方法与已有的基于软集合的不完备数据分析方法进行对比分析,结果表明该方法避免了已有方法在同一参数下存在大量未知数据时,决策结果不可靠的缺点。另外,从决策结果可以看出,占优方法比已有的基于软集合的分析方法更加符合软集合的定义。②大数据中有众多不确定和描述性数据,这些数据无法用确定的数值型数据描述,只能引入模糊数据,因此有必要对不完备模糊数据的分析方法进行研究。为了克服已有基于模糊软集合的不完备数据分析方法的限制,本文提出证据-模糊软集合的概念。另外还定义两个证据-模糊软集合的FUSE运算,研究了证据-模糊软集合同不完备模糊软集合的关系。根据证据-模糊软集合和证据理论的定义和相关运算,可以对不完备模糊数据进行分析,并提出不完备模糊数据集下的决策算法。该算法无需对未知数据进行填充,而是在决策层面对不完备模糊数据进行融合后,直接得到决策结果。最后,将该方法应用于一个互联网环境下的决策问题的算例中,证明该方法的有效性。③数据来源多样决定了大数据中广泛存在不一致数据。针对已有不一致数据分析方法存在计算较为复杂和低效的不足,本文从逻辑推理的角度出发,将次协调推理引入软集合,定义了次协调软集合概念和相关运算。次协调软集合扩展了经典软集合参数表达能力,其参数除了可以表达经典软集中“近似具有”、“近似不具有”的参数含义外,还可以表达参数值“未知”和“不一致”。因此,次协调软集合可以同时分析具有不完备和不一致特征的数据集。根据次协调软集合的定义以及相关运算,本文提出了次协调软决策系统及决策算法,运用该算法可以通过对不完备不一致数据进行分析并得到分类决策结果。为了说明该算法的有效性,还将其应用于一个存在不完备不一致数据的商业投资决策的算例中。最后,本文还将次协调软集合应用于解决推荐系统多源混合输入问题,提出可以同时考虑多种来源和输入类型的基于次协调软集合混合推荐输入算法,进一步说明次协调软集合的实用性。