论文部分内容阅读
近年来,大数据技术在许多领域取得了显著成就。基于大数据的许多智能应用与服务被开发并广泛应用于各行各业,如语音识别、智能推荐、智能监控、自动驾驶、物体检测、交通流量分析、噪声监测、药物研发等。因此,对于基于数据的服务提供者来说,迫切需要对数据及数据产品进行有效质量分析和数据获取和交易机制。为了促进数据服务提供商和数据拥有者之间的数据流通,国内外出现了各种数据共享和交易平台。代表性的数据交易平台有国内的贵阳大数据交易所、京东万象、数据堂等;国外的如Datacoup、Azure Marketplace、CitizenMe,DataExchange,Factual,Qlik等等。最近数据交易的研究受到国内外的广泛关注。数据产品包括多种形式,如原始数据、标注数据、数据统计结果、数据分析报告、数据应用程序、和数据学习方法。本文重点研究移动应用程序这一特殊数据产品的行为与质量评估,和针对数据价值随时间变化的用户行为诚实可保障的在线数据交易机制设计问题。本文的主要研究内容与贡献如下:一:全面分析应用程序这一特殊数据产品的行为,是理解不同应用程序的有效方法,也是衡量应用程序产品相似度的有效方法。分析应用程序功能和行为主要有两个分支。第一个研究分支基于源代码以静态、动态或混合的方式进行细粒度的行为分析。第二个工作分支侧重于从应用程序中提取预定义的特征。最近的一些工作使用循环神经网络(RNN)以监督的方式在应用程序执行期间提取恶意软件特征。然后将监督学习模型,例如SVM、朴素贝叶斯和深度信念网络(DBN)等应用于这些特征以检测恶意软件。尽管这些机器学习方法提高了恶意软件检测效率,但局限性在于手工制作的基于任务的特征和对手动标记的训练数据的依赖。由于是为可能的恶意行为量身定制,预定义和自动提取的特征都无法全面表征不同的应用程序行为。本文设计了一个APPDNA框架来自动为每个应用程序生成一个紧凑的表示,以全面地描述它的行为。我们提出的通用表示方法只需要为每个应用程序生成一次表示,然后可用于各种目标,包括恶意软件检测、应用程序分类、抄袭检测等。我们提出基于函数调用图的应用程序分析方案,促进全面深入地理解应用程序的行为。我们设计了一种图编码方法,将典型的大型函数调用图(FCG)转换为一个64维固定长度向量,以实现稳健的应用程序分析。这个工作的主要创新点是1)提出了一种函数调用图的鲁棒编码方法,可以抵抗大部分的程序修改行为,2)设计深度学习方法来对应用程序获得一个稳定的和统一的表示,可以服务多个检测和分类目标。我们的编码方法对多种修改是鲁邦的。与传统方法相比,我们的方法可以通过较小的开销,支持更多的功能,在更短的时间内达到更高的精度。我们对86,332个应用程序的广泛评估表明,我们的系统以高精度和极低的计算成本执行应用程序分析:在大约5.06秒内对所有4024个(良性/恶意软件)应用程序进行分类,准确率约为93.07%;在大约0.83秒内对所有570个恶意应用程序家族(共21个家族)进行分类,准确率82.3%;将9,730个应用程序的功能分为2类,准确率88.1%,如果分为7类,准确率33%。研究移动应用这一个特殊的数据产品的“质量”评估可以丰富不同类型的数据产品质量评估能力,是对经典数据质量评估的一个补充。数据质量评估给数据交易机制提供了一个质量的保证。尤其对于移动应用等智能数据计算类产品,我们可以保障应用的安全性,防止采购的这一类的数据产品对用户造成大的危害。二:对于怎么卖数据,现有的数据交易平台主要有三种方法:标定价格,按调用次数收取,咨询客服。1)标定价格:数据销售商根据自身的成本,按照一定的策略提出一个价格。2)按调用次数收取:主要针对API接口,随调用次数增加有一定折扣。3)商业谈判:买方和卖方进行协商谈判确定一个合理的成交价格。这三种数据定价方式共同缺陷是缺乏定价机制的理论指导,定价带有一定主观性。本文主要研究时间敏感的数据交易机制。我们针对用户对数据的价值预估值是随时间而变化的。我们假设数据的价值波动可以通过一个连续的折扣函数来d(t)表示。针对时间敏感的价值函数,设计了一些在线、用户诚实保障、和收入竞争比保障的算法机制。我们首先证明了在不同的假设条件下的算法机制的收入竞争比率的下界,例如当函数d(t)是一个任意函数的时候,Ω(n)的下限;当d(t)是一个单调不增的函数时候,Ω((log n)/(log log n))的下界。然后,我们为各种对抗模型提出了几种在线的、用户诚实保障的算法机制。我们提出了一种机制M1,并证明了当每个折扣类中的用户数nc是常数倍可比的时,它是用户诚实保障的,并且具有Θ(log n)收入竞争比。然后我们通过放宽折扣函数中分类规模的条件,提出了另外一个用户诚实保障的机制M’W,并证明其竞争比是Θ(n logn)。当我们可以在一个常数因子内估计最佳预期收入时,我们提出了一种具有常数竞争比率的用户诚实保障的在线定价机制。我们的主要创新点是1)巧妙的设计了一些攻击输入来证明任何拍卖机制的竞争比率下界,2)通过把折扣函数的分类来解决时间敏感的价值带来的挑战。三:当数据的初始价值满足一些分布时候,我们设计了三种不同的基于标价(posted-price)的数据交易机制来近似最大化卖家的利润,包括固定标价机制和动态标价机制。我们研究买家的初始估值是从给定分布中随机抽样获得的的情况,其估值分布和折扣函数都是给定的。我们的第一个机制MF是让卖家设定一个固定价格,每一个到达的买家只能接受这个价格或放弃。在这里,我们可以利用迈尔森拍卖的思想来计算最优保留价x。但是,由于d(t)的存在,即使使用简单的PDF函数f(例如均匀分布)也很难准确计算最优的价格。为了进一步提高性能,我们还通过动态更新保留价格设计了机制MD和机制MT,并证明这两个机制的常数收益竞争比率。我们然后把拍卖机制扩展到一般的分布情况,并设计了基于学习的机制ML。我们证明这些机制都是有常数的竞争比率,并保证用户诚实的。我们的实验结果评估表明,我们的机制在大多数情况下都表现得非常好,我们的数值实验的各项性能指标比理论保障的性能要好许多。