信息熵与数据质量驱动的数据定价研究——以机器学习数据集为例

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:guorui146105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据市场是目前研究的热点话题,在提出数据要素化的政策之后,国内各类数据交易平台迅速发展起来,针对数据市场的研究也越来越多。在2021年,北京成立了国际大数据交易所,同年,上海大数据交易所也宣布成立,这更加激发了对数据交易市场的研究热潮,同时也标志着我国数据要素市场的正处于蓬勃发展阶段。在数据交易市场的相关领域中,对数据定价体系的研究更是重中之重。现有的研究大多是从传统商品的定价方案进行迁移,但是数据资产具有独有的特性,例如数据可重复使用;数据可以在个体之间共享;数据复制简便等等,这些特性使得传统的定价方法并不适用于数据的定价,需要进一步的研究来探讨更加合理,更加符合数据资产特征的定价方法。本文从数据本身的属性出发,制定了数据定价策略,并进行了相关实验。本文讨论了机器学习中数据的相关问题,提出通过数据市场来加快机器学习中数据的流通,在明确了数据市场的结构之后设计了数据市场中最为关键的定价策略。为了解决现有定价方案对消费者不透明、无法体现数据本身属性的问题,本文考虑通过数据的价值来制定价格,价值越高的数据具有越高的价格。在衡量数据价值的方法上,本文选择综合“质”(数据质量)和“量”(信息熵)两个指标来衡量数据价值,提出了计算数据集质量分数以及信息熵的数学方法,并且证明了评价方法的合理性。在得到数据价值的量化结果后,以此为基础制定了定价策略,实现数据的版本控制,并考虑了消费者的自由选择行为,建立了定价模型。实验部分针对了不同的数据成本类别以及不同的消费者分布分别进行了模拟实验,通过对实验结果的分析说明了本文制定的定价方案的优势所在,并且通过利润最大化和市场覆盖率来评价实验结果,此外,还讨论了该方案在实际运用上的可操作性。本文的创新性成果主要集中在两个方面:第一,结合了信息熵和数据质量两个维度来衡量数据价值,改良了单一指标的评价结果;第二,在对模型的求解上,对传统的遗传算法进行了改进,提出了子代择优的遗传算法,避免算法陷入局部最优之中。本文的主要贡献在于针对数据资产领域的热门的数据定价问题进行研究,为数据定价策略提供了一种新思路。使用价值分数来制定数据的价格让现有数据市场上信息不对称的问题得到解决。并且,以机器学习中的数据集为例,面对具体的数据形式提出了实际的解决办法,并且实现了利润最大化和较高的市场覆盖率,消费者和数据提供者双方的行为,对数据市场的运营模式有一定的启示,同时也可以促进数据市场的良好发展。
其他文献
随着经济全球化的发展,中国股票市场也在不断发展,深圳交易所和上海交易所的股票相关制度不断的完善,我国上市公司的数量越来越多,中国股票市场呈现为错综复杂的关系网络。股票市场的本质是一种复杂系统,股票之间相互影响、相互作用,形成了股票市场的生态和价格演化过程。而复杂网络的其在建模真实数据结构时表现出的灵活性和普适性,复杂网络就成为研究股票市场的利器。目前,运用复杂网络的技术方法探索股票网络的物理结构和
学位
近年来,比特币作为一种数字加密货币,受到了媒体、学术界以及监管机构等各方的关注。从2010年比特币第一次交易至今,其价格上涨了100万倍以上,众多学者通过定量和定性分析的方法得出比特币价格存在泡沫的结果。比特币交易市场的有序运行对金融市场的发展具有重要价值,泡沫破裂会对金融市场的发展造成较大影响,因此需要对比特币价格泡沫进行测度和预警。本文基于现有的比特币价格泡沫理论,选取了2013年1月1日至2
学位
随着数字化进程不断推进,大量企业在加速各类流程自动化的过程中逐渐引用数据库、云存储等技术平台,积累了大量客户数据。由于大数据技术逐渐成熟,一些企业开始从客户数据中挖掘有用信息,以指导企业更好地运营。目前,市场竞争日趋激烈,同行业的产品同质化现象日益严重。客户成为企业赢得市场先机的重要资源。在产品同质化背景下,客户占据绝对的主导地位,一旦企业无法满足其需求或者有更优的替代选择,就很容易导致客户的流失
学位
目前,我国经济正处于快速发展阶段,证券市场欣欣向荣,上市公司层出不穷,但相关审查机制和监管法规相对不够完善,导致上市公司财务舞弊行为频发,虽然目前采取的监管措施在一定程度上减少了财务舞弊的发生,但财务舞弊依然是近几年监管部门的心头大患。企业为了谋取自身利益从而通过某些不正当的手段进行财务舞弊不仅影响上市公司自身的发展,让公司时刻面临着停市的风险,还影响公司内外各利益相关者的权益,阻碍了我国资本市场
学位
环境细颗粒物(PM)对健康的影响已经被全球广泛研究了几十年,PM被列为全球导致人口死亡和残疾的第六大危险因素。PM2.5与PM10与各种短期和长期健康不良影响有关,可吸入颗粒物会被人体吸入并积累在人体中,沉积在呼吸道中,并进入肺泡等部位,引发多种疾病,对人体健康造成严重危害,长时间暴露于高浓度的环境细颗粒物中甚至会引起死亡,中国每年因为PM污染导致的过早死亡人数在165万至219万之间。近年来,环
学位
随着社会不断发展,人们对社交需求不断增加,类似商场、广场等公共场所的人流量也在不断增加,这对公共场所行人安全的要求变得越来越高。在公共场所发生突发事件时,由于相关管理人员没办法及时获取突发事件的预警消息,导致无法及时疏散人员,最终造成公共场所人员的生命损伤或者财产损失。针对这种需要长时间监控的情况,传统人工视频监控没办法高效地完成监控预警工作。如今监控视频技术不断更新和应用,使用智能化的视频来侦测
学位
随着日常生活中电子设备和社交媒体的广泛应用,新闻、商品评论等文本类型的数据大量增长,快速提取和分析文本信息的需求显著上升。主题分析可以帮助我们快速确定想要了解内容,自然语言处理中的主题模型能从大量的文档中提取出有意义的词语、能够有效的将多个文档表示为主题,因此研究主题模型是十分必要和有意义的。主题模型是自然语言处理任务中一种典型的无监督任务,缺乏有标注的监督数据。在单语言的情境下,其他任务上表现良
学位
风格迁移算法是当前计算机视觉领域的热点研究方向之一。当下神经风格迁移的技术路线可分为:基于图像迭代的风格迁移和基于模型迭代的风格迁移。其中,基于图像迭代的风格迁移算法,通过不断迭代噪声图像的像素来生成风格化图像,具有合成图像质量高、可控性好、易于调参、无需训练数据的优点。而基于模型迭代的风格迁移技术,借助生成对抗网络(GAN)强大的生成能力,通过预训练生成模型来实现快速风格化。该方法具有计算速度快
学位
共享这类现阶段较为普遍的消费模式,很早就出现在人们生活中,它被理解为按需相互输出但不过度追求输入的一类商品,通常发生在较为亲密的社会关系间。过去十年,社会经济不断发展、大众对于商品的期望值变高、商品归属权认知的变化等推动了共享经济行业的飞速发展,而其首要实践领域则为旅游及住宿行业,共享经济与其彼此融合,便成就了共享住宿。共享住宿平台Airbnb现已成为极受欢迎的住宿选择,预计会对酒店行业造成一定冲
学位
近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这
学位