大规模流数据的钻井式价值评估模型与方法

来源 :东华大学 | 被引量 : 0次 | 上传用户:bitdefender2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据变化速度快,价值密度稀疏且只能单次访问的特性,导致难以对其价值进行有效评估。采样作为数据价值评估的重要手段,现有在全量流数据上采样会产生过多存储计算资源浪费,访问部分流数据的采样评估方法易丢失蕴含大量离散值的流数据的价值和信息。基于上述问题,如何高效精准的对流数据进行采样使得能够准确的评估其价值成为一个尚待解决的问题。本文针对此问题展开研究,主要贡献如下:首先,针对全量流数据采样产生资源浪费及单方面考虑离散值或频繁值对原始流数据价值评估不全面的问题,借鉴矿产钻井勘探思想,提出了一种“钻井式”的大规模流数据采样方法。该方法构建了采样井模型,实现了流数据中蕴含大量价值信息的数据高效采样并给出了流数据访问率的计算定理。进一步提出了采样价值评估模型,该评估模型主要从准确性、高效性两个方面,包含九个评估指标对样本集进行全面的价值评估。实验表明,提出的方法在流数据访问率较低的情况下,获得的样本集可以准确高效的表征原始流数据集的分布概貌和统计特征,价值评估准确率几乎均在90%以上且样本率受参数影响较小,明显优于最近具有代表性的概率保证稀疏一次性采样方法(SWIFT)。其次,为了在有限访问流数据集下保留较多蕴含大量价值的离散值,提出了有限访问下流数据钻井采样方法。该方法以“井”为分析单元,利用偏态系数确定井内数据的离散程度、离散方向、采样率和动态定位下一个钻井位置,分别进行井内采样和井间采样,保留较多离散值。进一步提出了流数据集整体特征评估模型,解决了含有大量离散值的样本集无法有效评估流数据集整体价值特征的问题。实验表明,提出的采样方法在样本率较低的情况下使用支持向量机(SVM)训练测试得到Macro_F1值在95%左右,对流数据集整体特征评估的准确率几乎均在90%以上,优于经典的水库采样方法。最后,设计并实现了基于数据勘探的流数据采样评估系统。该系统基于上述采样方法和价值评估模型,实现了对流数据进行实时采样和评估。系统主要实现如下功能:流数据采样评估参数配置,实时采样监控,采样价值评估和样本库。通过以上功能的分析和可视化展示,可以清晰地了解流数据的分布概貌和价值评估结果,便于数据分析者快速了解流数据的价值信息。综上所述,本文主要针对现有采样方法难以准确高效的评估流数据价值的问题,分别提出了“钻井式”大规模流数据采样方法及价值评估模型和有限访问下流数据钻井采样方法及整体特征评估模型,成功解决了流数据大小不确定导致采样无边界的问题,有效保留了原始流数据集中蕴含大量价值信息的离散值并能够准确的评估原始流数据集的价值。最后,设计并实现了基于数据勘探的流数据采样评估系统。本文所提的模型和方法对大数据的整体质量和价值的评估等方面具有重要的理论研究价值和应用价值。
其他文献
报纸
人工智能技术的高速发展,极大地改变了传统决策模式,数据中潜在的关联规则与因果关系,使得数据驱动的机器学习算法在军事、经济、工业等领域有广泛的应用。分类算法通过有监督的方式对离散型随机变量建模并预测,是当前机器学习中非常重要的研究领域,能有效解决实际生活的各种预测模型与评估分析的问题。传统的分类算法通常只对一个标签进行预测,然而在实际应用中各样本可能由多个标签标注,现实场景面临的复杂情况已经不能仅仅
学位
自20世纪80年代以来,心率检测一直是生物医学实践的研究对象。记录心率的方法包括心电图分析、超声心动图检查等。这些监测方案准确可靠,但需要电极或心脏探头与人体之间的紧密接触,因此需要医疗专家进行专业的操作,这将给受试者带来不便并为受试者造成一定的心理压力。心冲击图(Ballistocardiogram,BCG)是记录每个心跳周期内,血液流动所产生身体运动的信号波形。基于BCG的心率检测方法不需要人
学位
在大数据时代,信息产生的速度越来越快,各行各业所累积的数据量也越来越大。比如在淘宝和京东这样的电商场景中,无论是用户的数量还是商品的数量,都是以亿为计量单位的。因此,对于一个普通的用户而言,在不借助任何工具的情况下,想要从海量的商品池中快速地找到自己感兴趣的商品是一件极其困难的事情。在这种情况下,推荐系统的产生成为了一种必然,可以帮助用户从海量信息中迅速获取有效的信息。深度学习兴起之后,融合因子分
学位
阿尔茨海默病(Alzheimers Disease,AD)是一种与年龄高度相关且患病过程不可逆的神经退行性疾病。在临床表现上,患者早期通常会出现日常记忆丧失、表达受阻以及行动受限等症状,随着病情的不断发展,患者会逐渐丧失个人的生活自理能力,给患者的家庭以及社会带来沉重的经济压力与看护负担。由于该疾病的特殊性与复杂性,医学上至今仍未找到具体的致病原因,以及有效治愈患者的方法,只能通过人为干扰或药物治
学位
多标签图像分类(MLIC)广泛应用于场景理解、多目标识别、视觉问答等领域。虽然基于深度卷积神经网络(CNN)在图像分类中表现出了能够媲美人眼识别率的精度和性能,但基于CNN的分类模型已经被证明非常容易受到对抗样本的攻击。因此,对于MLIC系统的安全性研究成为一个亟待解决的问题。本文结合现实场景中多标签图像分类器的应用情况,对多标签图像攻击算法开展了研究。其主要内容包括:1、本文提出在多标签图像对抗
学位
随着智能监控设备的普及,从视频中获取和分析行人数据变得十分便捷,人群行为分析和建模引起了越来越多研究人员的关注。一方面,通过计算机视觉和物理方法研究人群行为特征;另一方面,通过对人群行为进行建模,验证和改进人类行为动力学模型。本论文以视频行人轨迹提取为主线,对多视角行人目标检测进行深入研究,结合相似性度量发展了基于轨迹相似度的时空聚类方法,并对行人运动时空特性进行了挖掘分析。论文的主要工作和成果如
学位
任务型对话系统是人工智能领域的研究热点,其实用价值也颇受业界重视。流水线型对话系统是目前采用的主流架构,它将整个对话过程划分为自然语言理解、对话策略、对话生成等多个模块,其中用于识别语句中关键词的槽填充和用于语句中预测情感的对话的情感分析是自然语言理解模块的重要子任务,因此受到学术界和工业界的重点关注,而用深度学习建模槽填充和对话的情感分析是当前的主流方法。然而目前槽填充和对话的情感分析模型存在着
学位
复杂系统云仿真是利用云计算资源共享等优势为复杂系统仿真提供支持的新模式,具有实体规模大,交互复杂,依赖库多样等特点。应用封装可以降低应用部署的复杂度。准确的资源预测可以实现复杂系统云仿真应用最优性能。然而,目前的云环境下主流的封装技术依靠手动编写Dockerfile文件,导致封装效率低下,目前的资源预测技术没有考虑复杂系统仿真应用实体规模,时间同步等特征,难以准确预测应用所需资源,导致资源利用不充
学位
三维超声计算机断层扫描(Three dimensional ultrasonic computed tomography,简称3D USCT)在乳腺癌早期检测筛查及诊断等方面有很好的效果,有助于乳腺癌的及早发现与治疗,提高治愈机率。但在3D USCT系统中,换能器的延迟、位置偏差和温度误差等系统误差会影响到重建图像的质量,其中换能器延迟和位置偏差影响最大,故而需进行换能器的校正。论文基于与浙江衡玖
学位