大规模轨迹数据通用伴随模式分布式挖掘

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:ccw629
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着定位装备的广泛应用,轨迹数据量高速增长。通用伴随模式挖掘聚焦时空维度上的运动对象高相似度行为路径发现问题,基于大规模轨迹数据设计高效准确地通用伴随模式挖掘方法对发现用户偏好、构建新商业模式等具有重要意义,同时也极具挑战。一方面,海量且不断增长的轨迹数据要求通用伴随模式挖掘框架应具有良好可扩展性,单机挖掘框架并不适用。另一方面,在现有通用伴随模式的分布式挖掘框架中,存在对数据输入的质量、轨迹数据中大量松散连接的处理等考虑不足。这使得通用伴随模式的发现能力和性能存在改进空间。本文针对以上两方面的问题,在大规模轨迹数据的分布式聚类与通用伴随模式挖掘等方面展开深入研究。首先,在数据预处理阶段提出了融合运动方向的密度聚类算法DBSCANCD和聚类平衡算法TCB,为通用伴随模式的分布式挖掘框架提供了高质量数据输入,提高了分布式挖掘框架对通用伴随模式的发现能力。DBSCANCD算法处理所有轨迹数据的每一个相同快照下的聚类问题,在同时考虑对象间的运动方向的前提下对同一快照中的所有轨迹点进行密度聚类,与现有的挖掘框架中普遍采用欧氏距离的密度聚类算法相比,DBSCANCD算法能为通用伴随模式挖掘提供质量更高的输入。TCB算法接受轨迹数据经过DBSCANCD算法处理后的输出作为输入,运用贪婪策略的思想,从完整轨迹上解决了作用于快照级别的DBSCANCD算法无法合理划分聚类边界点的问题,进一步提高了输入通用伴随模式挖掘算法的数据的质量。大量实验表明,DBSCANCD和TCB的结合使用提高了分布式挖掘框架对通用伴随模式的发现能力。其次,在通用伴随模式挖掘阶段设计了G剪枝重划分算法GSPR和分段枚举算法SAE,有效的处理了轨迹数据中大量存在的松散连接现象,提高了分布式挖掘框架对通用伴随模式的发现能力和性能。GSPR算法处理与每一条轨迹形成聚类现象的轨迹簇,利用自定义参数G对轨迹簇中每一条存在松散连接的轨迹进行分割,为轨迹中的松散连接提供了一种有效的解决方案。因此,GSPR算法保证了通用伴随模式挖掘的发现能力。SAE算法接受GSPR算法的输出作为输入。在分布式环境下,SAE算法通过引入多线程最大限度地利用了集群的硬件性能。通过使用前向闭包,SAE算法每次可检查当前状态下是否存在满足要求的最大通用伴随模式,如果存在则可提前输出结果并终止当前线程。因此,SAE算法保证了通用伴随模式挖掘的性能。实验表明,GSPR和SAE的结合使用提高了分布式挖掘框架对通用伴随模式的发现能力和性能。最后,基于DBSCANCD、TCB、GSPR和SAE四个算法,在分布式计算平台Spark的基础上,设计了通用伴随模式的分布式挖掘框架DMFUCP,充分利用了Spark在内存计算方面的优势。DMFUCP框架在挖掘通用伴随模式任务中提供了优于现有框架的发现能力和性能。大量实验证明,相比现有的通用伴随模式挖掘框架,DMFUCP框架在具有更好的通用伴随模式发现能力的同时,将挖掘每组通用伴随模式的时间消耗降低了20%~40%。
其他文献
针对在噪声、混响等环境下语音识别系统识别率严重下降的问题,本文以深度学习和麦克风阵列信号处理作为主要技术方法,讨论并研究了若干鲁棒语音识别中的关键技术。论文的主要工作与贡献如下:(1)搭建了一个基于混合声学模型的语音识别系统,通过实验,研究了三音素上下文建模、深度神经网络、特征变换技术对识别率所带来的影响,并且评估了这些技术在混响噪声环境下的鲁棒性;(2)在流式语音识别的实际应用中,通常要求系统的
随着互联网技术的应用,在线教育领域得到迅速的发展,人们获取知识的途径也变得更加便利。网上用户可以灵活地通过在线学习平台上获取学习资源,并进行在线课程学习。在大数据时代,随着在线学习用户人数不断地增多,学习者在面对海量学习资源的数据时,需要花费较多时间和精力去筛选课程的相关内容。而推荐系统是能够处理这些“信息过载”问题的有用方法之一,能够为学习者提供个性化在线学习资源课程推荐服务。尽管推荐算法在其他
随着我国锚杆支护理论和设计方法的不断完善,新的支护材料和支护器材不断研制成功并投入使用,在基础设施建设如边坡、堤坝等方面发挥着重要作用,应用也越来越广泛。但在锚杆使用过程中,由于实际工程难免受到各种复杂环境的影响,对工程的质量把控比较困难,从而可能导致工程质量问题的发生。在大量使用锚杆的情况下,锚杆锚固的施工是否起到了加固作用不仅影响着设施工程的整体质量,也影响着人民的生命和财产安全,因此对于锚杆
知识追踪是教育数据挖掘领域中一个重要的任务,其主要内容是根据学生的历史做题序列对学生的知识点掌握情况进行建模,从而预测学生的学习表现。在智能辅导系统中,一个非常重要的任务是了解学生的知识点掌握情况,只有了解每个学生的具体情况后才使得针对性、个性化的辅导成为可能。智能辅导系统通过知识追踪可以获取学生的当前表现,随后可通过个性化习题推荐等功能来提高学生的学习表现,因此研究知识追踪任务具有重要的意义。知
当今社会在高速发展的同时伴随着信息数据的爆炸式增长,在信息传递的过程中,语言是极为重要的载体。在所有种类的交流语言中,英语始终占据着重要的地位,是社会生活中最为常用的语言之一,因此英语教育的现实意义不言而喻。随着互联网的全面普及,英语教学早已不再依赖教师的板书,考试方式也逐渐过渡到全面无纸化。借助自然语言处理中的技术手段,设计一种英语文本语法错误自动纠正模型可以大幅减少教师在作文批改上的工作量,辅
随着在线教育不断发展,提高在线教学质量是教育行业高质量发展的有效手段。本文对学习者在网络学习平台中产生的多维时序数据进行协同分析,挖掘学习者的学习模式,研究学习路径规划算法,并推荐符合学习者学习习惯和认知水平的学习路径,利用在线教育巩固线下教学,提高教学质量。本文提出了两种学习路径规划算法,主要针对两个方面的问题进行研究,内容如下:1.针对在线学习者希望利用最优的学习路径和最少的学习时间掌握更多知
短文本的语义相似度计算任务是自然语言处理中的基础任务之一,在文本匹配、推荐系统、文本生成等领域都有广泛的应用场景和技术研究需求。现有技术建模手段主要是通过基于字符匹配度的数学算子建模与基于单词向量的神经网络建模。这两种方式都是基于单一特征建模,文本相似度计算结果依赖于带标记的数据量和单一特征。单一特征的建模方法难以满足文本相似度计算对特征多样性的需求,从而导致网络模型难以进一步提升推理结果的准确性
无人物流运输车是集合了外部智能感知、自动执行等智能化技术的一种新型机器人,可以快速、高效地实现物料的无人运输、搬运等任务,是目前物流和工业自动化的重要组成部分,使用合理的调度和规划算法,能够提高物料周转率以及降低物流成本。本文以面向企业内部物流的多AGV调度为主要研究内容,通过优化任务队列,最小化运输距离,进一步减少运输成本,提升效率。同时考虑到企业内部数据安全,基于工业区块链辅助存储实现系统用户
目标检测是图像处理领域的重要一环,在生产生活中具有广泛的应用前景。目标检测的核心任务是识别图片中目标的类别和位置,但在日常的图像中,不同目标之间存在巨大的尺度差异,如何准确的将大尺度目标和小尺度目标全部识别出来是目标检测所面临的一个有挑战性的问题。基于此,本文针对目标检测中的多尺度问题进行了研究。本文的主要工作如下:(1)针对目标检测中多尺度特征信息不足的问题,使用包含多级信息的多级多尺度特征,提
图像在人们日常生活中起着举足轻重的作用,是人们获取信息的主要来源之一。当人们使用拍照机设备拍照的时候,由于场景光照亮度、拍摄设备等原因,得到的图像都会出现对比度低、能见度差和ISO噪点高等问题。这样的图像细节信息不明显,降低了图像的实用性。因此,人们提出了大量的方法改变图像的对比度,使图像的细节明显,提高图像的质量和使用价值。多数的这些方法在增强图像时,通常会出现过度增强、部分细节丢失等问题。而且