【摘 要】
:
信息时代产生了海量数据,这些数据中潜藏着巨大的信息价值,对人们的生活、工作起着愈发重要的作用。但在实际应用中,数据缺失现象在工业、医学、商业和科学研究等诸多领域中普遍存在,存在不完整数据集。如何使缺失数据充分的为人所用,挖掘出缺失数据中潜在的有价值的信息对于我们来说十分重要。若缺失值处理不当会在数据聚类中造成较大误差或错误结果,因此不完整数据聚类问题已经成为不完整数据分析中的一个重点。首先,为了解
论文部分内容阅读
信息时代产生了海量数据,这些数据中潜藏着巨大的信息价值,对人们的生活、工作起着愈发重要的作用。但在实际应用中,数据缺失现象在工业、医学、商业和科学研究等诸多领域中普遍存在,存在不完整数据集。如何使缺失数据充分的为人所用,挖掘出缺失数据中潜在的有价值的信息对于我们来说十分重要。若缺失值处理不当会在数据聚类中造成较大误差或错误结果,因此不完整数据聚类问题已经成为不完整数据分析中的一个重点。首先,为了解决模糊C均值(FCM)算法不能直接处理不完整数据聚类,以及缺失数据的不确定性问题,本文提出一种KNN区间型不完整数据模糊聚类算法(KNNI-IFCM)。第一,使用改进的KNN规则确定近邻样本空间,用近邻区间估值方法代替传统的点估值以表达不完整数据的不确定性。第二,区间的大小影响填补精度,进而影响聚类分析。因此根据数据样本的分布情况进一步提出改进的KNN区间计算公式构建属性区间宽度,减小区间带来的聚类误差,最后利用区间模糊C均值算法(IFCM)对区间数据集进行聚类分析。其次,针对所有样本无差别参与不完整数据模糊聚类分析,未考虑不同样本成为聚类中心的概率不同,导致聚类精度低的问题,本文提出一种融合空间密度分布的不完整数据模糊聚类算法(SD-IFCM)。聚类中心位置与空间信息分布有关,分布在密度较高区域的数据点成为聚类中心的概率较大,因此利用空间密度信息改进目标函数公式。在KNN区间型数据集的基础上,提出一种新的密度计算公式,应用到区间数据集,将密度信息加入目标函数公式进行改进,进而进行区间型模糊C均值聚类算法分析。在迭代过程中,密度信息不断调整优化聚类中心。一定程度上改善局部最优问题,提高聚类的准确率及聚类性能。本文选取UCI数据库Iris、Breast和Bupa数据集,以及合成有规律数据集ONE和无规律数据集TWO,在不同的缺失率情况下与WDS-FCM、PDS-FCM、OCS-FCM等算法进行聚类分析。通过对聚类平均错分数以及五种外部评价指标进行实验结果对比,证明本文算法有更高的聚类准确率以及更优的聚类效果。
其他文献
目前很多依赖递归神经网络的对话系统,基本上都是需要大量密集并且标注完成的数据来进行模型的训练。混合编码网络模型(HCN)是一种面向任务通信的对话系统。HCN让开发者可以通过软件和模板操作来传达自己所学领域的知识,与现有的端到端方法相比,HCN可以在一定范围内提高对话系统训练的实用性和训练效率,但也存在一定的局限性,如由于特定领域的小众与独特性,不具有大量的训练样本,传统的混合编码网络模型在小样本数
知识图谱能提供可以被计算机理解的结构化信息,为人工智能的发展打下坚实的基础。虽然目前已构建许多规模较大的知识图谱,但由于互联网数据量过于庞大,以及数据产生速度之快,导致知识图谱所存储的知识信息是远远不完备的。因此,为了提高知识图谱的完整度,知识图谱补全工作势在必行。近年来有研究者提出知识表示学习,它可以更有效地利用到各种补全信息,极大地提高补全工作的效率,且性能表现优异。但是,目前的知识表示模型也
随着互联网时代的到来,人工智能行业成为了国家经济和科技的引领行业,其中通过面部情绪的人工智能识别已经成为当前社会的一个研究热点。根据现阶段的研究发现,用户在相互交流的过程中,绝大多数信息都是借助表情这个媒介进行传达的,用户在进行表述的同时,面部表情也会发生相应的变化,因此,可以利用用户的面部表情变化进而来识别用户的情感变化趋势。情绪可以用肉眼看不见的许多不同形式表示。使用正确的工具,可以检测和识别
随着互联网和人工智能的迅速发展,图像描述任务在人机交互和儿童教育等领域越来越受到重视。图像描述是通过结合计算机视觉中的特征提取与自然语言处理中的序列输出,将图像内容利用计算机生成自然语言描述,从而完成从视觉到语言的形态转换。不同于目标检测、图像识别等图像理解任务,图像描述不仅要识别出图像中包含的物体对象,还需要准确识别出图像中的背景、对象之间的关系等信息。近年来,研究人员对基于深度学习的图像描述方
学习路径推荐是智能导学系统中的重要组成部分。优秀的智能导学系统能够根据不同用户的不同学习需求与学习能力为用户提供个性化的教育资源,帮助用户在学习较少内容的前提下,掌握目标知识技能。强化学习算法善于解决序列决策问题,因此被广泛应用于学习路径推荐场景中。基于强化学习的推荐技术将推荐问题建模为序列决策问题。相较于将推荐问题建模为分类问题和预测问题的传统方法,强化学习不仅考虑到用户的及时反馈,而且能够考虑
随着网络通信技术、教育数据挖掘分析等技术的快速发展,网络逐渐过渡到web3.0时代,技术的不断更新给教育带来了新的挑战和要求。因材施教、个性化学习的需求剧增。为满足用户个性化课程学习需求,有效的课程推荐方法成为目前的研究热点。现有MOOC平台课程推荐方法,通常由用户历史学习记录,获得其主导学科领域来刻画用户偏好模型,进而完成推荐。该推荐方法在主导学科领域课程推荐中具有良好的推荐效果。但用户常常需要
近年来,知识图谱在推荐系统中的应用越来越受研究人员的重视,它不但可以提高推荐的准确性,而且有效的解决了传统推荐算法中存在的数据稀疏性问题和冷启动问题。但是,现有的基于嵌入和基于路径的知识感知推荐算法都存在各自的局限性,并且在使用知识图谱作为辅助信息时并未考虑知识图谱的不完整性。为了解决上述问题,本文提出了基于注意力机制的知识感知融合推荐算法,通过注意力机制合并知识图谱中的实体获取用户偏好,使用知识
随着信息技术的迅猛发展,知识推荐系统在智慧教育领域被广泛应用。知识推荐的两个基本任务是预测学习者偏好分布情况以及预测学习资源知识分布情况。传统的学习者偏好模型通常基于学习者学习状态进行推荐,忽略了知识结构中蕴含的整体性学习规律和学习者行为结构中蕴含的个体性学习规律,进而导致学习者偏好拟合不够准确、知识推荐效果不够理想等问题。而现有推荐方法中对学习资源知识分布情况进行预测时,未能充分利用学习者与学习
网络中的数据量迅速增长,如何挖掘并利用网络数据中有用的信息是当前自然语言处理领域关注的重点问题。网络中的数据通常是以自然语言的形式存在,但计算机处理自然语言时只能获取到自然语言的一些表面信息而不能对其进行更高层次的语义分析,因此不能有效挖掘到这些数据中的有用信息。知识图谱把非结构化的自然语言转换成结构化的形式,在对数据的描述方面具有特别大的优势。如果能把网络数据和知识图谱关联起来,运用知识图谱中的
近年来,随着信息技术的发展,时间序列的应用越来越广泛,如灾害监测、安全分析、金融商业等领域都包含海量带有时间属性的数据。这些数据具有规模大、类型多等特征,蕴藏着巨大的价值。因此,如何对时间序列进行精确分类,是流式数据事件分析和数据挖掘的基础,也是数据流领域研究的重点和难点。时间序列数据是按某一给定采样频率,对某一过程进行监测得到的一段实值数据波形,随时间戳变化连续记录,不受系统环境等因素影响。时间