混合数据的多视图聚类算法研究

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:meixueer2972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学研究中,同时具有数值属性和分类属性的混合数据是有着重大意义的。经科学研究证明,与单视图学习方法相比,多视图学习方法对新样本适应能力更强、更有效。然而,现有的大多数多视图聚类算法只能处理单一类型属性的数据。本文在多视图学习框架的基础上,综合考虑混合属性数据的取值特点和分布特征,提出了两种新的多视图聚类算法对混合属性数据进行聚类分析。(1)本文提出了混合数据的多视图聚类算法MKP(Multi-view K-Prototypes)。该算法是著名的K-prototype算法的首个多视图版本,解决了在多个视图上对混合数据进行聚类的问题。首先,在多视图场景中,针对混合属性数据的簇,本算法设计了簇中心表示原型,并提出了簇中心的更新方法;其次,本算法设计了多视图场景下对混合型数据进行聚类的目标函数;然后,在这个新的目标函数中,针对分类属性和数值属性的不同特点,本算法也提出了不同的距离表示方法。最后,本算法提出了共识簇中心的概念来输出最后的聚类结果。MKP算法不仅可以有效地处理不同类型的属性,而且可以在不同的视图中利用互补和不同的信息有效的解决问题。(2)本文提出了混合数据的多视图模糊聚类算法FMKP(Fuzzy Multi-view K-Prototypes)。通过引入多视图学习和模糊理论,FMKP算法解决了在多视图场景下对混合数据进行模糊聚类的问题。首先,为了处理数据对象和簇之间的模糊关系,本算法引入了不同视图下数据对象在簇中的隶属度;其次,针对分类属性和数值属性的不同特点,本算法提出了计算簇中心表示原型的方法;然后,本算法设计了多视图场景下对混合型数据进行模糊聚类的目标函数;最后,本算法开发了在多视图场景下对混合数据进行模糊聚类的算法FMKP。由于在做出簇边界的最终决策前更长时间地保留了数据的不确定性,FWKP算法不易陷入局部最优。为评估算法性能,本文采用常用的评估聚类算法性能的度量AC(准确率)、PR(精确率)、RE(召回率)和RI(兰德系数)。在多个基准数据集上对所提算法(MKP,FMKP)和其他常用主流算法进行了大量的对比实验。实验结果表明,本文所提出的两种改进算法均取得了很好的效果,并有助于聚类性能的提升。
其他文献
在所有生命活动中,金属离子借助“结合作用”通过跨膜蛋白形成的离子通道,从而调节多种生物分子的表达和激活,参与细胞信号转导,完成各种基本生物功能。由于跨膜蛋白具备其自身独特的结构和功能特性,正确识别金属离子与跨膜蛋白结合位点,对于蛋白质工程、离子运输机制以及药物设计的阐明都具有重要意义。然而,当前缺乏大规模测定跨膜蛋白离子结合作用的生物实验技术,亟待有效的计算工具为相关研究及应用提供支撑。已有的金属
学位
近年来,随着互联网技术的发展,层出不穷的在线考试平台逐渐进入智能教育领域中。与传统的教育考试方式相比,在线考试平台有着时间上更灵活、空间上更自由的特点,不仅提高了学生的学习效率,同时也减轻了教师在教学过程中批改大量试卷的负担。然而,由于教育智能在线考试系统是从庞大的题库中随机抽取题目进行组卷,这种情况使得学生在平时练习测试的过程中存在灵活性低下、无法针对每个学生的实际掌握情况进行出题等问题和挑战。
学位
大气压冷等离子体作为一种适用于生物治疗的技术,在医学上有着丰富而广泛的应用,包括医疗器械灭菌、口腔、肿瘤及皮肤疾病等领域。大气压冷等离子体的应用有直接和间接两种形式,二者相辅相成。大气压冷等离子体是一种很有前途的皮肤病治疗技术,但仍需要进一步的探索和研究。我们总结了大气压冷等离子体在皮肤科中的直接和间接应用并展望,为等离子体医学的发展方向提供参考。
期刊
问答(Question Answering,QA)是自然语言理解中具有挑战性的任务,近年来备受研究人员关注。目前大多数关于问答的研究都是根据单个文档甚至单个段落来回答问题,即问题的答案往往来源于单个文档或者单个句子,也称之为单跳推理问答。多跳推理问答相对单跳推理问答来说是一个更具有挑战性的任务,它要求模型能够对多个文档和问题之间的关系有深入的理解,即需要模型从文本的不同部分收集信息来回答问题。这就
学位
人脸表情可以有效地表达人的情感,是一种可以最直观传递人情感状态的非语言信号。在计算机与人工智能快速发展的背景下,基于深度学习的人脸表情识别技术在计算机视觉领域中发展迅速,并在智慧康养、人机交互等领域取得了众多应用成果,逐渐成为学术界和工业界研究的热点。然而,以往基于传统深层网络的表情识别研究主要利用单一面部表情线索信息,当面部表情被遮挡、图像质量不高时,传统方法的性能往往较差。考虑在真实场景中,人
学位
人脸检测是计算机视觉领域中的一个重要研究方向,也是人脸识别、人脸跟踪和面部表情识别等视觉任务的基础。人脸检测在生活中的应用场景也随处可见,如公司考勤、车站安检和“刷脸”支付等。随着网络性能的提升,人脸检测方法的网络模型越来越复杂,检测精度不断提高,检测速度却逐渐降低。由于人脸检测的实际应用场景对检测精度和速度要求很高,而且应用设备的内存和计算能力都非常有限,所以目前大多数的人脸检测方法不能很好地满
学位
大规模在线公开课程(Massive Open Online Courses,MOOC)又译为“慕课”,是随着科技发展流行起来的新兴课堂形式。慕课不拘泥于时间、地点,又内容多样、资源丰富,自出现起就备受全世界学习者的喜爱和关注。然而慕课数量巨大,质量良莠不齐,如果不对慕课进行质量评估,不仅会浪费学习者的时间筛选慕课,同时也会对慕课平台的留存率产生负面影响。怎样充分地利用慕课属性及学习者的学习行为,合
学位
近年来,个性化的习题推荐一直是教育领域的重要研究课题,习题推荐通常分为两个过程,一是根据学生的做题记录来了解学生的知识点掌握情况,二是根据学生的知识点掌握情况结合相关学习策略为学生推荐合适的习题,以达到帮助学生学习的目的。根据学生的特点为学生个性化地推荐习题,可以提高学生学习效率,提升学生的知识水平,也可以帮助学生探索新的知识,复习遗忘的知识点。这对帮助学生更好地掌握、探索、学习与巩固知识点都有着
学位
采用料浆渗铝法在T92钢上开展了渗铝工艺研究,测试了700℃料浆层厚度约80μm渗铝层生长动力学,采用XRD、SEM及EDS对渗铝层表面物相结构和渗铝层截面形貌、厚度和成分进行研究。结果表明:渗铝的前3 h活性Al原子([Al])向内扩散形成Fe2Al5 (η)相;随后[Al]开始在料浆层与渗铝层界面堆积,此时,Fe以较快的速度向外扩散并形成Fe2Al5 (η)和FeAl3 (θ)混合相外层;10
期刊
目前,自然语言处理是人工智能的热门研究领域之一,它涉及的研究方向很广泛,如文本分类、机器翻译、信息抽取等。其中,信息抽取旨在通过算法实现自动从文本中获取各种各样的信息。文本的形式各种各样,一般可分为结构化文本,半结构化文本和非结构化文本。本文研究的信息抽取任务主要是从非结构化的文本中抽取相关信息构建结构化的数据。文档是保存信息的一种主要方式,并且文档中的绝大多数信息是以无结构的纯文本形式存在,它们
学位