【摘 要】
:
随着数据呈现出大规模和复杂化特征,当前聚类模型不能有效的进行数据聚合,因此大规模和高维数据集成聚类模型被提出。近年来,大规模数据集成聚类领域,谱聚类算法成为该领域基础模型,能够有效地挖掘大规模数据的簇结构,将有效簇结构信息应用到医学、生物学、气象等领域,促进领域信息发展。基于数据维度高维化发展,高维数据出现在医学、生物学等领域,基于高维结构复杂性,针对信息不完全挖掘问题,提出了子空间挖掘模型,提升
论文部分内容阅读
随着数据呈现出大规模和复杂化特征,当前聚类模型不能有效的进行数据聚合,因此大规模和高维数据集成聚类模型被提出。近年来,大规模数据集成聚类领域,谱聚类算法成为该领域基础模型,能够有效地挖掘大规模数据的簇结构,将有效簇结构信息应用到医学、生物学、气象等领域,促进领域信息发展。基于数据维度高维化发展,高维数据出现在医学、生物学等领域,基于高维结构复杂性,针对信息不完全挖掘问题,提出了子空间挖掘模型,提升簇结构挖掘效率以及挖掘信息完整性。通过对大规模高维数据集研究,发现其蕴含多样化有效信息需要挖掘,而基础大规模或高维数据集成聚类模型,不能有效地聚合这类数据集。因此提出了线性耦合法,耦合基础模型,形成统一集成聚类框架,聚合大规模高维数据集,将挖掘出信息应用到医疗数据分析、图像检测、模式识别等领域,促进领域信息发展。数据规模指数级增长,造成如下两个问题:1)数据规模超过谱聚类算法内存设定阈值,导致内存溢出。2)数据样本间直接计算相似值,相似值不完全映射原始数据集。针对上述两个问题,提出基于自然邻居编码集成聚类模型。首先,引入自然邻居随机混合策略,缩减原始样本体量,降低内存成本消耗,并且搜索样本代表点以及代表点映射的自然邻居集合,编码代表点与原始样本关系,基于编码关系构建稀疏子矩阵。其次,稀疏子矩阵抽象为图模型,图分割获得单次基聚类结果。最后,归并多个基聚类结果构建集群,基于集群构建样本-簇相似矩阵。引入传递切图定理,证明集群相似矩阵和传递相似矩阵等价于同一图模型,分割等价图模型获得共识聚类结果。模型基于随机代表点选取,映射多样化编码关系,基于编码关系生成多元基聚类,提升了共识聚类效果。高维空间簇结构,隐藏在低维子空间中。子空间簇挖掘时存在以下两个问题:1)子空间基于统一评价体系,导致数据间相似性计算同质化。2)获得多个基聚类中信息包含差异较大。针对上述问题,提出基于自然邻居高斯核度量准则和熵值加权模型。首先,构建自然邻居含参高斯核,参数迭代更新生成多样性评价体系,匹配多个子空间和评价体系,形成子空间-评价体系对空间,在该空间中获得基聚类结果。其次,归并多个基聚类构成集群,引入熵值计算每个簇熵值,选取熵值大的簇构建二部图模型。最后,基于标准化图切算法,获得共识聚类结果。模型基于高斯函数池和随机子空间,映射多样化子空间-评价体对结构,基于该结构获得多元化基聚类,通过熵值加权筛选优质基聚类,基于此提升模型的共识聚类结果。大规模高维数据集,数据体量大且维度高,数据集聚合存在以下两个问题。1)大体量和高维度,导致模型产生内存溢出。2)规模缩减(体量、维度)时会产生信息损失。针对上述问题,提出图分割大规模高维数据集成聚类模型。首先,随机采样原始高维空间,形成多个随机子空间减少信息损失。其次,子空间基于自然邻居随机混合策略,缩减数据体量,构建稀疏子矩阵,生成图模型获得基聚类结果。最后,归并多个基聚类结果构建集群,集群映射为图模型,分割图模型获得共识聚类结果。模型基于自然邻居随机混合策略、子空间评价体系对结构,映射多元化基聚类,基于此提升模型共识聚类效果。基于上述三个模型研究,发现本文提出的模型数据聚合效果,优于其他对比模型,体现出二部图分割的高效,以及随机化映射多元化体系的优势,并且反映出多样性优质基聚类,能够构建更好的集群,获得更优化的共识聚类结果。
其他文献
研究目的:1.探讨高脂膳食性NAFL压力微环境活化肝星状细胞(HSCs)致纤维化的机制;2.探讨YAP在NAFL阶段HSCs活化中的作用。研究方法:1.NAFL纤维化、HSCs活化及压力微环境:(1)体内实验:使用本实验室构建的高脂膳食性NAFL大鼠模型蜡块标本,通过免疫组化染色检测肝组织内Collagen Ⅲ和YAP的表达;(2)体外实验:以大鼠原代HSCs和HSC-T6细胞为研究对象,机械压力
多聚焦图像融合(Multifocus Image Fusion)是图像融合领域的研究热点之一。由于受到镜头景深的限制,得到景深范围内聚焦而景深范围外不聚焦的图像,利用多聚焦图像融合使得在同一个场合的各个聚焦区域内的所有物体在同一图像中清晰呈现。目前,多聚焦图像融合技术已在数字摄影、军事、光学显微镜、目标检测等领域得到了广泛的应用。滚动引导滤波器(Rolling guidance filtering
持留菌是细菌的休眠状态,对抗生素具有高度耐受性,与临床上许多复发性感染和慢性感染有关。金黄色葡萄球菌可形成持留菌,本课题组前期研究发现细菌密度可影响其持留菌的形成,但机制不清,本研究进行了探索。目的:1.探究细菌密度影响不同培养阶段金黄色葡萄球菌持留菌形成的分子机制。2.研究甲酸乙酰转移酶基因(pflB)在金黄色葡萄球菌高密度时持留菌形成中的作用及与毒力的关系。方法:1.将金黄色葡萄球菌Newma
目的:探讨purN影响金黄色葡萄球菌Newman株持留菌形成和毒力的分子机制,为金黄色葡萄球菌持留菌的防治寻找药物作用新靶点。方法:1.将过夜培养的金黄色葡萄球菌Newman株与purN敲除株(ApurN)菌液1:1000稀释后分别培养至3h、4h、5h、9h、24h,氨苄青霉素(10μg/mL)暴露实验检测持留菌形成变化。2.从前期构建的回补株ΔpurN::pRBpurN中抽提pRAB11-pu
陇中黄土高原是黄河流域生态保护和高质量发展国家战略的重要区域,该区生态环境脆弱,人工造林是该区生态恢复和保护的重要举措。然而,由于水资源相对匮乏,该区域人工林树木耗水和土壤供水之间的矛盾一直存在,并在全球气候变化背景下不断加剧。山杏(Armeniaca sibirica)和油松(Pinus tabuliformis)作为陇中黄土高原的重要造林树种,明确其水分传输特征与调节机制,对于深入理解两树种耐
随着互联网产业的快速发展,在日常工作中产生了大量特征丰富、结构复杂的无标签数据。由于人工标记数据往往具有高额成本,因此聚类分析作为一种典型的无监督学习方法,仅根据数据之间的关联关系就能挖掘到有用的信息,受到了众多学者的关注。其中,基于图表示学习的聚类算法是该领域的主流研究方向之一。尽管近几十年不同学者提出了许多基于图表示学习的聚类算法,但仍存在学习到的表示图不具有适于聚类的连通图结构或者对噪声和离
据数据统计,截止到2021年9月,国内所拥有的汽车数量已经达到了3.9亿辆,随着汽车拥有量的不断增长,一些交通问题也随之而来,比如交通拥堵、环境污染和能源消耗。汽车数量的不断增长在给人们的工作、生活带来不便的同时也给道路相关管理部门带来了挑战。现阶段交通拥堵已经成为阻碍城市发展的主要矛盾,实时、可靠的交通流预测可以为交管部门缓解道路拥堵提供理论依据,方便出行人员更清楚的了解路况,及时的获取路况可以
第一部分白细胞介素-7对结核分枝杆菌抗原持续刺激致骨髓造血功能异常的作用研究造血干细胞与造血祖细胞通过自我更新、增殖、分化,生成淋巴细胞等免疫细胞以满足机体抗感染免疫的需求。机体发生感染时,会产生IFN-γ、TNF-α等炎性细胞因子,调节造血干细胞的增殖与分化。在感染初期,炎症细胞因子会促进造血干细胞的增殖并促进向髓系分化,以补充外周血中消耗的单核细胞与粒细胞;但若感染持续时间过长且无法清除,炎症
图论,是计算机科学与数学交叉的一门学科,它将现实生活中复杂的、抽象的问题,转化为简单的图问题;此外,将不同的事物作为点,事物与事物之间的联系作为边,研究点与边之间的关系。因此,图论的应用具有普适性,不论在现实生活还是计算机网络中均被广泛应用,如最短路径规划,知识图谱,连通分量,复杂网络等问题。而解决这些问题的方法,可以用到图标号或图染色等方法。图标号是图论中一个重要的研究部分,自从学者Rosa提出
背景和目的在排除酒精和其他明确损伤肝脏的病因,肝细胞发生脂肪变性,这种临床病理综合症称为非酒精性脂肪肝病(non-alcoholic fatty liver disease,NAFLD),其发展过程包括非酒精性脂肪肝(non-alcoholic fatty liver,NAFL)、非酒精性脂肪肝炎(non-alcoholic steatohepatitis,NASH)、肝纤维化(Liver fib