【摘 要】
:
在信息时代,如图像数据、网页数据和生物特性数据这样的复杂处理对象通常需要使用高维向量来进行表示。然而,随着信息技术的超高速发展,这些数据的体积越来越大,用于表示这些目标对象所需的向量的维数也越来越高,继而引发了“维数灾难(Curse of Dimensionality)”问题,即处理这些数据变得更加的困难。许多学者相继提出了一些新的方法来解决高维数据带来的问题,但是如何处理超高维度的数据仍然是一个
论文部分内容阅读
在信息时代,如图像数据、网页数据和生物特性数据这样的复杂处理对象通常需要使用高维向量来进行表示。然而,随着信息技术的超高速发展,这些数据的体积越来越大,用于表示这些目标对象所需的向量的维数也越来越高,继而引发了“维数灾难(Curse of Dimensionality)”问题,即处理这些数据变得更加的困难。许多学者相继提出了一些新的方法来解决高维数据带来的问题,但是如何处理超高维度的数据仍然是一个开放的话题。维数约简(Dimensionality Reduction)方法是一个流行的用于处理高维数据的技术,其广泛运用于模式识别、机器学习和人脸识别等领域。维数约简旨在通过提取一个低维表示来表征隐藏在高维数据中的特征结构,从而过滤掉不必要的冗余信息,简化了数据处理的过程,降低了计算成本以及提高了处理数据的速度。为了保留数据的紧凑和高效的低维表示,近期,许多现有的判别流形学习(Discriminant Manifold Learning)方法将流形学习(Manifold Learning)和判别分析(Discriminant Analysis)整合到一起用于提取数据的内在结构。这些方法学习了两个不同的邻接图(Adjacency Graph),即内在图和惩罚图,这两个不同的邻接图分别用于表征同类数据间的相似度(Similarity)和异类数据之间的伪相似度(Pseudo Similarity)。然而,这些方法对每个样本点具有相同的对待方式,这导致了这种方法存在以下几个缺陷:这些方法不能够只通过惩罚图准确的表征不同类别之间的边缘区域(Marginal Region);这些方法不能够识别噪声样本和异常样本,这些样本将会降低算法的鲁棒性。本文主要围绕图学习(Graph Learning)和判别分析方法进行研究,主要贡献如下:(1)为了解决这些问题,本文引入了邻接因子来对每个样本点进行基于判别性的可靠性分析。通过将邻接因子结合到判别流形学习方法中,本文提出了一个新的判别分析方法,本文把它叫做基于局部邻域可靠性的判别分析(Discriminant Analysis based on Reliability of Local Neighborhood,DA-RoLN)。通过引入邻接因子,所有样本点可以被分为三个不同的部分:类间样本、边缘样本和异常样本。因此,DA-RoLN可以突出有效样本对模型的作用,同时过滤掉异常值对模型的影响。同时,邻接因子是在低维空间中自适应地进行学习的,因此,强调了不同类别在低维空间中的边缘信息(Margin)。本文构造了一个迭代算法来对DA-RoLN的目标函数进行求解,这个方法易于求解且拥有较低的计算成本。(2)为了降低噪声样本点对整体样本分布带来的影响,本文通过学习到的邻接因子对每个样本点进行评估,从而对样本数据进行一次剪辑操作,以过滤掉所有噪声和异常样本点。据此,本文提出了一个新的判别分析方法,命名为区域边界判别分析(Regional Margin Discriminant Analysis,RMDA)。RMDA 不仅通过剪辑样本过滤了噪声数据带来的影响,还在剪辑后的纯净样本基础上强调了区域边界信息以及类内紧凑性的提取,使得算法在样本数据的判别性上更加鲁棒。
其他文献
税收是国家依靠公共权力,取得的一种无偿性国民收入。在来源上取之于民、并用之于民、更是为了造福于民,税收不仅为国家治理提供了有关财力方面的基础保障,更是政府获得财政收入的主要来源,对促进经济发展、维护社会稳定发挥着无可替代的作用。税务机关可以从履行税款征收、税源管理、税务稽查、纳税服务等相关职能来入手,从而对现代税收工作实现系统化的管理。在税务机关的四个职能中,税收征管是税收工作的核心,而税源管理又
通过几十年的发展,进化算法已经成为解决复杂优化问题的常用方法。随着实际生产力的发展,新型的优化问题层出不穷,多因子优化就是一类新的优化问题,指的是在同一表达空间中同时优化多个任务。多因子进化算法是一种为了有效解决多因子优化问题、以多因子遗传模型为基础,受到迁移学习思想启发而提出的新型优化算法。算法主要利用了跨任务的基因迁移来提高同时处理多个相似任务的优化效率。尽管多因子进化算法已经证实在处理多因子
工业4.0时代的到来,推动了通信及信息技术迅猛发展,数据资源已经成为新时代全球范围内关注的焦点,如何有效采集、分析和利用海量复杂的数据来提高人民生活质量已经成为全世界专家学者共同的研究课题。在我国,大数据分析技术的应用正处在高速发展的阶段,近些年国家发展战略中多次提及大数据,并且已经在多个政府部门进行全方位的开展。海关作为重要的口岸监管部门也紧跟时代步伐提出“科技兴关”并将大数据分析技术在多个领域
伴随互联网经济的不断发展、科技的进步和电子商务的日益强大,与互联网相伴相生的线上广告在过去的数十年间实现了迅猛的发展。作为一门崭新的学科交汇科学,计算广告学倍受关注。其主要包含广告学、文本计算、信息检索、统计模型和经济学等多个学科的理论和应用。计算广告是为某些特定的用户群体而设计的,从出现至今都是互联网新兴应用领域中的热门问题,成为了一个新的商业增长点。广告点击率预测(Click-Through-
社区犯罪预防是社会治安综合治理的重要组成部分。目前,我国农村地区犯罪问题日益凸显,发案率高,急需构建农村社区犯罪预防模式。以社会资本理论为剖析视角,从个体与社会网络间的纽带关系、社会信任、公民参与、社会结构的稳定性和政治权威五个方面分析农村社区犯罪行为产生的原因,在此基础上应当从改进新型集体经济模式、创新调解制度、重建乡土文化、创新农村社区警务工作等方面予以构建完善农村社区犯罪预防模式,以维护农村
大量3’端测序或RNA-seq转录组的研究发现,动植物中多达70%的基因会发生选择性多聚腺苷化(alternativepolyadenylation,APA),这是引起转录组多样性和复杂性的重要原因。在人类疾病发生、胚胎发育和分化的过程中,已有研究观察到APA使用模式的多种情况,并发现APA在不同组织中具有明显的特异性,这为基因表达调控机制的研究提供了重要信息。目前主要是从细胞群的整体水平解析AP
随着移动互联网的大规模普及,日益增加的信息、日新月异的商业模式,让人们处于信息过载的困境。推荐系统,作为一个帮助用户筛选出更有效信息的工具,在学术界和工业界都得到了快速的发展。为了能够对用户行为偏好数据进行更加准确分析,基于模型的协同过滤在近些年成为研究重点。其中,基于矩阵分解模型和基于张量分解模型的协同过滤能够很好地从稀疏大规模数据中学习,并且这些模型的变体考虑了更加细致的数据特征,增加了相似度
复杂空心涡轮叶片作为高推重比航空发动机的关键部件,其生产制造是我国亟待解决的重大技术难题。受自身复杂结构和材料等多种因素的影响,国内自主生产制造的单晶空心涡轮叶片合格率较低。空心涡轮叶片通常采用精密铸造技术制造,精铸过程中金属冷却凝固引起的收缩变形会造成叶片尺寸精度不够等问题,需要计算铸件收缩率,在模具设计中予以补偿。传统模具试制过程周期长、成本高,研究叶片典型结构相关的收缩机理以得到其变形规律,
随着旅游业的快速发展,越来越多的社区居民加入了旅游业当中,然而社区居民能否参与旅游业、如何参与旅游业以及在多大程度上参与旅游业对于目的地旅游业和社区经济发展都具有重要的现实意义。社区居民旅游就业已经成为旅游研究的一个重要内容,不仅能够增加社区居民的经济收益,而且对于旅游地的可持续发展具有重要意义。本文通过文献研究,了解社区参与的理论及研究进展,通过问卷调查社区居民215人,并访谈了景区管理者、旅游
社会生活中经常出现具有能力不对称的对抗现象,某一方为了确保目的的达成往往使用能力较强个体去执行复杂的对抗任务,而另一方个体由于能力较弱而无法在对抗中取得胜利,但能力较弱方可能在数量上占有优势。这类现象在自然界和人类社会中较常见,有的是自然生存环境造成,有的是为了确保任务的成功而人为造成。在更具体的目标攻防问题中,攻击方采取某种策略去打击目标,防御方采取防御策略保护目标的安全。当攻击方能力比防御方强