【摘 要】
:
高维数据集合的最近邻查询性能会受到“维数灾难”现象的影响。提出了一种基于联合聚类的HC2高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合聚成若干较低维数的类,然后采用超立方体结构对每个类进行空间区域描述。在基于“过滤-精炼”的查询过程中,计算查询点与各个类之间的距离下界,实现对聚类的有效过滤。为了提高距离下界对真实距离的逼近能力,采用了一种基于统计优化的超立方体区域描述方法
【机 构】
:
School of Computer, Xidian University, Xi'an 710071, China
论文部分内容阅读
高维数据集合的最近邻查询性能会受到“维数灾难”现象的影响。提出了一种基于联合聚类的HC2高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合聚成若干较低维数的类,然后采用超立方体结构对每个类进行空间区域描述。在基于“过滤-精炼”的查询过程中,计算查询点与各个类之间的距离下界,实现对聚类的有效过滤。为了提高距离下界对真实距离的逼近能力,采用了一种基于统计优化的超立方体区域描述方法SOHC2,能够更加有效地缩小搜索空间,提高查询性能。理论分析和实验结果都表明,SOHC2的查询性能明显优于其他索引方法,适合大规模高维数据的查询;与同类索引结构相比,查询速度能够提高3倍以上。
其他文献
根据钢框架结构连接节点设计的专业特点,采用C++面向对象的编程技术,将框架连接节点抽象成不同层次的类,在AutoCAD图形处理平台的基础上,开发了钢框架连接节点设计程序。程序以友好的人机交互方式完成节点的自动设计,支持从各个视角灵活方便地察看设计节点的三维实体效果,同时允许用户手动修改、优化节点设计结果,并自动重新校核,使得钢框架连接节点设计变得简便、快速、准确,且有良好的可视效果。
分析了直接合金化炼钢时含硼炉渣侵蚀耐火材料的机理,通过相图研究了不同种类的耐火材料抗炉渣侵蚀的能力,通过渣中配加添加剂,可减缓炉渣对耐材的侵蚀.开展了实验室坩埚实验,静态坩埚实验结果表明:碳化硅、石英和刚玉耐材的平均侵蚀厚度分别为0.52mm,1.03mm,1.40mm,刚玉耐材侵蚀最为严重,石英耐材有一定程度的侵蚀,但相对较轻,碳化硅耐材侵蚀很少;公斤级中频炉实验结果表明,含硼炉渣对石英坩埚侵蚀
采用大型通用非线性有限元软件ABAQUS分别对方钢管混凝土框架-十字加劲薄钢板剪力墙和非加劲薄钢板剪力墙进行了数值分析,对二者的极限承载力、刚度、剪力分配和柱子的受力特征进行了研究.结果表明:当肋板刚度比为30时,十字加劲肋能够提高钢板剪力墙结构的弹性屈曲荷载、极限承载力、初始刚度,降低柱轴压比对剪力初始分配的影响;在加载的初始阶段(顶点侧移角小于0.2%),钢板剪力墙承担了大部分剪力,随后墙板承
特征选择是机器学习和模式识别领域的关键问题之一。随着模式识别与数据挖掘的深入,研究对象越来越复杂,对象的特征维数也越来越高,此时特征选择的稳定性也显得尤为重要。分析了1-范数支持向量机,用该方法对高维数据进行特征选择,并对特征选择的结果进行集成;提出了一种针对高维数据的稳定性度量方法;在基因表达数据上的实验结果表明,集成特征选择可以有效提高算法的稳定性。
从现实世界中抽象出来的信息表经常需要更新其中的内容,增加、删除信息表中的对象是经常遇到的情况。利用原有的约简集,针对信息表的更新元素,在求取约简的过程中,利用协调集代替约简集,提出了对象集增加元素及删除元素时协调集的更新算法,并通过实例验证了其有效性。此外,还给出了协调集与约简集的转化算法。
通过总结常温下三种典型类型的节点约束刚度模型,建立了一系列有限元模型进行数值模拟计算,分析了不同约束模型对此类结构火灾下整体力学性能的影响。并通过对比分析探讨了火灾下不同节点约束模型中玻璃刚度对结构整体力学性能的贡献作用,最后给出了此类结构在节点设计上的建议。
现有的大多数隐私保护技术往往忽略了敏感属性不同取值和准标识符属性之间存在的特殊关联,并且各领域对数据隐私保护的多方面要求,使得发布的匿名数据需要满足复合隐私约束。对近似敏感属性值和复合隐私约束进行分析,提出了基于大数据模式分解和聚类分析的隐私保护算法。给出了聚类敏感属性值保护相似值方法,设置不同权重的敏感属性,保留重要的属性。使用三维不规则结构矩阵的效用矩阵,来获取精度较高的匿名数据,实现匿名数据
数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性.已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性.针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(T-CER).T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(T-Clustering),并使用基于时间的约束对识
从数据整体和宏观特点给出了离群点的新的定义,并基于数据宏观模式定义了一种新的离群因子,该因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性;提出了一种新的Shadowed Sets优化目标,使得在模糊集阴影化过程中更加关注核的准确性;同时基于Shadowed Sets聚类,提出了一种结合聚类的离群点检测算法,该算法可以同时进行聚类和离群点检测;通过模拟数据和Iris数据测试,显示算法具有
利用人眼视觉感知特性评价图像的质量一直是图像处理领域的研究热点,但是目前很多客观评价方法未能充分考虑视觉感知特性。针对当前工作的不足,提出了基于边缘梯度信息的图像质量评价方法。采用基于小波变换模极大值的方法提取图像的边缘梯度信息,并利用高斯函数对图像区域进行区域加权,提出基于边缘梯度信息的评价方法。实验结果表明,该方法能够准确和有效地度量不同失真类型图像的质量,与主观评价值的一致性较好,并且该算法