基于熵特征优选分组聚类的相似重复记录检测

来源 :传感器与微系统 | 被引量 : 0次 | 上传用户:Ericchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。
其他文献
规则的无线传感器网络结构具有提高网络容量和增强网络可配置能力的特点,路由寻址上也具有独特的优势。对于如何组建规则拓扑的无线传感器网络提出一种虚拟层次化的组网方式,
研究利用阵列信号处理技术实现冲击定位的新方法,通过小波变换提取冲击响应信号某一窄带频率成分,运用传播算子法实现冲击源波达方向估计;根据Lamb波传播特性,用小波变换求出某一
为了保证隧道施工和后期运营安全,以及保证隧道上方公路的安全运营,有必要监测隧道支护结构的受力状态。对公路中间下方的隧道断面支护结构的受力进行了3年多的长期监测,介绍了
阵列涡流传感器能够实现导电材料的大面积高速扫描。不同走向的裂纹对线圈间互感的影响是不同的,因此,测量线圈间的互感能够获得更多的缺陷信息。利用ANSYS软件对横向和纵向裂纹进行了三维有限元仿真,得到了相应的阵列涡流敏感线圈感应电动势幅值变化曲线。仿真结果表明:通过测量线圈间的互感,可以实现对裂纹长度和方向等特征量的检测。
卟啉分子因具有可修饰性、良好的吸光特性、刚柔性、电子缓冲性、光电磁性和高度的化学稳定性等优点成为分子器件研究的理想模型化合物。介绍了卟啉及其衍生物在能量转换分子
设计了一种基于差压法原理的以ARM处理器为控制核心的通用型气密性检测仪,利用BP神经网络建立了泄漏量与各个影响因素之间关系的数学模型,并利用该模型对检测数据进行处理。试
结合NiO和四针状纳米ZnO的优点,提出了利用平行和垂直气敏膜的磁场诱导Ni纳米颗粒在四针状纳米ZnO气敏膜中的分布来制备甲醛气体传感器的方法。介绍了制备方法,分析了对甲醛的
设计一种多参数海洋环境检测装置,采用低功耗的ARM7系列的S3C44B0作为主处理器,采用I2C总线扩展多个智能传感器。为了提高模拟传感器的精度,采用数字滤波方法处理采集到的数据。在铱星通信过程中采用数据校验的方法和数据加密的方法,降低了数据的误码率和提高了数据的安全性。在实验室的环境下进行模拟实验,结果表明:系统工作可靠,并且模拟传感器具有很好的测量精度。