从结构化相似度分析网络大数据挖掘技术

来源 :科学与财富 | 被引量 : 0次 | 上传用户：liu8521

【摘要】

：

【作者】

：

王峥　李璨

【出处】

：

科学与财富

【发表日期】

：

2015年33期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：文章提出了一个基于结构化相似度的网络大数据挖掘技术，也即是将网络系统中的目标数据集转化为k最近邻网络（kNN），然后运用基于结构化相似度的网络大数据挖掘技术对目标数据进行聚类，由此获得一个目标函数稍差但聚类精度却比较高的大数据结果，从而满足我们对于精确的数据统计结果的需要。
　　关键词：信息技术；组织机构；互动效能
　　目前，人们主要采用划分式聚类算法、层次化聚类算法、基于密度的聚类算法等诸多聚类分析手段进行大数据的搜集、整理与分类活动。也有一部分学者正积极探讨基于k最近邻（kNN）的聚类算法，但或者是将kNN视为提高聚类速度的工具，或者是从划分kNN的角度重新设计聚类算法，亦或者是从谱聚类的角度对kNN图进行聚类，而并没有将其作为改变聚类结果精确度的一个重要技术手段。精确度不高仍然是诸多网络数据挖掘方法面临的共同问题之一。基于此，文章在已有的大数据聚类算法的基础上，以结构化相似度为基础将目标数据集转化成kNN网络，随后再加以聚类，由此得到一个更精确的聚类结果。这便是基于结构化相似度的网络大数据挖掘技术，也可以称为是网络大数据聚类算法（SSNCA）。
　　一、基于结构化相似度的网络大数据挖掘技术设计
　　大数据挖掘就是要找出具有较高相似度同簇数据对象的节点和具有较低相似度异簇数据对象的节点细分之后的所有类簇，从而揭示出网络中真实存在的簇结构。文章试图从网络聚类的角度建构起一个新的数据挖掘技术。深入研究之后发现，当目标数据集呈现出鲜明的簇结构特征时，则每一个数据对象都与其具有相似特征的数据处于同一个簇内，基于此，我们可以从数据对象之间的邻域拓扑关系来设计数据聚合或者是数据挖掘的方法。
　　通过分析发现，将网络系统中具有簇结构的目标数据转化为kNN网络的过程中，如果k值合适，则二者表现出相同的类簇结构，也即是簇内的节点连接比较紧密，而之间的连接则比较稀疏，由此通过网络聚类获得原数据的聚类结果。随后，再以结构化相似度为基础的分裂型的层次化数据聚类算法进行网络聚类，也即是每次都移除网络N中结构化相似度最小值的一条边，结束运算之后便可得到一个层次化鲜明的网络聚类结果。文章再运用上文所提到的Q函数从运算结束之后所形成的类簇结构中寻找最优的划分结果，也即是从最终的运算结果中选择一个能够使Q函数值最大的划分作为最终的聚类结果，因此，基于结构化相似度的网络大数据挖掘技术或者是网络数据聚类算法可以描述为：
　　输入 N//目标数据集转化为k最近邻网络
　　输出 C//数据聚类结果
　　Procedure 基于结构化相似度的网络数据聚类算法
　　begin
　　step1 网络系统N中全部边的结构化相似度结果；
　　step2 删除数值最小的边
　　step3 重新计算删除之后的结构化相似度结果；
　　step4 返回层次类簇结构中使Q函数值最大的聚类结果C
　　由此看出，此种大数据挖掘方式采用结构化相似度来度量相邻节点间的相似度，以Q函数作为目标函数，从而运用“分裂、再运算”的方式来寻找网络簇结构，在挖掘目标数据集的过程中，还需要首先设定参数k，由此构建k最近邻网络，而k值越小，计算出的类簇规模也就越小，k值越大，而计算出的类簇规模也就越大。我们需要根据现实的大数据挖掘的现实需要来选择一个合适的k值。
　　二、基于结构化相似度的网络大数据挖掘技术实验
　　我们运用人工生成网络和基准向量数据集对该技术手段分别进行测试，由此从不同的角度来观察该技术手段的可行性与精确性情况。
　　3.1人工生成网络测试
　　已知随机网络状态下的簇结构为RN（C，s，d，zout）。其中，C表示网络簇的数量，s表示各个簇内节点的数量；d表示各个节点的度，zout则表示簇内各个节点与其它簇内节点之间的连接数量。随机网络被正确聚类的前提是能够正确识别预定义的C个网络簇，并且不会进一步将其划分为更多的子簇。据此，文章采用此方式来评估大数据挖掘技术的精确度。为了能够清楚认识该技术的性能，我们将其测试结果与GN算法、快速纽曼算法（FN）、团渗算法（CPM）以及社区发现和抽取方法（FEC）等诸多网络大数据挖掘技术的测试结果进行了对比。
　　3.2基准向量数据集测试
　　我们选取UCI的image、iris、wine三个包括有预先标注的类标识的基准向量数据集，由此来确定基于结构化相似度的数据挖掘技术的性能。其中，image拥有7类户外图像集合以及从中随机抽取的210个样本，而每一个样本又呈现出19个迥异的属性；iris拥有3类鸢尾花，每一类都是由拥有3个不同属性的50个样本所构成；wine包括3類由不同植物酿制而成的酒，每一类都是由包含13个不同属性的60个样本所构成。
　　三、结束语
　　总体来说，文章在已有的网络数据挖掘算法的基础上，提出了一个以结构化相似度为基础的网络数据挖掘技术，由此从网络聚类的角度极大地提高了网络大数据挖掘的精确性与高效性。在接下来的时间里，我们一方面要深入分析目标数据集与k最近邻网络之间的关系，由此提出参数k在特定数据挖掘过程中的合理选取方式；另一方面要深入研究不同的网络转换方式，将目标数据集转化为合适的网络形式，由此更进一步提高数据挖掘的精确性，并分析论证该方法与其它方法相比的优势所在。
　　参考文献
　　1、杨骥，《网络公共安全保护中数据挖掘技术的应用与研究》[J]，《信息通信》，2014（8）
　　2、徐宝文，《数据挖掘技术在Web预取中的应用研究》[J]，《计算机学报》，2010（4）
　　3、段琪，《一种基于数据聚合的网络拓扑推测算法》[J]，《计算机仿真》，2011（1）
　　作者简介：
　　王峥，女，北京人，汉族，河南省郑州供电公司信息管理专责，工程师，本科。研究方向：网络工程。
　　李璨，女，河南商丘人，汉族，国网河南省电力公司郑州供电公司信息运检技术专责，工程师，硕士。研究方向：管理与信息系统。

其他文献

塞外万亩春玉米连续两年亩产超千斤

在毛主席的革命路线指引下,经过无产阶级文化大革命运动,特别是经过批林整风和批林批孔运动的普及、深入、持久地开展,我们地区农业学大寨的群众运动进入了一个新阶段。为了

期刊

春玉米姚家批林批孔运动农业学大寨毛主席批林整风不称霸宣化县路线斗争路线指引

高校网络文明现状及其建设研究——以赣州市高校为例

期刊

“门源”小油菜密度多大合适

营口县农林局:门源小油菜生育期短,植株矮,叶片少,上部叶小,基部叶片后期脱落,遮光少,适宜密植。据调查:单株荚数在15～23.1个之间,每亩有10～15万株,每荚粒数在15.9～22.7之间,千

期刊

小油菜单株荚数基部叶片上部叶农林局千粒重行距粒数油菜密度

高产小麦的管理技术

在毛主席无产阶级革命路线指引下,我省批林批孔运动正在普及、深入、持久地向前发展,“农业学大寨”的群众运动出现了新高潮,形势一派大好。省委提出一九七五年“农业生产的

期刊

高产小麦高产麦田批林批孔运动农业学大寨防止倒伏毛主席高产栽培亩穗数亩基本苗群众运动

小麦高产栽培和防止倒伏的经验

在毛主席革命路线指引下,我们永红庄大队综合运用农业“八字宪法”实行科学种田,全大队600亩小麦,在连续三年刷新历史水平,创小麦高产之后,今年又战胜了旱、虫、风等自然灾

期刊

小麦高产栽培毛主席革命路线防止倒伏历史水平实践体验平播自然灾害高产小麦亩穗数播种方式

河南省洛宁县通天沟—银矿床特征与研究

摘要：河南省洛宁县通天沟-栾川县银矿床属热液充填型矿床，形态为脉状。矿区水文地质简单，坑采为主，矿石类型为易选原生矿，主矿种为银、铅、金，金矿中伴生银，银、铅共生且伴生铜镉，矿床平均品位银196.53g/t，铅1.24%，金5.25g/t。　　关键词：银矿床、矿石特征；成矿模式　　矿区位于河南省西南部熊耳山南麓，属中山区。范围西至焦园沟，北到马沟，南至月沟。矿区面积3.55km2海拔高度1070

期刊

三季串换轮种防止洋芋种性退化

洋芋(马铃薯)是我区主要粮食作物之一。每年三季洋芋种植面积一百万亩,占粮食播种面积的八分之一,产量仅次于水稻、包谷而居第三位。由于洋芋生育期短、适应性广、抗灾力强

期刊

种性退化粮食总产量增产潜力高寒山区播种面积马铃薯水田居第种植面积旱地

规模化经销商的困惑与出路

在中国的经济发展中,一直有一个声音没有受到足够重视,这就是经销商。眼看着中国的企业一个又一个地进入世界500强,终端商越来越强大,消费者的声音也非常强大,但是经销商的声

期刊

经销商终端商经济发展市场营销经济一体化家电零售商终端销售城乡一体化中国农村市场终端市场

资源勘查工程中GPS测量技术应用

摘要：GPS技术最初是由美国国防部应用到军事领域而研制的，它是一种全球性的卫星导航定位系统。其主要的特征时定位技术高度自动化、定位准确度极其高，所有这些特征使得GPS测量技术具有广阔的应用前景，赢得了广大测量领域工作者的青睐。目前该技术已经应用到除军事以外的很多领域，其在资源测查和测量中也得到广泛的应用。　　关键词：GPS技术；测量；资源勘查；应用　　1 GPS全球定位系统　　1.1 定位系统组

期刊

关于农村低保政策落实情况的调查与思考——以长丰县为例

期刊

从结构化相似度分析网络大数据挖掘技术

与本文相关的学术论文