论文部分内容阅读
摘 要:文章提出了一个基于结构化相似度的网络大数据挖掘技术,也即是将网络系统中的目标数据集转化为k最近邻网络(kNN),然后运用基于结构化相似度的网络大数据挖掘技术对目标数据进行聚类,由此获得一个目标函数稍差但聚类精度却比较高的大数据结果,从而满足我们对于精确的数据统计结果的需要。
关键词:信息技术;组织机构;互动效能
目前,人们主要采用划分式聚类算法、层次化聚类算法、基于密度的聚类算法等诸多聚类分析手段进行大数据的搜集、整理与分类活动。也有一部分学者正积极探讨基于k最近邻(kNN)的聚类算法,但或者是将kNN视为提高聚类速度的工具,或者是从划分kNN的角度重新设计聚类算法,亦或者是从谱聚类的角度对kNN图进行聚类,而并没有将其作为改变聚类结果精确度的一个重要技术手段。精确度不高仍然是诸多网络数据挖掘方法面临的共同问题之一。基于此,文章在已有的大数据聚类算法的基础上,以结构化相似度为基础将目标数据集转化成kNN网络,随后再加以聚类,由此得到一个更精确的聚类结果。这便是基于结构化相似度的网络大数据挖掘技术,也可以称为是网络大数据聚类算法(SSNCA)。
一、基于结构化相似度的网络大数据挖掘技术设计
大数据挖掘就是要找出具有较高相似度同簇数据对象的节点和具有较低相似度异簇数据对象的节点细分之后的所有类簇,从而揭示出网络中真实存在的簇结构。文章试图从网络聚类的角度建构起一个新的数据挖掘技术。深入研究之后发现,当目标数据集呈现出鲜明的簇结构特征时,则每一个数据对象都与其具有相似特征的数据处于同一个簇内,基于此,我们可以从数据对象之间的邻域拓扑关系来设计数据聚合或者是数据挖掘的方法。
通过分析发现,将网络系统中具有簇结构的目标数据转化为kNN网络的过程中,如果k值合适,则二者表现出相同的类簇结构,也即是簇内的节点连接比较紧密,而之间的连接则比较稀疏,由此通过网络聚类获得原数据的聚类结果。随后,再以结构化相似度为基础的分裂型的层次化数据聚类算法进行网络聚类,也即是每次都移除网络N中结构化相似度最小值的一条边,结束运算之后便可得到一个层次化鲜明的网络聚类结果。文章再运用上文所提到的Q函数从运算结束之后所形成的类簇结构中寻找最优的划分结果,也即是从最终的运算结果中选择一个能够使Q函数值最大的划分作为最终的聚类结果,因此,基于结构化相似度的网络大数据挖掘技术或者是网络数据聚类算法可以描述为:
输入 N//目标数据集转化为k最近邻网络
输出 C//数据聚类结果
Procedure 基于结构化相似度的网络数据聚类算法
begin
step1 网络系统N中全部边的结构化相似度结果;
step2 删除数值最小的边
step3 重新计算删除之后的结构化相似度结果;
step4 返回层次类簇结构中使Q函数值最大的聚类结果C
由此看出,此种大数据挖掘方式采用结构化相似度来度量相邻节点间的相似度,以Q函数作为目标函数,从而运用“分裂、再运算”的方式来寻找网络簇结构,在挖掘目标数据集的过程中,还需要首先设定参数k,由此构建k最近邻网络,而k值越小,计算出的类簇规模也就越小,k值越大,而计算出的类簇规模也就越大。我们需要根据现实的大数据挖掘的现实需要来选择一个合适的k值。
二、基于结构化相似度的网络大数据挖掘技术实验
我们运用人工生成网络和基准向量数据集对该技术手段分别进行测试,由此从不同的角度来观察该技术手段的可行性与精确性情况。
3.1人工生成网络测试
已知随机网络状态下的簇结构为RN(C,s,d,zout)。其中,C表示网络簇的数量,s表示各个簇内节点的数量;d表示各个节点的度,zout则表示簇内各个节点与其它簇内节点之间的连接数量。随机网络被正确聚类的前提是能够正确识别预定义的C个网络簇,并且不会进一步将其划分为更多的子簇。据此,文章采用此方式来评估大数据挖掘技术的精确度。为了能够清楚认识该技术的性能,我们将其测试结果与GN算法、快速纽曼算法(FN)、团渗算法(CPM)以及社区发现和抽取方法(FEC)等诸多网络大数据挖掘技术的测试结果进行了对比。
3.2基准向量数据集测试
我们选取UCI的image、iris、wine三个包括有预先标注的类标识的基准向量数据集,由此来确定基于结构化相似度的数据挖掘技术的性能。其中,image拥有7类户外图像集合以及从中随机抽取的210个样本,而每一个样本又呈现出19个迥异的属性;iris拥有3类鸢尾花,每一类都是由拥有3个不同属性的50个样本所构成;wine包括3類由不同植物酿制而成的酒,每一类都是由包含13个不同属性的60个样本所构成。
三、结束语
总体来说,文章在已有的网络数据挖掘算法的基础上,提出了一个以结构化相似度为基础的网络数据挖掘技术,由此从网络聚类的角度极大地提高了网络大数据挖掘的精确性与高效性。在接下来的时间里,我们一方面要深入分析目标数据集与k最近邻网络之间的关系,由此提出参数k在特定数据挖掘过程中的合理选取方式;另一方面要深入研究不同的网络转换方式,将目标数据集转化为合适的网络形式,由此更进一步提高数据挖掘的精确性,并分析论证该方法与其它方法相比的优势所在。
参考文献
1、杨骥,《网络公共安全保护中数据挖掘技术的应用与研究》[J],《信息通信》,2014(8)
2、徐宝文,《数据挖掘技术在Web预取中的应用研究》[J],《计算机学报》,2010(4)
3、段琪,《一种基于数据聚合的网络拓扑推测算法》[J],《计算机仿真》,2011(1)
作者简介:
王峥,女,北京人,汉族,河南省郑州供电公司信息管理专责,工程师,本科。研究方向:网络工程。
李璨,女,河南商丘人,汉族,国网河南省电力公司郑州供电公司信息运检技术专责,工程师,硕士。研究方向:管理与信息系统。
关键词:信息技术;组织机构;互动效能
目前,人们主要采用划分式聚类算法、层次化聚类算法、基于密度的聚类算法等诸多聚类分析手段进行大数据的搜集、整理与分类活动。也有一部分学者正积极探讨基于k最近邻(kNN)的聚类算法,但或者是将kNN视为提高聚类速度的工具,或者是从划分kNN的角度重新设计聚类算法,亦或者是从谱聚类的角度对kNN图进行聚类,而并没有将其作为改变聚类结果精确度的一个重要技术手段。精确度不高仍然是诸多网络数据挖掘方法面临的共同问题之一。基于此,文章在已有的大数据聚类算法的基础上,以结构化相似度为基础将目标数据集转化成kNN网络,随后再加以聚类,由此得到一个更精确的聚类结果。这便是基于结构化相似度的网络大数据挖掘技术,也可以称为是网络大数据聚类算法(SSNCA)。
一、基于结构化相似度的网络大数据挖掘技术设计
大数据挖掘就是要找出具有较高相似度同簇数据对象的节点和具有较低相似度异簇数据对象的节点细分之后的所有类簇,从而揭示出网络中真实存在的簇结构。文章试图从网络聚类的角度建构起一个新的数据挖掘技术。深入研究之后发现,当目标数据集呈现出鲜明的簇结构特征时,则每一个数据对象都与其具有相似特征的数据处于同一个簇内,基于此,我们可以从数据对象之间的邻域拓扑关系来设计数据聚合或者是数据挖掘的方法。
通过分析发现,将网络系统中具有簇结构的目标数据转化为kNN网络的过程中,如果k值合适,则二者表现出相同的类簇结构,也即是簇内的节点连接比较紧密,而之间的连接则比较稀疏,由此通过网络聚类获得原数据的聚类结果。随后,再以结构化相似度为基础的分裂型的层次化数据聚类算法进行网络聚类,也即是每次都移除网络N中结构化相似度最小值的一条边,结束运算之后便可得到一个层次化鲜明的网络聚类结果。文章再运用上文所提到的Q函数从运算结束之后所形成的类簇结构中寻找最优的划分结果,也即是从最终的运算结果中选择一个能够使Q函数值最大的划分作为最终的聚类结果,因此,基于结构化相似度的网络大数据挖掘技术或者是网络数据聚类算法可以描述为:
输入 N//目标数据集转化为k最近邻网络
输出 C//数据聚类结果
Procedure 基于结构化相似度的网络数据聚类算法
begin
step1 网络系统N中全部边的结构化相似度结果;
step2 删除数值最小的边
step3 重新计算删除之后的结构化相似度结果;
step4 返回层次类簇结构中使Q函数值最大的聚类结果C
由此看出,此种大数据挖掘方式采用结构化相似度来度量相邻节点间的相似度,以Q函数作为目标函数,从而运用“分裂、再运算”的方式来寻找网络簇结构,在挖掘目标数据集的过程中,还需要首先设定参数k,由此构建k最近邻网络,而k值越小,计算出的类簇规模也就越小,k值越大,而计算出的类簇规模也就越大。我们需要根据现实的大数据挖掘的现实需要来选择一个合适的k值。
二、基于结构化相似度的网络大数据挖掘技术实验
我们运用人工生成网络和基准向量数据集对该技术手段分别进行测试,由此从不同的角度来观察该技术手段的可行性与精确性情况。
3.1人工生成网络测试
已知随机网络状态下的簇结构为RN(C,s,d,zout)。其中,C表示网络簇的数量,s表示各个簇内节点的数量;d表示各个节点的度,zout则表示簇内各个节点与其它簇内节点之间的连接数量。随机网络被正确聚类的前提是能够正确识别预定义的C个网络簇,并且不会进一步将其划分为更多的子簇。据此,文章采用此方式来评估大数据挖掘技术的精确度。为了能够清楚认识该技术的性能,我们将其测试结果与GN算法、快速纽曼算法(FN)、团渗算法(CPM)以及社区发现和抽取方法(FEC)等诸多网络大数据挖掘技术的测试结果进行了对比。
3.2基准向量数据集测试
我们选取UCI的image、iris、wine三个包括有预先标注的类标识的基准向量数据集,由此来确定基于结构化相似度的数据挖掘技术的性能。其中,image拥有7类户外图像集合以及从中随机抽取的210个样本,而每一个样本又呈现出19个迥异的属性;iris拥有3类鸢尾花,每一类都是由拥有3个不同属性的50个样本所构成;wine包括3類由不同植物酿制而成的酒,每一类都是由包含13个不同属性的60个样本所构成。
三、结束语
总体来说,文章在已有的网络数据挖掘算法的基础上,提出了一个以结构化相似度为基础的网络数据挖掘技术,由此从网络聚类的角度极大地提高了网络大数据挖掘的精确性与高效性。在接下来的时间里,我们一方面要深入分析目标数据集与k最近邻网络之间的关系,由此提出参数k在特定数据挖掘过程中的合理选取方式;另一方面要深入研究不同的网络转换方式,将目标数据集转化为合适的网络形式,由此更进一步提高数据挖掘的精确性,并分析论证该方法与其它方法相比的优势所在。
参考文献
1、杨骥,《网络公共安全保护中数据挖掘技术的应用与研究》[J],《信息通信》,2014(8)
2、徐宝文,《数据挖掘技术在Web预取中的应用研究》[J],《计算机学报》,2010(4)
3、段琪,《一种基于数据聚合的网络拓扑推测算法》[J],《计算机仿真》,2011(1)
作者简介:
王峥,女,北京人,汉族,河南省郑州供电公司信息管理专责,工程师,本科。研究方向:网络工程。
李璨,女,河南商丘人,汉族,国网河南省电力公司郑州供电公司信息运检技术专责,工程师,硕士。研究方向:管理与信息系统。