论文部分内容阅读
互联网时代人们参与网络活动日益频繁且普遍。采用数据挖掘中的分类分析、聚类分析与关联分析等技术,对大量用户的属性信息与行为数据进行处理与分析,进而找出用户之间存在的某种潜在规律与关联,通过数据挖掘其关系并进行可视化表达,这是很多领域的应用热点。
论文工作基于聚类分析、六度分割理论、中心度算法与关联分析等技术对人物的属性信息进行挖掘与分析,从而发现各个人物之间存在的某种关系,进而对其关系网络进行可视化展示与分析。主要研究内容及创新点如下:
首先,针对传统的Huangs K-modes聚类算法未判断冗余数据对聚类结果造成的影响,也无法确定属性权重值的问题,提出了一种基于粗糙集与信息熵的K-modes聚类算法。将粗糙集理论与信息熵理论结合,应用于传统的Huangs K-modes聚类算法中,利用粗糙集属性约简算法除去冗余属性,提取出必要属性,再结合信息增益的概念,进一步确定属性的权值,提高了原始算法的效率和正确率;并在UCI机器学习库的soybean-small、zoo等五个数据集上对改进前与改进后的算法进行性能测试,分析了类精度和分类准确率。通过实验对比,表明基于粗糙集与信息熵的K-modes聚类算法性能优于传统的Huangs K-modes算法。
然后,在聚类分析的基础上,针对本文中的人物属性信息,结合六度分割理论与中心度算法,给出了关键人物与关键指数的定义,提出了适用于人物关系的关键节点挖掘方法和算法。此外,针对传统的六度分分割算法时间复杂度较大的问题,对其进行优化,将原始搜索算法中的单项搜索变为双向搜索,使得时间复杂度减少为原来的一半;其次,针对提出的方法与算法,在空手道俱乐部网络、海豚网络、美国足球联盟网络与随机抽取的人物属性数据集上进行了实验,并对结果进行了分析。最终说明,本文提出的关键人物挖掘算法与关系网络挖掘算法均是可行且有效的。
最后,针对用户对信息的接受度与信息的可观度,利用可视化工具Gephi在实际的人物属性数据集上进行了关系网络的可视化显示与分析工作,使得用户能够直观地了解目标之间的关系亲密与否。
论文工作基于聚类分析、六度分割理论、中心度算法与关联分析等技术对人物的属性信息进行挖掘与分析,从而发现各个人物之间存在的某种关系,进而对其关系网络进行可视化展示与分析。主要研究内容及创新点如下:
首先,针对传统的Huangs K-modes聚类算法未判断冗余数据对聚类结果造成的影响,也无法确定属性权重值的问题,提出了一种基于粗糙集与信息熵的K-modes聚类算法。将粗糙集理论与信息熵理论结合,应用于传统的Huangs K-modes聚类算法中,利用粗糙集属性约简算法除去冗余属性,提取出必要属性,再结合信息增益的概念,进一步确定属性的权值,提高了原始算法的效率和正确率;并在UCI机器学习库的soybean-small、zoo等五个数据集上对改进前与改进后的算法进行性能测试,分析了类精度和分类准确率。通过实验对比,表明基于粗糙集与信息熵的K-modes聚类算法性能优于传统的Huangs K-modes算法。
然后,在聚类分析的基础上,针对本文中的人物属性信息,结合六度分割理论与中心度算法,给出了关键人物与关键指数的定义,提出了适用于人物关系的关键节点挖掘方法和算法。此外,针对传统的六度分分割算法时间复杂度较大的问题,对其进行优化,将原始搜索算法中的单项搜索变为双向搜索,使得时间复杂度减少为原来的一半;其次,针对提出的方法与算法,在空手道俱乐部网络、海豚网络、美国足球联盟网络与随机抽取的人物属性数据集上进行了实验,并对结果进行了分析。最终说明,本文提出的关键人物挖掘算法与关系网络挖掘算法均是可行且有效的。
最后,针对用户对信息的接受度与信息的可观度,利用可视化工具Gephi在实际的人物属性数据集上进行了关系网络的可视化显示与分析工作,使得用户能够直观地了解目标之间的关系亲密与否。