论文部分内容阅读
[摘 要]近年来,人工智能(Artificial Intelligence)大火,而其中机器学习(Machine Learning)领域为其重点。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。本文章中笔者尝试用机器学习经典算法之一——kmeans聚类算法,尝试科学客观分析中国足球现状,希望对如今中国足球有所启发,有十分重要的现实意义。
[关键词]kmeans,中国足球,现状分析,机器学习,聚类分析
中图分类号:S256 文献标识码:A 文章编号:1009-914X(2018)04-0193-02
人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等。笔者对机器学习领域产生了极大的兴趣,利用机器学习处理分析问题越来越成为当今社会发展的需要。笔者也想运用机器学习知识为现实问题提供一些意见和建议。
笔者对中国足球有很大的激情,在国足这些年大刀阔斧的改革以及努力后,结果还是有些令人失望。在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平,希望以此作为科学依据帮助国足认清其现状,帮助其发展。
一.kmeans算法基本介绍
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
kmeans聚类算法具体流程简要介绍如下:
假设要把样本集分为k个类别,算法描述如下:
(1)随机在数据集中选择k个数据元组作为初始中心;
(2)对任意一个样本,求其到k个聚类中心的距离,将该样本归到距离最近的聚类中心所在的類;
(3)利用均值方法更新该类的中心值;
(4)对于所有的k个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
本利
二.kmeans算法实际应用过程
在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平。具体做法如下:
首先建立数据模型,即对亚洲各个国家的足球水平进行量化。
整理2010年世界杯以及2014年世界杯亚洲国家最终比赛成绩如表1:
根据以下规则进行量化:
进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋40,预选赛小组未出线的赋予50。为避免取值范围大的属性对距离的影响高于取值范围小的属性,为了更真实的反映真实的相异度,对属性值进行规格化。即将各个属性值按比例映射到相同的取值区间,平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
Y=(x-min)/(max-min)
量化结果如表2:
kmeans聚类算法分析中国足球现状流程图如图1:
利用kmeans算法进行聚类过程中进行了四次迭代:
第一次三个聚类中心为:
[[0.59624706 0.4547206]
[0.79031384 0.94496331]
[0.50284657 0.41595118]]
第二次三个聚类中心为:
[[1. 0.561]
[0.74625 0.878]
[0.0435 0.427]]
第三次三个聚类中心为:
[[1. 0.691]
[0.6955 0.9024]
[0.0435 0.427]]
第四次三个聚类中心为:
[[1. 0.8455]
[0.565 0.86057143]
[0.0435 0.427]]
最终聚类结果为:
一流队伍:日本,韩国;
二流队伍:伊朗,伊拉克,卡塔尔,黎巴嫩,乌兹别克斯坦,阿曼,印尼;
三流队伍:中国,沙特,泰国,越南,巴林,朝鲜。
图像展示(点为聚类中心,其余为各个国家的数据)(图2):
根据国际比赛数据和kmeans算法科学分析:国足近几年 ‘毋庸置疑’的处在亚洲三流水平,以上的分析数据不仅告诉了我们聚类信息,从中还可以定量分析出各个球队之间的差距, 如卡塔尔,黎巴嫩和伊朗是冲击一流队伍最有希望的二流队伍。
根据本次分析尝试,笔者更深刻的了解了K-means算法:
kmeans算法优点无可比拟:该算法本身具有优化迭代功能,为克服少量样本聚类的不准确性,在已经求得的聚类上再次进行迭代修正,优化了初始监督学习样本分类不合理的地方。
但其缺点也很明显:首先,在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;其次,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;最后,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
在本实验中,当初始类中心选择不当时出现不同的聚类结果如图3:
总之,人工智能产业发展十分迅速,笔者也对其有强烈的兴趣,本文中笔者尝试应用kmeans聚类算法完成了对中国足球现状的初步分析,可以根据数据来科学准确的得出结论:中国足球目前在亚洲的确处于三流水平。在近几年关于中国足球是否进步的争论一直不停的情况下,本文根据聚类结果显示,中国足球还处于劣势,有助于帮助认清楚中国足球的现状,并且从中可以定量分析出各个球队之间的差距,对国足的进步有促进意义。
[关键词]kmeans,中国足球,现状分析,机器学习,聚类分析
中图分类号:S256 文献标识码:A 文章编号:1009-914X(2018)04-0193-02
人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等。笔者对机器学习领域产生了极大的兴趣,利用机器学习处理分析问题越来越成为当今社会发展的需要。笔者也想运用机器学习知识为现实问题提供一些意见和建议。
笔者对中国足球有很大的激情,在国足这些年大刀阔斧的改革以及努力后,结果还是有些令人失望。在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平,希望以此作为科学依据帮助国足认清其现状,帮助其发展。
一.kmeans算法基本介绍
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
kmeans聚类算法具体流程简要介绍如下:
假设要把样本集分为k个类别,算法描述如下:
(1)随机在数据集中选择k个数据元组作为初始中心;
(2)对任意一个样本,求其到k个聚类中心的距离,将该样本归到距离最近的聚类中心所在的類;
(3)利用均值方法更新该类的中心值;
(4)对于所有的k个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
本利
二.kmeans算法实际应用过程
在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平。具体做法如下:
首先建立数据模型,即对亚洲各个国家的足球水平进行量化。
整理2010年世界杯以及2014年世界杯亚洲国家最终比赛成绩如表1:
根据以下规则进行量化:
进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋40,预选赛小组未出线的赋予50。为避免取值范围大的属性对距离的影响高于取值范围小的属性,为了更真实的反映真实的相异度,对属性值进行规格化。即将各个属性值按比例映射到相同的取值区间,平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
Y=(x-min)/(max-min)
量化结果如表2:
kmeans聚类算法分析中国足球现状流程图如图1:
利用kmeans算法进行聚类过程中进行了四次迭代:
第一次三个聚类中心为:
[[0.59624706 0.4547206]
[0.79031384 0.94496331]
[0.50284657 0.41595118]]
第二次三个聚类中心为:
[[1. 0.561]
[0.74625 0.878]
[0.0435 0.427]]
第三次三个聚类中心为:
[[1. 0.691]
[0.6955 0.9024]
[0.0435 0.427]]
第四次三个聚类中心为:
[[1. 0.8455]
[0.565 0.86057143]
[0.0435 0.427]]
最终聚类结果为:
一流队伍:日本,韩国;
二流队伍:伊朗,伊拉克,卡塔尔,黎巴嫩,乌兹别克斯坦,阿曼,印尼;
三流队伍:中国,沙特,泰国,越南,巴林,朝鲜。
图像展示(点为聚类中心,其余为各个国家的数据)(图2):
根据国际比赛数据和kmeans算法科学分析:国足近几年 ‘毋庸置疑’的处在亚洲三流水平,以上的分析数据不仅告诉了我们聚类信息,从中还可以定量分析出各个球队之间的差距, 如卡塔尔,黎巴嫩和伊朗是冲击一流队伍最有希望的二流队伍。
根据本次分析尝试,笔者更深刻的了解了K-means算法:
kmeans算法优点无可比拟:该算法本身具有优化迭代功能,为克服少量样本聚类的不准确性,在已经求得的聚类上再次进行迭代修正,优化了初始监督学习样本分类不合理的地方。
但其缺点也很明显:首先,在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;其次,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;最后,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
在本实验中,当初始类中心选择不当时出现不同的聚类结果如图3:
总之,人工智能产业发展十分迅速,笔者也对其有强烈的兴趣,本文中笔者尝试应用kmeans聚类算法完成了对中国足球现状的初步分析,可以根据数据来科学准确的得出结论:中国足球目前在亚洲的确处于三流水平。在近几年关于中国足球是否进步的争论一直不停的情况下,本文根据聚类结果显示,中国足球还处于劣势,有助于帮助认清楚中国足球的现状,并且从中可以定量分析出各个球队之间的差距,对国足的进步有促进意义。