论文部分内容阅读
摘 要:交通是国民经济发展的晴雨表,三峡通航的统计数据能够较为准确地反映长江航运经济形势,反映重庆、四川等上游地区沿江经济的发展水平,其所呈现的货运物流信息已成为我们实施交通强国战略、编制区域发展规划、精准科学施策的重要依据,为交通主管机构、通航管理部门开展规划研究、实施通航管理和各级领导进行管理决策提供了重要数据参考。本文利用三峡通航现阶段主要货种近五年来每月的货运量、装载船舶尺度、平均待闸时间、过闸频次等方面因素作为研究对象,运用K-means聚类分析方法对其进行聚类模型构建,结合相关因素产生新的具有三峡通航特色的17个货物分类结果。
关键词:货物分类;三峡;K-means聚类分析
中图分类号: [U693+.8] 文献标识码:A 文章编号:1006—7973(2021)06-0089-03
1 引言
近年来,国家对长江黄金水道和长江经济带建设推进力度不断加大,长江航运实现了跨越式发展。2011年,两坝船闸双双突破亿吨后,三峡枢纽“瓶颈”效应凸显,三峡通航货物通过量的增长已趋于平缓。因此,三峡通航统计工作对货运情况的分析应由粗转细,由细转精。即:由“对量的统计分析”向“运输结构分析”“对运输规律性的分析”转变,关注重点由“各大类货物通过情况”向“各细类货物流向信息”“规律特征”转变。
原有货物分类标准对三峡通航数据统计工作的有效开展发挥了积极的作用,为过坝货物的统计分析打下了坚实的基础。然而,随着时代的发展进步,原有标准在实际应用中难以适应三峡通航事业发展的需要,例如有些船载货物无法准确归类、单级货种分类的方式较为粗糙,与现代三峡通航管理不相适应、货物分类标准无法与其它运输体系有效对接。
目前,三峡通航管理部门统计工作中,将普通货物分为22个大类,其中有明目的为21类,危险品货物分2级管理。
2 K-means聚类分析
K-means 算法由于其本身的聚类效果好、思想简单、聚类速度快的优点得到了广泛的应用。K-means是一种非谱系聚类法,它把样品聚集成K个类的集合。同时它也是一种无监督学习,一般用欧式距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。算法需要预先指定初始聚类数目k以及k个初始聚类中心,根据数据对象与聚类中心之间的相似度,不断更新聚类中心的位置,不断降低类簇的误差平方和,当SSE不再变化或目标函数收敛时,得到最终结果。
设样本依次是,聚类的簇数K,最大迭代次数N,聚类步骤大致如下:
(1)从样本中随机选择k个样本作为初始的k个质心向量:;
(2)计算样本和各个质心向量的距离:,将mindij放入对应的类别λi,便形成新的类别Cj;
(3)对Cj中所有样本点重新计算新的质心,直到所有k个质心向量不发生变化,形成分类结果C={C1,C2,...Ck}。
3 实证分析
为建立健全逐级细化的三峡通航过闸货物分类体系,把更多的过闸货物详细的归入新的分类体系之中,使货物分类统计工作能更为深入、细致,实现规范化、精细化管理。本文利用三峡船闸近五年每月主要货物的货运量、装载船舶尺度、平均待闸时间、过闸频次等方面属性作为研究对象进行K-means聚类分析,数据部分结构展示如下:
由于危险品的特殊性,会将其运用不同分类方法,故不将该类列入研究范围类。结合相关货物的理化性质、实际用途和装载方式等,欲将k设定为17类,每个变量之间计量单位与量程不一致,将所有数据标准化后再进行聚类分析。
运用SPSS来构建K-means聚类模型,构建结果如下:
初始聚类中心结果如图1,可以看出距离聚类中心较近的是第六和第十七类,较远的是第三类。
对初始聚类中心进行迭代,得到最终的聚类中心距离。
最终聚类如下,由表2可见,相同数字被归为一类,例如粮棉、食用油、畜禽渔三类经过聚类被分为一类,可以将其列入农林牧渔产品这一大类;商品车属于交通运输设备小类,而交通运输设备属于机械设备、电器这一大类。由此可见,将商品车与机械、设备、电器归为一类是合理的,杂货与其它普货涉及的货物并非主要运输货物,故将两者合为一类,命名为其它未记名货物。
结合树状图可以直观看出4(非金属矿石),19(集装箱),3(金属矿石)被分为一个大类,均属矿石类,但由于矿石种类过多,因此为提高分类的精确性,人为将其划分为两类。
结合具体模型结果,将最终分类成果归纳总结如下:
原分类中,粮棉中粮食种类繁多,为提高统计精确性,将粮棉具体拆分为粮食类与农林牧渔业产品下属的棉花类。
通过过坝详细物流统计结果,精确地反映长江货运的流向规律。新的货物分类体系,在满足国家、行业标准的同时,能够与公路、铁路等管理部门的规定具有一定的统一性,为三峡枢纽综合运输体系内的物流数据分析打下基础,同时通过建立详细的货物分类统计,使三峡通航数据统计分析工作能更加适应时代的发展,更好地反映沿江经济发展的情况,为长江航运高质量发展贡献力量。
本文仅将货物分为17个大类,而每个大类之下具体的中类以及详细的小类划分后续还要进一步的研究。
参考文献:
[1] 章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(07):1869-1882.
[2] 杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14+63.
[3] 彭敏,黄佳佳,朱佳晖等.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(09):1941-1953.
[4] 朱文俊,王毅,罗敏等.面向海量用戶用电特性感知的分布式聚类算法[J].电力系统自动化,2016,40(12):21-27.
[5] 国家统计局编.《统计用产品分类目录》.出版社:中国统计出版社ISBN:9787503759499.出版时间: 2010-06-01.
[6] 《运输货物分类和代码》.中华人民共和国交通行业标准JT/T19-001.
关键词:货物分类;三峡;K-means聚类分析
中图分类号: [U693+.8] 文献标识码:A 文章编号:1006—7973(2021)06-0089-03
1 引言
近年来,国家对长江黄金水道和长江经济带建设推进力度不断加大,长江航运实现了跨越式发展。2011年,两坝船闸双双突破亿吨后,三峡枢纽“瓶颈”效应凸显,三峡通航货物通过量的增长已趋于平缓。因此,三峡通航统计工作对货运情况的分析应由粗转细,由细转精。即:由“对量的统计分析”向“运输结构分析”“对运输规律性的分析”转变,关注重点由“各大类货物通过情况”向“各细类货物流向信息”“规律特征”转变。
原有货物分类标准对三峡通航数据统计工作的有效开展发挥了积极的作用,为过坝货物的统计分析打下了坚实的基础。然而,随着时代的发展进步,原有标准在实际应用中难以适应三峡通航事业发展的需要,例如有些船载货物无法准确归类、单级货种分类的方式较为粗糙,与现代三峡通航管理不相适应、货物分类标准无法与其它运输体系有效对接。
目前,三峡通航管理部门统计工作中,将普通货物分为22个大类,其中有明目的为21类,危险品货物分2级管理。
2 K-means聚类分析
K-means 算法由于其本身的聚类效果好、思想简单、聚类速度快的优点得到了广泛的应用。K-means是一种非谱系聚类法,它把样品聚集成K个类的集合。同时它也是一种无监督学习,一般用欧式距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。算法需要预先指定初始聚类数目k以及k个初始聚类中心,根据数据对象与聚类中心之间的相似度,不断更新聚类中心的位置,不断降低类簇的误差平方和,当SSE不再变化或目标函数收敛时,得到最终结果。
设样本依次是,聚类的簇数K,最大迭代次数N,聚类步骤大致如下:
(1)从样本中随机选择k个样本作为初始的k个质心向量:;
(2)计算样本和各个质心向量的距离:,将mindij放入对应的类别λi,便形成新的类别Cj;
(3)对Cj中所有样本点重新计算新的质心,直到所有k个质心向量不发生变化,形成分类结果C={C1,C2,...Ck}。
3 实证分析
为建立健全逐级细化的三峡通航过闸货物分类体系,把更多的过闸货物详细的归入新的分类体系之中,使货物分类统计工作能更为深入、细致,实现规范化、精细化管理。本文利用三峡船闸近五年每月主要货物的货运量、装载船舶尺度、平均待闸时间、过闸频次等方面属性作为研究对象进行K-means聚类分析,数据部分结构展示如下:
由于危险品的特殊性,会将其运用不同分类方法,故不将该类列入研究范围类。结合相关货物的理化性质、实际用途和装载方式等,欲将k设定为17类,每个变量之间计量单位与量程不一致,将所有数据标准化后再进行聚类分析。
运用SPSS来构建K-means聚类模型,构建结果如下:
初始聚类中心结果如图1,可以看出距离聚类中心较近的是第六和第十七类,较远的是第三类。
对初始聚类中心进行迭代,得到最终的聚类中心距离。
最终聚类如下,由表2可见,相同数字被归为一类,例如粮棉、食用油、畜禽渔三类经过聚类被分为一类,可以将其列入农林牧渔产品这一大类;商品车属于交通运输设备小类,而交通运输设备属于机械设备、电器这一大类。由此可见,将商品车与机械、设备、电器归为一类是合理的,杂货与其它普货涉及的货物并非主要运输货物,故将两者合为一类,命名为其它未记名货物。
结合树状图可以直观看出4(非金属矿石),19(集装箱),3(金属矿石)被分为一个大类,均属矿石类,但由于矿石种类过多,因此为提高分类的精确性,人为将其划分为两类。
结合具体模型结果,将最终分类成果归纳总结如下:
原分类中,粮棉中粮食种类繁多,为提高统计精确性,将粮棉具体拆分为粮食类与农林牧渔业产品下属的棉花类。
通过过坝详细物流统计结果,精确地反映长江货运的流向规律。新的货物分类体系,在满足国家、行业标准的同时,能够与公路、铁路等管理部门的规定具有一定的统一性,为三峡枢纽综合运输体系内的物流数据分析打下基础,同时通过建立详细的货物分类统计,使三峡通航数据统计分析工作能更加适应时代的发展,更好地反映沿江经济发展的情况,为长江航运高质量发展贡献力量。
本文仅将货物分为17个大类,而每个大类之下具体的中类以及详细的小类划分后续还要进一步的研究。
参考文献:
[1] 章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(07):1869-1882.
[2] 杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14+63.
[3] 彭敏,黄佳佳,朱佳晖等.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(09):1941-1953.
[4] 朱文俊,王毅,罗敏等.面向海量用戶用电特性感知的分布式聚类算法[J].电力系统自动化,2016,40(12):21-27.
[5] 国家统计局编.《统计用产品分类目录》.出版社:中国统计出版社ISBN:9787503759499.出版时间: 2010-06-01.
[6] 《运输货物分类和代码》.中华人民共和国交通行业标准JT/T19-001.