论文部分内容阅读
随着科技的发展,数据分析越来越复杂、难处理、难分类,数据维度越来越大,针对密度峰值快速搜索聚类(Clustering by fast search and find of density peaks,DPC)不适应高维数据集的缺陷,提出了一种名为T-DPC的优化算法,该算法基于t-SNE降维方法入手,并且还优化了高斯核函数的计算方法,在求解密度时使用统一的度量准则。实验中选取了人工数据集和UCI标准数据集,将DPC算法在人工数据集和UCI数据集与T-DPC算法进行对比,最终实验结果表明,T-DPC算法不仅适应了高维数据集,还提高了DPC算法效率。改进的K近邻密度峰值聚类算法以密度峰值聚类算法(DPC算法)为基础,结合K近邻技术,改进了K近邻的密度峰值聚类算法。通过改善自适应的度量手段和结合K近邻的分配策略解决了原算法中的问题。解决了dc选取的主观隐患和分配方式不好的问题。当今股票市场最热门的话题是如何获得最大利益并且使得收益风险最小化。这成了许多研究者的主要研究问题。股票市场是一个体系复杂、种类偏多、结构混乱,各种因素相互制约影响。如何选择股票是当今股民们最关注的问题。为了验证改进的K近邻的密度峰值聚类算法在财务大数据中应用,实验选取了沪深A股中40家上市公司2018年第二季度的股票数据作为财务数据的研究数据,股票数据中分别选取了净利润、每股收益、净资产收益率、营业收入、每股净资产五项数据进行数据分析,这五项数据能反映该上市公司综合盈利状况,经过数据降维处理,然后通过k近邻的密度峰值聚类算法对股票进行分类,选出绩优股和绩差股。