论文部分内容阅读
无监督聚类算法能够在未知数据样本集分类信息的情形下,挖掘数据样本集的内部结构信息,自动地把数据对象按照数据样本间的相似性划分为不同的类别。Rodriguez和Laio在2014年提出的DPC密度峰聚类算法,简单高效新颖,能够自动识别出聚类中心点,适用于不同形状的聚类分析且无需提前设置簇的数量,并且对实际场景中有关用户聚类分群等问题提供了一种新颖的解决方法。在实际场景中,数据样本集自身隐藏着一些已知并且有用的信息,半监督聚类算法就是通过一些已知类别标签的数据样本点信息以及更多没有类别标签的数据样本的整体分布,得到比无监督聚类更好的分类结果并且提高整体数据样本集的资源利用率。本文从分析DPC密度峰聚类算法在自动识别聚类中心点时存在聚类中心点选取不准确、数据样本点的簇划分错误导致“多米诺骨牌”效应降低聚类结果准确度的缺陷,结合实际应用场景中数据样本集存在一定数量的带有类别标签信息的数据样本点,研究无监督聚类算法融合带有少量类别标签信息的半监督聚类问题以及半监督聚类在旅游推荐系统的游客聚类分群中的应用问题。本文的研究核心工作主要概括如下:(1)利用少量的类别标签信息解决DPC算法中由于人工决策的参与导致自动识别聚类中心点不准确的问题。充分利用数据样本集中带有已知类别标签的数据样本点,对DPC算法中通过人工决策框图选取的所有可能的聚类中心点进行点点间欧氏距离计算,通过距离标准判别每一个有可能的聚类中心点的簇别,最终以投票方式进行精准校对和筛选,获取准确的聚类中心点。(2)DPC聚类算法中数据样本点簇的划分依靠比其局部密度较大的邻居点的簇信息,而导致“多米诺骨牌”效应降低聚类的准确性的缺陷,结合GSA引力搜索算法中样本对象间存在引力的思想,通过数据样本点间的引力大小衡量数据样本间的相关性程度,按照引力越大则属于同一簇的可能性越大的准则,改变DPC算法原本的簇划分方式,避免DPC聚类算法中“多米诺骨牌”效应,提高整体聚类的准确性,并提出一种基于密度峰聚类和引力影响度的新型半监督聚类算法。在数十个人工数据测试集和实际真实数据集上的实验结果表明:所提出的新型半监督聚类算有效合理,能获得比目前成熟且常用的半监督聚类方法更为精准的聚类结果。通过k近邻的思想进一步优化所提出的新型半监督聚类算法中的局部密度,使局部密度的定义更加的合理,进而提高整体聚类的准确性。(3)用所提出的新型半监督聚类算法解决旅游推荐系统中的游客聚类分群问题。将所提出的半监督聚类算法运用在实际的海南游客聚类分群的问题中,充分利用实际场景中的游客评价标记信息,提高整体资源的利用率以及获取游客聚类分群结果,为海南景区的建设提出有针对性的合理建议。