论文部分内容阅读
随着移动互联网的高速发展,微信、微博、电子邮件、论坛、直播平台、点评网站等应用已经越来越普及,这些平台产生的信息很多都是以短文本的形式出现。短文本信息具有极高的研究价值,通过对短文本的深入分析,可以挖掘短文本中隐藏的信息和潜在的价值。文本聚类是指通过选择合适的聚类算法挖掘指定文本数据间内在联系的一种机器学习方法,通过对短文本形式的信息数据进行聚类分析,挖掘和提取短文本之间的关系是进行其他短文本挖掘工作的基础,例如用户画像、个性推荐、社群发现等热门研究课题都要用到短文本聚类技术。针对传统的短文本聚类算法存在数据维度高、语义缺失等问题,本文在对文本建模的时候提出了基于词向量的短文本表示模型,通过计算短文本之间特征词的最小移动距离来度量短文本的相似性,并在此基础上完成短文本聚类。实验表明,相对基于向量空间模型和基于文档主题模型的短文本聚类算法,本文提出的方法在多个短文本数据集上的聚类效果得到显著提高。针对基于关键词匹配的论文检索导致检索结果存在信息缺失和推荐偏差的问题,本文以论文标题这一类短文本为研究对象,通过对不同维度的论文文本信息进行词向量训练,找出论文信息元中信息量高的要素丰富论文标题的语义。引入密度峰值发现聚类算法,将小于截断距离的论文文本邻域定义为论文文本相似度邻域,实现论文标题的自动聚类。与已有研究相比,本文方法的实验结果较其他方法在准确率、召回率和F值上均有提高,体现了本文工作的价值。