论文部分内容阅读
随着大数据时代的到来以及互联网的不断发展,以文本资源为典型的各种资源呈爆炸式增长,从纷繁复杂的文本资源中挖掘有潜在价值的、用户感兴趣的信息变得愈加困难。研究人员钻研了各种算法、设计了各种工具以便用户能够帮助我们快速、有效地理解大量文本内容,这些工作归结在一起主要是文本主题挖掘技术。主题是文本的灵魂,发掘文本主题是用户去粗取精、去伪存真、从感性认识到理性认识的飞跃过程,是用户对文本深入开发的过程。本文首先利用LDA主题聚类技术挖掘期刊论文中的主题信息,发现主题模型对期刊推荐方法有较大的帮助,但是也存在一定的问题,例如LDA主题数目确定困难、主题随时间发生变化。因此本文又深入探索了如何挖掘主题随时间的变化并可视化展示,即主题演化信息及可视化展示问题。发现主题演化信息并展示对了解主题的研究热点、演变趋势以及对未来进行预测等有很大帮助。文本主要内容如下:首先,本文研究了主题模型对期刊推荐的应用价值,以潜在狄利克雷分配(LDA)主题模型的结果为基础,结合SVM分类算法,大大提升了分类算法在期刊推荐的效果。论文投稿不仅牵扯到论文和期刊的研究方向,还牵扯到论文以及期刊的质量高低,为了在学者投稿时帮助学者选择合适的期刊,本文对LDA主题模型进行深入学习,结合SVM分类算法进行期刊推荐,实验发现基于LDA的期刊推荐算法明显优于基于SVM的期刊推荐方法、基于内容的期刊推荐方法、基于用户的期刊推荐、基于期刊相似度的推荐方法,而且本文在对推荐错误的论文进行研究发现有些期刊存在发表与自己研究主题不大相符的问题。其次,本文利用分层的狄里克雷分布(HDP)主题挖掘算法研究了主题演化问题(主题的分流、合流,主题的渐增、渐减,主题的新生、消亡),并利用主题河将主题演化信息生动地展示出来。本文以汽车专利为出发点研究汽车产业中的主题演化信息,将HDP算法应用到汽车专利主题聚类中,通过当前主题以及加入历史信息之后的主题变化来发现主题之间的分流、合流等关系,然后将主题以及主题的分流、合流信息利用可视化技术直观展示出来。实验发现中文汽车专利有三个重要主题,而且各个主题之间有分流、合流,有逐年递增也有逐年递减,有新生主题也有消亡主题等各种形式。