论文部分内容阅读
Web2.0和互联网技术成熟与进步促使用户产生内容逐渐成为用户使用互联网的全新方式。用户作为互联网资源的使用者,同时也作为互联网资源的创造者,让人与互联网的交互模式得到升华。人们倾向于在网络平台分享原创的个性化的建议,意见领袖、专家等也乐于分享专业的内容,为相关领域贡献智慧。比如,普通用户通常在Twitter等社交媒体平台分享自己的生活,专家将科研文献发布于学术平台供学习和阅读。这两者的内容是都是文本,但是在文本挖掘方法和应用探索方面却大相径庭。面临的研究挑战都是如何从海量数据高效准确找到不同的用户所需要的信息。本文的主要工作是利用主题模型进行社交媒体短文本主题挖掘和文献的未来影响力预测研究。主题模型的主要思想是借助于文本内容的潜在主题,挖掘出文档与主题,以及主题与单词之间的关系,或者利用两者之间的关系来指导模型的结果。基于不同的场景构造合适的主题模型可以实现不同的目的。过去的方法中,由于Twitter文本长度短、稀疏,用语不规范等特征导致传统的LDA,PLSA对这种文本环境无法进行有效的主题分析。值得一提的是,相比传统的基于引用统计的方法进行文献影响力评估方法而言,本文引入主题模型的语义分析方法应用于文献未来影响力预测是新颖并且具有挑战的想法。针对传统方法的不足、不同应用场景的特殊性以及主题模型的对文本挖掘的效果。本文重点进行了以下两个研究:(1)基于社交媒体短文本的主题挖掘分析(2)基于主语义分析的文献影响力预测。本文分别以社交媒体短文本,文献长文本为基础,分别用Twitter中的时间和标签属性来改进和扩展LDA模型,通过读文献进行特征词/词组的定义,将文章的创新型与LDA分析出的重要性结合起来进行影响力预测研究。为了研究社交媒体的短文本环境下主题挖掘情况,本文提出了新的主题模型HTTM,该模型先后利用Twitter消息(推文)中时间和标签信息为传统的LDA增加了新的“标签-时间”层次来提高主题的表达性,推文聚类效果以及主题在时间序列下的演化效果。最后的实验效果证明了HTTM模型在以上几个方面的有效性。针对文献影响力预测研究,本文提出了一个TTRM模型来预测文献的未来影响力。该模型以文章特征词/词对为链接,分别将文献发表的时间和文章本身内容将进行创新性和重要性建模。其中对于重要性建模过程中创新地使用了主题模型的方法,分析文章在当前文献集中的重要程度。试验中,使用文献数据集,证实了TTRM模型在文献排序和影响力预测拟合上的有效性。实验中对比使用了基于引用的PageRank模型,和以TF-IDF作为文章重要性建模方法的MRR-ranking模型,TTRM在文献排名和文献影响力预测方面都有一定的优势。并且证明了我们的假设,即文献内容中某些词对于文章创新性具有贡献作用,和发现新文献具有一定的作用。