基于LDA概率模型的科技文献主题演化挖掘技术研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:lj445566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在海量科技文献环境下提供有效的知识服务,已经受到了国内外学者与企业界的高度关注与重视。为此,作为持有海量文献资源的数字图书馆,正在逐步发展为一个全球化的知识引擎,以提供各种基于科技文献的知识服务。其中为实现各种服务,解决“如何在海量信息环境下抓住科技发展的脉络,把握研究热点”便是一个核心和关键问题。由此,本文针对该问题研究了基于LDA概率模型的主题演化挖掘技术。文章总体的研究思路以科技文献中“主题”的建模为切入点,在此基础上研究如何实现对海量科技文献的动态“主题”自动发现及其在时间序列上的“演化”关联问题,以期实现揭示科学研究主题的演进过程与脉络目的。   具体上,本文首先较为系统的分析了文本挖掘领域中的概率建模方法。然后,分别介绍了其中典型的PLSA与LDA主题模型,同时给出了基于LDA主题模型的演化挖掘建模典型思路。在此基础上,针对科技文献相比于其他文本数据所表现出的复杂引文关系,提出了一种基于RRMF矩阵分解的关系正则化子空间推荐算法,特别在算法中考虑到了如何把网络外的孤立数据纳入网络中进行推荐的问题,并且在CiteSeer数据集上证实了算法的良好性能。进一步,为了解决应用非概率依赖先离散化主题挖掘建模中的主题平滑问题,本文在第3章已验证的模型基础上,进一步提出了基于RRMF平滑关联的主题挖掘模型。在抽取的ArnetMiner数据集中,进行了2001年至2010年数据挖掘相关领域的主题演化实证分析,并且给出了与基于原始LDA演化模型的路径对比的案例讨论,验证了本文方法的有效性。最后,对全文工作进行了总结并提出了不足和未来改进之处。
其他文献
学位
地震属性技术是把地震资料中隐藏的有用信息提取出来.但是单一地震属性参数往往存在较大的局限性,因此将多种地震属性进行融合,综合分析的多属性融合技术应运而生,从而更加精
期刊
学位
学位
课外阅读是小学语文教学中一个非常重要的组成部分,它既是与语文教学知识的有机融合,又提供了很好的发散思维的空间,更对培养学生的语文功底有积极作用.本文围绕小学语文教学
现阶段,人们越来越重视孩子精神方面的发展,其中书法已经成为人们喜欢的艺术形式.我国在小学阶段开设了书法课程,书法教师不仅仅需要注重书法技巧的传授,还需要在教学过程中