基于相关性和图分析理论的主题检测研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jianjian1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于互联网技术的快速发展,各种社交网站和电子商务平台应运而生,这些网络平台作为信息载体已经成为人们进行信息分享和维护社会关系不可或缺的一部分。这使得在线文本数量呈现爆炸式增长,如何快速有效地从海量文本信息中检测出有价值的话题及其发展趋势一直是数据挖掘领域关注的热点话题。主题检测和跟踪作为主题分析的代表性方法,旨在从各种文本语料中检测主题及其变化趋势。其中主题检测作为TDT的一个子任务,因能高效检测话题及发展趋势而成为探索突发事件、追踪特定社会活动现象发展趋势的重要工具。一些主题检测研究利用主题模型来检测主题。其中LDA模型因提供了一种更加自然的方式来进行文本表示而被公认是一种有效的算法。但其前提是文档中单词相互独立,没有考虑词/术语的共现问题,阻止了隐含而重要主题的检测。有些研究基于共现关系使用图分析方法进行主题检测。把文本数据转换成基于词语间共现关系的术语图,进而分割出主题。该方法重点关注网络结构而忽略了节点属性,导致生成的主题缺乏意义和语义连贯性。为整合语义关系和共现关系,有研究提出一种基于LDA主题模型和图分析的联合理论框架。能更有效地检测主题,挖掘出重要且稀有的主题。但该方法在语义关系提取中仍使用LDA模型,其独立主题的假设无法反应主题之间的相关性,导致不真实的建模情况和语义信息提取的低精确度。为解决以上问题,本论文将相关性理论与改进的图分析方法结合进行主题检测。首先,本文提出主题检测基于LDA余弦相似性的图分析方法。使用LDA模型提取语义信息和主题,在此基础上引入余弦相似性算法计算主题之间的余弦相似度,量化得到主题之间的相关关系。计算复杂度不高又弥补了LDA模型独立主题的不足,在一定程度上提高了语义信息提取的精确度。其次,为符合现实中文本表达主题相关的语义环境,本文提出主题检测基于CTM模型的图分析理论框架。采用主题相关模型CTM模型得到主题特征向量,再对该向量进行优化来提取最优特征,考虑主题相关性的同时也降低了向量维度。最后提出CorrelationGraph算法将主题相关关系量化后用于共现关系提取,将主题相关性同时用于语义关系和共现关系分析中,更为充分地融合了二者关系。实现高精度语义信息和潜在共现关系的提取,进而发现重要隐含主题及其变化发展趋势。本文内容主要分为五章。第一章介绍了本课题的研究背景和意义,分析了当前国内外研究者在该领域的研究现状。第二章详细介绍了主题检测相关概念和理论基础,对本课题中涉及到的数学知识和模型也做了说明。第三章针对本课题提出的主题检测基于LDA余弦相似性的图分析方法进行了系统全面的介绍,详细描述了该方法的生成过程及相关实验。第四章对本课题提出的主题检测基于CTM模型的图分析理论框架进行介绍,描述了引入CorrelationGraph算法进行主题生成的过程和相关理论推理,用仿真实验进行分析来验证本理论框架的有效性。第五章是本研究小结和未来研究方向的改进提高。
其他文献
我国设施作物生产中土壤营养元素失衡,土壤呈现酸化趋势是一个较为严重的问题。土壤酸化会增加可溶性铝的含量,抑制植物正常生长和损害其生理功能。植物体内合成的铝激活苹果
金属腐蚀所造成的事故与经济损失十分严重,而传统树脂基有机涂层体系尽管具备耐侵蚀能力强、体积稳定、环境友好、易于操作等优点,但也同时存在力学强度低、易于老化等性能缺陷。石墨烯是一种由碳原子以sp2杂化轨道组成蜂巢状晶格的二维碳纳米材料,由于其独特的片层状结构和优异性能,适合用作有机防腐涂料的改性组分。为取得一种既简单方便又节省成本的高性能防腐涂层及其制备方法,本文参考金属基体表面的常规涂层工艺,通过
背景与目的目前,人工髋关节置换手术是骨科常规手术,在全世界范围内大量开展,可以为患者解除痛苦,改善生活质量,据统计,全世界每年有数百万例人工髋关节置换,且大约以每年5%的比率逐渐增加。同时,髋关节置换也存在一些术后并发症,严重者需进行髋关节假体的翻修,翻修手术给患者带来巨大痛苦和经济负担,降低了患者的生活质量。而导致髋关节翻修最常见的病因为假体无菌性松动,分析其发生松动的原因,进而降低置换手术后假
供销社作为为农服务的合作经济组织,在我国发展的不同阶段,为推进农业、农村、农民的发展做出了巨大贡献。但受到国家经济制度及政策变迁的影响,加之自身治理机制的老化,自上世纪80年代以来,供销社的发展受到了冲击,其为农服务功能逐渐削弱,大多数人认为供销社已不复存在,其定位和作用也受到了质疑。因此,为解决供销社长期发展中积累的问题,发挥它在解决“三农”问题中的特殊作用,2015年,中共中央、国务院提出了深
学位
乳腺癌由于其高异质性而被分为不同的亚型标志着乳腺癌治疗进入精准医疗时代。针对大部分的乳腺癌亚型,临床上都有相应的治疗手段,如Luminal亚型乳腺癌通常采用内分泌治疗,HER2过表达亚型乳腺癌采用靶向药物治疗,然而对于三阴性乳腺癌,因其缺少有效靶点,导致治疗手段有限,患者易复发且预后差。目前,学者试图通过新型治疗手段对三阴性乳腺进行治疗研究,但收效甚微。因此本研究借助体细胞重编程概念提出三阴性乳腺
交通运输业是旅游业发展的基础支撑,认识和探讨交通运输业对旅游业发展的机制和规律,对优化区域旅游交通网络布局,合理配置旅游资源具有重大意义。本文以景区可达性对旅游流
结直肠癌(colorectal cancer,CRC)是全球范围内常见的消化道恶性肿瘤之一。近年来的研究表明CRC的发生发展与肿瘤免疫与代谢重编程密切相关。我们前期研究CRC免疫逃逸机制的过程中,通过TCGA数据库分析发现B7-H3可能影响谷胱甘肽代谢通路中异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH1)的表达,B7-H3为B7/CD28免疫球蛋白超家族成员,IDH1参
场景图像中的文字所表达的直接含义对于理解场景内容尤为关键,越来越多的智能应用都使用到场景中的文字信息。但受不同字体、任意排列方向以及复杂背景、光照等因素影响,现有的文本检测方法都具有很多局限性。相比传统机器学习算法,深度学习算法能够学习文本的深度特征,具有更加出色的性能。本文结合分段链接的思想并分别采用位置回归与语义分割的方法设计实现了以下两个文本检测模型:(1)基于特征层融合的表征增强模型。分段
轻强子物理在高能物理领域的研究中具有举足轻重的地位。1974年在实验上的J/ψ粒子为轻强子谱的研究开拓了广泛的领域,而北京正负电子对撞机通过正负电子对在3.097GeV能量点
自然语言处理的一个重要分支——中文信息处理,在语义理解、文本生成等众多方面作用突出,而复句又作为汉语语法的重要实体单位,其在语义表达上复杂多样,因此,具有很高的研究价值和意义。一方面,它由单句构成能表达出非常丰富的语义信息;另一方面,也包含了单句间的逻辑语义层次结构关系,对于段落篇章分析意义重大。复句研究目前主要包括分句划分,关系词识别,关系类别判断,以及层次结构分析等。鉴于关系词对复句层次结构识