基于社会化标签的主题识别方法研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:dgmlovett
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化标签作为Web2.0时代由互联网用户产生的重要数据,用户在自由开放的网络平台中以自身理解为出发点对互联网Web资源进行评论与标注,产生大量资源、用户和标签(tags)的社会化标签信息。但社会化标签具有较强的独立性、自发性和公开性特点,导致其存在语义模糊、词语冗余和资源独立等问题。因此构建主题识别方法可以揭示社会化标签蕴含的潜在知识,本文针对社会化标签的主题识别问题进行以下研究工作:(1)针对社会化标签中资源的主题识别问题,提出基于线性回归的主题识别方法。由于社会化标签中的资源蕴含大量潜在语义,为获取资源之间潜在联系,从线性回归模型拟合资源的角度研究资源之间潜在联系,通过线性回归模型构建资源之间的拟合曲线,从而获得每个资源的离差距离。在此基础上通过加权方法形成每个特征词的权重值,将特征词加权向量作用于LDA模型形成特征词加权-LDA(Feature word Weighting-Latent Dirichlet Allocation,FW-LDA)主题模型。通过实验表明,基于线性回归的FW-LDA与其他相关主题模型相比具有较好的主题识别效果。(2)针对社会化标签中资源和标签的主题识别问题,提出基于信息熵相似度的主题识别方法。由于标签具有特殊的组成结构和语义信息,并且资源和标签两种文本资源均存在资源之间具有独立同分布特点。首先提出一种基于信息熵相似度的消除资源和标签独立性方法,该方法分别构建资源和标签的潜在关系无向图,并采用随机游走方法分别获得每个资源和标签的权重值。其次,在此基础上通过加权方法获得资源和标签的特征词权重向量,并联合作用于LDA形成联合特征词加权-LDA(Joint Feature Word Weighting-Latent Dirichlet Allocation,JFWW-LDA)主题模型。通过实验表明,JFWW-LDA主题模型与其他相关主题模型相比具有较好的主题识别效果。(3)针对传统主题模型无法有效利用资源标记(label)进行主题识别,从而无法达到更细粒度的主题识别效果问题,提出基于深度学习的细粒度主题识别方法。首先将不同类别的文本语料库进行标记,提出一种基于注意力的文本卷积神经网络(Attention-Text CNN,ATT-TCNN)文本分类模型,将带有混合标记的语料库经过ATT-TCNN后形成带有标记分类的语料库。其次,在此基础上提出一种基于ATT-TCNN的LDA主题模型(ATT-TCNN-LDA),将每个分类语料库经过LDA形成主题簇,从而达到更细粒度的主题识别。通过实验表明,ATT-TCNN与其他相关分类模型相比具有较好的分类效果,ATT-TCNN-LDA与其他相关主题模型相比具有较好的主题识别效果。图[33]表[11]参[93]
其他文献
在项目建设前,相关人员需要根据《环境影响评价分类管理名录》,做好环境影响评价报告编制的相关工作;项目建设后,需根据环评批复进行环保工程建设,并使各项工作满足相关要求。各项环境项目都需要得到批准并满足所有环境指标的要求。基于此,本文对环境影响评价与环境工程的实践研究进行深入地分析与探究。
期刊
图像去噪是图像处理的一个关键步骤,一直是学者们研究的重点。图像去噪解决的问题是如何在保留图像真实信号的情况下更好的消除图像中的噪声信息。近些年,小波阈值和非局部均值去噪算法因其优异的去噪性能吸引了许多关注。因此以这两种方法为研究对象,本文的研究包含以下内容:(1)提出一种CALE阈值函数的小波去噪算法。首先提出了一种新阈值,新阈值会随着分解层数的变化选取更符合噪声系数的阈值,接着提出了一个连续型低
学位
事件是人类存储记忆和进行逻辑思维活动的基本知识单元,其相关研究在哲学、语言学、人工智能等相关学术领域愈发受到重视。面向事件研究可以为知识图谱、事件分析、搜索引擎、推荐系统等专业研究和具体应用提供支撑和服务。本文对面向事件研究中事件要素识别和事件关系分类两个方向进行了研究,并针对以往研究存在和研究过程发现的一些问题,提出了解决方法,具体包括:(1)基于双维注意力和动态目标模型的事件要素识别研究。针对
学位
<正>~~
会议
业务流程预测是业务流程管理中对记录流程的事件日志进行分析并预测正在执行的业务流程,近年来深度学习在业务流程预测中越来越多的被应用,主流的方法是将流程看作自然语言处理中的序列,利用循环神经网络RNN和LSTM学习类似单词序列的语义,从而获取流程的语义。这些方法受限于RNN类神经网络的缺点且未能很好的利用流程中活动与活动之间的行为关系以及流程的图特征,所以本文提出基于深度学习的流程感知业务流程预测方法
学位
现如今,信息技术的发展日新月异,海量的数据不断涌现在模式识别、机器学习等领域。这些原始数据由于更新速度快,维数高、结构复杂以及冗余信息多等特性,导致其存储困难、数据计算量大等一系列问题。目前,维数约简是解决这些问题的有效方法之一。维数约简不仅能够降低原始高维数据的维数,使数据易于存储,还能够发现隐藏在高维数据中的内在规律与联系。局部保持投影是维数约简方法中的典型代表,在降维的过程中能够很好地保留原
学位
土壤是由气候、母质、生物、地形、时间等自然因素共同作用的产物,是人类生活和动植物生长的重要基础资源,对人们的生产生活至关重要。而随着自然因素与人为活动的影响,土壤属性具有复杂的空间异质性和非平稳性。土壤p H是土壤质量的重要指标之一,研究土壤p H的时空分布特征及其影响因素,对于土壤质量管理、土壤养分持续利用具有重要意义。本文以安徽省为研究对象,利用全国第二次土壤普查数据(1980s)和《中国土系
学位
推荐算法是利用用户的一系列行为,并通过相关算法,推荐出用户可能喜欢的产品。它已逐渐深入到社会生活的潮流中,人们熟悉的抖音、淘宝、豆瓣、网易云,美团等应用软件就是基于推荐算法开发的。实际上,传统的推荐算法难以满足日益增加数据和用户需求,且存在着数据稀疏、冷启动、兴趣偏移、特征工程等问题,导致推荐的效果不佳,具有很大的局限性。本文主要针对传统算法中的数据稀疏和兴趣偏移问题提出解决方法,并利用深度学习技
学位
区块链技术是近年来最具变革性的技术,其去中心化、不可篡改和可追溯的特性引起许多国家和企业的关注。共识算法是区块链技术的核心,它决定着区块链系统的账本一致性和系统性能。实用拜占庭容错(PBFT)算法是当前联盟链中应用最广泛的共识算法。然而,目前无论是PBFT算法还是基于PBFT改进的其他共识算法,都只能串行的共识区块,共识效率低下。针对上述问题,本文研究基于并行出块的拜占庭容错共识算法,主要工作如下
学位
在无线传感器网络(Wireless Sensor Network,WSN)中,功率控制和覆盖优化问题至关重要,但是传统WSN在根据局部信息对功率和覆盖问题进行优化时无法达到全局最优。软件定义网络(Software Defined Network,SDN)的出现为WSN的发展提供了新思路,目前已有学者将SDN架构引入到WSN中,提出了软件定义无线传感器网络(Software Defined Wire
学位