基于主题模型的问答社区专家发现方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:caodahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,问答社区已经成为了一种新兴的用户解决问题的新途径,然而问答社区普遍存在着用户对问题的回复响应时间长,问答社区提问者无法准确高效地找到社区中的领域专家等问题。因此如何把问答社区的领域专家高效地推荐给提出问题的提问者,已经成为了问答社区算法的难点。主流的问答社区专家发现方法主要包括基于网络的方法和基于主题模型的方法,目的是通过对用户在社区产生的文本或根据用户之间的关系对用户的专业领域和专业水平进行建模,然后根据计算得到的模型,把用户提出的问题精准地推荐给问答社区的领域专家。但是对于大多数问答社区或者对于处于发展前期的问答社区来说,规模都相对比较小,用户产生的文本也都是一些特征稀疏的短文本,传统的基于主题模型的专家发现方法大多仅根据文本中词项的共现特征来发现主题,忽略了文档中元数据信息对主题建模的作用,或者不能全面利用这些文档中的各种元数据,导致复杂的推理算法,在挖掘用户产生的短文本的主题分布上有一定的局限性,而且基于主题模型的方法在聚类时利用的是文本中词项的共现特征,没有考虑到文本加入了上下文信息的语义语法和主题分布特征。因此本文分析了当今在问答社区发现领域专家方法的难点,融合了自然语言处理、机器学习、决策理论等多个学科领域,开展了对发现问答社区专家方法的研究。本文研究的主要内容如下所示:(1)基于Meta LDA(Meta LDA Topic Model)的改进算法。本文针对现有基于主题模型的发现问答社区专家专业领域的研究方法中,由于用户产生文本特征稀疏造成专家专业领域发现效果不好的问题,提出了基于Meta LDA改进算法的发现问答社区专家的方法。首先,从社区的问答数据中抽取出问答对文本以及与其对应的元数据,然后对每个问答对的文本用Meta LDA算法进行文本聚类,得到问答对文本的主题分布矩阵,然后将问答对的文本主题分布矩阵与用BERT(Bidirectional Encoder Representation from Transformers)通过训练得到的问答对文本的句向量行连接起来并用自动编码器进行特征提取,用Kmeans进行聚类得到文本加入了上下文信息的语义语法和主题分布特征的聚类标签。将计算得到的聚类标签,经过预处理后的问答对文本,以及回答者、问答对主题标签、问答对ID作为文档级的元数据和使用词嵌入工具Glo Ve处理得到的单词级的元数据,用改进的Meta LDA算法对用户的专业领域进行建模。用吉布斯采样的方法推断出模型的话题参数,从而统计出用户的专业领域,最后结合答案的点赞信息,计算用户的专业水平分布。最后,本文用小象问答社区的问答数据作为数据集,对算法的有效性进行了验证。(2)结合用户的多维度数据,用多属性决策方法衡量问答社区专家的专业水平。针对现有的基于网络的专家水平衡量方法存在的局限性:只能对用户之间的某种关系进行建模,不能很好地利用问答社区用户的多维数据进行用户专家水平的衡量。提出了基于多属性决策的专家影响力衡量方法。本文采用了问答社区专家的多维数据进行实验,数据包括用户的社交属性,用户在问答社区中产生与问答相关的其他行为数据。算法首先使用多属性决策中的最大离差法确定属性的权重,然后用基于多属性决策方法对专家的影响力进行排序。最后,用小象问答的问答数据与传统的专家发现方法做对比实验,验证了该算法在衡量问答社区专家专业水平方面的有效性。(3)融合基于Meta LDA的改进算法和多属性决策方法,结合改进的Meta LDA算法计算出用户在各领域的专业水平分布,用多属性决策方法计算出用户整体的专业水平作为权重,衡量问答社区专家在每个领域下的专业水平,从而发现问答社区每个领域内的专家用户。
其他文献
近年来,发展乡村旅游已成为传统村落提升当地经济、改善人居环境、保护文化遗产的重要途径。因此具有鲜明地域文化色彩和乡土景观特色的传统村落在旅游资源开发中怎样保持原真性,避免景观同质化、产业低质量发展现象的发生更加引人关注。如何使传统村落旅游资源与乡村旅游更好地融合是美丽乡村建设中亟待解决的问题。本文从传统村落景观设计与乡村旅游开发角度,剖析传统村落的具体功能空间、资源类型,从乡村旅游视角研究牧笛溪传
加氢脱硫-辛烷值恢复工艺是催化裂化(FCC)汽油生产国VI标准清洁汽油调和组分的关键技术。但是,在辛烷值恢复过程中普遍存在轻质芳烃与烯烃发生烷基化副反应导致的FCC汽油干点升
随着经济的持续发展,人们对能源的需求不断增加。在此背景下,化石能源的过度使用所造成的资源紧张和环境污染等问题日益显现。为了应对此类问题,各个国家纷纷投入到新型清洁能源的研究中来。在交通运输业上,电动汽车以其污染小、能耗低和噪声弱等优势,被各个国家所青睐。近年来,电动汽车数量与日俱增。电动汽车的蓬勃发展为世界的能源危机问题缓解了压力,也为环保事业做出了贡献。然而,大规模电动汽车无序充电会对电力系统的
本文以绿色化学为指导原则,发展了基于亚甲胺叶立德中间体的菲及二氢菲衍生物的串联反应合成新方法。发展了反式-4-羟基-L-脯氨酸或吲哚啉-2-羧酸与联苯二醛之间新的串联反应
甲状腺结节(Thyroid nodules,TNS)是甲状腺细胞异常增生后出现的团块,总发病率平均在19%~46%,是人群中最常见的结节性病变之一。过去30年中,甲状腺癌发病率增长了2.4倍,严重危害大众的身体健康,其检查的常用手段为超声成像检查。为了辅助医生的诊断,众多研究将机器学习算法应用于超声图像,目前已经实现了完善的基于甲状腺结节超声图像的计算机辅助诊断系统(computer aided
基质辅助激光解吸/电离飞行时间质谱(MALDI-TOF MS)是近年来快速发展的一种软电离方法。该技术与传统质谱技术相比,具有样品制备简单、样品消耗量小、高通量、良好的耐盐性、
问答任务一直是自然语言处理领域中的研究热点。该任务基于用户问题,从特定数据中抽取到相关信息,进而得到正确的返回结果。目前,与问答任务相关的技术在工业生产中有着丰富的落地场景,能够帮助人们更加高效的获取信息与知识。现在,开放式领域的问答系统日益完善,极大的满足了业界的需求。然而,在面对小数据量垂直领域的问答场景,目前大部分的问答相关技术却难以应付。垂直领域特征词的稀疏问题会导致数据集方差大的问题。数
登记的抵押权人和真实债权人不一致是指债务人所知晓的,在抵押权设定时发生的登记的抵押权人与真实债权人不一致,司法实践中对该种不一致的处理各异。不一致的情形又可具体分为事先形成借款合同的与事先未形成借款合同的不一致。事实上,无论是否事先形成借款合同,都能够通过对当事人的合意解释,得出债务人与真实债权人形成借款合同,并为该借款提供抵押。真实债权人与债务人之间的借款合同是当事人的真实意思,是合法有效的。登
随着林业信息感知技术、无线通信、云计算等技术的发展,利用物联网技术实现对人工林资源进行连续、长期、动态的监测是提高人工林的经营水平,实现人工林的多目标经营的重要手
公共物品的消费具有非竞争性与非排他性,即任何人对公共物品的消费都不会影响会减少其他人对公共物品的消费,同时,也很难排除未付费的人对公共物品的使用。由于公共物品的特殊属性,在公共物品的消费过程中难免会滋生“搭便车”的现象,当“搭便车者”过多时,会造成公共物品的被过度使用或消费过度拥挤等问题。自然资源是有限的,当我们过度追求个人利益时,会加速自然资源的衰竭,影响生存环境的可持续发展。所以无论是在自然资