【摘 要】
:
推特和新浪微博等社会媒体平台的繁荣,产生了大量有噪声的短文本。社交媒体话题检测旨在为海量的社会媒体数据建模潜在的语义结构,其揭示的主题信息可用于短文本分类、关键词生成、篇章关系识别等下游应用。目前,面向社会媒体的短文本话题检测方法大致分为基于跨文档共现模式、基于文本语义信息以及整合内容和社交上下文三类。然而,已有方法均忽略社交网络的异构性和多元性以及大范围的用户邻域上下文对话题检测的影响。本文从编
论文部分内容阅读
推特和新浪微博等社会媒体平台的繁荣,产生了大量有噪声的短文本。社交媒体话题检测旨在为海量的社会媒体数据建模潜在的语义结构,其揭示的主题信息可用于短文本分类、关键词生成、篇章关系识别等下游应用。目前,面向社会媒体的短文本话题检测方法大致分为基于跨文档共现模式、基于文本语义信息以及整合内容和社交上下文三类。然而,已有方法均忽略社交网络的异构性和多元性以及大范围的用户邻域上下文对话题检测的影响。本文从编码异构社交上下文以及融合灵活邻域内的平行内容和结构上下文这两个方面出发,对社会媒体领域的短文本话题检测作下列探索:1.现存研究仅考虑文本内容或同时建模微博贴和同构情境的社交上下文来推断话题,忽略了社交网络的异构性和多元性对话题检测的影响。事实上,在社交网络中存在如转发、评论、关注和提及等不同类型的交互关系,表明用户的不同行为模式和兴趣偏好,在话题描述和话题传播中影响不同;此外,不同的微博内容、兴趣描述和身份认证倾向于使不同用户在话题推断中有不同的重要性。因此,本文提出一种新的深度多视图主题模型(Multi-View Topic Model,MV-TM)用于微博对话,通过编码异构社交上下文来挖掘每个事件的主题。2.前人工作同时考虑文本内容和社交网络的一阶结构特征来推断话题,而微博对话中更大的用户邻域包含的丰富内容和结构上下文信息可能有助于话题推断;此外,内容和结构从不同方面丰富了话题的语义聚合,而前人方法独立学习内容表示和结构表示并简单拼接,忽略了两者间的非线性关联,导致生成话题的一致性较差。受内容丰富网络的表示学习所启发,提出基于随机游走的平行社交上下文融合的的主题模型(Parallel Social Contexts Fusion Topic Model,PCFTM),通过捕获用户的灵活阶邻近度以及内容和结构间的复杂关联来检测社交媒体短文本的话题。综上所述,为解决现存的面向社会媒体的短文本话题检测方法存在的不足,本文从编码异构社交上下文以及融合灵活邻域内的平行内容和结构上下文这两个角度切入,提出两种基于深度学习的社交媒体短文本话题检测方法。在三个真实世界的微博数据集上的对比实验证明了本文所提方法的有效性,为推动话题检测研究提供了一定参考。
其他文献
近年来,随着无线网络的发展和智能终端功能的多样化,基于位置的服务(Location Based Service,LBS)也日渐成熟。在人们享受LBS提供便利的同时,定位信息也被收集用来挖掘对商家有用的潜在信息,因此移动用户的隐私也受到威胁。比如,攻击者可以通过挖掘用户的定位信息窃取用户的兴趣爱好、生活习惯等隐私信息。已经存在的基于定位信息单点扰动的位置隐私保护方法通常难以抵御推断攻击,因此出现了基
图像转换在现实生活中有广泛的应用场景,在图像转换任务中,素描图像到真实图像的转换是一类特殊任务,由于素描图像只包含单一色彩,与真实图像的像素差异很大,因此传统方法很难达到理想的效果。随着深度学习的不断发展,这一任务成为了当前研究的热点之一。随着生成对抗网络(GAN)的提出,素描图像到真实图像转换这一任务的性能得到大幅提升,出现了很多基于GAN的转换方法及模型,但是这些方法都存在一些不足:(1)这些
内存泄漏是广泛存在于C或C++程序中的一种内存漏洞,原因在于C或C++语言依赖于显式的内存管理,需要手动释放不再使用的内存对象,容易造成内存泄漏。内存泄漏的积累会导致程序运行减慢甚至系统崩溃。当前多数工作聚焦于内存泄漏的自动化检测,而对内存泄漏的修复工作主要依靠程序开发人员手工修复,依赖于程序开发人员的专业知识和行业经验。然而,人工修复错误是一个困难、耗时并且非常容易出错的过程,如何自动化地修复内
手语是聋人与听人、聋人之间交流的主要途径。手语词语主要是由手臂、手腕、手指的动作和朝向、面部表情、身体姿势等共同表达。手语视频的研究具有重要实际应用和科学研究价值。手语识别的目的是将手语视频识别为对应文本词或者文本语句,这要求手语识别模型可以准确提取手语视频的特征信息,消除手语视频与自然语言之间的鸿沟。目前手语识别面临两个主要问题:第一,从手语视频数据本身考虑,由于手语视频含有过多的冗余信息,例如
在图数据管理领域,最短路径查询是一类非常重要的问题,但在实际的应用场景中,用户往往会设置多样化的查询条件,并在这些查询条件的限制下进行最短路径查询。本文研究了在某些特定的限制条件下的最短路径查询问题,一种是给定一个节点集合,返回得到的具有最小权重值的路径中的所有节点,必须属于该节点集合,因此该问题可以抽象为基于给定子图的最短路径查询问题;另一种是图的权重向量具有多个维度,给定一个线性计算函数,将多
肝性脑病(Hepatic encephalopathy,HE)是一种严重肝硬化引起的认知功能异常并发症,一年内死亡率很高。轻微肝性脑病(Mild hepatic encephalopathy,MHE)转换为肝性脑病的概率非常高,因此准确地从无肝性脑病的肝硬化(no Hepatic encephalopathy,no HE)患者中准确识别轻微肝性脑病,对降低肝性脑病死亡率具有重要意义。过去的研究中,
在移动通信技术不断升级的背景下,虚拟现实和智能手环等智能终端逐渐走进了人们的日常生活。由于架构的集中性,移动网络已经无法承载海量数据的传输业务。边缘缓存技术被业界普遍认为是一种有效的解决方案,它通过在网络的边缘存储和转发部分流行内容来减少网内和网间的流量,在优化网络资源的同时缩短了请求的响应时延。然而,相关研究工作主要集中在基站,却忽略了计算和存储能力均日益增长的移动终端在边缘缓存架构中的潜力。移
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。如何在大量信息中发现有用的并让其为人类更好的服务是一个问题。推荐系统就是解决这一问题的重要工具,其任务就是联系用户和信息,使得两者有更好的交互。但是由于人们的隐私安全性意识逐渐增强,很多情况下用户的身份信息是不能够公开的,因此作为专为匿名用户打造的会话推荐系统成为推荐系统领域的热点。它旨在通过一系列匿名会话更有效地预测用户的
实际应用中的数据往往都有多种形式,比如不同的模态、来源和特征,多视图的信息分别用来描述某个事物不同的方面,如果只使用一个视图的信息,分析将缺乏全面性,如果可以同时利用多个视图的信息,将会有效的加强数据分析的效果。多视图聚类已经成为了计算机视觉和机器学习领域的一个重要研究课题,它的目标是得到一个多视图一致的划分结果。但是目前的多视图数据仍然存在两个主要挑战:一方面,数据的多个视图之间有复杂的非线性关
随着无人机飞控技术和计算机视觉技术的飞速发展,两者结合的无人机视觉技术逐渐成为新的研究热点。如今无人机视觉技术已经广泛应用于野生动物保护、智慧城市管理、自然灾害检测以及交通流量监控等领域。在野生动物保护领域,无人机视觉平台可以提供远大于地面摄像头的监控范围,减少了人力物力;在自然灾害检测领域,无人机视觉平台移动方便,可以提供自然灾害的最新讯息,可以及时发现隐患并提供预警。无人机目标计数旨在得出图像