微博用户兴趣识别技术的研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wintry5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的发展及移动终端的普及,网络上出现了许多社交类的网站和应用,微博由于其自身操作简单,传播快速等特性,聚集了大量用户。每个用户每天可以接收成百上千条微博,从而导致信息过载的问题,严重影响用户对信息及知识的获取。此外,越来越多的商家将微博作为营销平台,因此如何完成高质量的广告定向投放也成为一个具有重要商业价值的问题。微博用户的兴趣识别可以帮助解决上述问题。本文的主要工作如下:本文首先尝试了基于主题模型的用户兴趣识别。将用户的微博集合看作一篇文档,使用Labeled LDA主题模型对用户微博文档的主题进行预测,获得的主题分布看作是用户的兴趣主题分布。该方法的问题是,当兴趣词周围存在大量噪声词时,Labeled LDA主题模型对用户兴趣词的主题分配会随上下文而发生严重偏移,从而导致用户兴趣识别错误。其次本文尝试了基于微博分类的用户兴趣识别,通过对用户的微博进行逐条兴趣分类,从而缓解噪声词对兴趣词的影响,然后通过用户微博的兴趣类别分布识别用户兴趣。尝试了两个分类器,一个是以二字串bigram作为特征单元的线性SVM,另一个是使用卷积神经网络实现的分类器。实验结果表明,基于微博分类的兴趣识别方法的效果优于基于主题模型的方法,但上述两个分类器对于包含噪声词较多的微博分类效果还有提升空间。第三提出一种基于主题增强卷积神经网络的用户兴趣识别方法,通过构建一个结合连续的语义特征和离散的主题特征的双通道CNN作为微博分类器,对用户的微博进行兴趣分类,通过极大似然估计得到微博用户的兴趣。实验结果表明使用融合主题信息的主题增强CNN将显著提高用户兴趣识别的效果。最后一部分介绍了兴趣模型的一个应用,聊天机器人笨笨的新闻推荐模块,该模块基于LDA主题模型,负责为用户提供个性化的新闻推荐服务。
其他文献
互联网的飞速发展使得当前的网络环境发生了巨大变化:网络系统愈加复杂异构,网络环境多样性,服务质量更加难以控制,互联网薄弱的服务定制能力,以及对网络资源和用户的管理变得越来
随着多样化的用户需求,当前网络系统越来越复杂,致使网络整体性能及端到端系统性能得不到保障。受限于传统网络层次化结构的限制,当前网络元素不能感知其它网络元素的各种行
图像分割技术是图像识别、分析的基础,其主要应用领域包括智能移动机器人的场景理解、智能视频监控中的运动目标提取、基于内容的图像检索、基于内容的图像压缩等,本文首先对
IP_TASCM(IP Trace Analysis System based on Code Moving)数据平台是CERNET华东(北)地区网络中心,为了支持网络测量数据的整理和分析所开发的一个IP TRACE采集、分析和结果共享的
动态视觉敏感器闭环激励源是一种为动态视觉敏感器提供动态目标的视觉动态模拟器,为视觉位置姿态测量敏感器提供光学激励源,可以模拟视觉测量目标相对视觉敏感器在120米到0.9
路由协议是无线传感器网络的一个关键基础技术,由于节点能量得不到二次补充,因此,路由协议的首要目的就是节能。在大规模的数据收集网络中,节点以多跳的形式周期性地传输数据
随着数据存储设备的存储成本不断降低,数据存储已经不再是决定系统性能的主要因素,转而数据存储系统的可用性成为了当前评价系统性能的重要指标。本文从高可用性的角度出发,
网络技术的不断发展为基于公开网络的即时通信提供了便利,但随之带来的安全问题却不容忽视。在开放的网络中,密钥建立(Key establishment)是保证后续通信安全的一种重要机制。利
由于射频识别技术拥有数据信息实时改写的优越特性,非接触智能卡、射频标签当中常常存放的是重要的用户信息,甚至是隐私信息,这对于系统攻击者、黑客来讲,留下了进行安全攻击
问题分类(QC)是智能问答系统的关键技术之一。问题分类与文本分类相似,其目标是为每一个自然语言问句分配一个类别标签,此类别代表的是问句期望的最终答案的类型,在问答系统