微博用户属性识别方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xuxiyao4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的迅猛发展,自动分析社交网络中的有用信息成为目前自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户属性识别是一项基本任务。该任务旨在根据微博用户产生的相关数据对用户的个体属性(例如,性别、年龄等)进行自动识别。准确识别用户的个体属性,可以帮助更好的进行智能营销、个性化预测及情感分析等研究。本文的研究内容主要包括以下三个方面:首先,针对微博中用户的个人与非个人属性,本文提出了一种结合微博用户的用户名和微博文本两类信息的分类方法。该方法针对两种文本训练不同分类器,并在此基础上提出了一种基于分类器融合的方法,同时利用用户名和微博两类信息进行分类。实验结果表明,本文的方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或微博文本的单分类器分类方法。其次,针对微博用户的性别属性,提出了一种基于交互式信息的半监督性别分类方法。传统的性别分类研究依赖大量的标注样本,而通常情况下人工标注样本费时费力。作为一种社交网络平台,微博提供了多种交互机制以供用户互动。因此,微博平台既包括用户发布的微博等非交互式信息,同时也包括回复等交互式信息。本文提出了一种基于交互式信息的半监督性别分类方法,该方法将交互式和非交互式两类信息作为协同训练算法的两个视图,充分利用未标注样本实现半监督性别分类。实验结果表明基于非交互式和交互式视图的半监督性别分类方法能够有效利用非标注样本提升性别分类性能。最后,针对微博用户的年龄属性,提出了一种基于文本和社交信息的半监督年龄回归方法。该方法通过协同训练算法同时结合用户的文本和社交两类信息,充分利用未标注样本实现半监督年龄回归。此外,我们提出了一种基于QBC的方法,解决了回归问题中样本置信度衡量的难题。实验结果表明,本文提出的基于文本和社交信息的半监督年龄回归方法,在数据平衡和不平衡两种情况下都能有效利用非标注样本提升年龄回归的性能。
其他文献
随着多媒体业务的繁荣发展,多媒体业务性能评估的重要性日益凸现。多媒体业务质量的优劣直接影响到用户使用感受,也是业务吸引并保持用户的重要因素,因此,如何有效评估端到端
随着虚拟化技术以及计算机硬件性能的快速发展,虚拟机正开始逐步增强图形显示方面的性能,以满足桌面级用户的需要。然而,虚拟化环境下的图形显示机制和传统的计算机图形显示
随着计算机网络的广泛应用以及嵌入式技术、图像技术的不断进步,视频监控领域进入了一个快速发展的时期。基于嵌入式技术的视频监控技术作为一种先进的、廉价的视频监控技术,
昆虫是动物界中一个十分庞大的类群,种类超过一千万种,从事昆虫鉴定的人员仅限于数量极有限的昆虫分类学专家。随着计算机图像处理技术的发展,人们希望通过计算机技术来识别
软件测试工具的研究与应用是提高软件测试效率,保证软件质量的重要手段。本文研究了典型的软件测试技术和测试工具,对软件测试过程和任务进行了分析。在参考国内外已有软件测
随着我国信息化进程的不断加快,我国职业教育也将迎来一个前所未有的发展阶段。职业教育面临着新的发展机遇,也面临着新的挑战。在新的形势下,职业教育只有深化内部改革,主动
自因特网兴起以来,网络的应用渗入到各个领域中,并且在整个经济的发展中发挥越来越重要的作用。目前互联网获得千兆位或更高传输速度的通信网络。然而,肩负通信任务的传统路
高校内各种计算资源的异构性、分布性导致计算资源不能充分利用,在很大程度上加剧了校园内计算资源不能满足教学、科研等领域对高性能计算的迫切需求的状况,网格技术为解决这
网络是一把双刃剑,随着网络技术的飞速发展,网络给人们的工作、生活带来了方便,但网络攻击频繁发生,攻击方式更是层出不穷。分布式拒绝服务攻击(DDOS)是利用协议漏洞进行的网
图像分割是数字图像处理中至关重要的预处理环节。在图像分割的众多算法中,阈值分割以直观、易于实现的特点最受关注,其应用最广泛,算法种类也最多。在阈值分割算法中,确定最