基于微博的用户职业抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tgw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,互联网已经深深融入了人们的日常生活。微博作为互联网时代主要的应用之一在知识分享、信息传递等应用中扮演着重要的角色。微博作为一种新兴的社交网络工具,其用户数量大、数据资源丰富、传递信息快的优势使我们有可能在微博平台上抽取有商业价值的信息,例如微博用户的职业、年龄等。此类数据对于互联网时代的广告推送以及个性化推荐都具有重要的价值。因此,基于微博的用户信息抽取成为目前互联网信息抽取中的一个热点研究方向。本论文主要研究微博平台上的用户职业信息抽取问题。这一问题的主要挑战在于现有的微博平台没有提供普通用户的职业信息认证,而已有的职业抽取工作采用的是传统的特征提取方法,操作复杂且耗时。这要求我们设计新的面向微博用户职业抽取的高效算法。针对这一研究目标,本文从两个角度研究了微博用户职业抽取问题,即基于词向量和职业词典相结合的微博用户职业抽取方法以及基于多层神经网络模型的抽取方法。总体而言,本论文的主要工作和贡献可归纳为下面几点:(1)提出了一种基于特征工程的微博用户职业抽取方法。目前已有的针对微博用户职业抽取的工作大部分停留在完善提取用户特征来提高准确率的层面,工作量大且不易实现。本文基于词语相似性迭代方法来提取职业相关的词典,并使用词典过滤冗余词汇,再将每个用户样本清洗后的所有词的词向量的列取和来表示用户样本,不仅可以去除冗余特征,还能够增强特征的表达能力,有效减少抽取过程的工作量并且提高抽取性能。我们在实际微博数据集上的实验表明,基于词典过滤的方法可以达到87.12%的准确率,相比于传统的特征提取方法提高了 9%的准确率。(2)将多层神经网络模型应用于微博用户职业抽取中,通过实验对比了MLP、CNN、LSTM以及FastText模型的性能并进行了讨论和分析。随着微博用户的快速增长和职业领域的不断扩张,如果词典提取不够完善便无法准确捕获用户特征信息,且微博数据噪声干扰大,因此,在应用多层神经网络模型的过程中,本文还提出了一种基于领域偏好的微博数据去噪算法,并在此基础上应用多层神经网络模型FastText进行微博用户职业抽取。实验表明,基于领域偏好的去噪算法可以提高近5%的分类准确率。
其他文献
自然科学、工程技术、社会科学中存在着大量的偏微分方程(PDEs).然而,许多PDEs的真解很难得到,或以实用的表达式表出.因此,为获得PDEs的近似解,发展高性能的PDEs数值解法是十分必
目前,企业级用户的广域网传输问题主要来自两方面,即链路与应用。链路问题包括带宽受限、网络时延大、丢包率严重等;应用的问题则集中于大数据量的传输,以及应用自身在广域网
语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。随着当今社会计算机技术的快速发展,语
基于Handel-C语言的算法硬件化技术是一种使用高级语言进行算法设计,并通过硬件完成算法实现的技术。该技术可快速将已有成熟算法的C语言程序转化为硬件实现,也可高效开发全新
网格技术是将所有可用于共享的资源,通过网络连接起来,并将它们转化成一种计算能力,对资源进行整合,从而解决信息孤岛问题。用户将任务提交给网格后,需要对任务进行合理的分
随着图像处理在医学领域上的蓬勃发展,以计算机技术为核心的细胞检测技术在其发展上显得越发重要。作为细胞检测极为重要的一步,细胞分割技术的研究中,如何科学合理、高效快捷地
Web Spam是一种不考虑网页的真正价值,却有意实施不公正的相关性或重要性的排名行为。它的出现不但威胁到搜索引擎的公正排名,同时还严重影响用户的搜索体验。如何通过分类来检
本文研究数据挖掘技术在移动通信客户细分中的应用,旨在解决如何利用现有客户数据资源,寻求行业内对客户群体的有效细分方法,使用数据挖掘技术对移动通信客户进行合理的、有效的
随着物联网时代逐步到来,电子邮件仍然是最重要的沟通工具之一。然而,其副产物——垃圾邮件的出现给人们的生活带来了潜在的危险。其中图像型垃圾邮件促使着反垃圾邮件技术进