基于统计学习的社交网络人物属性抽取方法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:yztc_yztc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展为人类生活中的许多方面带来了变革,在社交方面,社交网络服务(Social Network Service,SNS)已成为当代人最重要的交流方式之一。人们在社交网络中写作、共享、沟通交流建议,产生着大量高价值数据,这就使得人物画像技术,即对社交网络上的人物根据相关数据建模的技术,成为互联网领域重要的研究方向,其在精准推送、个性化服务、推荐系统等方面都有着重要的应用价值。人物属性抽取是人物画像的基础,其目标是根据已知人物信息从社交网络各平台中检索人物相关文档,并从文档中提取与人物相关属性(例如:生日、职业等)。现有的人物属性抽取方法存在一些问题:一方面,跨平台关联人物文档时对人物信息利用不充分,在大量重名人物或人物信息部分缺失时,容易遗漏或匹配到错误的人物文档;另一方面,从网页类文档提取人物属性时,传统的提取算法对网页结构要求较高,难以处理结构不定的网页。针对上述问题,本文展开了人物属性抽取方法研究,主要创新概括如下:第一,针对人物文档关联问题,提出了一种融合账号多模态特征的跨社交媒体账号匹配方法。方法获取人物在多社交媒体的账号头像,简介,搜索排名三个模态,分别提取特征,并使用随机森林进行匹配。本方法使用集成学习思想融合账号多模态,充分利用账号信息,对人物重名和身份信息缺失有着较强鲁棒性,在对比实验中较单特征匹配方法和其他多特征匹配方法取得了更高的精确率和召回率。第二,针对网页人物属性提取问题,提出了一种基于正文词法句法特征的树状条件随机场提取模型。方法将网页人物属性提取建模为文本序列标注问题,以网页正文作为输入,提取正文单词的词法和句法特征训练标注人物属性的树状条件随机场模型。本文方法不依赖具体的网页结构,对训练数据量要求较低,在相同训练集对比实验中,取得了较其他序列标注方法更高的标注精度。
其他文献
在人工智能时代,集成电路芯片在通信设备、消费电子、航空航天、工业制造等各个领域的应用都不可或缺。因此芯片的需求量日益增多,质量要求也逐步提高。集成电路测试是贯通设计、制造、封装、应用的芯片产业链全过程的关键环节,关系到芯片成品的性能、质量和寿命。由于芯片体积小,精度高,需求量大,因此芯片测试的精确度和效率问题在芯片生产中是不能忽视且有技术难度的。在芯片生产制造封装等过程中,导线键合(Wire Bo
城市道路是构成城市交通系统的主要成分,也是人们生活必不可少的基础设施。为了缓解城市道路结构快速变化和交通拥堵等带来的问题,需要及时高效地提取和更新城市道路信息,如何确保提取道路的精确性以及尽可能地反映当前道路最新的情况,已成为城市交通管理和智能交通领域的研究热点。在GPS定位技术的支撑下,利用无线传感器采集数据的方式得到了的迅速发展与普及,借助其生成的浮动车轨迹,可以直接提取道路信息,相较于传统测
随着计算机硬件和软件的高速发展,我们在工作生活中接触到的数据类型日渐丰富,如文件、纪录片、短视频、图片等,这些数据的存储需求也是与日俱增,高效地存储并访问短视频以及聊天软件中的图片、小视频等数据是目前存储需要解决的问题。现有的对象存储系统,大多是被用来存储非结构化类型的数据,在实际的业务交互中,大部分的操作都需要访问元数据管理服务器,元数据的处理速度在一定程度上影响着整个系统的效率。由于非结构化数
在印制电路板(Printed Circuit Board,简称PCB)的机械钻孔加工过程中,PCB微钻磨损会直接导致PCB孔壁粗糙度的恶化,进而影响PCB的电气性能和使用可靠性。为了在钻孔过程将PCB孔壁粗糙度及时的控制在标准范围内,有必要依据磨损量特征对孔壁粗糙度展开预测研究。然而,目前实际生产中通常只是依据钻孔次数的经验值对微钻磨损和孔壁粗糙度进行合格与否的判断,缺乏严格准确的量化预测方法。因
光声效应检测技术因其强大的安全性和穿透性在无创血糖检测领域具有十分广阔的研究前景。本课题主要从光声效应的原理分析出发,通过搭建实验系统采集葡萄糖溶液的光声信号,分析信号与浓度之间的特征关系,并构建信号特征与浓度的算法模型,使用算法模型预测光声信号的对应的葡萄糖含量浓度值的准确度作为模型优劣的评价标准。预测结果统一采用克拉克误差网格(Clark Error Grid,CEG)分析。本文主要研究内容如
因为信息时代的来临,通信与导航技术在互相交融中迅速发展,位置信息服务作为一种新兴的战略型产业已逐步融入到大众的日常活动之中。在室外导航与定位技术中,卫星导航已经广泛应用于每个人的生活,随之而来的就是位置服务从室外导航与定位转变为室内导航与定位的新纪元。根据近年来国内外学者所研究的方案,面向室内位置信息服务需求的定位技术从大体上归纳为四大类,它们分别为全球导航卫星技术(Global Navigati
随着人工智能领域的发展,知识图谱受到了广泛的关注。结构化的数据能够直接用于知识图谱的构建,然而结构化数据存在体量不足、更新速度迟缓的问题,从而导致知识图谱的能力得不到充分发挥。互联网上的非结构化文本数据每天都呈爆炸式增长且覆盖全面,因此从这些文本中抽取出能被知识图谱使用的结构化三元组数据具有重大价值和意义。针对文本数据的抽取,传统的方法一般采用流水线的抽取模式,将三元组抽取任务拆分为实体抽取和关系
在本文中拟将目标跟踪算法应用于嵌入式系统以实现可应用于小型化无人机(UAV)的目标跟踪系统。对于目标跟踪算法,在计算机视觉领域目前有两种主要的研究方法:基于判别相关滤波器(Discriminative Correlation Filter,DCF)的方法和基于深度学习的方法。考虑到嵌入式系统的功耗和计算资源的限制,最终选择基于DCF方法的Auto Track算法。对于嵌入式系统的选择,由于功耗和成
在三维重建技术领域内,为了获得三维坐标信息,有许多方式,其中的双目立体视觉的三维重建,这种基于图像的三维信息获取方式,成本低,设备简单,是最常用的重建方式。而基于图像信息获得深度信息,这一过程,就是当下在双目立体视觉中最热门的研究课题——立体匹配,根本上是在两幅照片中找到同名点,从而计算视差值得到三维空间该点的深度信息的过程。本文以双目立体匹配为研究重心,对立体匹配中的四个步骤进行了介绍,并分别作
利用人工智能语音和图像技术来合成说话人物的音视频,是一门具有研究价值的热点课题,其实际应用范畴有代替主持人直播、视频内容重构、虚拟人物交互等等,可实现修改原有视频人讲述内容、避免多次剪切渲染视频或者直接取代本人录制等工作,并且在此场景之下合成出难以分辨真伪的音视频。音视频合成任务中包含从音频参数映射到人脸参数的环节,而音素匹配算法是实现该环节的方法中的一种。然而该方法中没有考虑人脸参数对匹配结果的