基于特征融合与数据增强的社交敏感实体识别方法研究

来源 :河北经贸大学 | 被引量 : 0次 | 上传用户:sdbradycn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络提供的信息发布平台降低了信息发布标准的门槛,容易导致敏感信息在社交网络中大肆传播的安全隐患。现有的敏感实体识别模型未考虑到现实生活中,同一用户同时参与多个社交平台的情况,缺乏全面性。同时,也未考虑到社交敏感实体具有规模小、表征多、存在场景复杂等特点,获取的字词向量表示往往缺乏代表性。因此,构建多源异构社交网络场景,通过获取敏感社交信息,对数据量小且表征复杂的敏感实体进行识别,成为了命名实体识别领域的研究热点。本文主要研究内容如下:(1)异构社交网络中基于Hete Sim-Measured的敏感实体识别模型研究。为了在多源异构社交网络场景下,通过提取包含敏感实体的社交信息,减少对无用样本的识别,从而提升敏感实体识别准确率,本文提出了一种异构社交网络中基于Hete Sim-Measured的敏感实体识别模型。该模型首先构建了多源异构社交网络;其次,改进了度量异构实体之间相似性的Hete Sim算法,通过度量相似度获得较为敏感的社交信息节点序列;之后,利用异构网络嵌入技术,将较为敏感的社交信息节点序列嵌入同一低维特征空间;最后,通过两次聚类方法,将敏感社交信息从一般社交信息中提取出来,作为新的识别样本,从而提高敏感实体识别准确率。实验结果表明,本文提出的模型,在相同的社交信息输入情况下,相比于主流敏感实体识别模型,有着更好的准确率、召回率与F1值,能更加准确地识别敏感实体。(2)基于特征融合和数据增强的社交敏感实体识别模型研究。为了对数据量小且表征复杂的敏感实体进行识别,本文提出了一种基于特征融合和数据增强的社交敏感实体识别模型。该模型通过特征融合的方法,将敏感社交信息的动态字词特征与静态字词特征进行融合,获得小样本敏感社交信息的完整向量特征,解决敏感实体表征复杂、缺乏代表性的问题。同时,利用基于词汇替换的方法,拓展小样本的敏感社交信息训练样本,完成数据增强,解决敏感实体数据量小的问题。实验结果表明,在相同的社交信息输入情况下,相比于主流敏感实体识别模型,本文提出的模型有着更好的准确率、召回率与F1值,能更准确地识别敏感实体。
其他文献
糖蛋白即含寡糖链的蛋白质,是蛋白质最普遍的翻译后修饰的产物。糖蛋白的识别和定量在各种相关研究中具有至关重要的现实意义,包括生命科学和医学研究、临床诊断、医疗设备和成像。许多糖蛋白都可作为癌症标志物,这也进一步证实了对其研究的重要性。然而,由于生物体的复杂性以及其他干扰物质的存在,进一步阻碍了我们对糖蛋白的分析和检测。因此,在对糖蛋白进行分析前对其进行高效的分离富集是势在必行的。本论文主要以糖蛋白卵
学位
光探测器是将光信号转换成电信号(如光电流和光电压)的光电子器件,是光通信系统中对光信号进行接收和转换的不可或缺的重要器件,广泛应用于成像、通讯、探测等领域。目前,光电探测器的一个重要发展方向是集成化,这就要求人们不断开发超高速、低成本、大规模生产和集成化的光电探测器。二维(2D)材料因其显著的光耦合效应、机械柔韧性、易于多功能集成化等多种优点,被认为是构建新型光探测器的理想候选材料。本文以二维二硫
学位
旅游特色小镇正吸引着世界各国政府机关、各类企业的广泛关注,现阶段逐渐变成了经济领域、旅游行业的研究焦点。旅游特色小镇更是公众出差、旅游、居住最为青睐的首选。伴随我国出台了大量的优惠扶持政策,旅游特色小镇在全国范围内发展迅速,但相关研究大多集中在经济发展地区,比如北京和浙江。长沙县的旅游特色小镇依旧处在摸索时期,学术界对此所做的专项研究明显不足。为推动长沙县的经济增长与社会发展,提高长沙县的经济、社
学位
随着社会经济的发展,女性的工作能力和社会地位逐渐得到认可。然而,尽管女性的工作能力不断被肯定,但当前的高管团队中女性比例相对而言还极低,我国企业高管团队的一般现状仍然是男性高管占据绝大比例。实践证明,高管团队性别特征会影响企业双元创新。尤其是,中国人力资本质量的稳步上升,给高管们提供了更多的创新资源。因而,在此背景下,高管团队性别特征对双元创新存在何种影响?企业人力资本质量将如何影响二者之间的关系
学位
有机电致发光器件(OLEDs)具有重量轻、体积小、主动发光、易实现大面积柔性显示与照明等独特优势,已成为新一代的环境友好绿色照明光源的重要发展方向和各先进国家节能的发展重点。因此,开发环境友好、高效的OLEDs器件是我国近年来高效率、长寿命的半导体照明产品的优先发展战略之一。OLEDs材料占据举足轻重的地位,开发新型高效的电致发光材料具有重要的研究意义。茚酮稠环类单元有弱吸电子性能,在结构上易于修
学位
股指数据反应了整个股票市场上各类股票价格的总体趋势和变动情况,其稳定性较高、不易受人为影响的特点深受广大投资者关注。投资者根据数据波动情况来选择在合适的交易点进行买入卖出操作,从而进行获利。但绝大部分投资者无法对此进行专业的分析,缺乏策略性研究,从而错失交易信号,出现损失严重的情况。因此,本文基于机器学习、深度强化学习构建交易信号过滤模型与交易策略,以实现动态感知市场变化,帮助投资者智能化投资的需
学位
推荐算法能够帮助用户从海量多样的数据中选择自己感兴趣的信息,可以有效地缓解信息过载问题。传统的推荐算法运用用户项目的历史交互来分析用户的兴趣偏好,因而推荐系统也面临着数据稀疏和冷启动等问题。随着网络信息的多样化,除了用户项目评分外,还有许多关于用户和项目的辅助信息如:社交网络、知识图谱等。这些辅助信息可表示成图的形式,加入到推荐系统中能够丰富用户和项目的特征,缓解数据稀疏和冷启动问题,提升推荐算法
学位
红外成像具有抗干扰能力强,可识别伪装目标,成像距离远等诸多优势,在军事和民用领域得到广泛应用。红外成像器件用于运动平台或者拍摄运动目标时,会由于目标与相机之间的相对运动产生运动模糊,降低成像的清晰度,影响了对红外图像的后续处理。传统的图像去模糊方法通常使用模糊核先验对模糊图像进行建模,然而现实场景中的模糊图像产生的都是非均匀模糊核,传统方法估计出的模糊核具有很大的局限性,对现实场景中的复杂模糊效果
学位
改革开放以来,县域中小企业集中集聚发展,逐渐形成具有分工合作关系的产业集群。目前部分县域产业发展主要受产业集群层次与产业链完整度制约,因此实时把握县域产业集群发展情况,对促进产业集群转型升级扶持政策的制定具有重要指导意义。本文通过深度学习技术精准识别县域内特色产业集群,构建产业图谱并完成产业链环节划分,通过对集群内部企业分布情况分析产业集群发展态势,从而提出相关发展政策建议。为解决产业集群识别过程
学位
随着数字技术的不断发展,以及新冠疫情的影响,数字化转型逐渐渗透到人民的生活中,2022年2月发布的《“十四五”国家信息化规划》中习近平主席明确提出要建立健全有效的数字化治理体系,建设数字中国,从而打造数字经济新态势。制造业是立国之本、强国之基,是实体经济的重中之重,处处体现在人民的衣食住行中,制造业的经济命脉制约着我国经济的发展速度。如今数字经济正在蓬勃发展,为我国制造业企业转型带来了数字红利,那
学位