基于文本内容的不良短信息识别挖掘方法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:tobenumberone123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的快速发展和移动电话的普及,运营商短消息业务己经具有十分庞大的业务量。但是,与此同时不良短信的泛滥也日趋严重,由此而导致的居民财产损失、个人隐私泄露等事件时有发生。因此对不良短信进行有效治理具有重要意义。针对短信文本特性稀疏、噪声大的特点,本文提出基于深度学习的DBiGRU-Atten模型对不良短信进行识别。DBiGRU-Atten模型能够通过深度神经网络自动提取短信文本的高阶特征,并可以结合注意力机制对短信文本中的关键信息进行筛选。此外,由于短信内容不规范,其中存在大量的未登录词。为了解决未登录词的表示问题,本文采用了基于N-Gram特征的FastText词嵌入模型。实验数据显示,使用FastText词向量的DBiGRU-Atten模型能够在测试集中取得高达0.98 的 F1 值。针对不良短信内容类型多样,需要进一步挖掘不良短信的内容信息,本文建立了一个针对不良短信内容类型的细粒度分类模型。由于缺乏足够的标注数据,本文采用了半监督的标签传播算法来实现不良短信的内容分类。另外,通过对比多种数据采样方法,改进了样本不均衡问题。为了进一步提升模型分类性能,本文在构建文本特征时采用了基于神经网络的Doc2Vec文本表示模型。实验结果表明,采用Doc2Vec文本向量使标签传播算法的整体分类效果提升了约10%。为了协助不良短信的治理工作,帮助相关人员掌握当前不良短信内容的分布态势,本文结合上述工作建立了一个不良短信内容分析系统。实验结果表明,该系统能够准确识别不良短信并自动分析其内容类型。此外,该系统还具有数据可视化功能,能够直观展示不良短信内容的相关统计指标。
其他文献
《普通高中历史课程标准(2017年版)》将“海洋权益教育”这一概念引入了中学历史教学的视野范围内。一般来说,“海洋权益教育”指为了引导人们能够正确认识海洋权益而进行的相关教育活动。其内容应突出一个国家或地区在海洋方面的权利与利益,其中既包括海岛、领海及海岸线之类的地域主权,也包括与海洋相关的商业贸易、航线运输等经济活动,还包括与此相关的军事力量和科学研究。这一教学新要求不是无的放矢,而是基于强化年
光纤SPR传感利用表面等离子体激元与光纤倏逝波共振原理,实现对金属层表面的微量变化检测,具有高灵敏度、无标记、实时在线监测等优点,因而光纤SPR传感技术在环境监测、生物化学以及医学制药领域都有着相当重要的应用价值。柱层析作为生化领域的一种常规的组分分离手段,具有能耗低、洗脱剂易于回收和所得产品纯度高等优点,其中经典柱层析是科研中用于有机合成产物分离、蛋白质分离、中药有效成分提取的重要手段。但是柱层
改革开放以来,我国经济飞速发展,人民收入水平与日俱增,城市化水平节节攀升。但在经济景象一片欣欣向荣的背后,各地政府在发展中均面临城镇建设用地不足的困境,快速的城镇化
汽车作为主要交通工具,使得人们出行舒适便捷的同时也带来了交通安全隐患。车辆在行驶过程中,由于驾驶员的可视范围受限、交通环境复杂以及驾驶员的技术生疏或处于疲劳状态导致车辆在驾驶员无意识状态下偏离正在行驶的车道,引发擦碰事故,不仅带来时间和财产的损失,导致局部区域交通拥堵,更严重的可能造成人身安全的损伤。车道偏离预警系统(Lane Departure Warning Systems,LDWS)作为主动
视频由于内容上的生动、直观和多样性,逐渐成为娱乐和社交活动的重要组成部分,但也导致了视频规模的急剧增加。如何有效地对海量视频数据进行分类和检索成为了当前计算机视觉和信息检索领域的研究热点之一。由于视频内容和结构的复杂性,使得视频时空特征表示的有效性成为了一个难点,本文对视频分类和视频检索关键技术进行了较为深入的研究,主要工作如下:1.设计并实现了一种基于多级池化的伪3D卷积神经网络的视频表示算法。
随着传感器技术的不断完善。通过传感器收集的生物信号逐渐走进研究人员的视野,由于肌电图信号的便于观察且具有较高的实时性,受到大量科研人员的关注。肌电图信号常用来监测和评估目标肌群的状态,其中肌肉疲劳检测在康复医学领域被广泛应用。其主要目的通过传感器收集肌电图信号数据进行分析,这有助于阐明肌肉疲劳的病理生理机制,并针对患者不同病症量身定制治疗方法。表面肌电图信号(s EMG)以其便于采集,受到广大科研
数据分析中,从网络中进行概念认知学习是网络背景下的机器学习和人工智能领域的重要问题。在之前的研究中,人们发现许多数据背后都有其网络结构和概念背景,于是将二者结合,研究基于网络形式背景的概念认知学习,有其重要的理论意义和应用价值。本文首先提出了网络形式背景的概念,将复杂网络分析中反映网络结构的矩阵与形式背景相结合,提出网络形式背景。这样可以将复杂网络分析和形式概念分析的研究统一到一个框架中,并使得以
本世纪初以来,愈来愈多的新生代农民工涌入城市务工,他们已渐渐成为城市建设的主力大军,这也使得社会越来越关注新生代农民工。如何管理新生代农民工成为现代企业可持续发展
目前,全球范围内建筑业面临高耗能、高污染的问题,我国尤为严重,建筑业能耗高、全球变暖、雾霾严重的问题限制着我国经济的发展、社会的进步,基于此,被动房这一新型节能建筑应运而生。被动房是目前兼具超低能耗性能以及高舒适度居住体验于一体的科技节能型建筑,大力开发被动房是我国降低建筑能耗、实现节能减排战略目标的重要途径之一。被动房在我国发展起步相对较晚,各地区的发展不一。尽管政府方在积极推广绿色建筑、节能建
随着后金融时代国民经济的逐渐发展,技术创新已然成为发展我国经济的核心因素。其中,作为可以进行自主创新也可以进行创新成果转化的主体,企业凭借其独特的天然的产业化优势,成为了研究创新绩效的主要对象。而大中型工业企业又是我国国民经济支持的重要支柱,从一定程度上来说,其大量的科技创新活动的创新效益水平走势能够反映全国工业企业创新活动效益水平的发展趋势。因此,如何看待我国大中型工业企业创新要素资源联动效率的