【摘 要】
:
当前正处于大数据时代,如何保护大数据的安全,尤其是敏感数据的安全,是值得投入更多关注的方向。在大数据中,又以文本数据为主。市场上的敏感数据检测工具大多只采用敏感词匹配算法对文本内容进行敏感词检索,这样会导致敏感数据误判率非常高,而且需要投入大量的人工成本对疑似敏感信息做进一步筛查。为此,本文基于“数据可用不可见”的思想,提出了一种敏感数据智能辅助识别机制,即在原始数据不离开数据持有方的前提下,采用
论文部分内容阅读
当前正处于大数据时代,如何保护大数据的安全,尤其是敏感数据的安全,是值得投入更多关注的方向。在大数据中,又以文本数据为主。市场上的敏感数据检测工具大多只采用敏感词匹配算法对文本内容进行敏感词检索,这样会导致敏感数据误判率非常高,而且需要投入大量的人工成本对疑似敏感信息做进一步筛查。为此,本文基于“数据可用不可见”的思想,提出了一种敏感数据智能辅助识别机制,即在原始数据不离开数据持有方的前提下,采用机器学习算法对原始数据进行敏感信息检测,提高对敏感信息判定的准确度。本文主要贡献如下。(1)提出了一种基于Ada Boost算法的文本可读性判定模型,该模型通过构造两个文本特征提取方式不同的基础分类器,对文本可读性进行判定,确保在后续敏感文本判定时,文本具有可读性。通过实验对比分析了基于Ada Boost算法、基础分类器1和基础分类器2的文本可读性判定效果,实验结果表明,基于Ada Boost算法的文本可读性判定正确率均高于基础分类器1和基础分类器2,正确率达到80%以上。(2)提出了一种基于上下文语义的敏感文本判定模型,该模型对判定为具有可读性的文本,进行敏感数据检测。其中,本文对现有匹配算法进行了改进,增加了对含有拼音的敏感词处理,并采用word2vec模型关联上下文语义,进而对敏感文本进行判定。基于复旦大学提供的文本分类语料库,通过实验对比分析了匹配算法和基于上下文语义的敏感文本判定效果,实验结果表明,基于上下文语义的敏感文本判定正确率达到87%,有效减少了因匹配算法只按照规则匹配敏感词,而未考虑上下文语义造成敏感信息误判的情况。(3)基于对文本可读性判定模型和敏感文本判定模型的研究分析,围绕文本读取、文本可读性检测和数据敏感性检测,完成了对敏感数据智能辅助识别工具原型系统的需求分析、总体设计、主要功能实现和测试。
其他文献
在对定向红外对抗系统(DIRCM)的研究中,干扰效果评估是非常重要的一个环节。它是对干扰装备对抗红外制导系统的干扰效果进行客观、准确的评价,进而加强光电系统的开发和优化关键参数的设计。因此,如何对系统的干扰效果进行可靠评估一直是备受关注的研究课题。本文旨在研究一种光电探测系统,对DIRCM干扰过程中的各项反应时间参数进行测量,以此来作为评估的重要依据。首先从光电探测系统的工作原理出发,对硬件电路中
<正>我居住在南通市中心区域,紧依濠河风景区的公园和绿地,蜜源植物较为丰富。居住的底楼前有近百平方米小院,常年种植枇杷、葡萄和花草,还保留了二三十平米的晒衣开放空间,院内成了养殖中蜂的好地方。每年养近10群中蜂,由于蜜蜂冬季排泄粪便影响周围居民晾晒衣物,越冬期间都将蜂群运往郊区亲戚家。2017年4月15日,有1群6脾蜂的强群因包装过度,运蜂时间又长,到中午运回开箱时发现蜂群已经全部闷死,实在可惜。
<正>青年科技人才是未来科技自立自强的支撑和保障,也是人才第一资源的关键力量。中医药的传承创新发展是党和国家赋予当代中医药人的历史使命,青年科技人才则是中医药传承创新发展的重要源泉和智力保障。一是坚持自信自立,培养中医药青年科技人才的创新意识和担当精神。中医药学源于中国古代哲学智慧,与现代医学认识生命规律的视角不同,
高中“心法式”班会课从课程角度搭建梯度性、层级化、系列化的班会课体系,以高中生身心发展规律为原点设计育人目标,以成长为目标设计班会课主题,以教育学心理学相关原理为内核生成课程内容,以多元评价反馈提升课堂实效,真正实现以成长为导向,培养时代发展所需人才。
脱落酸(Abscisic acid,ABA)在植物的逆境响应和生长发育调控中发挥重要的功能,已有的报道表明ABA在马铃薯的抗逆和生长发育中起到重要作用,然而ABA信号传导基因在马铃薯中的功能研究鲜有报道。PP2CA(Protein Phosphatases2CA)家族蛋白是最早被鉴定到的ABA信号传导组分之一,根据实验室前期的数据,本研究鉴定到了一个参与马铃薯ABA信号传导的经典PP2CA家族基因
传统协同过滤推荐算法存在评分数据稀疏性、用户评分偏好缺失性、传统相似性度量局限性的问题.提出一种基于物品预测得分与基于用户偏好得分的2阶段联合推荐算法:第1阶段,使用基于物品的预测得分补全评分矩阵,利用时间权重因子改进物品相似度;第2阶段,先利用评分偏好模型将完整的评分矩阵转化为针对评分类别的用户评分偏好矩阵,再通过该矩阵使用基于用户的协同过滤算法计算偏好得分,利用用户共同评分数权重改进用户相似度
根据最新的《本科生就业报告蓝别书(2020)》,虽然本科毕业生对母校的满意度在持续上升,但是大多数毕业生仍然认为母校教学需要改进,其中的一个显著问题就是课堂参与度不高,而教师是影响课堂参与度的一个重要因素。随着互联网技术的发展,各种教育资源尤其时课程学习资源在互联网上较为容易获得,同时新冠疫情影响网络课堂工具的快速普及,本科生似乎认为课堂参与可有可无。因此本论文聚焦在提高本科生课堂参与这个问题上,
长期以来,客户身份识别作为反洗钱“四大核心义务”之一,承担了重要的管理职责。文章从国内法律法规、监管要求和业务实践等多个维度,梳理反洗钱客户身份识别的历史沿革,分析反洗钱客户身份识别的发展阶段,归纳反洗钱客户身份识别的演化过程,总结反洗钱客户身份识别的工作体系,并提出未来展望。
近年来,人工智能技术的快速发展使人们的衣食出行发生了翻天覆地的变化,尤其是计算机视觉领域相关技术的突破,从应用最为普遍的人脸识别技术,再到无人驾驶、虚拟现实技术等等,人们越来越感受到计算机视觉领域的研究始终在朝着更加便利、更加多元化的方向发展。当然,这些优秀的算法模型能得以在实际生活中应用更离不开算力资源和数据资源的支持。尽管,各大企业、高校、开源社区、科研机构相继发布了相关任务的开源数据集,但随
我国医疗资源分布不均是长久以来难以解决的民生问题。同时,我国国民智能手机普及率逐年升高,并且人们也开始习惯通过智能手机解决生活中的问题。在智能手机普及率持续增高、互联网监管的不断规范化,和疫情催化下,互联网技术对公众医疗健康生活的渗透不断加深。通过互联网医疗手段来解决医疗资源分配不均、看病难、看病贵的问题是未来发展的必然趋势。本文研究的是一款互联网医疗产品的后台系统,本产品是一款连接医生与患者的平