学习型布隆过滤器优化方法研究与实现

来源 :中国科学技术大学 | 被引量 : 1次 | 上传用户:ivan107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
布隆过滤器是一种用于解决近似集合存在性问题的概率数据结构。由于其空间高效、易于实现的特点,布隆过滤器被广泛应用于垃圾邮件过滤、恶意网址识别、冗余项检测等任务。机器学习技术对语音识别、信息检索等领域产生了重要影响。B+树、哈希索引、布隆过滤器等传统索引技术没有利用数据的分布特征。尽管布隆过滤器是空间高效的,但是在大数据场景下依然需要占用很大的空间。机器学习技术善于捕捉数据的分布特征。2018年来自麻省理工学院的研究人员Tim Kraska等人提出使用机器学习技术优化传统索引结构,称之为学习型索引。布隆过滤器可以看作二分类问题,学习型布隆过滤器使用机器学习模型作为预过滤器从而减小总体空间占用。本文研究了学习型布隆过滤器的构造方法,研究了其与传统布隆过滤器的区别。针对学习型布隆过滤器查询速度慢的缺点,对学习型布隆过滤器的优化方法进行了研究。主要工作包括以下内容:(1)首先构建了一个学习型布隆过滤器测试套件,可以测试出学习型布隆过滤器在特定假阳性率下的总体空间占用和平均查询时间。为了减小其他因素的干扰,程序完全使用编译型语言C/C++编写,使用静态链接减小了其它因素的干扰。在三种不同的平台上分别进行了测试,有一定的代表性。将总体空间占用和查询速度确定为学习型布隆过滤器的性能指标。(2)设计了一个轻量神经网络模型f,该模型可以将网址分为恶意与良性两类。之后使用该模型构建了一个基准学习型布隆过滤器。针对学习型布隆过滤器查询速度慢的问题,探索了 8位整数量化、16位浮点量化等不同量化精度以及量化感知训练对学习型布隆过滤器查询速度和总体空间占用的影响。结果显示量化感知训练效果最好,空间节省效果最显著,对查询时间也有一定的改善。(3)学习型布隆过滤器的主要计算开销集中在预过滤器模型的推理上,因此简化神经网络模型推理过程中所需要的计算是提高学习型布隆过滤器查询速度的有效途径。一种可行的方案是将高性能的网络转换为计算高效的架构,之后将轻量神经网络模型f转换为二值化网络,使用二值化网络构建了二值化学习型布隆过滤器,测试了不同假阳性率下的查询速度和总体空间占用。针对二值化网络性能下降严重的问题,更改了二值化网络的结构,使用对二值化更友好的结构。使用优化的二值化网络重新构建了学习型布隆过滤器并进行了测试。结果显示,优化的二值化学习型布隆过滤器查询速度是优化前的2倍左右,总体空间占用与基准学习型布隆过滤器相当。
其他文献
论文介绍了化学发光的概念与原理及鲁米诺类化学发光反应体系的研究现状;综述了磁性纳米材料及其制备方法和应用研究进展;综述了新型纳米材料在化学发光中的应用,其中重点介绍了化学发光功能化纳米材料(CF-NMs)的进展。化学发光功能化材料是当前化学发光领域中一个重要的分支。一方面,目前发展的CF-NMs往往需要额外修饰催化剂,步骤普遍繁琐,并且容易引起材料不稳定;另一方面,制备过程中的清洗纯化步骤往往需要
学位
传统化石燃料例如煤、石油、天然气等造成的环境破坏,空气污染问题已不容忽视。在此背景下,我国宣布2050年禁止销售燃油车,实现节能减排。因此为了争取在2050年实现碳中和,更为了人类社会的长远发展,寻找清洁的可再生燃料迫在眉睫。氢能因为来源丰富,零碳排放,燃烧效率高,成为传统燃料的理想替代品。目前氢气的工业生产途径主要是甲烷重整,石油裂解,煤气化,但是这些工艺仍然依赖化石燃料,电解水可以使用太阳能,
学位
苯并呋喃[3,2-b]喹啉类化合物具有多种抗菌活性。已知构建苯并呋喃[3,2-b]喹啉骨架的方法很少,需要高温条件或需要在较多合成步骤下使用腐蚀性试剂。我们利用橙酮衍生化的氮杂二烯和芳炔的环加成/芳构化串联反应,在温和条件下一步构建了苯并呋喃[3,2-b]喹啉骨架。第一章苯并呋喃[3,2-b]喹啉的生物活性及合成进展研究首先概述了苯并呋喃[3,2-b]喹啉类化合物具有破坏细菌DNA、抑制细菌的细胞
学位
《义务教育英语课程标准(2022年版)》要求英语教学应着力提升学生的思维品质,使学生能够在语言学习中发展思维,在思维发展中推进语言学习。我们经常说要通过英语教学提高学生的思维能力,但是学生的思维能力是否真的提高了?学生的语言学习是否真的发生了?这是值得反思的问题。李会民、代建军指出,项目化学习的开展能够促进学生深度参与教学,发展学生的高阶思维能力。因此,作为教师,我们可以尝试通过项目化教学,以驱动
期刊
由于氧原子是除氮以外最丰富的杂原子,且醇和醚具有广泛的生物活性,因此碳氧键的形成是有机合成中重要的研究课题。过渡金属催化的烯丙基取代反应是一类重要的反应来构建碳氧键,但由于氧的亲核性比较弱,反应往往需要对亲核底物进行预活化,使得反应体系复杂且区域选择性难以控制,大大限制了该合成方法的发展。本论文通过在1,3-丁二烯中原位引入胺甲基这种氢键受体,利用其与醇的氢键作用实现对醇的活化,从而建立一种无需添
学位
焦耳热作为一种非平衡态合成方法,由于其特殊的快速升温,高温处理和快速冷却的特征,正在获得越来越广泛的关注和研究。使用该方法获得新型纳米材料是值得研究的。由于焦耳热的快速升温的特征,在高温处理时待热处理前驱体挥发生成的中间产物在加热局部会有较高的浓度,在高温下产生的活性组分能被基底捕获,形成单原子或金属颗粒。快速的处理和快速的降温,减少了金属的迁移和团聚,从而可以获得更高质量的单原子或高分散的金属颗
学位
近年来,含氟有机化合物被广泛应用于人类的日常生产和生活中,因此开发氟烷基化合物的高效合成新方法成为有机合成化学的重要研究内容。过去合成单氟化合物主要是利用亲核氟化、亲电氟化和自由基氟化法。不过这几类方法都具有一定的缺陷:亲核氟化法反应条件苛刻、氟负离子亲核性弱、碳正离子易重排;亲电氟化法氟化试剂价格昂贵、氧化性强;自由基氟化法反应选择性差且反应底物需要官能团预组装。近年来,通过C-C(Rf)实现单
学位
管桁架凭借其节点形式美观、应力均匀分布、抗冲击性能好、便于各种造型、自重轻、用料经济等特点,已被越来越多地应用在机场、车站、会展中心及体育场等大型空间建筑中。结合位于丽水市松阳县环城南路南侧的松阳县全民健身中心体育场项目,对大跨度空间管桁架的整体施工重难点及特点进行分析,阐述BIM技术在大跨度空间管桁架的施工模拟应用,同时针对拼装胎架、焊接及吊装等施工过程中遇到的问题和应对措施进行分析。
会议
语言品质是一个人的核心素养在语言上的综合表现。在以立德树人为课程总目标的核心素养时代,教师应加强单元教学的整体性,践行英语学习活动观,通过创设基于真实情境体验的语言实践活动,引导学生激活语言储备、联系实际生活、探究主题意义、解决实际问题,努力提升语言品质,发展核心素养。
期刊
偏滤器系统是中国聚变工程实验堆CFETR的重要组成部分之一,主要用于排除来自等离子体的高热负荷和杂质粒子,防止等离子体对真空室底部区域的破坏。支撑水盒CB(Cassette body)是用于支撑面向等离子体单元(PFU)的结构,其内部设置冷却流道,是冷却系统的主要组成部分。中国聚变工程实验堆CFETR偏滤器峰值热流设计目标高达10 MW/m3。2018年更新的CFETR设计,装置大半径的尺寸为7.
学位