【摘 要】
:
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随
【机 构】
:
北京信息科技大学信息管理学院,首都医科大学附属北京地坛医院传染病研究所
【基金项目】
:
国家自然科学基金(No.61572079);北京市教育委员会科技计划一般项目(No.KM201711232018)
论文部分内容阅读
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的"重复"测序文件和测序结果中的"重复"内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对Fast Q中的序列和质量信息,使用Sim Hash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。
其他文献
中国房地产市场在现今的大趋势大背景下得到了较大的发展空间。与此同时,市场中的产品品类层出不穷,产生了较大的对比竞争。在此种背景下,我国居民开始关注当前房屋的质量,属
目的:观察阿利沙坦酯联合非布司他对高血压伴高尿酸血症患者血管弹性功能及内皮状态的影响程度.方法:选取本院2018年1月-2019年7月期间收治的60例高血压伴高尿酸血症患者为研
上个世纪90年代,亿阳集团审时度势,把目光投向当时在中国刚刚起步的智能交通领域,专门成立了亿阳集团北京智能交通研究院,开始从事智能交通系统的研发。2005年,该研究院并入亿阳信
目的:研究乳果糖对腹腔镜胆囊切除术后肠黏膜屏障及胃肠动力状态的影响。方法:选取2017年9月-2019年3月本院收治的150例腹腔镜胆囊切除术患者作为研究对象,将其根据治疗方式
目的:分析三才乳腺治疗仪对浆细胞性乳腺炎(PCM)患者的治疗效果。方法:选取2018年1-12月本院收治的PCM患者84例为研究对象,根据随机数字表法将其分成对照组和和观察组,每组42
伴随信息技术发展,智能终端的普及以及新兴网络人群的崛起,群体行为偏好的改变以及伴随以大数据、社交网络、云计算、移动互联网为代表的新兴互联网技术的不断应用与更新,对
工程造价动态管控作为建筑工程的一项重要内容,对于建筑工程降低施工成本,提高企业经济效益都有着至关重要的作用。由于传统的工程造价管理无法实现对整个建设工程的全方位控
落实项目投资风险管理工作中,企业需要加强管控前期投资风险,正确认识项目投资风险的不确定性,主动落实项目投资风险管理。论述了项目投资风险管理,提出针对性的管理措施,保
在OGFC的基础上,提出一种设置在下面层的大孔隙排水沥青混合料的级配,并对其进行路用性能(高温稳定性、疲劳性能、水稳性)试验,通过对比发现此级配混合料的高温稳定性与疲劳性
我国属于电解铝大国,近年来,国内电解铝产能规模不断扩张,但其迅猛的发展势头也带来了很多担忧。一是电解铝下游产业利润空间减小,很多产业被迫停产,造成铝锭积压,资源出现大