【摘 要】
:
大数据集正在以前所未有的速度产生,研制大数据集的实用压缩全文自索引是目前的挑战问题之一.该文提出了一种高阶熵压缩的全文自索引.对于长为n的文本T以及任意k≤c logαn-1
【基金项目】
:
本课题得到国家自然科学基金(61173025,61373044)资助.致谢各位评阅人给出了诸多建设性的意见,在此致谢!
论文部分内容阅读
大数据集正在以前所未有的速度产生,研制大数据集的实用压缩全文自索引是目前的挑战问题之一.该文提出了一种高阶熵压缩的全文自索引.对于长为n的文本T以及任意k≤c logαn-1和c<1,该压缩索引占用2nHk(T)+n+o(n)位的空间,其中Hk(T)表示文本T的k阶经验熵,σ为字符表的大小.此外,该压缩索引可在线性时间O(n)内构造.在此基础上,该文还给出了上述压缩索引的一种实用改进.这种改进引入了混合编码方法,额外的空间开销为o(n)位.对于Pizza&Chili Corpus上的三类典型数据的实验表明
其他文献
随着云计算和大数据应用技术的发展,数据中心的数量和规模迅速发展,为了满足服务器之间大规模数据流动的需求,数据中心网络的通信能力面临巨大的挑战.传统数据中心中,网络的
"对话"本是主要针对宗教之间的对话。从对话的目的在于减少冲突的角度看,对话的意义和范围就不应仅限于教义、教理。因为,宗教现象始终处于和社会其他要素的互动关联中,同时,这
主持人语本期专栏刊发的这一组文章,大致分为四个内容。第一大内容是对西藏原生态宗教——苯教相关问题的探讨。藏族传统苯教不但历史悠久,起源甚古,而且它贯通了诸多不同的地区
玄武岩覆盖区找矿一直是矿产资源勘察中的热点与难点,而地球化学求异则是覆盖区找矿研究的重中之重。本文应用地球化学元素空间定量组合求异理论,对和龙地区地球化学元素数据
崩塌是常见的地质灾害,公路两侧的崩塌严重影响了人们的财产与生命安全,本文针对抚生村公路地质情况及崩塌体特征做了分析研究,提出相应的治理措施。
苦嘎铜矿位于西藏措勤-念青唐古拉成矿带的中段,矿体产在矽卡岩及花岗岩近东西向的构造带中,矿床的形成与永珠蛇绿岩带的形成及演化关系密切。永珠带拉伸阶段形成的日拉组为
察罕脑儿行宫是元朝君主在塞上草原设立的最重要的行宫,在元代又称白海行宫,遗址为河北沽源县小红城。这处行宫始于世祖初年,后不断扩建。《元史》中记载的"阿失答不速皇城"很
在773 K氩气环境下,采用CP熔盐电化学方法对LiCl-KCl电解质体系中不同组分LaCl3(0.98%、2.0%和3.3%)进行La离子浓度检测.结果表明:La(Ⅲ)在钨电极上相对于银/氯化银参比电极的还原
介绍国家精品课程计算机通信与网络的建设成效与经验,分析课程建设中存在的问题,最后对如何深入建设该课程提出一些建议。
以钛网为扩散层基体,氯铱酸为前驱体,采用浸渍-热解法制备了IrO2/Ti析氧阳极,进一步采用热压法制备膜电极.综合扫描电镜、循环伏安、交流阻抗、单池性能曲线测试及阳极寿命强