基于文档重排的索引压缩技术

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:JockWang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率.
其他文献
崔建华,1973年2月生于,1998年毕业于河北师范大学美术教育专业,文学学士学位。现任教于河北省秦皇岛市青龙县第一中学。秦皇岛美术家协会会员。
清代中期,大理白族文化发展,出现了赵氏诗人之家,对这一诗人之家组成情况、文学成就、诗人简历进行介绍,并探讨其形成的社会、家庭原因为社会稳定、家庭重视、白族知识分子对
两宋时期是江西文学创作的繁荣时期,在这个时期,江西出现了众多的文学家,共计1362人。本文拟以两宋繁荣的“江西文学现象”作为切入点,运用文学地理学中作家籍贯地理研究的方
顺势而为的前行2011年冬天,对于家电行业来说无疑是一个寒冬,在保持连续高速增长之后,这年下半年开始出现了“急刹车”,家电产品销量下滑。与此同时,家电企业裁员风波不断,“瘦身”
由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出.该文主要通过中文分词技术、频繁词查找和词性组合
建设国家现代农业示范区,是江苏省泰州市农业农村开启转型升级新征程的重要标志,意义重大,影响深远。第一,这是泰州农业在全国的新定位,要把握机遇、担当使命。全国仅8家以地级市
天网知名度系统是根据用户预定信息提供个性化检索的信息服务系统。该文提出了一种基于概率模型的名人网页相关度评价模型。改进O kap i BM 25公式,引入HTM L标记权重系数针
介绍了具有知识性、过程性、调节性的元认知理论,分析了它对实现操作票模拟培训的实际指导意义.结合上安电厂开发的操作票自动生成系统,运用元认知理论设计实现了具有良好通
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型。利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映。在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型。在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析。结果表明:该模型适合于网站主题的特征描述,有助于