大容量文本检索算法

来源 :延边大学学报:自然科学版 | 被引量 : 0次 | 上传用户:fuzaifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于潜在语义索引技术提出一种大容量文本的快速检索算法.首先,利用奇异值分解方法对向量空间模型进行改进,充分考虑词项之间的相关性,在低维空间中表示待检索文本的各个段落与查询文本;其次,利用随机分块查询算法,以查询文本和待检索文本各段落之间的余弦相似度作为适应度函数进行检索,输出相似度超过阈值的候选段落;最后,通过仿真实验验证了该方法的有效性.实验结果表明,该算法可以根据段落的语义进行文档的搜索,可以为查询大容量文档提供有效的手段.
其他文献
江苏经贸职业技术学院王春艳摘要:本文在以418位知识型员工为样本调查的基础上,对中国情景下的知识型员工需求特征从激励要素排名、性别、年龄、学历结构等四个层面进行了比
为探讨首层柱顶隔震体系工程的应用,以首层架空的某5层医技楼为背景,采用首层柱顶隔震体系对首层为薄弱层的该框架结构进行了设计与分析.时程分析表明,在7度地震作用下,隔震上部结
为将国务院办公厅发布的《关于搞活流通扩大消费的意见》落到实处,山西省决定实施从煤炭大省向商贸物流大省转变战略。为此,山西省商务厅提出了“实施三大工程”、“抓住三个重
5G通信系统作为新一代的无线通信系统,对社会产生了巨大影响,尤其是在物联网和大数据产业的发展方面极为突出。作为人们日常通信的重要组成部分,在物联网和大数据技术的影响
以“资本增值”理念为理论支持,吸收了国际流行的企业绩效评价方法——“平衡记分卡”、“EVA”绩效评价方法的理念和思路,提出了一种新的、适应我国饭店业绩效评价的方法——
在我国乡村振兴战略指导下,新型农村建设进程不断加快,同时我国新农村建设进入飞速发展期,在机械化、现代化、信息化建设过程中,农村基础设施的不断完善为人们的生活提供了众
采用二维全粒子模拟方法研究了无碰撞磁场重联.研究结果显示:沿着分离线出现了电子密度降低,而电子的高速人流正好位于电子密度降低所在的位置.在扩散区出现了平行于磁场的电场E
既有经验分析表明,融资瓶颈已构成微型企业发展的主要障碍。从近年来重庆市在破解微企融资困局方面的具体实践出发,探析微型企业发展的主要问题。研究发现,政府、提供融资的企业
阅读的本质就是读者的思考过程。阅读训练也是思维训练的主要手段之一。阅读教学是发展学生思维能力,提升学生思维品质的重要途径。本文在探讨阅读教学策略时,以主问题统领课
<正> 2000年海尔发展保持了高速增长,实现了全球营业额406亿元,发展思路可以归结为:三个面对和强化,即面对三个挑战,强化三个进程。一、面对中国加入WTO之后的挑战,强化构筑