基于潜在语义索引的中文文本检索研究

被引量 : 0次 | 上传用户:abenwin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上绝大多数的信息是以文本的形式保存的,文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而日常语言中多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。而潜在语义索引(LSI—Latent Semantic Indexing)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSI通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构,进一步提高了检索性能。本文围绕着如何利用LSI技术及其特点进一步提高中文文本检索的性能展开讨论。首先对LSI的相关关键技术以及数学基础进行了深度挖掘,对其在中文文本中的应用进行了举例和深入分析。其次对LSI的重要优化过程——权重计算进行了深入分析,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其效果进行了对比验证。然后利用LSI能够方便计算出文本和文本相似度的特点,提出了“文本—文本检索”功能,弥补了由于检索语句较短和输入不准确等问题对检索查准率的影响,能够更好的帮助用户进行更加有效的检索。最后,开发了“中文潜在语义索引分析系统”作为实验平台,针对LSI的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。
其他文献
蒙元王朝是一个少数民族政权,在对汉人的任用问题上十分敏感,大部分蒙古最高统治者对汉臣的防范多于信任,甚至干脆不用汉臣,而元世祖忽必烈在元朝的统治者中算是比较开明的,
<正>"意境"作为中国传统美学思想中的一个重要范畴,在当代艺术发展进程中正在向现代性审美进行转换。华人设计大师靳埭强将传统水墨这种在中国画中绘出的"意境"转移至现代招
作为中国社会一项基本的制度设计,在经历了60年的沿革和变迁之后,户籍政策在当代中国社会的发展中,依然发挥着消极的掣肘作用。尤其是黏附于户籍政策之上的资源配置和权利分
目前,随着电气传动技术的发展,大容量传动的高压变频调速技术在交流电机驱动领域得到了普遍的应用。多电平逆变器和传统的两电平逆变器相比较而言具有输出电平数多,输出波形
我国处于社会转型的关键时期,在经济和社会发展的同时,如何实现发展和稳定的平衡是一个重要的理论问题和现实问题。我国在政治发展的过程中,要在坚持马克思主义政治学的前提
第一部分动物实验免疫抑制兔肺部真菌感染薄层CT对照研究【研究背景】近年来,深部真菌感染的发病率呈上升趋势,特别是在免疫抑制人群中,如干细胞移植、实体器官移植、肿瘤放
作为高关联度的旅游产业对城市的发展具有显著战略意义。但是,随着旅游产业的不断发展和旅游者旅游需求理念的日益成熟,许多城市的旅游产业面临着转型升级、提质增效的问题,
<正> 罗患者1980年12月因耳内瘙痒,检见外耳道及咽部轻度充血。经他处给服滋肾养血,祛风止痒等药20余剂无效。1981年6月3日因病症加重而来余处诊,见其耳内奇痒难忍,伴胸闷不
2005年10月27日,《中华人民共和国公司法》由全国人民代表大会常务委员会第十八次会议修订通过,并于2006年1月1日起正式实施。新公司法中修订并增添了一部分保护中小股东权益
现有的传统地图和数字地图主要集中于描述二维空间信息。将实际的三维事物采用二维的方式表示,有很大的局限性,大量的多维空间信息无法得到利用。近年来,随着计算机技术、图