基于独立分量分析的语义聚类技术在信息检索中的应用研究

被引量 : 0次 | 上传用户:willian1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术及网络技术的飞速发展,世界上的数据正以惊人的速度增长着。面对现代纷繁复杂的海量信息资源,人们反而有了“淹没在信息海洋中”的困惑。如何快捷、准确地得到所需信息已成为人们关注的焦点问题。信息检索技术能够帮助不同领域的人们从文本、图像、声音等庞大的数据资料中寻找其所需的信息。以信息检索技术为核心技术的Web搜索引擎已经成为人们从互联网发现所需信息的最依赖的工具,显示出这一领域巨大的市场价值和经济利益。在庞大用户需求的驱动下,信息检索技术不断发展和创新,成为近年来信息领域研究的热点。本文的研究基于统计信号处理技术和信息检索技术的结合,这是源于将文本文档看成不同主题信号混合的产物,利用统计信号领域中独立分量分析(Independent Component Analysis,ICA)技术对文档进行处理,分离的独立分量能很好地表示文档的语义主题结构。基于这一认识,全文以概率模型、信息论、线性代数及有关统计方法为理论基础,配合大量详实的实验分别研究了基于ICA的语义聚类理论模型及其应用、基于ICA语义聚类的相关模型和查询模型的估计,同时还对信息检索领域最常用的查询扩展技术进行了研究。论文主要的贡献和创新之处包括五个方面:1.提出ICA语义聚类激活的概念,并在理论上证明了利用激活ICA语义聚类下文档估计的语义主题在语义距离上比使用全部反馈文档估计的语义主题更接近于真实语义主题。以用户查询为导向的激活方式在语义上将聚类下的文档与查询关联起来,克服了反馈文档主题分散同现带来的风险。由于激活语义聚类下文档数量是确定的,因此查询扩展或者语言模型估计中避免了设置反馈文档数量这个参数,查询扩展和模型估计更为强健。2.在相关模型和查询模型的估计中,提出了利用ICA语义聚类信息配合语料集对文档模型估计进行语义平滑的概念,利用语义关键词条聚类强化反馈文档主题模型估计部分,给出了文档未出现词条的语义关键词条聚类概率,克服了传统文档模型估计中只使用语料集模型平滑的不合理性,即未出现词条以相同语料集概率出现在不同文档中的假设的不合理性。3.利用了文档属于语义聚类的概率作为文档先验概率参与模型估计,一方面区别对待了每个文档在相关模型或查询模型估计中的作用,克服了语言模型估计中所有文档先验概率服从均匀分布这个假设的不合理性;另一方面利用了语义聚类模型参与了相关模型或查询模型的估计,改变了传统模型的估计只使用单一文档模型这一现象,可利用的统计语言模型总集得到扩展。4.提出了利用语义聚类在用户兴趣和文档之间建立动态语义映射关系,这种映射关系将文档和用户组织在同一类别下,克服了现有文档和用户兴趣之间松散的关系。信息推荐系统利用映射关系主动发现同类中的文档信息推荐给用户。5.基于潜在语义空间能发现词条同现关系的原理,发现了潜在语义索引技术和独立分量分析技术配合使用时,一方面同现词条可以较好地弥补短文档词条重叠度低的问题,另一方面短文档在ICA语义空间中分类能够改善其分类准确率。
其他文献
随着终身教育思潮的推进,近些年来有关教师教育的研究开始将重心转向在职培训,凸显了在职培训在完善师资队伍建设中重要地位和作用。但值得注意的是,教师的职前培养仍是构筑
第一部分两种特发性室性心律失常的临床特征比较及其与Beta受体系统常见基因变异的关联研究背景交感神经系统失平衡与特发性室性心动过速紧密相关。本研究的目的在于比较特发
以上海市JS医院为例,介绍了合同能源管理模式对医院节能减排工作的意义。阐述了工程概况与用能现状,项目节能改造方案、实施过程和预期节能效果,并且指出了合同能源管理模式
以色列学者吉迪恩·图里(Gideon Toury)在詹姆斯·霍姆斯(James S. Holmes)描述翻译学研究的基础上,将目标语言文化引入翻译研究的范围,并以大量的个案研究为基础,探寻体现在
【目的】对不同产地来源小麦的近红外光谱进行判别分析,为小麦的产地鉴别提供一种新方法。【方法】应用近红外光谱分析仪检测2007/2008年度和2008/2009年度中国小麦主产区河
随着教育的不断发展,教学方式在教学中的应用日趋多样化、合理化和科学化.在高中数学复习课教学中,思维导图是一种十分有效的教学方法,其在教学中的应用有利于学生把握和理解
<正>口服是最方便、患者顺应性最高的一种胰岛素给药途径,它可以有效避免因每日注射胰岛素所带来的疼痛、压力和可能引发的感染[1]。但是口服胰岛素从胃肠道吸收进入血液循环
2009年1月1日我国开始第二次增值税制度改革,由生产型增值税向消费型增值税全面转变,揭开了我国税制改革的新篇章。笔者借鉴国外消费型增值税的经验,回顾我国增值税的形成与
【目的】探究原肌球蛋白(tropomyosin,TM)是否在猪背最长肌生长发育过程中发挥生物学功能。【方法】采用SYBR Green Ⅱ荧光法进行荧光定量PCR分析TPM1基因在通城猪和长白猪
本文采用文献资料法、访谈法、数理统计法等科学科研方法,通过对我国中小学武术教育现状有关文献资料的参考和对山东省中小学武术教育的实际情况进行调查,结果表明:作为优秀