论文部分内容阅读
随着计算机技术及网络技术的飞速发展,世界上的数据正以惊人的速度增长着。面对现代纷繁复杂的海量信息资源,人们反而有了“淹没在信息海洋中”的困惑。如何快捷、准确地得到所需信息已成为人们关注的焦点问题。信息检索技术能够帮助不同领域的人们从文本、图像、声音等庞大的数据资料中寻找其所需的信息。以信息检索技术为核心技术的Web搜索引擎已经成为人们从互联网发现所需信息的最依赖的工具,显示出这一领域巨大的市场价值和经济利益。在庞大用户需求的驱动下,信息检索技术不断发展和创新,成为近年来信息领域研究的热点。本文的研究基于统计信号处理技术和信息检索技术的结合,这是源于将文本文档看成不同主题信号混合的产物,利用统计信号领域中独立分量分析(Independent Component Analysis,ICA)技术对文档进行处理,分离的独立分量能很好地表示文档的语义主题结构。基于这一认识,全文以概率模型、信息论、线性代数及有关统计方法为理论基础,配合大量详实的实验分别研究了基于ICA的语义聚类理论模型及其应用、基于ICA语义聚类的相关模型和查询模型的估计,同时还对信息检索领域最常用的查询扩展技术进行了研究。论文主要的贡献和创新之处包括五个方面:1.提出ICA语义聚类激活的概念,并在理论上证明了利用激活ICA语义聚类下文档估计的语义主题在语义距离上比使用全部反馈文档估计的语义主题更接近于真实语义主题。以用户查询为导向的激活方式在语义上将聚类下的文档与查询关联起来,克服了反馈文档主题分散同现带来的风险。由于激活语义聚类下文档数量是确定的,因此查询扩展或者语言模型估计中避免了设置反馈文档数量这个参数,查询扩展和模型估计更为强健。2.在相关模型和查询模型的估计中,提出了利用ICA语义聚类信息配合语料集对文档模型估计进行语义平滑的概念,利用语义关键词条聚类强化反馈文档主题模型估计部分,给出了文档未出现词条的语义关键词条聚类概率,克服了传统文档模型估计中只使用语料集模型平滑的不合理性,即未出现词条以相同语料集概率出现在不同文档中的假设的不合理性。3.利用了文档属于语义聚类的概率作为文档先验概率参与模型估计,一方面区别对待了每个文档在相关模型或查询模型估计中的作用,克服了语言模型估计中所有文档先验概率服从均匀分布这个假设的不合理性;另一方面利用了语义聚类模型参与了相关模型或查询模型的估计,改变了传统模型的估计只使用单一文档模型这一现象,可利用的统计语言模型总集得到扩展。4.提出了利用语义聚类在用户兴趣和文档之间建立动态语义映射关系,这种映射关系将文档和用户组织在同一类别下,克服了现有文档和用户兴趣之间松散的关系。信息推荐系统利用映射关系主动发现同类中的文档信息推荐给用户。5.基于潜在语义空间能发现词条同现关系的原理,发现了潜在语义索引技术和独立分量分析技术配合使用时,一方面同现词条可以较好地弥补短文档词条重叠度低的问题,另一方面短文档在ICA语义空间中分类能够改善其分类准确率。