论文部分内容阅读
近年来,随着计算机技术的飞速发展,电子文档在存储、修改,传递等方面的优势越来越明显,电子文档的普及和流行已成为大势所趋。随着电子文档数量的迅速增多,花费在文档检索上的时间飞速增长。很多时候,人们检索一篇文档的时间已远远超过阅读该文档的时间。于是,文档检索成为制约人们工作效率的瓶颈之一。
人们通常利用关键词来表达自己的检索需求,借助于搜索引擎等信息检索工具来查找自己感兴趣的相关文档。随着电子文档的普及,许多应用领域对文档检索技术提出了-些新需求:在公共安全领域,案件分析人员希望能根据当前案件描述文本找到所有相关的其它案件;在科技查新领域,情报分析人员希望计算机能自动完成对查新资料的学习,在此基础上进行相关文档检索,得出查新结论;在科研领域,科研工作者希望计算机能根据某篇经典文献找到所有与其内容相关的文档。
搜索引擎等现有信息检索技术无法满足上述应用领域的新需求,主要原因是信息检索技术本身存在如下几方面的缺陷:
(1)缺乏对文档语义的智能学习能力。现有的信息检索技术缺乏语义学习能力,不能从更高语义层次上建立每份文档的表示视图;当面对大段文本或整篇文档形式的检索请求时,很难确定选取多少关键词以及选取哪些关键词用于表示检索请求。
(2)不能从语义层次上学习文档关系。现有信息检索技术不具备语义学习能力,无法为每份文档建立基于语义的表示视图,因而,无法从语义层次上对文档之间的相关关系进行分析。
(3)易受同义词和多义词现象干扰。现有的信息检索技术主要以关键词作为文档表示的基本单位,不可避免会受到同义词和多义词现象的干扰--同义词的出现会造成文档的查全率下降,而多义词的出现会引起文档查准率的下降。
针对当前信息检索领域存在的上述问题,本文提出了基于主题的文档智能检索思想,主张把相关文档的检索分为两个阶段:学习文档主题和建立文档之间基于主题的相关性模型。鉴于近年来自然语言处理领域在文档主题学习方面已经有较多研究成果,本文的研究重点将集中在后一阶段--基于主题的文档相关性建模。
本文的创新点主要有:
(1)提出了一个基于主题的文档智能检索框架TDIRF(Topic-based Document Intelligent Retrieval Framework)。TDIRF框架由主题学习、文档表示,检索排序三个核心模块和一些辅助模块构成;主题学习模块负责从自然语言文本中获取主题,文档表示模块负责为每份文档建立主题索引,检索排序模块负责计算文档之间基于主题的相关度,并排序输出。TDIRF框架通过主题学习提高了对文档内容的理解能力,通过基于主题的文档关系建模实现了从主题层次上对文档关系的认知,在很大程度上避免了同义词多义词对判断文档关系的干扰。可以说,TDIRF框架提供了一个较为完整的智能化解决方案,克服了现有信息检索技术无法处理“输入条件为大段文本或整份文档的文档检索问题”的缺陷。
(2)在TDIRF框架的基础上,用Latent Dirichlet Allocation获取文档的主题混合比例,用三种不同方法对基于主题的文档相关性建模,得到三个基于主题的相关文档分析模型:
>基于主题的概率文档相关模型TPDC(Topic-based Probabilistic Document Correlation model)将文档的相关性建立在文档后验概率的基础之上,并通过概率推理和合理近似,把求解文档之间的相关性问题转化为求解主题之间的相似性问题,从而使问题得以化简解决。
>基于主题最佳匹配的文档相关模型DCTOM(Document Correlation model based on Topic Optimal Matching)把两篇文档分别看作一个二分图的两个分图,每个主题看作二分图的一个节点,主题之间的加权相似度看作节点之间的边权值,最后,用二分图的最佳匹配表示两篇文档之间的相关度。
>基于潜在主题空间的文档相关模型DCLTS(Document Correlation model based on Latent Topic Space)为所有文档建立公共的潜在主题空间,每篇文档表示为主题空间上的一个向量,用向量之间的相似度表示文档之间的相关度。
实验结果表明:TPDC、DCTOM和DCLTS模型都有较好的综合检索性能;用调和中数(查全率和查准率的调和平均数)作为检索性能评价指标,TPDC模型的平均调和中数约为0.5650;DCTOM模型的平均调和中数约为0.5134;DCLTS模型的平均调和中数约为0.6831;与其它基于主题的文档检索模型相比,采用TextTiling分段和二分图最佳匹配方法构建的相似文档检索模型的平均调和中数仅为0.2244。
(3)提出了一个面向服务的文档智能检索平台SODIRP(Service Oriented Document Intelligent Retrieval Platform)体系结构。SODIRP平台把基于主题的文档检索框架TDIRF与面向服务的体系结构设计思想相结合,将整个文档智能检索系统划分为DR(Document Retrieval)应用、DR服务代理、以及DR服务三个部分,使检索服务的请求者、代理者,以及提供者相互分离,从而,实现了文档检索平台的开放性、灵活性、可扩展性和可重用性。 (4)实现了一个基于主题的文档智能检索应用--系列案分析子系统。将基于主题的文档智能检索框架、基于主题的相关文档分析模型,以及面向服务的文档智能检索平台体系结构与社会治安领域的具体业务相结合,实现了广州市公安局社会治安智能分析系统中的系列案分析子系统。应用实践证明,本文提出的基于主题的文档智能检索框架TDIRF及其相关模型能够较好的挖掘文档之间的相关性,解决社会治安中案件之间的关联检索问题。