论文部分内容阅读
网络信息的海量增加使得信息检索成为信息获取的重要途径,但是,传统的基于关键词在很多场合下并不能满足日益增长的各种信息获取的需求。比如,对于存在供需双方的搜索,如求职,在检索时,更好的方式是采用简历文本作为输入,直接与职位库中的职位描述文本进行匹配,这时,检索问题不再是搜索关键词在检索源中的词匹配,而是检索文本在检索源中的文本匹配。在这类文本中,大量涉及的是单位名、职位名、技术名、地名以及固定搭配等多词表达,这些多词表达在文本匹配中具有决定性的作用。为此,本文提出建立基于多词表达的文本表示和文本匹配技术来满足此类信息检索的需求。本文在基于多词表达建立文本表示的基础上,将度量两个串之间距离的最小编辑距离扩展至度量两个串集合之间的距离,提出了一种基于最小编辑距离计算两个多词表达集合间相似度的度量,并把该算法应用于计算文本匹配度,进而在职位搜索系统中进行了应用。实验表明,本文提出的基于最小编辑距离的相似度度量能得到比传统的余弦夹角度量更好的匹配性能。