基于层次多词表达的文本匹配研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:luo000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的海量增加使得信息检索成为信息获取的重要途径,但是,传统的基于关键词在很多场合下并不能满足日益增长的各种信息获取的需求。比如,对于存在供需双方的搜索,如求职,在检索时,更好的方式是采用简历文本作为输入,直接与职位库中的职位描述文本进行匹配,这时,检索问题不再是搜索关键词在检索源中的词匹配,而是检索文本在检索源中的文本匹配。在这类文本中,大量涉及的是单位名、职位名、技术名、地名以及固定搭配等多词表达,这些多词表达在文本匹配中具有决定性的作用。为此,本文提出建立基于多词表达的文本表示和文本匹配技术来满足此类信息检索的需求。本文在基于多词表达建立文本表示的基础上,将度量两个串之间距离的最小编辑距离扩展至度量两个串集合之间的距离,提出了一种基于最小编辑距离计算两个多词表达集合间相似度的度量,并把该算法应用于计算文本匹配度,进而在职位搜索系统中进行了应用。实验表明,本文提出的基于最小编辑距离的相似度度量能得到比传统的余弦夹角度量更好的匹配性能。
其他文献
随着稀土永磁材料的使用,计算机控制技术、电力电子技术以及现代控制理论的发展,以永磁同步电机(PMSM)为执行器的数字化永磁同步伺服系统的应用越来越广泛,逐渐成为了中低容量伺服驱动系统的发展方向。与异步电机相比,永磁同步电机由于其结构和运行特点,具有转矩响应快速,无转子损耗等优点。然而,永磁同步伺服系统受电机参数变化,外部负载扰动等因素的影响,要达到良好的控制效果,必须依靠先进的控制理论,以提高其控
随着VoIP应用的发展,简单并易于扩展的SIP协议得到了广泛应用。由于SIP协议是一个基于文本的协议,在安全上考虑不足,因此,基于SIP协议实现的VoIP实体在网络中面临着安全威胁,
在整个机器视觉系统中,其最大的功能是在实际工况中提高生产的自动化程度和效率。在许多工作中,有很多是不太适合于人亲身去操作还有的人的眼睛不能满足工业要求,这里就经常用机器视觉来替代人工视觉,可以说机器视觉给现代工业带来了新的革命,加速了工业自动化的脚步。在整个机器视觉系统中,工业相机是机器视觉系统中的一个关键组件,选择合适的工业相机也是机器视觉系统设计中的重要环节,工业相机直接决定所采集到的图像分辨