论文部分内容阅读
快速发展的互联网给人们的生活带来了全方位的便利,同时网络上信息资源的爆炸性增长也不可避免的带来了一些问题。由于网络构成的是一个开放、分布的信息空间,其本身固有的异构性、多样性、分布性所造成的“信息过载”、“资源迷向”问题也日益严重。搜索引擎为我们提供了检索信息的便利,然而目前大多数检索系统对用户提供的检索仍然是停留在“关键词”层面上,缺乏语义和针对性,并在一定程度上造成了信息的流失。在针对性方面利用用户模型来描述用户信息,为用户提供个性化的服务。在语义方面引入本体提供语义层面的描述,分析用户需求、信息资源。用户建模工作可以追溯到上世纪70年代后期,国内用户建模方面的研究起步较晚,而基于本体的用户建模更是近两三年才开始稍见成效。从目前所掌握的信息看,农业领域方面尚无人问津。本研究以部分农业科技信息用户为例,研究怎样获取用户的知识结构,如何表示用户的信息需求和兴趣爱好并从这些数据中分析得到用户模型。具体来讲,本文主要完成的工作包括:(1)以《农业叙词表》作为初级的农业本体,并从文献中抽取出概念,用于表达用户的知识结构。(2)将农业词表加入通用词表中,对农业词表分配较大的权重以对农业词汇优先分词。以本体为依据,对文献进行语义标注,实现文献中词汇与本体中概念的匹配,并构建用户本体。(3)以TF-IDF算法计算文献中知识元素出现的频率记为用户概念向量,记录用户对知识元素的偏好。(4)用户本体和用户概念向量共同构成用户模型。(5)以余弦相似度的算法计算文献检索结果与用户模型的相似程度,从语义的角度出发对用户的文献检索结果进行重排序。(6)本体作为分词、语义标注的工具以及用户模型的一部分,实现信息资源与用户知识之间的对照。本研究以本体和概念表的方式表示用户模型。从文献中抽取出概念组成用户本体,并利用已有的本体对文献中的词汇进行归一化组织,计算出文献中用户感兴趣概念的向量,以表示用户的兴趣偏好。实验表明,本研究对用户文献检索结果的排序有所改善。本研究方法不仅适合于科技信息用户建模,也适用于互联网络中一般性的用户建模。