论文部分内容阅读
一、引言
最新资料表明,当前网络上公开可索引到的网页已经超过115亿。而且网络上众多的搜索引擎如Google,Yahoo等交叉索引的网页重复率估计达到28.8%。网站www.pewinternet.org的研究表明有44%的用户只使用一种搜索引擎,48%的用户使用2-3种搜索引擎,只有7%的用户使用3种以上。而元搜索引擎(Meta Search Engine,MSE)是基于搜索引擎的搜索引擎,是在公开使用的搜索引擎(称为成员搜索引擎)基础上建立起来的可以同时或并行查询多个搜索引擎并对返回结果进行处理的搜索工具。元搜索引擎能整合各个公用的搜索引擎,充分利用这些著名搜索引擎的排名机制对其返回结果进行处理,从而提高用户的搜索效率。
按运行平台分,元搜索引擎有桌面型和网络型两种。桌面型元搜索引擎是一种客户端元搜索工具,可以在充分保护隐私的情况下挖掘用户个性化的搜索需求,本文认为这是优先发展桌面元搜索引擎的最好理由。用户兴趣模型是个性化服务的基础和核心,它不仅是用户个体的兴趣描述信息,而且是一种面向算法的、具有特定数据结构的和形式化的用户行为描述。相应地,用户兴趣建模是指从有关用户兴趣和行为的信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户兴趣模型的过程。
二、兴趣分类参考模型
兴趣分类参考模型主要用于区分用户的不同兴趣类别。可以采用开放式目录管理系统ODP(Open Directory Project)的分类层次结构来组织表示用户所有可能具有的广泛意义上的兴趣,由此定义的兴趣具有等级层次的结构特性(这是一种树型结构),即上层(兴趣父类)是对下层(兴趣子类)的共同属性的概括。在用户兴趣参考模型中,可以使用ODP分类层次中的某一层的所有类别作为对兴趣的分类描述。并把该层之下的后代子类作为它的特征词。
三、用户兴趣模型
用户兴趣模型也用与兴趣分类参考模型相似的树型结构来表示,这样可以适应用户兴趣的时变性和局部关注性,本文把这种用户兴趣模型称为用户兴趣树,显然,用户兴趣树只有部分兴趣类别和部分特征词。为形式化描述用户兴趣模型,引入以下定义。
接着我们比较了各类术语的平均相似度,如上图1所示。图中显示在术语集中与音乐相关的术语的平均相似度比计算机网络与通讯相关的术语的平均相似度稍低,而比信息处理相关的术语的平均相似度要高。这与表2所示的数据是相符合的,因此表明算法1在映射术语的兴趣类上是有效的。
七、结论
本文在引入兴趣分类参考模型的基础上,建立了用户兴趣树,并把它形式化为用户兴趣向量;然后定义了兴趣类、兴趣特征词集和兴趣集,基于这些概念,本文提出了一个简单有效地实现用户查询到兴趣类的映射算法。最后给出了该算法有效性的实验结果。
基金项目:江西省科技厅2006年科技攻关项目(赣科发计字(2006)185号)。
(作者单位:井冈山大学信息科学与传播学院)
“本文中所涉及到的图表、注解、公式等内容请以PDF格式閱读原文”
最新资料表明,当前网络上公开可索引到的网页已经超过115亿。而且网络上众多的搜索引擎如Google,Yahoo等交叉索引的网页重复率估计达到28.8%。网站www.pewinternet.org的研究表明有44%的用户只使用一种搜索引擎,48%的用户使用2-3种搜索引擎,只有7%的用户使用3种以上。而元搜索引擎(Meta Search Engine,MSE)是基于搜索引擎的搜索引擎,是在公开使用的搜索引擎(称为成员搜索引擎)基础上建立起来的可以同时或并行查询多个搜索引擎并对返回结果进行处理的搜索工具。元搜索引擎能整合各个公用的搜索引擎,充分利用这些著名搜索引擎的排名机制对其返回结果进行处理,从而提高用户的搜索效率。
按运行平台分,元搜索引擎有桌面型和网络型两种。桌面型元搜索引擎是一种客户端元搜索工具,可以在充分保护隐私的情况下挖掘用户个性化的搜索需求,本文认为这是优先发展桌面元搜索引擎的最好理由。用户兴趣模型是个性化服务的基础和核心,它不仅是用户个体的兴趣描述信息,而且是一种面向算法的、具有特定数据结构的和形式化的用户行为描述。相应地,用户兴趣建模是指从有关用户兴趣和行为的信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户兴趣模型的过程。
二、兴趣分类参考模型
兴趣分类参考模型主要用于区分用户的不同兴趣类别。可以采用开放式目录管理系统ODP(Open Directory Project)的分类层次结构来组织表示用户所有可能具有的广泛意义上的兴趣,由此定义的兴趣具有等级层次的结构特性(这是一种树型结构),即上层(兴趣父类)是对下层(兴趣子类)的共同属性的概括。在用户兴趣参考模型中,可以使用ODP分类层次中的某一层的所有类别作为对兴趣的分类描述。并把该层之下的后代子类作为它的特征词。
三、用户兴趣模型
用户兴趣模型也用与兴趣分类参考模型相似的树型结构来表示,这样可以适应用户兴趣的时变性和局部关注性,本文把这种用户兴趣模型称为用户兴趣树,显然,用户兴趣树只有部分兴趣类别和部分特征词。为形式化描述用户兴趣模型,引入以下定义。
接着我们比较了各类术语的平均相似度,如上图1所示。图中显示在术语集中与音乐相关的术语的平均相似度比计算机网络与通讯相关的术语的平均相似度稍低,而比信息处理相关的术语的平均相似度要高。这与表2所示的数据是相符合的,因此表明算法1在映射术语的兴趣类上是有效的。
七、结论
本文在引入兴趣分类参考模型的基础上,建立了用户兴趣树,并把它形式化为用户兴趣向量;然后定义了兴趣类、兴趣特征词集和兴趣集,基于这些概念,本文提出了一个简单有效地实现用户查询到兴趣类的映射算法。最后给出了该算法有效性的实验结果。
基金项目:江西省科技厅2006年科技攻关项目(赣科发计字(2006)185号)。
(作者单位:井冈山大学信息科学与传播学院)
“本文中所涉及到的图表、注解、公式等内容请以PDF格式閱读原文”