中文搜索引擎个性化信息服务评价

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:bd235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在2006年7月的CNNIC中国互联网统计报告中,搜索引擎以66.3%的使用率高居榜首,成为中国网民经常使用的网络服务。然而人们也发现,伴随网络信息量的爆炸性增长,尽管能利用搜索引擎获取成千上万条的搜索结果,但其中包含了大量无关、重复且并不能满足自身需求的信息。过载的信息超出了人们的处理能力,也给用户造成了困惑。事实上,不同用户个体由于职业、工作任务、个人志趣偏好、知识水平、信息素质以及智力上的差异,其信息需求也大不相同。不加区分地对不同用户采用相同的信息来源,提供相同的信息界面、信息序列,难以满足用户的个性化需求,因而向用户提供个性化的信息服务成了搜索引擎未来发展的,必然趋势。目前,各搜索引擎正致力于个性化信息服务方法、内容、机制、技术上的研发,一些个性化信息服务雏形也逐渐出现。
  
  1 搜索引擎的个性化信息服务释义
  
  搜索引擎的个性化信息服务就是要为用户提供满足其个性化信息需求的服务。从满足用户信息需求的状态和层次的视角来看,可从以下3个层次来理解搜索引擎的个性化信息服务:第一,由搜索引擎为用户提供一定的个性化信息需求表达途径,并在提供给用户的信息集合中包含符合用户明确表达的信息需求的信息内容;第二,根据用户个性化模型(包含职业、工作任务、知识水平、兴趣、搜索历史及反馈等个性化特征),对命中的信息集合予以筛选、精拣,以向用户提供更为精准的信息;第三,综合用户信息需求、用户个性化模型以及搜索引擎数据库信息资源,考虑与其个性化模型具有相近特性的用户曾经相同或相似的搜索历史与反馈,深层挖掘用户未经表达的可能被认知亦可能未被认知却客观存在的信息需求,并最终向用户推荐这些相关的可能需要的信息内容。
  要实现上述个性化信息服务,搜索引擎需完成两大模块的构建:一是构建个性化的信息环境(Perso nalized Information Environment,PIE),即用户根据自身特殊需要去创建的一种“个性化资料集”(PersonalizedCollection,PeC),这种PeC需要具备长期有效、既可个人使用又可多人共享、由用户自我定制、安全可靠等特点,以便将个性化的信息从全局信息中分离出来。二是构建用户个性化模型,即了解用户的职业、工作任务、知识水平等背景信息,并跟踪用户的搜索习惯、点击链接等行为信息,通过学习、记忆建立用户的兴趣模型。为提供个性化信息服务,完成上述模块构建,可采用以下几种服务机制:
  (1)定制页面个性化信息服务,即用户根据需求对用户个体所需的系统界面、资源集合、检索工具与技术、检索利用服务过程、检索结果等进行定制,至少包括界面结构的定制和界面内容的定制。
  (2)个性化信息推送服务,主要有频道式推送和邮件式推送两种方式。要实现真正的个性化信息服务,必须从技术上实现动态频道推送技术,能让用户自己选择所需频道,而非网站设计者预先设定的静态频道。
  (3)协同过滤法,是利用人们兴趣爱好的相似性进行信息推荐的一种方法,它把用户偏好相似度满足一定阈值的用户看作一类,建立该类用户的兴趣模型,并向用户推荐信息内容。
  (4)点击流分析法,一个点击流是一个用户在网络上的行为记录,运用点击流技术记录用户输入的关键字、点击的链接与翻页、在页面停留的时间等重要的个性化信息,针对其搜索习惯、搜索兴趣,得出用户个性化模型,据此提供个性化的搜索结果序列。
  (5)基于Agent的个性化信息服务,用户每登录一个账号,便启用一个用户Agent,用户Agent主动建议个性信息Agent,直至找到与其所描述用户兴趣相符的信息Agent,并将该模型中的信息推荐给用户,并在脱离用户情况下按照其内部规则搜寻并纳入相关网上信息,在下次服务中提供给用户。
  
  2 中文搜索引擎个性化信息服务实施现状
  
  Google、百度、中搜、Windows Live、My Yahoo是目前在个性化信息服务提供方面较为典型的搜索引擎。考虑到知名度和代表性,本文选取Google、百度来介绍搜索引擎的个性化信息服务实施现状。
  
  2.1 Google
  Google现有4种信息服务体现出个性化特征,分别为个性化搜索、个性化主页、个性化资讯、快讯邮件推荐。其中个性化搜索和个性化主页还不够成熟,尚处于实验阶段。下面对以上4种个性化信息服务予以简要介绍:
  (1)个性化搜索:在该功能模块中,系统能够记录用户搜索历史,允许用户建立个性化书签和感兴趣的项目,用户在其自建内容所组成的信息集合中进行搜索,实现个性化搜索功能。Google试图借助系统和用户个体对个性化内容进行共同积累和维护,构建单个用户的个性化信息集合,以缩小用户信息检索范围,提高查准率,从而实现个性化搜索功能。但该个性化信息集合的建立过程过于漫长,搜索范围局限性较大。
  (2)个性化主页用户可以从Goog]~提供的内容来源中任意选择,并将自己感兴趣的信息源添加至其个性化主页中。经笔者统计,Google目前在该功能模块提供的信息源仅有179个,收录数量较少且范围不全面。
  (3)个性化资讯:用户可按个人兴趣订阅关键词资讯,将其作为新栏目添加至其个性化资讯主页中。倘若用户启用了前述的个性化搜索功能,Goog]e还会跟踪并保存所选择的资讯,使用智能算法来分析用户的选择,并将该用户兴趣与其他Google资讯用户组总体兴趣相比较,专门针对该用户以“推荐报道”栏目在个性化资讯主页上进行信息推送。用户使用Goog]e资讯的次数越多,推荐内容的效果越好。“推荐报道”栏目体现了个性化信息服务机制中协同过滤法的思想,服务效果比较好。
  (4)快讯邮件推荐服务:用户可通过输入感兴趣的搜索字词、选择信息来源类型和传送频率来创建快讯,Google将通过邮件向用户推荐符合其要求的个性化快讯。
  
  2.2 百度
  百度的个性化信息服务主要体现在个性化新闻服务上,主要包括个性化新闻定制、邮件新闻订阅、RSS新闻订阅以及颇具特色的历史新闻服务功能。
  (1)个性化新闻定制:用户可根据自己的兴趣设置主题关键词新闻或者选择地区名称获取地区新闻,并形成自己的个性化新闻页面。
  (2)邮件新闻订阅:用户可通过关键词和分类新闻两种途径订阅新闻,百度会在用户选定的新闻推送时间将新闻发至用户邮箱中。
  (3)RSS新闻订阅:用户需要下载和安装一个RSS新闻阅读器,然后从百度网站提供的RSS新闻目录列表中订阅感兴趣的新闻栏目的内容。
  (4)历史新闻用户可对历史上某一天的新闻进行查看。百度新闻搜索共覆盖了1000多个互联网新闻源,新闻内容的选择、分类和排序均由系统自动进行, 不受人为干预,保证了新闻信息的客观和全面。
  
  3 搜索引擎的个性化新闻资讯服务功能评价
  
  在搜索引擎的几种个性化信息服务功能中,个性化新闻、资讯的服务功能已比较成熟,且由于其能帮助用户从浩瀚的信息海洋中搜寻和获取个人比较感兴趣的新闻资讯,而深受用户的青睐。因此,笔者选取Google和百度的个性化新闻资讯主页定制功能进行比较分析。
  
  3.1 服务界面设计
  简洁、明了、实用、友好的用户界面已越来越受推崇。Google个性化资讯主页风格比较简洁,可由用户自定义页面栏目及其位置布局,栏目数最多为20个:百度的个性化新闻页面风格也比较简洁,内容包括用户对个性化新闻定制的相关设置以及具体的新闻信息内容,其新闻信息按主题定制顺序从上至下依次排列,不能改变信息板块的位置,其最大的不足是缺少页面内链接,增加了用户拖动“滚动条”定位信息的负担。此外,Google、百度虽然均在帮助文档中对个性化信息服务的常见问题进行了介绍,但普遍缺少使用技巧即如何提高使用效果方面的介绍,在这点上的设计缺乏人性化考虑。
  
  3.2 信息分类
  Google资讯的基本类目包括财经、体育、科技、娱乐以及社会,类目数较少,专指度较低;百度的新闻分类较细,有国内新闻、国际新闻、财经、互联网、房产、汽车、体育、娱乐、教育、健康、科技、社会几大类,但不难看出类目间存在有部分交叉。Google与百度采用主题分类,其类名通俗易懂,但分类体系过于简单粗略,仅设有一级类目,且类目覆盖面不全,无注释说明,其类目间关系不明了。
  
  3.3 检索限定
  搜索引擎个性化新闻资讯的检索限定主要包括信息来源限定、信息类型限定以及关键词位置限定3种。在信息来源上,Google未做任何限定;百度则提供有24种内容较全的知名新闻媒体来源供用户选择,用户可选择其中一种新闻媒体或全部新闻媒体。在信息类型上,Google有财经、体育、科技、娱乐、社会、国内、国外等限定,百度则没有限定;在关键词位置限定上,百度能限定关键词在全文或标题中,Google则无这方面的限定。总之,搜索引擎在提供个性化新闻资讯服务时,若能为用户提供更多行之有效的检索限定方式,就能缩小新闻资讯的检索范围,减轻用户挑选、处理大量信息的负担,在一定程度上能更好地满足部分用户的特定需求。
  
  3.4 订阅途径
  Google与百度都具有关键词订阅和邮件订阅两种新闻资讯订阅途径。此外,百度还特别提供了分类新闻订阅和RSS新闻订阅两种途径,更全面地满足了用户的需求。
  
  3.5 个性化信息提供结果
  (1)结果排序:Google、百度均可采用“按时间”与“按相关性”两种排序方式。
  (2)刷新时间:百度每隔5分钟自动刷新一次,Google的刷新相对滞后。
  (3)信息相关度:倘若搜索引擎推送的实时信息不能符合用户的个性化需求,再多也是无济于事。
  (4)信息重复率:倘若搜索引擎推送的实时信息中存在大量重复信息,必将增加用户筛选、处理信息的负担。
  (5)死链率:死链会加重用户处理检索结果的负担,降低用户获取信息的效率。
  (6)返回结果总数:能从一定程度上反映搜索引擎提供新闻信息的全面性。
  针对上述指标(3)、(4)、(5)、(6),笔者从中文Web信息检索评测集的主题提取中,挑选出更新速度较快、非历史性的一些主题,并在这个主题集合中随机选择10个主题,主题编号分别为TD217、TD218、TD222、TD223、TD236、TD239、TD249、TD253、TD260、TD264。然后,由多名实验员按照各自的习惯选择关键词,分别在Google和百度中定制个性化新闻资讯,再逐一检查每个关键词返回新闻结果的前80条,按照实验员自己的需求判断其相关性,并对重复率、死链率进行统计,以实现个性化新闻服务功能的评测。
  从以上评测结果可以看到,百度提供的新闻信息内容更为丰富,不仅包含最新信息,还包含大量的历史信息,其查全率更高,但过多的返回结果使重复和死链的几率也更高;Google在搜索结果的“去重”方面更有优势,其更侧重于最新或近期信息的提供。
  我们在实验中发现,若用户请求个性化信息服务的检索词概念外延过大、涉及面过广,则会导致推荐的信息量过大,从而加重用户负担。例如,采用“NBA”这一关键词在Google个性化资讯中进行检索,共获得12155条记录,其中距实验时间2天内的资讯结果有690条,而在百度中总共获得了79万条记录,其中有501条为2天内的资讯。改用“NBA姚明火箭”进行搜索,Google共获得4167条记录,其中2天内的资讯有173条,而在百度中获得了19万条记录,其中2天内的资讯有131条。因此,搜索引擎有必要在帮助文档中给出一些使用技巧,提高个性化信息服务效果。
  实验中还发现,Google在单位时间内的新闻推送量大于百度,但其推送的历史信息数量则少于百度。事实上,用户可能对某新闻主题的历史背景信息也很感兴趣。倘若搜索引擎选择推送信息的时间跨度过小,那么在用户搜索某新闻量较少、更新频率较低的主题时,只能得到数目过少的新闻资讯,从而不能很好地满足用户的信息需求。此外,对于知识性、学术性的信息,搜索引擎个性化信息服务提供的效果较差,出现许多不相关或无价值的推送信息。相比较而言,大众性的个性化信息服务效果更好一些。
  
  4 总结与展望
  
  从搜索引擎现有的个性化信息服务机制来看,主要还是利用其强大的信息检索能力,针对用户一定的个性化信息需求,实现用户个性化页面定制以及个性化信息推送服务的功能。搜索引擎已开始运用信息推送、页面定制、协同过滤等个性化信息服务机制中的思想来构建用户的个性化信息集合,在个性化信息服务的提供上正逐步前进。然而,其个性化信息需求满足层次还比较低,基本上只是停留在前文第一部分中所描述的第一层次上,而针对非新闻资讯类信息的个性化服务甚至难以满足第一层次的需求。由此可见,搜索引擎个性化信息服务的智能化程度、个性化层次尚处于初级阶段,其中还面临着诸多的问题和障碍,有待逐步解决。未来的搜索引擎要想实现更为实质性的个性化信息搜索服务、提供更好的个性化信息服务效果,在两大模块的构建尤其是用户的个性化兴趣模型上,以及如何在技术上实现个性化信息服务的相关机制方面,有待进一步研究与开发。
其他文献
今天的班会课上,我请同学们给我提点建议,以便改进自己的教育教学,并承诺有错必改,知错必纠。其中一位同学的建议出乎我的意料,他说:“老师,能不能把你眼镜的茶色镜片换个透
一日,路过某市第一中学,从颇为气派的校门望进去,一堵大大的影壁中央写着四个魏碑体的大字:博学笃行.笔者感到惶惑:“博学”之后就去“笃行”,倡导者似乎在有意无意之间忽略
马克思主义理论内含三种基本理论形态。邓小平理论实质上是关于建设有中国特色社会主义实践的“具体实践理论形态”的理论,它赖以形成的“思考方式”是马克思主义理论思维的一
本文在分析传统实验教学存在弊端的基础上,通过探讨“综合性实验”教学模式,让学生主导实验的整体设计与实现过程,这不仅推进了实验教学改革,也调动了学生的学习积极性和主动
由中国互联网协会主办的2007中国互联网大会将于9月底举行.本次会议的主题是:完善诚信交易环境,拓展多元营销渠道,促进商业盈利效果.
2004年的高考已尘埃落定,今年国家分地区制定了四套全国卷,除北京、天津、上海等地之外,还赋予了浙江、江苏、广东、福建、重庆、湖北、辽宁等省市以自主命题权,这样,就出现
自20世纪90年代后期以来,随着生态学理论的引入,信息生态问题日趋成为现代信息管理界的一个研究热点。与以往片面强调技术的作用所不同,信息生态通过对人、技术、信息和环境进行综合考察,重新审视了技术中心论所导致的诸多问题,为现代信息管理提供了一个新的思路。笔者利用中国学术期刊数据库、万方数据库、维普数据库及全国报刊索引等检索工具,以“信息生态”为题名和关键词进行检索,共检出1995年起至2006年12
据4月4日报道,郑州轻工业学院在该省高校中率先推行了“德育学分制”,即将德育的内容和环节学分化,将德育的过程和结果成绩化,要求大学生在修满规定学分之外,必须修够规定的
本文运用现代管理学的SWOT分析,剖析了目前我国自主创业的大学生群体扎实的知识基础、思维开阔、拥有激情等优势;资金来源不明、经验不足、市场风险意识不够等劣势.结合有利