概念检索研究

来源 :互联网世界 | 被引量 : 0次 | 上传用户:zhangshuyunhuiming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、搜索引擎的技术竞争
  
  2000年年中,著名的门户网站Yahoo!宣布更换搜索引擎提供商,由原来的提供商转向google,根本原因就是google的搜索技术技高一筹,能够提供更快更智能的服务。
  实际上,这是一个标志性事件。它宣布了传统的全文检索技术(Yahoo!原来的搜索引擎提供商提供的是纯粹的全文检索)在互联网信息搜索中的衰落。搜索引擎与电子邮件是互联网上应用最多的服务,各搜索引擎提供商在技术方面竞争非常激烈,技术上稍有落后,就会被淘汰出局。
  那么,为什么说全文检索技术在互联网信息检索方面已经落后呢?原因是互联网信息实在太丰富了,是海量信息。全文检索技术在处理海量的信息方面最大的问题就是返回的匹配文档太多。例如,您只要在任意一个搜索引擎上查询“安全”、“信息”之类的检索词,都能够返回上百万的匹配网页。由于互联网信息过于庞大,返回的匹配结果太多,实际上没有一个用户能够有足够的时间和精力看完所有的结果。根据国外的统计,一般用户最多浏览前5页。因此,全文检索不仅造成服务器端的计算开销浪费,而且对用户造成了很大的干扰:想查的信息查不着,不想查的信息成千上万,这个问题越来越困扰着广大用户。
  
  二、首信公司的概念检索研究
  
  信息检索是网络信息服务中一项基本需求,网络上的中文信息越来越多,缺乏良好的信息检索与导航工具将阻碍网络应用发展。提高搜索引擎的核心技术成为一个迫切需要解决的问题。
  国外的最新的网络信息检索朝智能化、综合化发展,强调对网页信息的深入处理(如内容分析,分类、Web信息数据挖掘等),并逐步进入中国市场。
  在这些情况下,如何针对中文信息的特点,研发具有我们自己知识产权、性能优异的搜索引擎核心技术?对于这个问题,首信公司北京网络多媒体实验室给出了自己的答案。
  1999年,首信公司北京网络多媒体实验室承担的国家863计划智能计算机主题课题“中文智能搜索引擎”。如何实现搜索引擎的“智能”?课题的技术负责人郭祥昊博士经过多方调研,认为搜索引擎技术需要大的创新,在体系结构和基础技术上都要采用新的方法,新的思路。他决定带领由多名博士和硕士组成的课题组实现中文的概念检索技术。经过两年的努力,课题组第一次实现了真正的中文概念检索,其技术达到了国际领先水平。
  
  三、概念检索和目前搜索引擎的区别
  
  我们可以从下面的例子得到一些直观感觉。


  当我们检索“中央银行”这样的词时,传统的中文搜索引擎都返回上万的匹配网页,用户得自己在这些大量的网页中一页一页翻看自己真正想找的信息。而课题组实现的概念检索却完全不同。见下面的图1:
  图1概念检索“中央银行”时,返回的结果
  除了返回71个匹配网页之外,图的左侧是概念检索系统对“中央银行”的概念联想。如“货币政策”、“中国人民银行”、“金融资产”、“外汇市场”等与“中央银行”紧密相关的概念。
  这些联想概念有什么用处呢?
  一是对用户的查询起提醒和引导作用。例如当用户检索“中央银行”时,可能他实际上还想检索“贷款利率”方面的文档,通过点击“贷款利率”,他就可以得到相关的匹配网页。而在一般的搜索引擎中,他得不到相应的提醒和引导,只能自己再检索“贷款利率”一次,过程十分繁琐。
  二能够显著地缩小搜索范围。在上面的例子中,“中央银行”匹配的网页数目是71个,用户可以再检索“中央银行”与它的概念联想的逻辑组合。例如下图是检索“中央银行”和“信贷政策”:
  图2概念联想的组合查询
  结果得到反映中央银行和信贷政策的网页4个。从71到4,匹配的网页数目急剧下降。实际上,这是概念检索的另外一个强大的功能:帮助用户在大量的文档中快速定位用户真正关心的信息。
  在课题组进行的大规模测试中,他们实现的概念检索能够把匹配的文档数目平均降低到全文检索的15.3%,也就是说,基本解决了全文检索匹配文档数目过多的难题。这不仅是一项重大研究成果,也是中文信息检索领域中的重大创新。成果的应用将有助于用户在互联网上又快又准地找到信息。
  
  四、有关概念检索的技术问题
  
  概念检索效果如此显著,那么,它背后的技术是怎样的?它与全文检索又有什么差异呢?


  下面是两者在体系结构上的差异:
  图3:概念检索与全文检索的体系结构差异
  在图3中,左边是传统的全文检索体系结构。当用户检索某个词时,系统直接访问全文数据库。这样不免要返回大量的匹配文档。
  右边是课题组实现的概念检索体系结构。用户检索某个词时,检索词首先落到概念图中,系统在概念图中对检索词进行语义处理和联想,根据处理和联想的结果,再调度底层的全文数据库。因此,给用户的返回结果中,不仅有匹配的文档,而且还有系统给用户的检索建议(概念联想结果)。这种检索模式下,用户检索信息始终感到有一个专家在提供建议,引导着自己的信息检索全过程。概念检索的智能之处也就在此。
  可以看出,概念检索与目前流行的全文检索的最大差异,就在于它有一个概念图。
  
  五、概念检索的核心技术:概念图
  
  概念图实际上是一个庞大的知识库。人工智能技术认为:“智能来自知识”。没有一个大而准确的知识库,概念检索就不能实现。
  概念图是如何得到的?
  首先,为解决传统搜索引擎中基于关键词匹配的全文检索缺乏知识处理能力和理解能力的问题,郭祥昊博士提出了“以知识网络对互联网络”的信息检索理论(简称“以网对网”理论)来提高搜索引擎智能水平。实践证明,该理论是互联网信息检索的一种新的具有指导性的理论。
  “以网对网”理论认为,互联网的信息表现形式多种多样,但是其本质表现的,实际上不是别的,是人类丰富而复杂的知识。知识从来不是孤立的,它们相互联系,形成了一个无比巨大的网络。
  用全文检索系统来检索互联网信息,出现的最突出问题就是返回的匹配网页数目过多,不仅起不到信息查询的作用,大量的匹配网页反而把用户真正要检索的信息给“淹没”了。检索方面表现这种困难的根本原因在于,它的检索模式是“以词对网”,也就是以一个词(或若干个词的逻辑组合)来对丰富复杂的知识网络进行检索。这种模式的根本缺陷在于它对信息的处理太表面化和形式化,而不试图理解用户的查询意图。
  在“以网对网”理论指导下,课题组首次实现了中文概念检索技术,概念图的构造过程就是用计算机自动从大量网页中自动提炼知识、计算知识之间联系的过程。为了实现这个过程,课题组应用了人工智能技术、计算语言学技术特别是中文处理的最前沿技术。课题组在研究中在下面两个关键技术上取得了突破:
  1.大规模语料库的概念短语发现算法。综合运用语料库语言学方法和基于规则的方法,自动发现计算语料库中的概念短语。关键技术是基于统计的意义块(chunking)计算和汉语词性标注、NP以及NP块的自动识别。
  2.大规模语料库的概念关系计算。课题组的算法使用概念短语的文档共现分析,得到非对称的概念连接强度,实验证明其效果明显高于常见的对称式共现分析算法。
  在突破了上述技术后,实现的概念检索具有下面的三个特点:一、实现了概念层次的检索,突破了关键词检索局限于形式的固有缺陷;二、对用户检索请求实现了合理的相关联想,能够对用户的检索实现智能导航;三、概念联想显著地缩小了信息搜索范围,能够快速定位用户所需文档。
  课题组在概念检索上的研究引起了广泛的注意,发表了20篇学术论文,其中在学术水平和会议规模都堪称世界一流第16届世界计算机大会上发表论文1篇,课题组核心成员在大会上宣读论文并参与学术讨论,扩大了影响。
  
  六、应用前景
  
  以该课题技术为核心,首都信息发展股份有限公司开发了“倚天”内容导航引擎产品,已经进入了首都公司的市场运作阶段。与传统的全文检索不同,“倚天”内容导航引擎以概念检索为最大特色,强调的是提高信息检索的智能程度。它对专业网站、企业网站、学校网站、数字图书馆、行业网、大型网站的专栏搜索效果尤其好。
  目前,互联网信息的垂直化和专业化发展趋势十分明显。“倚天”内容导航引擎由于采用了数据驱动的概念检索技术,十分适合于专业方面的信息检索,智能程度与全文检索相比有很大的优势,有广阔的市场前景,推广后能够得到良好的经济效益。以ASP方式来为互联网专业网站提供智能搜索,基本上可以取代目前的全文检索系统。
其他文献
当国人还在对以WAP为代表的移动互联网应用的市场前景疑虑重重之时,在北京2000年中国国际通讯设备技术展览会上,无线视频传输领域的先驱——美国PacketVideo公司展示了其全球领先的端对端无线视频编解码及传输技术。借助北京移动和摩托罗拉公司提供的2.5代GPRS网络,PacketVideo公司使用其基于MPEG-4标准开发的端对端无线视频解决方案PVPlatform,在14.4Kbps的速率下
期刊
随着中国IT产业的迅猛发展,网络系统的兴起,UPS在各行各业的应用越来越广泛,用户对UPS的要求也越来越高。在众多UPS生产厂家中,华为电气的iTrust系列UPS产品异军突起,以先进的DSP全数字控制技术,智能化的电池管理,人性化的网络监控,维护便捷性设计,尤其使针对中国电网环境和用户使用习惯作了许多独特的改进,成为UPS业界的后起之秀。并以优质的服务声誉,迅速进入电信、金融、交通等许多行业领域
期刊
10月24日至28日,由中华人民共和国信息产业部和中国国际贸易促进委员会主办的“2000年中国国际通讯设备及技术展览会”在北京国际展览中心成功举办,来自23个国家的640多家厂商参展,无论从展会规模、参展厂商数量、参展产品和技术的份量及对行业和市场的影响力,都可称得上是迄今为止中国乃至亚洲最大、最成功的电信及信息产业展。对处于世纪之交的变革时期的中国通信产业和信息产业无疑具有重要的意义。展会当中显
期刊
随着Internet用户数量的急剧增长和网上业务类型的日益丰富,Internet对带宽的需求越来越大。据统计,每6到9个月,Internet的骨干带宽就增长一倍,但是与此同时网上业务流量的增长速度更快,年增长率达400%。业务流量的急速增长使得Internet无法满足应用对带宽的需求,网络拥塞也就成为Internet所面临的必须解决的问题。    一、拥塞产生的原因    Internet是基于T
期刊
随着网络技术的发展,尤其是Internet的迅速普及,推动了社会各个领域的前进和变革,对人类经济、文化乃至生活模式都产生了巨大影响,我们已经步入“网络时代”。然而,就在企业、政府、家庭、个人纷纷上网,电子商务、网站建设风起云涌的同时,网络安全及其相关问题也越来越突出。  网络安全是一个系统的概念,完善的网络安全体系,必须合理协调法律、技术和管理三种因素。网络安全主要包括:数据保密、访问控制、身份认
期刊
在构建互联网商业的浪潮中,许多从事网络营销的公司都将其主要注意力集中在如何吸引更多的顾客上,而往往忽略了留住那些忠诚的顾客。在独特的网络营销世界中,顾客的忠诚是决定竞争成败的关键。  诚然,对于这样一个顾客可以通过随意击点鼠标到处寻觅对自己最为有利的交易资料,然后进行非人格化网上购物的虚拟世界里,轻易的背叛已经把恪守忠诚,这种“小城镇式”的美德衬托得更为陈旧而笨拙,但对未来利润充满不确定性的网络公
期刊
全世界范围内的各个企业都在经历一场深刻的变革,它关系到企业在未来怎样与客户和与潜在客户进行交流和互动。在80年代中期及90年代初,许多企业开始重新设计其商业流程,以期降低成本并提高效率和竞争能力。同时,这些企业也意识到,要达到这些目的,所需要开发的技术耗资巨大、复杂且耗时冗长。因此,许多公司转而求助于企业资源规划(ERP)应用系统。这些应用系统帮助它们实现了内部商业流程,如财务、制造、库存管理和人
期刊
近年来,网络经济热潮一浪高过一浪,不同行业,不同背景的资金纷纷涌入,使互联网产业持续升温。有人预言,21世纪电子商务将成为商务模式的主流。因而,继ISP(网络设备供应商)、ICP(网络内容供应商)之后,更多人发现互联网除了提供更快捷的信息和更方便沟通外,另一个重要功能在于提高商业流程,于是ASP(网络应用服务商)就顺利成章地成为网络发展的最新热点之一。  作为现时代最新的沟通工具和管理工具,互联网
期刊
一、Internet与数据库营销    企业信息化的发展促进了数据库营销的产生与发展。企业信息化是企业利用现代信息技术,通过信息资源的深入开发和广泛应用,不断提高生产、经营、管理、决策的效率和水平,进而提高企业经济效益和竞争力的过程。在信息化的过程中,企业需要积累海量的信息,并将这些信息归类整理,以支持企业的生产经营活动。于是,产生了许多类型各异的数据库,其中之一就是营销数据库。营销数据库中积累了
期刊
21世纪的e时代正悄然来临。在未来全球化的电子商务市场中,企业要想克敌制胜,就一定要有客观、冷静、高瞻远瞩而又步步为营的发展战略和目标。所谓“运筹帷幄,决胜千里”,这才是企业在新经济大潮冲击下站稳脚跟并得以长足发展的根本。  众所周知,作为电子商务的倡导者和提供网络计算全面解决方案的公司,蓝色巨人IBM在电子商务领域一直稳步前行。良好的业绩除了来自IBM雄厚的技术实力及先进的企业管理之外,更与其顺
期刊