论文部分内容阅读
一、搜索引擎的技术竞争
2000年年中,著名的门户网站Yahoo!宣布更换搜索引擎提供商,由原来的提供商转向google,根本原因就是google的搜索技术技高一筹,能够提供更快更智能的服务。
实际上,这是一个标志性事件。它宣布了传统的全文检索技术(Yahoo!原来的搜索引擎提供商提供的是纯粹的全文检索)在互联网信息搜索中的衰落。搜索引擎与电子邮件是互联网上应用最多的服务,各搜索引擎提供商在技术方面竞争非常激烈,技术上稍有落后,就会被淘汰出局。
那么,为什么说全文检索技术在互联网信息检索方面已经落后呢?原因是互联网信息实在太丰富了,是海量信息。全文检索技术在处理海量的信息方面最大的问题就是返回的匹配文档太多。例如,您只要在任意一个搜索引擎上查询“安全”、“信息”之类的检索词,都能够返回上百万的匹配网页。由于互联网信息过于庞大,返回的匹配结果太多,实际上没有一个用户能够有足够的时间和精力看完所有的结果。根据国外的统计,一般用户最多浏览前5页。因此,全文检索不仅造成服务器端的计算开销浪费,而且对用户造成了很大的干扰:想查的信息查不着,不想查的信息成千上万,这个问题越来越困扰着广大用户。
二、首信公司的概念检索研究
信息检索是网络信息服务中一项基本需求,网络上的中文信息越来越多,缺乏良好的信息检索与导航工具将阻碍网络应用发展。提高搜索引擎的核心技术成为一个迫切需要解决的问题。
国外的最新的网络信息检索朝智能化、综合化发展,强调对网页信息的深入处理(如内容分析,分类、Web信息数据挖掘等),并逐步进入中国市场。
在这些情况下,如何针对中文信息的特点,研发具有我们自己知识产权、性能优异的搜索引擎核心技术?对于这个问题,首信公司北京网络多媒体实验室给出了自己的答案。
1999年,首信公司北京网络多媒体实验室承担的国家863计划智能计算机主题课题“中文智能搜索引擎”。如何实现搜索引擎的“智能”?课题的技术负责人郭祥昊博士经过多方调研,认为搜索引擎技术需要大的创新,在体系结构和基础技术上都要采用新的方法,新的思路。他决定带领由多名博士和硕士组成的课题组实现中文的概念检索技术。经过两年的努力,课题组第一次实现了真正的中文概念检索,其技术达到了国际领先水平。
三、概念检索和目前搜索引擎的区别
我们可以从下面的例子得到一些直观感觉。
当我们检索“中央银行”这样的词时,传统的中文搜索引擎都返回上万的匹配网页,用户得自己在这些大量的网页中一页一页翻看自己真正想找的信息。而课题组实现的概念检索却完全不同。见下面的图1:
图1概念检索“中央银行”时,返回的结果
除了返回71个匹配网页之外,图的左侧是概念检索系统对“中央银行”的概念联想。如“货币政策”、“中国人民银行”、“金融资产”、“外汇市场”等与“中央银行”紧密相关的概念。
这些联想概念有什么用处呢?
一是对用户的查询起提醒和引导作用。例如当用户检索“中央银行”时,可能他实际上还想检索“贷款利率”方面的文档,通过点击“贷款利率”,他就可以得到相关的匹配网页。而在一般的搜索引擎中,他得不到相应的提醒和引导,只能自己再检索“贷款利率”一次,过程十分繁琐。
二能够显著地缩小搜索范围。在上面的例子中,“中央银行”匹配的网页数目是71个,用户可以再检索“中央银行”与它的概念联想的逻辑组合。例如下图是检索“中央银行”和“信贷政策”:
图2概念联想的组合查询
结果得到反映中央银行和信贷政策的网页4个。从71到4,匹配的网页数目急剧下降。实际上,这是概念检索的另外一个强大的功能:帮助用户在大量的文档中快速定位用户真正关心的信息。
在课题组进行的大规模测试中,他们实现的概念检索能够把匹配的文档数目平均降低到全文检索的15.3%,也就是说,基本解决了全文检索匹配文档数目过多的难题。这不仅是一项重大研究成果,也是中文信息检索领域中的重大创新。成果的应用将有助于用户在互联网上又快又准地找到信息。
四、有关概念检索的技术问题
概念检索效果如此显著,那么,它背后的技术是怎样的?它与全文检索又有什么差异呢?
下面是两者在体系结构上的差异:
图3:概念检索与全文检索的体系结构差异
在图3中,左边是传统的全文检索体系结构。当用户检索某个词时,系统直接访问全文数据库。这样不免要返回大量的匹配文档。
右边是课题组实现的概念检索体系结构。用户检索某个词时,检索词首先落到概念图中,系统在概念图中对检索词进行语义处理和联想,根据处理和联想的结果,再调度底层的全文数据库。因此,给用户的返回结果中,不仅有匹配的文档,而且还有系统给用户的检索建议(概念联想结果)。这种检索模式下,用户检索信息始终感到有一个专家在提供建议,引导着自己的信息检索全过程。概念检索的智能之处也就在此。
可以看出,概念检索与目前流行的全文检索的最大差异,就在于它有一个概念图。
五、概念检索的核心技术:概念图
概念图实际上是一个庞大的知识库。人工智能技术认为:“智能来自知识”。没有一个大而准确的知识库,概念检索就不能实现。
概念图是如何得到的?
首先,为解决传统搜索引擎中基于关键词匹配的全文检索缺乏知识处理能力和理解能力的问题,郭祥昊博士提出了“以知识网络对互联网络”的信息检索理论(简称“以网对网”理论)来提高搜索引擎智能水平。实践证明,该理论是互联网信息检索的一种新的具有指导性的理论。
“以网对网”理论认为,互联网的信息表现形式多种多样,但是其本质表现的,实际上不是别的,是人类丰富而复杂的知识。知识从来不是孤立的,它们相互联系,形成了一个无比巨大的网络。
用全文检索系统来检索互联网信息,出现的最突出问题就是返回的匹配网页数目过多,不仅起不到信息查询的作用,大量的匹配网页反而把用户真正要检索的信息给“淹没”了。检索方面表现这种困难的根本原因在于,它的检索模式是“以词对网”,也就是以一个词(或若干个词的逻辑组合)来对丰富复杂的知识网络进行检索。这种模式的根本缺陷在于它对信息的处理太表面化和形式化,而不试图理解用户的查询意图。
在“以网对网”理论指导下,课题组首次实现了中文概念检索技术,概念图的构造过程就是用计算机自动从大量网页中自动提炼知识、计算知识之间联系的过程。为了实现这个过程,课题组应用了人工智能技术、计算语言学技术特别是中文处理的最前沿技术。课题组在研究中在下面两个关键技术上取得了突破:
1.大规模语料库的概念短语发现算法。综合运用语料库语言学方法和基于规则的方法,自动发现计算语料库中的概念短语。关键技术是基于统计的意义块(chunking)计算和汉语词性标注、NP以及NP块的自动识别。
2.大规模语料库的概念关系计算。课题组的算法使用概念短语的文档共现分析,得到非对称的概念连接强度,实验证明其效果明显高于常见的对称式共现分析算法。
在突破了上述技术后,实现的概念检索具有下面的三个特点:一、实现了概念层次的检索,突破了关键词检索局限于形式的固有缺陷;二、对用户检索请求实现了合理的相关联想,能够对用户的检索实现智能导航;三、概念联想显著地缩小了信息搜索范围,能够快速定位用户所需文档。
课题组在概念检索上的研究引起了广泛的注意,发表了20篇学术论文,其中在学术水平和会议规模都堪称世界一流第16届世界计算机大会上发表论文1篇,课题组核心成员在大会上宣读论文并参与学术讨论,扩大了影响。
六、应用前景
以该课题技术为核心,首都信息发展股份有限公司开发了“倚天”内容导航引擎产品,已经进入了首都公司的市场运作阶段。与传统的全文检索不同,“倚天”内容导航引擎以概念检索为最大特色,强调的是提高信息检索的智能程度。它对专业网站、企业网站、学校网站、数字图书馆、行业网、大型网站的专栏搜索效果尤其好。
目前,互联网信息的垂直化和专业化发展趋势十分明显。“倚天”内容导航引擎由于采用了数据驱动的概念检索技术,十分适合于专业方面的信息检索,智能程度与全文检索相比有很大的优势,有广阔的市场前景,推广后能够得到良好的经济效益。以ASP方式来为互联网专业网站提供智能搜索,基本上可以取代目前的全文检索系统。
2000年年中,著名的门户网站Yahoo!宣布更换搜索引擎提供商,由原来的提供商转向google,根本原因就是google的搜索技术技高一筹,能够提供更快更智能的服务。
实际上,这是一个标志性事件。它宣布了传统的全文检索技术(Yahoo!原来的搜索引擎提供商提供的是纯粹的全文检索)在互联网信息搜索中的衰落。搜索引擎与电子邮件是互联网上应用最多的服务,各搜索引擎提供商在技术方面竞争非常激烈,技术上稍有落后,就会被淘汰出局。
那么,为什么说全文检索技术在互联网信息检索方面已经落后呢?原因是互联网信息实在太丰富了,是海量信息。全文检索技术在处理海量的信息方面最大的问题就是返回的匹配文档太多。例如,您只要在任意一个搜索引擎上查询“安全”、“信息”之类的检索词,都能够返回上百万的匹配网页。由于互联网信息过于庞大,返回的匹配结果太多,实际上没有一个用户能够有足够的时间和精力看完所有的结果。根据国外的统计,一般用户最多浏览前5页。因此,全文检索不仅造成服务器端的计算开销浪费,而且对用户造成了很大的干扰:想查的信息查不着,不想查的信息成千上万,这个问题越来越困扰着广大用户。
二、首信公司的概念检索研究
信息检索是网络信息服务中一项基本需求,网络上的中文信息越来越多,缺乏良好的信息检索与导航工具将阻碍网络应用发展。提高搜索引擎的核心技术成为一个迫切需要解决的问题。
国外的最新的网络信息检索朝智能化、综合化发展,强调对网页信息的深入处理(如内容分析,分类、Web信息数据挖掘等),并逐步进入中国市场。
在这些情况下,如何针对中文信息的特点,研发具有我们自己知识产权、性能优异的搜索引擎核心技术?对于这个问题,首信公司北京网络多媒体实验室给出了自己的答案。
1999年,首信公司北京网络多媒体实验室承担的国家863计划智能计算机主题课题“中文智能搜索引擎”。如何实现搜索引擎的“智能”?课题的技术负责人郭祥昊博士经过多方调研,认为搜索引擎技术需要大的创新,在体系结构和基础技术上都要采用新的方法,新的思路。他决定带领由多名博士和硕士组成的课题组实现中文的概念检索技术。经过两年的努力,课题组第一次实现了真正的中文概念检索,其技术达到了国际领先水平。
三、概念检索和目前搜索引擎的区别
我们可以从下面的例子得到一些直观感觉。
当我们检索“中央银行”这样的词时,传统的中文搜索引擎都返回上万的匹配网页,用户得自己在这些大量的网页中一页一页翻看自己真正想找的信息。而课题组实现的概念检索却完全不同。见下面的图1:
图1概念检索“中央银行”时,返回的结果
除了返回71个匹配网页之外,图的左侧是概念检索系统对“中央银行”的概念联想。如“货币政策”、“中国人民银行”、“金融资产”、“外汇市场”等与“中央银行”紧密相关的概念。
这些联想概念有什么用处呢?
一是对用户的查询起提醒和引导作用。例如当用户检索“中央银行”时,可能他实际上还想检索“贷款利率”方面的文档,通过点击“贷款利率”,他就可以得到相关的匹配网页。而在一般的搜索引擎中,他得不到相应的提醒和引导,只能自己再检索“贷款利率”一次,过程十分繁琐。
二能够显著地缩小搜索范围。在上面的例子中,“中央银行”匹配的网页数目是71个,用户可以再检索“中央银行”与它的概念联想的逻辑组合。例如下图是检索“中央银行”和“信贷政策”:
图2概念联想的组合查询
结果得到反映中央银行和信贷政策的网页4个。从71到4,匹配的网页数目急剧下降。实际上,这是概念检索的另外一个强大的功能:帮助用户在大量的文档中快速定位用户真正关心的信息。
在课题组进行的大规模测试中,他们实现的概念检索能够把匹配的文档数目平均降低到全文检索的15.3%,也就是说,基本解决了全文检索匹配文档数目过多的难题。这不仅是一项重大研究成果,也是中文信息检索领域中的重大创新。成果的应用将有助于用户在互联网上又快又准地找到信息。
四、有关概念检索的技术问题
概念检索效果如此显著,那么,它背后的技术是怎样的?它与全文检索又有什么差异呢?
下面是两者在体系结构上的差异:
图3:概念检索与全文检索的体系结构差异
在图3中,左边是传统的全文检索体系结构。当用户检索某个词时,系统直接访问全文数据库。这样不免要返回大量的匹配文档。
右边是课题组实现的概念检索体系结构。用户检索某个词时,检索词首先落到概念图中,系统在概念图中对检索词进行语义处理和联想,根据处理和联想的结果,再调度底层的全文数据库。因此,给用户的返回结果中,不仅有匹配的文档,而且还有系统给用户的检索建议(概念联想结果)。这种检索模式下,用户检索信息始终感到有一个专家在提供建议,引导着自己的信息检索全过程。概念检索的智能之处也就在此。
可以看出,概念检索与目前流行的全文检索的最大差异,就在于它有一个概念图。
五、概念检索的核心技术:概念图
概念图实际上是一个庞大的知识库。人工智能技术认为:“智能来自知识”。没有一个大而准确的知识库,概念检索就不能实现。
概念图是如何得到的?
首先,为解决传统搜索引擎中基于关键词匹配的全文检索缺乏知识处理能力和理解能力的问题,郭祥昊博士提出了“以知识网络对互联网络”的信息检索理论(简称“以网对网”理论)来提高搜索引擎智能水平。实践证明,该理论是互联网信息检索的一种新的具有指导性的理论。
“以网对网”理论认为,互联网的信息表现形式多种多样,但是其本质表现的,实际上不是别的,是人类丰富而复杂的知识。知识从来不是孤立的,它们相互联系,形成了一个无比巨大的网络。
用全文检索系统来检索互联网信息,出现的最突出问题就是返回的匹配网页数目过多,不仅起不到信息查询的作用,大量的匹配网页反而把用户真正要检索的信息给“淹没”了。检索方面表现这种困难的根本原因在于,它的检索模式是“以词对网”,也就是以一个词(或若干个词的逻辑组合)来对丰富复杂的知识网络进行检索。这种模式的根本缺陷在于它对信息的处理太表面化和形式化,而不试图理解用户的查询意图。
在“以网对网”理论指导下,课题组首次实现了中文概念检索技术,概念图的构造过程就是用计算机自动从大量网页中自动提炼知识、计算知识之间联系的过程。为了实现这个过程,课题组应用了人工智能技术、计算语言学技术特别是中文处理的最前沿技术。课题组在研究中在下面两个关键技术上取得了突破:
1.大规模语料库的概念短语发现算法。综合运用语料库语言学方法和基于规则的方法,自动发现计算语料库中的概念短语。关键技术是基于统计的意义块(chunking)计算和汉语词性标注、NP以及NP块的自动识别。
2.大规模语料库的概念关系计算。课题组的算法使用概念短语的文档共现分析,得到非对称的概念连接强度,实验证明其效果明显高于常见的对称式共现分析算法。
在突破了上述技术后,实现的概念检索具有下面的三个特点:一、实现了概念层次的检索,突破了关键词检索局限于形式的固有缺陷;二、对用户检索请求实现了合理的相关联想,能够对用户的检索实现智能导航;三、概念联想显著地缩小了信息搜索范围,能够快速定位用户所需文档。
课题组在概念检索上的研究引起了广泛的注意,发表了20篇学术论文,其中在学术水平和会议规模都堪称世界一流第16届世界计算机大会上发表论文1篇,课题组核心成员在大会上宣读论文并参与学术讨论,扩大了影响。
六、应用前景
以该课题技术为核心,首都信息发展股份有限公司开发了“倚天”内容导航引擎产品,已经进入了首都公司的市场运作阶段。与传统的全文检索不同,“倚天”内容导航引擎以概念检索为最大特色,强调的是提高信息检索的智能程度。它对专业网站、企业网站、学校网站、数字图书馆、行业网、大型网站的专栏搜索效果尤其好。
目前,互联网信息的垂直化和专业化发展趋势十分明显。“倚天”内容导航引擎由于采用了数据驱动的概念检索技术,十分适合于专业方面的信息检索,智能程度与全文检索相比有很大的优势,有广阔的市场前景,推广后能够得到良好的经济效益。以ASP方式来为互联网专业网站提供智能搜索,基本上可以取代目前的全文检索系统。