论文部分内容阅读
[摘要] 随着互联网中文本、音频、图像和视频等为载体的多媒体信息迅速增加,实现互联网中跨媒体数据的检索成为高效利用互联网信息迫切需要解决的问题。为实现跨媒体搜索,本文提出了一个跨媒体搜索架构,并将Agent思想和技术引入到架构中。这一架构的设计弥补了传统搜索的缺陷和不足,在很大程度上提高了搜索的智能性和高效性。
[关键词] 跨媒体 Agent 架构
1、引言
美国伊利诺大学香槟学校的Huang教授在MIR2008的特邀报告中将多媒体检索领域面临的挑战归结为7个“千年问题”:语义鸿沟、机器学习、人机交互、多媒体水印、数据挖掘、性能评估以及基于互联网的多媒体标注与检索[1]。从早期通过手工标注检索多媒体数据,到20世纪90年代初的基于内容的多媒体检索,再到目前对具有跨媒体特性的数据检索,互联网搜索已成为一个非常活跃的研究领域。而互联网的跨媒体特性对于实现互联网信息的搜索提出了更高的要求:(1)支持用户以更加自然的方式检索不同类型媒体数据。(2)整合文字、图像、音频、视频,通过多种方式多层次表达对象和主题,方便特定内容的搜索。(3)采用机器学习和数据挖掘技术聚合各种媒体数据所蕴含的摘要和主旨等信息,为用户提供深层次的服务。
为了提供给用户更为准确的多媒体信息,本文引入Agent技术,提出了一种跨媒体搜索引擎的架构,并详细阐述了各个部分的作用。该搜索框架在很大程度上弥补了传统互联网检索中出现的不足和问题。
2、Agent技术
Agent的理论、技术为系统的分析、设计和实现提供了一个崭新的途径[3],被誉为“软件开发的又一重大突破”。Agent理论与技术研究最早源于分布式人工智能(DAI),但从80年代末开始,Agent理论、技术研究从DAI领域中拓展开来,,并与许多其他领域相互借鉴和融合,在许多不同于最初DAI应用的领域得到了更为广泛的应用[4]。目前多数实用的互联网检索系统,都是统一用关键词来表达不同的媒体对象,而事实上很多图像或视频等多媒体数据是无法用几个关键词来简单描述的[5]。同时,这种检索方式无法支持用户在检索过程中用不同类型媒体表达检索意图,以检索不同类型的媒体数据。将Agents技术应用在跨媒体搜索中,主要有以下四点优势:
(1)Agent的自治性:Agent可以按照本地访问限制和安全策略来进行对本地数据的访问,进行不同数据源上信息的协作,从而加强了私有信息的保护。
(2)Agent的主动性:用户只需要在任务初始阶段给予Agents设定的目标和方法,Agents在运行过程中自己进行对任务执行过程的调整。
(3)Agent的自适应性:Agent可以动态地选择数据源和搜索多种类型数据。当环境发生变化时,Agents可以根据预先设定的规范,例如期望的数据量、类型、质量等,进行数据源的搜索和选择。
(4)Agent的协作性:通过视频Agent,音频Agent,图像Agent等专用Agent,使得它们能够适应互联网的大量多媒体数据,实现多种技术合作的数据搜索工作。
本文基于Agent上述特点,设计出一种基于Agent的跨媒体搜索框架,能够更好、更有效地进行跨媒体数据挖掘。
3、基于多Agent的跨媒体搜索框架
结合跨媒体特性与Agent的结构,本文设计了基于Agent的跨媒体系统结构,如图1所示。根据用户输入的关键词能够从搜集多种不同类型的信息。处理过程为:①将用户输入的查询条件交给人机Agent,人机Agent结合用户信息库中的信息,将查询任务交给管理Agent,管理Agent将查询任务进行分解并分别传递给多个适于检索不同媒体类型Agent(文本Agent,图像Agent,视频Agent,音频Agent)。② 各个Agent在互联网上进行信息检索,并将检索结果交给信息整合Agent③信息整合Agent将整合后的信息交给管理Agent,进行查询任务结果的记录,然后移交给人机交互Agent。④通过人机交互Agent返回给用户最终得到包含多种媒体类型的检索结果集。下面分别阐述各种类型Agent作用。
图1 基于Agent的跨媒体系统结构
(1)人机交互Agent:它是人与计算机交互的接口,取代了传统的计算机界面。当用户发出搜索请求时,人机交互Agent就会对用户的请求进行分析和判断,同时提取用户信息库中的信息,进行查询条件的建立。主要有三个功能。
①进行自我学习。它了解用户特征,分析用户的兴趣和习惯,并把这些特征记录在用户信息库中。
②任务移交。它把任务的详细分析结果交给管理Agent,由管理Agent来决定如何将任务分配给系统中的文本Agent,图像Agent,视频Agent和音频Agent。
③形象化反馈。当管理Agent将查询结果传给人机交互Agent时,它会根据用户的需求和习惯以友好的形式反馈给用户。
(2)管理Agent :它是整个系统的核心部分,主要有以下三个功能。
①掌握系统中的文本Agent、图像Agent 和视频Agent,音频Agent这4个Agent的信息、特性和属性,以及各自所能完成的任务,存放在自身的挖掘Agent状况表中,以便进行任务分解。
②接收来自人机交互Agent的任务请求分析报告。
③当查询条件模糊时,可以对信息进行二次分析,将整个问题分解成许多子问题,尽量使这些子问题可以被文本Agent、图像Agent 和视频Agent,音频Agent独立地完成。
(3)文本Agent、图像Agent 和视频Agent,音频Agent,每个Agent都有一定固有的特性,根据这些特性可以完成不同的任务和请求。每个挖掘Agent都对应着一个数据库,它具有对这个数据库操作的所有权限,可以进行读取和写入。比如文本Agent对应着文本数据库,图像Agent对应着图像数据库。它们在架构中,主要有以下三个功能。
①资源发现:文本Agent专门搜索文本资源,图像Agent专门搜索图像资源,视频Agent专门搜索视频资源,音频Agent专门搜索音频资源。
②资源监测:当对应的媒体资源信息进行更新时,能够通知管理Agent,从而告知用户。
③特征抽取:进行视频特征抽取,图像特征抽取,音频特征抽取和文本特征抽取,计算查询数据的特征向量与目标数据特征向量之间的相似距离,进行相似度匹配,给出每种媒体的查询结果。
(4)信息整合Agent:主要负责将系统中的各个挖掘Agent执行任务的结果进行集中处理,对搜索任务执行的结果进行评估和解释,删除冗余和无关信息,将最终得到的结果返回给人机交互Agent,并记录在用户信息库中,以备下次请求时使用。利用用户信息库,将查询结果依据用户的信息进行重新排序。
(5)用户信息库:在这个库中存放着用户经常用的信息和多次重复执行的任务结果。当次用户进行请求时,系统就可以直接从库中找到结果。另外,用户信息库中还存有与用户的某些属性和请求任务的某些特性,这些属性和特性可应用在搜索查询中。
4、结论
本文针对传统搜索对跨媒体内容检索效果不理想的情况,提出和阐述了一种利用Agent技术,对用户输入的查询条件进行搜索并返回各种类型媒体结果的跨媒体架构。该架构能够有效的对互联网中各种媒体进行检索,但本文方法仍然有待改进,例如,如何更好的进行查询结果的整合,多媒体特征的提取以及特征与概念之间的映射,这些问题有待于进一步的研究。
参考文献:
[1]刘大有, 杨鲲, 陈建中. Agent 研究现状与发展趋势[J]. 软件学报, 2000,11 (3 )
[2]Wu Fei, Zhang Hong, Zhuang Yueting. Learning Semantic Correlations for Cross-media Retrieval[C]//Proc. of International Conference on Image Processing. Atlanta, USA: IEEE Press
[3]吴飞, 庄越挺。互联网跨媒体分析与检索:理论与算法。计算机辅助设计与图形学学报 第22卷第1期 2010年1月
[4]Venkatesh S , Adams B , Phung D , et al . “You Tube and I find”—personalizing multimedia content access [J ] . Proceedings of t he IEEE , 2008 , 96 (4) : 6972711
[5]Chirita P,Olmedilla D,Nejdl W. PROS:A personalized ranking platform for web search [C] Int Conf on Adaptive Hypermedia and Web-Based Sys. The Netherlands,2004。
作者简介:
丛鑫,硕士研究生,研究方向:智能软件与Agent。
[关键词] 跨媒体 Agent 架构
1、引言
美国伊利诺大学香槟学校的Huang教授在MIR2008的特邀报告中将多媒体检索领域面临的挑战归结为7个“千年问题”:语义鸿沟、机器学习、人机交互、多媒体水印、数据挖掘、性能评估以及基于互联网的多媒体标注与检索[1]。从早期通过手工标注检索多媒体数据,到20世纪90年代初的基于内容的多媒体检索,再到目前对具有跨媒体特性的数据检索,互联网搜索已成为一个非常活跃的研究领域。而互联网的跨媒体特性对于实现互联网信息的搜索提出了更高的要求:(1)支持用户以更加自然的方式检索不同类型媒体数据。(2)整合文字、图像、音频、视频,通过多种方式多层次表达对象和主题,方便特定内容的搜索。(3)采用机器学习和数据挖掘技术聚合各种媒体数据所蕴含的摘要和主旨等信息,为用户提供深层次的服务。
为了提供给用户更为准确的多媒体信息,本文引入Agent技术,提出了一种跨媒体搜索引擎的架构,并详细阐述了各个部分的作用。该搜索框架在很大程度上弥补了传统互联网检索中出现的不足和问题。
2、Agent技术
Agent的理论、技术为系统的分析、设计和实现提供了一个崭新的途径[3],被誉为“软件开发的又一重大突破”。Agent理论与技术研究最早源于分布式人工智能(DAI),但从80年代末开始,Agent理论、技术研究从DAI领域中拓展开来,,并与许多其他领域相互借鉴和融合,在许多不同于最初DAI应用的领域得到了更为广泛的应用[4]。目前多数实用的互联网检索系统,都是统一用关键词来表达不同的媒体对象,而事实上很多图像或视频等多媒体数据是无法用几个关键词来简单描述的[5]。同时,这种检索方式无法支持用户在检索过程中用不同类型媒体表达检索意图,以检索不同类型的媒体数据。将Agents技术应用在跨媒体搜索中,主要有以下四点优势:
(1)Agent的自治性:Agent可以按照本地访问限制和安全策略来进行对本地数据的访问,进行不同数据源上信息的协作,从而加强了私有信息的保护。
(2)Agent的主动性:用户只需要在任务初始阶段给予Agents设定的目标和方法,Agents在运行过程中自己进行对任务执行过程的调整。
(3)Agent的自适应性:Agent可以动态地选择数据源和搜索多种类型数据。当环境发生变化时,Agents可以根据预先设定的规范,例如期望的数据量、类型、质量等,进行数据源的搜索和选择。
(4)Agent的协作性:通过视频Agent,音频Agent,图像Agent等专用Agent,使得它们能够适应互联网的大量多媒体数据,实现多种技术合作的数据搜索工作。
本文基于Agent上述特点,设计出一种基于Agent的跨媒体搜索框架,能够更好、更有效地进行跨媒体数据挖掘。
3、基于多Agent的跨媒体搜索框架
结合跨媒体特性与Agent的结构,本文设计了基于Agent的跨媒体系统结构,如图1所示。根据用户输入的关键词能够从搜集多种不同类型的信息。处理过程为:①将用户输入的查询条件交给人机Agent,人机Agent结合用户信息库中的信息,将查询任务交给管理Agent,管理Agent将查询任务进行分解并分别传递给多个适于检索不同媒体类型Agent(文本Agent,图像Agent,视频Agent,音频Agent)。② 各个Agent在互联网上进行信息检索,并将检索结果交给信息整合Agent③信息整合Agent将整合后的信息交给管理Agent,进行查询任务结果的记录,然后移交给人机交互Agent。④通过人机交互Agent返回给用户最终得到包含多种媒体类型的检索结果集。下面分别阐述各种类型Agent作用。
图1 基于Agent的跨媒体系统结构
(1)人机交互Agent:它是人与计算机交互的接口,取代了传统的计算机界面。当用户发出搜索请求时,人机交互Agent就会对用户的请求进行分析和判断,同时提取用户信息库中的信息,进行查询条件的建立。主要有三个功能。
①进行自我学习。它了解用户特征,分析用户的兴趣和习惯,并把这些特征记录在用户信息库中。
②任务移交。它把任务的详细分析结果交给管理Agent,由管理Agent来决定如何将任务分配给系统中的文本Agent,图像Agent,视频Agent和音频Agent。
③形象化反馈。当管理Agent将查询结果传给人机交互Agent时,它会根据用户的需求和习惯以友好的形式反馈给用户。
(2)管理Agent :它是整个系统的核心部分,主要有以下三个功能。
①掌握系统中的文本Agent、图像Agent 和视频Agent,音频Agent这4个Agent的信息、特性和属性,以及各自所能完成的任务,存放在自身的挖掘Agent状况表中,以便进行任务分解。
②接收来自人机交互Agent的任务请求分析报告。
③当查询条件模糊时,可以对信息进行二次分析,将整个问题分解成许多子问题,尽量使这些子问题可以被文本Agent、图像Agent 和视频Agent,音频Agent独立地完成。
(3)文本Agent、图像Agent 和视频Agent,音频Agent,每个Agent都有一定固有的特性,根据这些特性可以完成不同的任务和请求。每个挖掘Agent都对应着一个数据库,它具有对这个数据库操作的所有权限,可以进行读取和写入。比如文本Agent对应着文本数据库,图像Agent对应着图像数据库。它们在架构中,主要有以下三个功能。
①资源发现:文本Agent专门搜索文本资源,图像Agent专门搜索图像资源,视频Agent专门搜索视频资源,音频Agent专门搜索音频资源。
②资源监测:当对应的媒体资源信息进行更新时,能够通知管理Agent,从而告知用户。
③特征抽取:进行视频特征抽取,图像特征抽取,音频特征抽取和文本特征抽取,计算查询数据的特征向量与目标数据特征向量之间的相似距离,进行相似度匹配,给出每种媒体的查询结果。
(4)信息整合Agent:主要负责将系统中的各个挖掘Agent执行任务的结果进行集中处理,对搜索任务执行的结果进行评估和解释,删除冗余和无关信息,将最终得到的结果返回给人机交互Agent,并记录在用户信息库中,以备下次请求时使用。利用用户信息库,将查询结果依据用户的信息进行重新排序。
(5)用户信息库:在这个库中存放着用户经常用的信息和多次重复执行的任务结果。当次用户进行请求时,系统就可以直接从库中找到结果。另外,用户信息库中还存有与用户的某些属性和请求任务的某些特性,这些属性和特性可应用在搜索查询中。
4、结论
本文针对传统搜索对跨媒体内容检索效果不理想的情况,提出和阐述了一种利用Agent技术,对用户输入的查询条件进行搜索并返回各种类型媒体结果的跨媒体架构。该架构能够有效的对互联网中各种媒体进行检索,但本文方法仍然有待改进,例如,如何更好的进行查询结果的整合,多媒体特征的提取以及特征与概念之间的映射,这些问题有待于进一步的研究。
参考文献:
[1]刘大有, 杨鲲, 陈建中. Agent 研究现状与发展趋势[J]. 软件学报, 2000,11 (3 )
[2]Wu Fei, Zhang Hong, Zhuang Yueting. Learning Semantic Correlations for Cross-media Retrieval[C]//Proc. of International Conference on Image Processing. Atlanta, USA: IEEE Press
[3]吴飞, 庄越挺。互联网跨媒体分析与检索:理论与算法。计算机辅助设计与图形学学报 第22卷第1期 2010年1月
[4]Venkatesh S , Adams B , Phung D , et al . “You Tube and I find”—personalizing multimedia content access [J ] . Proceedings of t he IEEE , 2008 , 96 (4) : 6972711
[5]Chirita P,Olmedilla D,Nejdl W. PROS:A personalized ranking platform for web search [C] Int Conf on Adaptive Hypermedia and Web-Based Sys. The Netherlands,2004。
作者简介:
丛鑫,硕士研究生,研究方向:智能软件与Agent。