论文部分内容阅读
摘 要 数字多媒体文件目前主要包含文本、图像、音频和视频四种主要格式。在对多媒体文件进行搜索时,因为互联网上的图像和音、视频文件的传播缺乏统一规范,同一内容会采用不同的主题词来描述,且其包含的内容丰富,数据量较大,因而传统的主题词方式不能满足图像和音视频文件的关键词搜索需求。基于内容的搜索引擎是目前搜索引擎技术发展的一个重要课题。
关键词 数字多媒体 基于内容 音频文件 视频文件 关键帧
中图分类号: TP37 文献标识码:A
随着互联网的飞速发展,信息出现爆炸式增长,搜索引擎已经成为了用户上网查询信息不可缺少的应用服务。搜索引擎所检索的信息覆盖面大,相关度高,在用户需要进行范围广泛的查询。但是随着当今网络上多媒体文件数据的日渐增多,传统的基于文本的搜索引擎越来越难以满足用户的需要。特别对于视频的查询,关键字的标注往往难以准确描述视频表示的含义,并且对视频进行标注需要投入大量的人力,于是基于内容的搜索技术应运而生,迅速成为研究热点。
数字多媒体文件目前主要包含文本、图像、音频和视频四种主要格式。广告、新闻等传媒文件在互联网上传播速度快、传播范围广、受众人数多,依靠人工统计的方式难以实现对其传播效果的分析。相对于这些传统媒体,基于互联网传播的多媒体文件能够得到媒体受众更详细的信息,包括性别、年龄、收入、学历、职业等人口统计学数据,还可以得到受众行为数据包括访问次数、访问时间、访问频次、停留时间等。网页多媒体文件获取的用户行为信息比传统媒体如报纸、广播、电视等更为丰富,用户还可以主动获取自己需要的信息并作出反馈,这些受众信息及数据是用户访问过程中,系统自动记录的,相较于传统媒体的数据统计,更为精确和可靠。基于以上于互联网的多媒体传播效果的特点,我们在越来越多的使用数字多媒体文件,它的传播效果具有具有广泛性、准确性、及时性。
采用基于内容的方式对图像和音、视频文件进行搜集,其首要问题就是找到能够有效表示图像和音、视频文件内容的特征,因而,图像和音、视频文件的特征提取技术是现代传播效果分析的主要研究内容之一。用户在搜索某一单一文件或者某类型文件的时候,往往只能使用关键词作为搜索机制。目前基于文本搜索引擎技术发展已经十分成熟,而这类搜索引擎的准确度除了依赖于搜索引擎系统的网页信息存储量和词汇切割的准确度以外,用户所搜寻的目标文件也是影响其准确度的一个重要因素,如果用户着重于搜索文本形式的文件,此类搜索引擎的准确率已经很高。但是,传统的基于文本搜索引擎只能分析网页中的文本内容,无法满足用户对互联网上越来越多的多媒体文件的搜索查询需求。如果用户希望搜索的是图片、音频或者视频类无法在网页中只用文本就能精确描述其内容的文件,则其准确率就会受到很大影响.因此基于内容的搜索引擎是目前搜索技术发展的一个重要课题互联网的数字媒体文件搜索中文本搜索的技术是最为成熟和广泛应用的;近几年,随着计算机技术的发展,基于内容的图像、音频、视频搜索技术也逐渐成熟。基于内容的搜索技术尝试直接分析图片、视频及音频等媒体文件,将它们根据特征分类。用户可以通过提交一幅图片或者一段音频、视频资料来表达自己的搜索意图(比如用户希望能够搜索到含有类似图片的网站),搜索引擎系统通过对用户提交的多媒体文件进行分析、比对,输出检索到的信息.我们利用自然语言处理技术、基于内容的音、视频分析和检索技术,实现对文本、图像、音频、视频格式媒体文件的多模态搜集、分析,為更专业化的多媒体文件搜索提供完备和准确的数据。
要对多媒体文件进行搜索工作,主要完成数字媒体文件搜集工作。搜集文件首先要完成对网页的分析工作,以对可能包含待评估数字媒体文件的网页进行优先爬行,实现在最短的时间内,最大限度的爬行最相关的网页,对无关的区域不予访问,以减少对网络信息的访问流量和文件的下载量。然后基于数字多媒体文件的相似度的研究结果,对抓取的网页进行分析,只保留与待搜索文件足够相似的网页,这样可以得到完备、准确的搜索数据,以保证搜索的有效性和实时性。因而对互联网的数字媒体文件进行搜集是进行文件搜索的第一项工作。
多媒体文件中:文本文件是词汇的集合,可以通过词汇相似度来比较文本文件的相似性;图像文件是由图像和描述信息共同组成,可以结合词汇和图像相似度来共同计算图像文件的相似度;音频文件是由声音和描述信息共同组成,我们用词汇和音频相似度来共同度量其相似程度;视频文件包含的信息最为丰富,其是图像序列集合,关键帧是其中的代表性图像。除此外还具有文本描述信息和音频信息,在提取关键帧的基础上,研究融合词汇、图像和音频多种方式的相似性度量方法。对不同类型的多媒体文件,我们采取的内容特征提取的方式不一样。
文本内容特征常用向量空间模型表示,向量空间模型把文档看成是由一组词条构成的,对于每一个词条,以根据它在文档中的重要程度赋予一定的权值,因此每一篇文档都可被看作向量中由一组词条矢量构成的一个点。词条在文档中出现的次数,一个关键词在文档中出现的次数愈多,其权值越大;所以一个关键词在整个统计语料库中出现的频率越少,其在出现文档中的权重越大。因此,文档di可以表示成一个特征向量D=(wi1,wi2,…,wim)。为了减少计算量,通常忽略检测在文本中先后次序。
图像的内容特征包括基于文本的特征(如关键字、注释等)和视觉特征。只有正确地提取出了图像中所含内容的关键信息,才能对图片内容进行理解、分析和辨识。图像的内容特征也分为高级特征和低级特征.低级的特征可以由对图像的自动分析来获得,一般是可视化的视觉特征,如图像的颜色、形状和纹理等。而高级特征一般是语义相关的,通常只能半自动甚至手动提取,如图像中人物的名字、图像的主题等。对不同种类的图像和不同的应用,用户所关心的特征都有所不同。图像文件特征如何正确的表达已经被提取的特征,是一个重要的研究内容。视觉特征描述图像的基本信息,属于低层特征,与图像的具体类型无关,其主要包括色彩、纹理等。 基于内容的音频检索,则是通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。内容特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。音频内容特征提取有两种不同的技术线路:一种是从叠加音频帧中提取特征,其原因在于音频信号是短时平稳的,所以在短时提取的特征较稳定;二是从音频片段中提取,因为任何语义都有时间延续性,在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息,一般是提取音频帧的统计特征作為音频片段特征。
基于内容的视频检索(Content-Based Video Retrieval,CBVR)是根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。CBVR区别于传统的基于关键字的检索手段,融合了图像理解、模式识别、计算机视觉等技术。它是一种根据视频的内容及上下文关系,在没有人工参与的情况下,自动提取并描述视频的特征和内容,从而实现对大规模视频数据库中的视频数据进行检索的技术和方法。CBVR的关键技术第一部分为镜头分割,第二部分为关键帧提取,第三部分为基于特征的视频索引与存储组织。
应用基于内容的多媒体文件检索技术,减少了机器的工作量,检索结果具有较高的精确匹配度,文件数据库管理者可以针对不同的文件类型,对关键词检索技术和基于内容的检索技术综合利用,以期达到最好的效果。基于内容的搜索引擎还处在探索阶段,目前没有能得到广泛运用的通用搜索引擎。有一些研究机构正在尝试从事特定范围的基于内容的搜索引擎研究,如针对特定的媒体资料库建立搜索引擎,或者对特定类型的图片、视频及音频资料进行检索等。基于内容的多媒体文件检索技术虽然只是起步,然而其前景是辉煌的,随着技术问题的逐步解决,基于内容的多媒体文件检索技术将在信息社会各领域发挥重要的作用。
参考文献
[1] 邢伟利.基于内容的音频检索技术.西北大学学报,2004.04.
[2] 曹亚光.基于内容的视频检索.北京理工大学,2006.
[3] 文军.新闻视频相似关键帧识别与故事单元关联分析研究.软件学报,2010.11.
[4] 王建文.一种基于图像相关的图像特征提取匹配算法.科技创新导报,2008.11.
[5] 王晟.基于内容的图片搜索引擎研究,长沙大学学报,2012.03.
关键词 数字多媒体 基于内容 音频文件 视频文件 关键帧
中图分类号: TP37 文献标识码:A
随着互联网的飞速发展,信息出现爆炸式增长,搜索引擎已经成为了用户上网查询信息不可缺少的应用服务。搜索引擎所检索的信息覆盖面大,相关度高,在用户需要进行范围广泛的查询。但是随着当今网络上多媒体文件数据的日渐增多,传统的基于文本的搜索引擎越来越难以满足用户的需要。特别对于视频的查询,关键字的标注往往难以准确描述视频表示的含义,并且对视频进行标注需要投入大量的人力,于是基于内容的搜索技术应运而生,迅速成为研究热点。
数字多媒体文件目前主要包含文本、图像、音频和视频四种主要格式。广告、新闻等传媒文件在互联网上传播速度快、传播范围广、受众人数多,依靠人工统计的方式难以实现对其传播效果的分析。相对于这些传统媒体,基于互联网传播的多媒体文件能够得到媒体受众更详细的信息,包括性别、年龄、收入、学历、职业等人口统计学数据,还可以得到受众行为数据包括访问次数、访问时间、访问频次、停留时间等。网页多媒体文件获取的用户行为信息比传统媒体如报纸、广播、电视等更为丰富,用户还可以主动获取自己需要的信息并作出反馈,这些受众信息及数据是用户访问过程中,系统自动记录的,相较于传统媒体的数据统计,更为精确和可靠。基于以上于互联网的多媒体传播效果的特点,我们在越来越多的使用数字多媒体文件,它的传播效果具有具有广泛性、准确性、及时性。
采用基于内容的方式对图像和音、视频文件进行搜集,其首要问题就是找到能够有效表示图像和音、视频文件内容的特征,因而,图像和音、视频文件的特征提取技术是现代传播效果分析的主要研究内容之一。用户在搜索某一单一文件或者某类型文件的时候,往往只能使用关键词作为搜索机制。目前基于文本搜索引擎技术发展已经十分成熟,而这类搜索引擎的准确度除了依赖于搜索引擎系统的网页信息存储量和词汇切割的准确度以外,用户所搜寻的目标文件也是影响其准确度的一个重要因素,如果用户着重于搜索文本形式的文件,此类搜索引擎的准确率已经很高。但是,传统的基于文本搜索引擎只能分析网页中的文本内容,无法满足用户对互联网上越来越多的多媒体文件的搜索查询需求。如果用户希望搜索的是图片、音频或者视频类无法在网页中只用文本就能精确描述其内容的文件,则其准确率就会受到很大影响.因此基于内容的搜索引擎是目前搜索技术发展的一个重要课题互联网的数字媒体文件搜索中文本搜索的技术是最为成熟和广泛应用的;近几年,随着计算机技术的发展,基于内容的图像、音频、视频搜索技术也逐渐成熟。基于内容的搜索技术尝试直接分析图片、视频及音频等媒体文件,将它们根据特征分类。用户可以通过提交一幅图片或者一段音频、视频资料来表达自己的搜索意图(比如用户希望能够搜索到含有类似图片的网站),搜索引擎系统通过对用户提交的多媒体文件进行分析、比对,输出检索到的信息.我们利用自然语言处理技术、基于内容的音、视频分析和检索技术,实现对文本、图像、音频、视频格式媒体文件的多模态搜集、分析,為更专业化的多媒体文件搜索提供完备和准确的数据。
要对多媒体文件进行搜索工作,主要完成数字媒体文件搜集工作。搜集文件首先要完成对网页的分析工作,以对可能包含待评估数字媒体文件的网页进行优先爬行,实现在最短的时间内,最大限度的爬行最相关的网页,对无关的区域不予访问,以减少对网络信息的访问流量和文件的下载量。然后基于数字多媒体文件的相似度的研究结果,对抓取的网页进行分析,只保留与待搜索文件足够相似的网页,这样可以得到完备、准确的搜索数据,以保证搜索的有效性和实时性。因而对互联网的数字媒体文件进行搜集是进行文件搜索的第一项工作。
多媒体文件中:文本文件是词汇的集合,可以通过词汇相似度来比较文本文件的相似性;图像文件是由图像和描述信息共同组成,可以结合词汇和图像相似度来共同计算图像文件的相似度;音频文件是由声音和描述信息共同组成,我们用词汇和音频相似度来共同度量其相似程度;视频文件包含的信息最为丰富,其是图像序列集合,关键帧是其中的代表性图像。除此外还具有文本描述信息和音频信息,在提取关键帧的基础上,研究融合词汇、图像和音频多种方式的相似性度量方法。对不同类型的多媒体文件,我们采取的内容特征提取的方式不一样。
文本内容特征常用向量空间模型表示,向量空间模型把文档看成是由一组词条构成的,对于每一个词条,以根据它在文档中的重要程度赋予一定的权值,因此每一篇文档都可被看作向量中由一组词条矢量构成的一个点。词条在文档中出现的次数,一个关键词在文档中出现的次数愈多,其权值越大;所以一个关键词在整个统计语料库中出现的频率越少,其在出现文档中的权重越大。因此,文档di可以表示成一个特征向量D=(wi1,wi2,…,wim)。为了减少计算量,通常忽略检测在文本中先后次序。
图像的内容特征包括基于文本的特征(如关键字、注释等)和视觉特征。只有正确地提取出了图像中所含内容的关键信息,才能对图片内容进行理解、分析和辨识。图像的内容特征也分为高级特征和低级特征.低级的特征可以由对图像的自动分析来获得,一般是可视化的视觉特征,如图像的颜色、形状和纹理等。而高级特征一般是语义相关的,通常只能半自动甚至手动提取,如图像中人物的名字、图像的主题等。对不同种类的图像和不同的应用,用户所关心的特征都有所不同。图像文件特征如何正确的表达已经被提取的特征,是一个重要的研究内容。视觉特征描述图像的基本信息,属于低层特征,与图像的具体类型无关,其主要包括色彩、纹理等。 基于内容的音频检索,则是通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。内容特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。音频内容特征提取有两种不同的技术线路:一种是从叠加音频帧中提取特征,其原因在于音频信号是短时平稳的,所以在短时提取的特征较稳定;二是从音频片段中提取,因为任何语义都有时间延续性,在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息,一般是提取音频帧的统计特征作為音频片段特征。
基于内容的视频检索(Content-Based Video Retrieval,CBVR)是根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。CBVR区别于传统的基于关键字的检索手段,融合了图像理解、模式识别、计算机视觉等技术。它是一种根据视频的内容及上下文关系,在没有人工参与的情况下,自动提取并描述视频的特征和内容,从而实现对大规模视频数据库中的视频数据进行检索的技术和方法。CBVR的关键技术第一部分为镜头分割,第二部分为关键帧提取,第三部分为基于特征的视频索引与存储组织。
应用基于内容的多媒体文件检索技术,减少了机器的工作量,检索结果具有较高的精确匹配度,文件数据库管理者可以针对不同的文件类型,对关键词检索技术和基于内容的检索技术综合利用,以期达到最好的效果。基于内容的搜索引擎还处在探索阶段,目前没有能得到广泛运用的通用搜索引擎。有一些研究机构正在尝试从事特定范围的基于内容的搜索引擎研究,如针对特定的媒体资料库建立搜索引擎,或者对特定类型的图片、视频及音频资料进行检索等。基于内容的多媒体文件检索技术虽然只是起步,然而其前景是辉煌的,随着技术问题的逐步解决,基于内容的多媒体文件检索技术将在信息社会各领域发挥重要的作用。
参考文献
[1] 邢伟利.基于内容的音频检索技术.西北大学学报,2004.04.
[2] 曹亚光.基于内容的视频检索.北京理工大学,2006.
[3] 文军.新闻视频相似关键帧识别与故事单元关联分析研究.软件学报,2010.11.
[4] 王建文.一种基于图像相关的图像特征提取匹配算法.科技创新导报,2008.11.
[5] 王晟.基于内容的图片搜索引擎研究,长沙大学学报,2012.03.