面向知识服务的多媒体数据挖掘关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tuojing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以Internet为代表的信息社会的高速发展,Web网络包含的文本、图像、音频和视频等多媒体信息急剧增加,人们对多媒体信息的挖掘和检索的需求也在快速增长。将数据挖掘领域知识应用于多媒体数据的描述与分析,可以得到更加丰富的信息获取价值。 本文针对文本数据挖掘分类、Web信息抽取、图像区域分割与检索、音频自动分段与检索四个研究方向,围绕信息处理效率的优化和信息挖掘功能与精度的优化为目标,为多媒体数据挖掘领域内实际的一些研究问题提出了有效的解决方法。本文的主要研究内容分为以下四个部分: 1、针对数据挖掘领域关注的支持向量机多值分类领域问题,通过分析当前几种基于支持向量机的多值分类算法的不足,提出了一种非线性支持向量机决策树的分类方法。与一般的线性支持向量机决策树分类算法相比,该算法的分类精度有了一定提高,同时分类时间也相应降低。具体的创新点包括:通过核函数将支持向量机推广到非线性支持向量机,并在非线性映射后计算特征空间中类间相对分离度,得到类的易分程度;在支持向量机决策树分类中引入相对分离度,有效地降低累积误差,减少计算规模,从而提高分类精度与分类效率。 2、针对Web页面信息高级抽取模型这一困难问题和现有抽取方法在Web信息视觉对象化、语义化等方面的不足,提出了基于版面结构和基于内容块的状态转移序列,以及输出多特征的GHMM信息抽取模型。从而代替了传统的基于状态转移规则的信息抽取模型HMM。此方法的状态转移规则是基于网页的版面结构的基础上,更好的使用于网页的具体特征。通过实验证明了此方法针对于Web对象信息提取相对于文中描述的其它方法具有更好的精确度。具体的创新点包括:针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列;通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。 3、针对多媒体数据挖掘中图像信息的有效结构化分割与基于图像区域内容的检索问题,提出了一种基于相对势能的改进分水岭分割算法。该方法在形态学梯度图像的基础上,利用形态学开闭重建滤波运算和给定尺度的非线性变换对图像进行滤波,保留了重要的区域轮廓而去除了细节和噪声。使用更易于被理解和实现的相对势能,图像分割过程中直接对分水岭的重要性进行衡量,去掉不必要的细节。具体的创新点包括:在传统分水岭算法模型上引入相对势能方法,能够有效抑制过度分割,避免分割后的区域合并处理,降低分割的复杂性,提高图像分割精度与潜在基于区域的检索效率。 4、针对多媒体数据挖掘中音频信息的特征抽取分段与基于声音内容模板的检索问题,提出了改进的多变化点音频自动分割算法。该算法不需要采集样本,根据特征变化点来进行分割,取得了良好的分割结果。并结合采用时域、频域和时频域分析方法,从不同角度刻画了音频信号的实质,构成了音频信号的描述算子。音频检索采用示例音频查询方式(QBE),先使用最小生成树(MST)聚类方法形成关键帧,然后对同类型的帧进行匹配比较,减少了计算的强度,大大提高了检索效率。具体的创新点包括:提出一个新的基于ICA变换的Mel-ICA特征,替代用于传统音频分割的短时特征MFCCs,能更准确地确定音频变化;引入优化WSOLA算法的时间均衡化调整,为样本模板提供一定范围内的时间伸缩特性,提高音频特征匹配的精确度和冗余度。
其他文献
信息检索是指从一个信息资源集中获取与信息需求相关的信息资源的活动。随着文本资源多样性和用户多样性的提高,如何为不同用户提供既相关又可读的文档已经成为一个亟待解决
肺癌的死亡率远远高于世界上其他癌症,而且近些年来甚至还呈逐年增加的趋势。影像学检查是癌症的诊断检测和防治方面的重要技术之一。通常意义上的胸部影像学的主要研究对象
面对全球化竞争的加剧,制造业的趋势是从大规模生产转向个性化定制,制造企业必须对此做出快速反应,这就要求分布在异地的企业设计部门能够进行有效协同,快速设计出市场所需要
计算机人脸识别是一个非常具有学术研究价值和广泛应用前景的研究课题,涉及图像处理、模式识别、认知学等多学科的知识,在身份认证、社会安全、电子商务等诸多方面有着广泛的
网络管理是互联网研究的一个重要课题。随着网络技术的发展,计算机网络的规模不断扩大,网络设备越来越复杂,对计算机网络的管理变得越来越困难。传统的简单网络管理协议(SNMP
知识表示是人工智能(Artificial Intelligence,简称AI)的一个重要分支。60年代中期,知识表示开始作为一个独立的研究课题,四十年来,人们研究出了诸多的知识表示方法。本体(Ontolo
云计算是信息时代的新型的计算模式,它是由网格、分布式和并行的计算基础上发展而来。云计算是现代信息技术与商业服务的产物,代表着下一代的互联网技术。资源调度和管理是云
为突破传统RS485串行总线对可接入节点数量的限制,本文基于RS485总线提出了一种大型嵌入式节点集群的架构方式,将最大可接入节点数量扩展到2.7万个。针对该网络特点,对Modbus
由于计算机应用的飞速发展,数据挖掘技术成为数据库和人工智能领域最前沿、最活跃的研究方向之一,关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以
近年来,心血管疾病的发病率逐年提高,严重地危及人们的生命安全。心脏的猝死是心律失常中最严重的症状和表现,如果不能采取除颤等及时有效的抢救治疗,心脏猝死将意味着生命的