论文部分内容阅读
随着以Internet为代表的信息社会的高速发展,Web网络包含的文本、图像、音频和视频等多媒体信息急剧增加,人们对多媒体信息的挖掘和检索的需求也在快速增长。将数据挖掘领域知识应用于多媒体数据的描述与分析,可以得到更加丰富的信息获取价值。
本文针对文本数据挖掘分类、Web信息抽取、图像区域分割与检索、音频自动分段与检索四个研究方向,围绕信息处理效率的优化和信息挖掘功能与精度的优化为目标,为多媒体数据挖掘领域内实际的一些研究问题提出了有效的解决方法。本文的主要研究内容分为以下四个部分:
1、针对数据挖掘领域关注的支持向量机多值分类领域问题,通过分析当前几种基于支持向量机的多值分类算法的不足,提出了一种非线性支持向量机决策树的分类方法。与一般的线性支持向量机决策树分类算法相比,该算法的分类精度有了一定提高,同时分类时间也相应降低。具体的创新点包括:通过核函数将支持向量机推广到非线性支持向量机,并在非线性映射后计算特征空间中类间相对分离度,得到类的易分程度;在支持向量机决策树分类中引入相对分离度,有效地降低累积误差,减少计算规模,从而提高分类精度与分类效率。
2、针对Web页面信息高级抽取模型这一困难问题和现有抽取方法在Web信息视觉对象化、语义化等方面的不足,提出了基于版面结构和基于内容块的状态转移序列,以及输出多特征的GHMM信息抽取模型。从而代替了传统的基于状态转移规则的信息抽取模型HMM。此方法的状态转移规则是基于网页的版面结构的基础上,更好的使用于网页的具体特征。通过实验证明了此方法针对于Web对象信息提取相对于文中描述的其它方法具有更好的精确度。具体的创新点包括:针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列;通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。
3、针对多媒体数据挖掘中图像信息的有效结构化分割与基于图像区域内容的检索问题,提出了一种基于相对势能的改进分水岭分割算法。该方法在形态学梯度图像的基础上,利用形态学开闭重建滤波运算和给定尺度的非线性变换对图像进行滤波,保留了重要的区域轮廓而去除了细节和噪声。使用更易于被理解和实现的相对势能,图像分割过程中直接对分水岭的重要性进行衡量,去掉不必要的细节。具体的创新点包括:在传统分水岭算法模型上引入相对势能方法,能够有效抑制过度分割,避免分割后的区域合并处理,降低分割的复杂性,提高图像分割精度与潜在基于区域的检索效率。
4、针对多媒体数据挖掘中音频信息的特征抽取分段与基于声音内容模板的检索问题,提出了改进的多变化点音频自动分割算法。该算法不需要采集样本,根据特征变化点来进行分割,取得了良好的分割结果。并结合采用时域、频域和时频域分析方法,从不同角度刻画了音频信号的实质,构成了音频信号的描述算子。音频检索采用示例音频查询方式(QBE),先使用最小生成树(MST)聚类方法形成关键帧,然后对同类型的帧进行匹配比较,减少了计算的强度,大大提高了检索效率。具体的创新点包括:提出一个新的基于ICA变换的Mel-ICA特征,替代用于传统音频分割的短时特征MFCCs,能更准确地确定音频变化;引入优化WSOLA算法的时间均衡化调整,为样本模板提供一定范围内的时间伸缩特性,提高音频特征匹配的精确度和冗余度。