网络媒体文字提取技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zhenghao_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,网络媒体已逐渐成为人们获取信息的重要来源。网络媒体包括了大量的图片、Flash网络动画等多种媒体资源,如何对这些资源进行有效地管理,如何对这些资源进行快速地检索和信息挖掘,已越来越受到人们的关注。   网络媒体中的文字信息直接承载了高层语义信息,因此研究如何有效地提取网络媒体中的文字信息,对网络媒体检索、内容理解和监控等具有重要的意义。本文从颜色聚类、文字定位、斜体字的检测与校正以及Flash文字提取与应用等几个方面,对网络媒体中的文字提取技术进行了较深入的研究和探讨。论文的工作主要体现在以下几个方面:   1)本文提出了一种基于边缘的颜色聚类算法。中文网络环境中颜色渐变文字以及边缘颜色退化文字的存在,使得传统的颜色聚类算法错误地将文字分解到不同的颜色层上,导致文字无法被正确定位。考虑到文字的两个显著特点:颜色的相对稳定性和强烈的边缘,本文算法有效地结合边缘信息以及颜色信息挖掘图像中存在的等价颜色,并将等价颜色层进行融合,从而实现针对文字的有效颜色聚类。实验结果表明我们的算法不仅可以有效地处理颜色渐变文字以及边缘颜色退化文字,同样适用于处理颜色一致的文字。   2)本文分析了中文网络环境下,网络媒体中文字的特点,提出了一种基于部件邻接结构和连通域聚类的文字定位算法。在中文网络媒体内,中文字符占据了绝大多数,而且文字的几何特征通常比较稳定,而噪声连通域的几何特征则变化很多。该算法基于以上事实,首先假设所有字符为中文,然后利用中文字符部件邻接结构特点,在保证不会将分属于不同字符的部件错误合并的前提下,充分地融合连通域生成潜在文字连通域,然后利用连通域聚类,有效地挖掘图像内各类文字的几何特征,并利用这些特征进一步融合连通域形成候选文字,最后利用基于连通域跨度直方图特征过滤噪声,最终将图像中的文字准确地定位出来。   3)本文提出了质心角度的概念,并根据质心角度的统计特性,进一步提出了一种基于马尔科夫随机场的斜体字倾斜角度估计算法。通过大量的统计研究,中文字符的质心角度近似服从于以真实倾角为均值的高斯分布,同时考虑到相邻字符倾斜角度的相关性,我们利用马尔科夫随机场对文字的倾角估计问题建模,并利用迭代条件模式算法对该模型的最优值近似求解,最后利用估计出的角度实现对斜体字的判定及校正。   4)本文提出了针对Flash的文字信息提取方法。Flash网络动画是一种重要的网络媒体形式,本文在充分分析Flash核心标准的基础上,研发了Flash解析工具,并根据Flash的特点,实现了针对Flash的文字提取算法。
其他文献
随着互联网进入Web2.O时代,人们可以通过互联网平台发布、获取和传播具有观点性评论信息。面对迅速增长的评论数据,有效区分有用、无用的评论信息,有效组织、分析和挖掘蕴含着大
作为一种远程精确制导的高技术武器,巡航导弹在近代的高技术局部战争与军事冲突中发挥了重要的杀伤和威慑作用。随着高新技术在武器装备中的应用,现代化战争形势对巡航导弹武
雾天拍摄的户外图像,由于大气粒子的散射作用,图像对比度低,颜色失真,场景内容模糊,能见度变差。雾天降质图像复原技术已经成为计算机视觉和图像处理领域的研究热点,并应用于
无线传感器网络的研究涉及无线通讯技术、嵌入式计算机技术、微电子技术、智能控制技术、现代传感器技术等多个学科,在环境监测、智能家居、现代农业等许多领域都有广泛的虑
当今汽车安全和辅助驾驶系统越来越引起人们的重视。其中自适应巡航控制(ACC:Adaptive Cruise Control)作为一种辅助驾驶系统,得到了广泛研究。ACC能根据传感器检测到的驾驶
移动机器人同时定位和地图构建(Simultaneous Localization and Map-Building,SLAM)问题是移动机器人研究领域的基本问题与研究热点。SLAM问题中,地图如何表示是一个重要问题。
自1999年5月Napster的引入开始,P2P联网的新技术大量增长,今天,P2P流量已成为Internet流量的主流。有数据显示,仅在2002年年初由P2P应用所引发的信令流量就达到了总流量规模
“从定性到定量的综合集成法”是我国科学家提出的用于解决开放的复杂巨系统及其相关问题的方法论。综合集成研讨厅作为这一方法论的发展,将专家的智慧、计算机的高性能及已
绳索牵引自动水平调节机器人,能解决长期困扰载荷装卸领域的姿态调节和受力控制难题,有效保障昂贵及高精密性的载荷在吊运和装卸过程中的安全。因此相关研究具有重要的理论意
核磁共振(NMR-Nuclear Magnetic Resonance)技术的无损检测特点使其具有明显的优势,特别是当前食品安全和工业生产造成的环境污染成为国内关注的焦点,快速、实时、无损的现场检