非文本块优先的中文版面分析

来源 :河北大学 | 被引量 : 0次 | 上传用户:qingqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文版面(特别是中文报纸版面)中文本域与非文本域经常交错嵌入。非文本域对文本域的提取会造成干扰。针对这种特点,本文提出了一种非文本块优先的中文版面分析方法。首先提取并去除文档图像中的非文本块,避免其对文本块提取的干扰。然后对文本域采用了基于游程平滑和最小生成树聚类的分析方法,对不同排版方式的文本分别进行处理。最后根据非文本块的位置,对聚类处理得到的文本块进行分割。实验表明,该方法对横竖混排的嵌入式版面有较好的分割效果。
其他文献
随着量子计算理论及技术的不断发展,具有强大运算能力的量子计算机正逐渐成为现实。然而,在能够解决传统计算机所无法处理的难题的同时,量子计算机也对传统领域提出了新的要求和
在我们的经济建设、日常生活中,80%的信息都是与地理信息相关的.在GIS应用中,高效的GIS引擎是应用系统的核心.该文首先介绍了在GIS引擎领域的重要理论和概念,阐述了GIS的数据
IP组播是发展潜力很大的网络应用,其可靠性是一个需要解决的难题.新兴的主动网络技术赋予网络以极大的灵活性,因而为提高很多网络应用(包括可靠组播)的性能提供了新思路.该文
人类社会是一个群体社会,特别是在当今信息化社会中,人们的生活和工作方式明显地具有群体性、交互性、分布性与协作性等特征.CSCW(计算机支持的协同工作)把"协同科学"与计算
随着计算机技术的飞速发展,计算机辅助教育已成为信息时代的重要教育形式。但是教学系统中的教育资源缺乏统一的规范化表示,导致网络中存在许多相同或相似的资源而不能相互共
可视语音的合成是近年来多媒体信号处理中的一个研究焦点和难点.随着智能人机交互应用的兴起,人们需要在交流过程中融合多种表达方式,多种行为模态以增加信息的含量,提高信息
本文对于“校园网络管理系统”中故障管理模块的整体框架和具体功能作了详细的描述和分析,设计并实现了如下故障管理功能:故障轮循、故障接收、故障日志和智能故障诊断。 在
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有
超立方体网络是迄今为止最为重要和最具吸引力的网络拓扑结构之一。本文通过对当前网络中的拥塞控制、流量控制和负载均衡等问题的深入研究,提出和设计了基于负载均衡的超立方
学位