基于单个字符的文种鉴别研究

来源 :“文字与信息”学术研讨会 | 被引量 : 0次 | 上传用户：pupuaw

【摘要】

：

本文研究的主要问题是， OCR系统在处理维吾尔文和中文、英文混排文档时会碰到的文种鉴别的问题。我们主要研究在文本图像经过切分处理形成的单字符图像后，如何进行文种判别，来为选择合适的OCR核心提供依据。我们提出的方法是用一组Gabor滤波器来提取特征，并利用支持向量机来分类。我们做了两类实验，首先验证了上述方法在训练和测试样本上的性能，然后又比较了在分别引入PCA和LDA作为降维方法的情况下，两者性

【作者】

：

叶浩彭良瑞

【机构】

：

清华大学,智能图文信息处理研究室,北京

【出处】

：

“文字与信息”学术研讨会

【发表日期】

：

2012年5期

【关键词】

：

文种鉴别 Gabor滤波器支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于深度摄像头的视觉物联网系统

视觉物联网是物联网的视觉感知部分。针对目前视觉物联网技术对目标的检测低，精度差，提出了使用Kinect 深度摄像头，将深度信息和彩色信息结合，建立视觉物联网系统。该系统获取场景深度信息，充分利用深度信息不受光照变化和目标阴影干扰，对场景进行建模，获取精确的前景目标区域，同时结合彩色信息对特定目标提取纹理特征并进行训练，在不同场景下检测特定目标，并统计目标个数。实验表明，该系统稳定可靠，检测率高，精

会议

视觉物联网Kinect深度摄像头检测

原油管输工艺评价自动化监控系统研究

本文研究了原油管输工艺评价自动化监控系统，通过OPC 技术实现了实验运行过程的实时监控，设计了合理的ADO.Net 数据库访问机制实现对实验过程中产生的大量数据进行快捷、有效的查询和管理，实现了原油管输工艺评价模拟实验从方案设计到运行完成整个流程的全自动化.该系统的成功应用，使原油管输评价模拟实验的整个过程达到规范化、工程化和标准化.

会议

流程工业控制过程监控系统管输工艺评价系统ADO.Net数据库OPC技术

图数据中Top-κ属性差异q-clique查询

紧密子图发现在许多现实世界网络应用中具有重要的研究意义.提出一种新的紧密子图发现问题——Top-κ犽属性差异q-clique查询,找出图中犽个节点间属性具有最大差异的q-clique.属性差异q-clique是一种结合图的结构特征和节点属性的紧密子图,在作者合作关系图数据中,该查询可以发现属性(如研究领域或所属单位)上不同的具有紧密合作关系的团队.给出了q-clique的属性差异度量,证明了该问题

会议

图数据紧密子图属性差异分支限界节点访问次序

基于LDA模型和话题过滤的研究主题演化分析

针对目前科学技术文献数量激增、难以从总体上分析把握的现状，本文提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法。该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取，得到不同数量的话题。然后，通过话题过滤剔除意义有限的话题，并借助简单启发式规则选择种子话题。最后，再利用语义相关度将相邻时间片内内容相近的种子话题联系起来，以得到

会议

LDA模型主题演化种子话题话题过滤加权线性组合

基于输出不一致测度极限学习机集成的基因表达数据分类

选择性集成学习已经成为分析基因表达数据获取生物学信息的有力工具。为了更好地挖掘基因表达数据，利用极限学习机的集成，克服单个ELM用于数据分类时性能欠稳定的缺点，该文提出了一种基于输出不一致测度的ELM相异性集成算法(D-D-ELM)。算法首先以输出不一致测度为标准对多个ELM模型进行相异性判断，其次根据ELM的平均分类精度剔除掉相应的模型，最后对筛选后的分类模型通过多数投票法进行集成。算法运用到B

会议

极限学习机基因表达数据集成算法输出不一致测度分类

面向CGRA循环流水映射的数据并行优化

数据密集型应用中的核心循环消耗了程序的大量执行时间.如何实现核心循环在粗粒度可重构体系结构(CGRA)上的有效映射仍是当前研究领域的难点.为了在CGRA上最大程度开发应用并行性，降低循环访存开销，提高硬件资源利用率，文中提出一种新颖的面向CGRA循环流水映射的数据并行优化方法.通过定义一种新的可重构计算模型TMGC2以实现对循环的多条数据流水线并行加速.为避免并行化执行带来的额外存储体冲突问题影响

会议

可重构计算模型数据密集型应用数据重组数据重用循环映射粗粒度可重构体系结构

一种基于节点密度分割和标签传播的Web页面挖掘方法

获取Web页面中的重要内容如文本和链接，在许多Web研究领域有着重要的应用价值。目前针该问题主要采用Web页面分割和区块识别的方法。但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题，这种做法割裂了Web页面中本文和链接的内在语义关系，同时降低了页面处理的效率。本文提出了一种Web页面重要内容挖掘的统一框架，该框架主要由三个部分组成：第一，先将Web页面转换为DOM树表示，然后采

会议

页面分割节点密度标签传播DOM树块分类

多核结构片上网络性能-能耗分析及优化方法研究

本文探讨片上网络在执行真实并行程序时的能耗和性能关系并提出一种能耗/性能优化方法。首先，本文提出了一种精确的性能-能耗模型，(a)首次在性能和能耗模型中同时划分出与频率相关和与频率无关的因素，并分析其对性能和能耗的影响。(b)其次，首次在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系，同时引入了并行度、通信模型等与应用相关的因素，使该模型能够同时表达软硬件特性。

会议

多核片上网络高能效能耗优化

汉字书写端正性评判侧面及认知实验

写字教学，是小学教学的重要组成部分。指导学生写好汉字，是小学阶段的重要任务，所以对小学生汉字书写质量的评判就显得尤为重要。本文提出用于评判汉字书写端正性的23个评判侧面，并根据汉字层次结构和汉字规范结构原则分别对提出的端正性侧面进行分类。同时本文对提出的端正性评判侧面进行了详尽的认知实验，实验结果表明，不同标注人对相同汉字标注的侧面数量差异比较大，这根据个人汉字评判严格程度的不同而有所区别。但是对

会议

汉字书写端正性评判侧面认知实验

一种重叠书写中文手写句子实时识别方法

本文提出了一种针对重叠书写的中文手写句子实时识别方法.采用切分和识别集成的字符串识别框架，首先用支持向量机判断新输入的笔划是否属于新的笔划块，并对笔划块进行合并得到候选字符，进而用单字分类器对候选字符进行识别得到候选类别，形成一个候选切分-识别网格.每当提笔时间大于设定的阈值时，系统假设字符串输入完毕，并对候选切分-识别网格进行最优路径搜索得到句子识别结果.本文方法充分地利用了笔划块的几何信息，针

会议

重叠书写实时识别过切分几何模型

基于单个字符的文种鉴别研究

与本文相关的学术论文