基于聚类分析和贪心算法的文件碎片拼接复原

来源 :电子世界 | 被引量 : 0次 | 上传用户:jianjiaomylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】针对文献修复中均匀碎片,以特征位置为基准,采用K-means算法进行聚类分析,对于每一类碎片运用贪心算法不断地取匹配度最高的碎片进行拼接,逐步自动复原整个文献。经计算机仿真证明:此方法能实现文献的快速拼接,有效地提高物证修复,碎片复原的工作效率。
  【关键词】聚类分析;匹配度;贪心算法;均匀碎片;特征
  0.引言
  破碎文件的拼接在司法物证复原?、历史文献修复以及军事情报获取等领域都有着重要的应用。目前在文件碎片复原这一领域,国内研究涉及到的都只是不规则的碎片[1-4],碎片物理性质、几何形状、颜色、纹理等外在特征都无疑给拼接复原的工作带来了便利[5]。但是在实际应用中,并不是所有的碎片都存在易于区分的外在特征,虽然计算机有超强的计算能力,但目前很难对碎片边缘上的文字分布走势特征进行智能地识别,均匀规则的碎片复原就会遇到难点。
  对于来自同一页印刷文字文件的均匀破碎纸片(以2013年全国大学生数学建模竞赛B题所给的中英文碎片为例[6]),这些碎片形状大小规则,计算机显然无法从利用碎片外在特征进行匹配。仔细分析这些碎片,可以发现碎片上文字呈现的特征规律,不同碎片上的文字出现的位置特征是不一样的,利用碎片上文字的位置特征,对碎片先按行聚类,对每一类碎片的边缘灰度进行分析比对,运用贪心算法的处理思想每次都将灰度相似度最高的碎片拼接在一起,辅之以少量的人工干预,最后即可逐步自动拼接完成整个文档。计算机仿真实验证明,上述拼接方法快速有效,在处理均匀碎片的拼接问题上能发挥出巨大的作用。
  1.假设及数据的预处理
  为了能比较好地去阐述拼接模型,现做出以下假设:
  (1)所有的碎纸片大小一致、形状规则、边缘整齐。
  (2)原中英文文献页边距、行距不变,字符间隔、大小保持不变。
  将图像转化为对应的像素矩阵存放在计算机中,矩阵中的元素称为像素,像素的取值在0到255之间,所有的碎片和矩阵都是一一对应。
  2.聚类分析
  碎片的数量庞大,如跳过聚类直接进行拼接,被拼接碎片要与剩余所有的拼接碎片逐一进行比对,效率低,出错率高。将所有的碎片先按行进行聚类,再拼接,是提高正确率的必要先行过程。
  2.1 特征位置的选取
  行间聚类,首先必须找出同一行碎片之间的相同点以及不同行碎片之间的差异,仔细分析这些碎片,可从文字位置特征入手。
  中英文的书写习惯是按行从左往右,从上往下,拥有相同的行距。每一个碎片上的文字都会出现在不同的位置,在此将这些位置称为该碎片的特征位置。图中中文碎片只可能在非阴影区域出现文字,非阴影区域也就称为碎片的特征位置。对于英文碎片,由于英文字母是以四线三格为标准进行书写,不同于中文汉字的田字格,在特征位置上的选取有一定的差异,此取两行之间的行距空白区域作为特征位置。
  以碎片之间特征位置的差异为基础可建立数学模型所需要的距离指标,我们认为两个碎片的特征位置相同或相近,这两个碎片的距离越小,被归为一类的可能性越大。基于此距离指标,采用K-means算法对中英文碎片进行聚类。
  2.2 K-means算法的应用
  K-means聚类算法是由Steinhaus 1955年、Lloyd 1957年、BallHall 1965年、McQueen 1967分别在各自的不同的科学研究领域独立的提出[7-9],该算法的核心思想是找出K 个聚类中心使得每一个数据点和与其最近的聚类中心的距离和最小化。该方法采用某个空间距离作为评价相似程度的指标,然后确定评价聚类划分结果质量的准则函数,在给出初始聚类中心点后,用迭代法找出使准则函数取极值的最好聚类划分结果。该算法能对大型数据集进行高效分类,收敛速度快,在现实中应用广泛。具体流程如下:
  (1)从碎片集中任意选取最左边一列的11碎片作为基准点,赋给初始的聚类中心。
  (2)对碎片集中的每个碎片样本点,计算其与各个聚类中心的距离,并记录与其距离最小的聚类中心的编号label:
  (3)重新计算k个聚类中心:
  (Nj为label为j的样本数量)
  重复步骤2和步骤3,直到达到最大迭代次数,聚类中心不再改变为止。
  利用上述K-means算法对2013年全国大学生数学建模竞赛B题所给的英文碎片进行聚类可快速而精准得到如下11个分组,如表1所示(中文碎片聚类结果不再赘述)。
  对每一个类中的碎片进行拼接,减少了拼接过程中的比对次数,提高了效率,还降低了出错的概率。K-means算法对中英文碎片的准确聚类,为后续基于贪心算法的碎片拼接提供了有力的支持。
  3.基于贪心算法的碎片拼接
  3.1 匹配度指标的提出
  文献碎成两半,在断裂处的颜色也应该大致相同,具有一定的连贯性。利用碎片边缘颜色的连贯性和对应碎片矩阵在首(尾)行、首(尾)列元素的一致性,可给出碎片拼接匹配标准。假设任给两个碎片对应的灰度矩阵分别为,定义这两个碎片之间的匹配度为:
  (RNo为矩阵的列数,start为首列序号1,end为最末尾一列的序号)
  同理,在从上往下进行拼接时,匹配度为如下表达式:
  (CNo为矩阵A的行数,start为首行序号1,end为最末尾一行的序号)
  匹配度即为两个碎片矩阵在拼接处行(列)向量的欧氏距离和的倒数。关于这一指标,这里说明几点:
  ①匹配度相对于两个矩阵而言,一个矩阵不存在匹配度。
  ②匹配度数值越大,则认为两个矩阵的匹配度越高。
  ③匹配度这一指标的优劣直接受CNo/RNo和矩阵数量K的影响,因为在参与计算的矩阵的行数CNo或列数RNo越多,匹配度最高的矩阵为正确的匹配矩阵的概率就越大,出现差错的概率越小;以及矩阵的个数越少,出错的概率也会越小。   由匹配度指标来衡量碎片之间的匹配程度,是可行可靠,易于计算的。
  3.2 贪心算法的运用
  贪心算法(Greedy algorithm)[10]是一种求某些问题最优解的更简单、更迅速的方法。它省去了为找最优解要穷尽所有可能而必须耗费的大量时间,根据当前状态做出在当前看来是最好的选择,然后再去求解做出这个选择后产生的相应的子问(下转第186页)(上接第183页)题。每做一次贪心选择就将所求问题简化为一个规模更小的子问题,最终可得到问题的一个整体最优的拼接方案[12]。
  根据匹配度这一指标,每一类碎片拼接完成之后,若使得所有拼接处的匹配度的和最大,则这就是一个全局最优的拼接。但是碎片的组合数量以阶乘的复杂度递增,对每一种组合都计算器匹配度的和,时间开销巨大。利用贪心算法的思想,将整体最优组合分解为多个局部最优,大幅减少计算次数,即可得出最优的拼接方案。
  按照上述流程,对每一类碎片集以贪心算法按照最优匹配度法则进行拼接完成后,发现有4类碎片拼接完全正确的。只需对其他的7类碎片实行1到3次人工干预,即可拼接出所有类别的碎片。例如图3为实际拼接结果:
  11类碎片行内拼接完成之后,得到11个新碎片,再次运用上述方法进行行间拼接,即可复原整个文件。整个拼接过程分为行间聚类,行内拼接,行间拼接3步,在合理的聚类和拼接算法的支持下,实现了碎片的自动拼接复原。
  4.结语
  本文研究了一种基于聚类分析和贪心算法的均匀碎片拼接模型,详细地介绍了先按照特征位置进行间聚类,后依靠匹配度指标进行拼接的过程步骤,有效地解决了均匀中英文碎纸片的拼接复原问题。充分利用了碎片中的文字分布规律,在横切和纵切同时存在的情况下,极大地简化了拼接过?程,提高了匹配的准确性。为减少拼接过程中的计算量,模型中引进少量的人工干预。如果不考虑拼接计算量等因素,我们仍可改进算法,将部分人工干预过程转化为计算机智能算法实现,从而完全由计算机自主拼接碎片。
  参考文献
  [1]王坚.非规则碎片拼合关键技术研究[D].南京:南京航空航天大学,2007:10-12.
  [2]郑蓓蓓,郭立本.改进的遗传算法应用于碎片拼接[J].计算机与现代化,2011(5):15.
  [3]Justino E,Oliveira L S,Freitas C.Reconstructing shredded documents through feature matching[J].Forensic science international,2006,160(2):140-147.
  [4]Lin H Y,Fan-Chiang W C.Reconstruction of shredded document based on image feature matching[J].Expert Systems with Applications,2012,39(3):3324-3332.
  [5]王轩.碎片拼接[D].浙江大学,2011:1-12.
  [6]教育部高等教育司、中国工业与应用数学学会m2013年高教社杯全国大学生数学建模竞赛赛题,网址:http://www.mcm.edu.cn/problem/2013/2013.html.
  [7]王千,王成,冯振元等.K-means 聚类算法研究综述[J].电子设计工程,2012,20(7):21-24.
  [8]周丽娟,王慧,王文伯等.面向海量数据的并行 KMeans 算法[J].华中科技大学学报(自然科学版),2012(1).
  [9]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):
  48-61.
  [10]柴婷婷,齐璐,孙斌.浅析贪心算法[J].中国科技博览,2011(20):182.
  基金项目:中南财经政法大学经济管理实验教学项目 (No:21431230312)。
其他文献
【摘要】本文讨论并分析了Netfilter的功能框架、工作原理及数据包处理的实现机制,设计了在Netfilter框架中实现配电终端报文预处理的hook模块,实现去除通讯遥控报文数字签名的功能,为配网自动化的二次安防提供帮助,同时为其他通信应用中修改tcp包数据提供借鉴参考。  【关键词】Netfilter;hook模块;mangle函数;报文处理  引言  配电终端是典型的嵌入式设备,多基于lin
期刊
【摘要】这是一个科技飞速发展的时代,这是一个信息传播速度极快的时代。媒体是信息传播的主力军,而我们大学生,是广大信息的受众和信息传播载体最为重要的组成部分。而日常生活中,我们接触信息的最便捷的途径就是通过我们的智能手机。随着智能手机价格的降低和功能的逐渐强大,手机变得越来越普及,每个大学生都有自己的手机。智能手机之所以智能,其实质是通过各种手机APP来实现用户所要求的功能。手机只是各类APP的的载
期刊
【摘要】笔者立足本校网络实际,列举了现有校园网络的不足之处,对照数字校园基础设施建设规划,对校园网络硬件设备进行升级改造,夯实数字化校园网络基础设施,从而保证数字化校园的可靠运行。  【关键词】校园网络;数字化校园  一、学校校园网络概况及不足  我校2001年进行了校园网络规划、建设,并在学校教学楼、实验楼建成百兆局域网;2002年为迎接省“1122”工程验收,对校园网络进行延伸扩建,使行政办公
期刊
【摘要】文章在QuartusII开发环境下釆用VHDL语言,设计了水表抄表器。设计采用VHDL的结构描述风格,依据功能将系统分为四个模块,控制模块、计数模块、存储模块和显示模块,整体生成采用图形输入法。  【关键词】水表抄表器;VHDL;QuartusII  1.引言  随着科学技术水平不断的提升,以及人民群众对物质需求不断提高,“高科技小区”这种新型的概念已经被列入到普通小区的建设工程之中。在这
期刊
【摘要】电子商务专业教学资源库建设一直是各高职院校探索与研究的问题,本文通过对高校专业教学资源库建设方式进行分析,详细阐述了湖南商务职业技术学院电子商务专业利用世界大学城空间进行教学资源库的建设与应用工作,从而进一步推进了电子商务专业的信息化教学改革。  【关键词】世界大学城;电子商务专业;教学资源库建设  教高[2011]8号文件《教育部关于国家精品开放课程建设的实施意见》中明确指出:高校应以教
期刊
【摘要】可穿戴设备已经由概念走向消费级产品,但在推广普及方面受到了很多制约,本文分析了其中的原因,针对目前存在的问题设计了一种智能服装,旨在达到和超越手持设备的功能和用户体验。  【关键词】可穿戴设备;人机交互;用户体验  1.绪论  硬件技术在门槛上不断降低,价格也不断下降,为可穿戴计算设备的发展提供了契机。近年来,可穿戴设备受到了厂商的极力吹捧,也引来了学术界的广泛关注,但在市场上始终不温不火
期刊
【摘要】智能设备的普及及电子商务的迅猛发展使得移动电子商务在人们的生活中扮演着越来越重要的作用。而移动电子商务模块相关的教育在大学教育中还存在着一些不足。本文以华南理工大学广州学院电子商务专业为研究对象,对其移动电子商务模块相关教育现状进行了分析,总结出其中存在的问题,并提出了改进建议。  【关键词】电子商务专业;移动电子商务;教育  一、前言  移动电子商务是利用手机、掌上电脑等无线终端进行的B
期刊
【摘要】以大学生创业训练项目的形式,增强大学生在创新基础上的创业能力,培养适应国家建设需要的应用型人才和创业型人才。通过该项目的实施可以促进高等学校转变教育思想观念,改革人才培养模式,强化创新创业能力训练,提升大学生的综合素质,增强大学生的创新创业能力,培养适应创新型国家建设需要的高素质人才。通过大学生创业训练项目的实施,不但体现专业技能的培训,而且融入了方法能力与社会能力培养,从而最终形成学生的
期刊
【摘要】随着计算机技术和信息技术的日益发展,考核医护人员专业技能以及掌握程度的方法也日趋多元和全面。目前各医学院校所使用的在线考试系统,多数存在通用性、兼容性和开放性差,系统应用平台及网络架构陈旧等问题。而且,医学院校在线考试系统应具备哪些功能和特征,开发应遵循的原则等尚无明确的标准。因此给用户使用、推广和系统升级等都带来诸多困扰和不便。我们正在研发的在线考试系统,从最初的设计到具体实施,都尽量做
期刊
【摘要】针对现有插座、智能插座存在的一些问题,设计了一种基于MSP430-F149的智能插座。首先介绍了以MSP430-F149为控制器的智能插座的工作原理、外围电路的设计、软件设计。其次介绍了无线蓝牙串口透传模块、精密电流互感器以及单总线数字温度传感器DS18B20模块等多种传感器的基本连接和使用方法。接下来分析由于产用了以上的芯片与模块会使家中用电器与用户达到一种高水平的安全状态。最后通过实验
期刊