基于Android的智能信息采集功能研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:ybingh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代社会的发展和互联网技术的日渐成熟,我们的生活中充斥着越来越多的信息,它们由手机、电脑等智能设备所承载,以文字、图像等形式存在。在众多图像信息中,包含着一些比较重要的文字信息需要被提取,从而进一步被人们存储和使用。光学字符识别技术(OCR,Optical Character Recognition),对图像中文本区域进行提取,将文本与背景形成的亮、暗转化成黑、白的二维数字图像,通过对其特征提取和模板匹配,将文本图像自动输入成文本文档的过程。在通过光学字符识别之后的文本正确率不能保证100%,此时需要对提取后的文本进行语义级别的后处理操作。本文针对智能信息采集功能的文本后处理技术进行了深入的研究,针对现有的N-gram语言模型,结合文字与其前后相邻字组成词语的特点,提出一种双向N-gram模型,并根据OCR输出的特点,提出一种基于滑动窗口的自适应文本后处理方法,设计并实现了基于Android平台设计了智能信息采集功能系统。本文主要完成了以下几个部分的内容:(1)智能信息采集系统中运用到的关键技术,包括用于文本图像的文字信息提取的OCR技术,着重研究了文字信息提取后的文本后处理技术,N-gram语言模型的概率计算。(2)基于N-gram语言模型的特点,结合文字在词语中首位和末位的位置关系,提出一种双向N-gram概率模型,即当前文字基于前后相邻字的条件概率模型。同时引入了滑动窗口的概念,将文字序列中的三个文字作为一个处理对象,计算中间文字出现的概率,通过与阈值的比较判断是否进行纠错。该方法既利用了语言学知识,也充分利用了OCR提取文字信息得到的候选集,从语言本身的角度提高了信息采集功能系统的正确率。(3)根据巡检系统中对图片中文字信息提取的实际需求,设计并实现了基于Android移动终端的智能信息采集系统,主要包括图像获取模块、图像预处理模块、信息提取模块以及文本后处理四个模块,并对系统的功能进行测试,验证了系统的准确性和可行性。
其他文献
2019年,虽然油气产量稳步增长,但是受经济下行、国际油气价格下跌影响,炼厂开工率与油品销售量双降,国际大石油公司的经营业绩由升转降。国际大石油公司因势利导主动调整发展
我国经济过热的根本致因在于人们渴望早日"小康"与国内资源相对匮乏之间的矛盾.其主要表现是:全面高热、投资拉动、重复建设.为此提出五条对策:严肃整顿土地市场;汰劣;坚持抵
依托深圳生物产业优势,对深圳生物产业STS课程资源和高中生物学教材进行系统开发整合。同时根据STS课程资源的利用途径不同,探索利用本地生物产业STS课程资源进行高中生物学体
针对喀斯特地貌发育对筑坝河流径流的影响问题,为了更经济、快捷、精确地提取水系特征,揭示地貌发育对水文特征响应的成因机制,以黔中筑坝区为研究对象,以30 m分辨率的ASTER-
如何正确选用防水材料王寿华我国目前防水材料的品种很多,性能各异。如何根据所设计工程项目的类型、防水重要程度、所在地区的自然条件、防水层的工作环境和工作状态等,正确选
<正>社会学相对于其它许多社会科学(例如哲学,历史学,政治学,法学等)是一门相当年轻的学科。1838年法国哲学家孔德(Auguste Comte)第一次使用社会学(sociology)这个名词,从而
屋顶绿化是现代都市中提高绿化空间的有效途径,作为屋顶绿化所需的轻质人工土壤,一直被技术人员所关注和研究。就屋顶绿化对人工土壤的要求、常用的人工土壤材料以及人工土壤
低合金钢的熔点较高,结晶温度区间较宽,倾向于糊状凝固,收缩量比较大,铸造过程中很容易出现缩孔和缩松等缺陷。本文利用ProCAST软件,通过数值模拟研究了Cr-Ni-Mo低合金钢大转
目的:总结分时段注水超声引导下危重型新冠肺炎患者置入鼻肠管给予幽门后喂养的护理经验。方法:选取2020年2月收入病区需置入鼻肠管的患者3例,利用超声显像技术定位食道、胃
目的探讨糖尿病饮食知识教育对糖尿病(Diabete mellitus,DM)患者饮食知识、饮食治疗依从性的影响。方法对T2DM患者进行多种方式的DM饮食知识教育,并进行效果评价。结果 105例