论文部分内容阅读
随着移动互联网的高速发展,手机等移动终端设备得到广泛普及,成为人们在生活中进行信息发布、娱乐、社交、购物、数字办公、教育等的主要工具。同时,随着移动APP技术不断的革新,手机、平板等APP的数据承载能力不断提高,APP所包含的数据信息变得愈发庞大。人工采集APP数据等传统的方法远不能满足与日俱增的数据分析的需求,虽然业界已经采用APP网络爬虫等方法进行移动APP数据采集,但是由于数据保护技术日益加强,这些方法的适用范围逐渐缩小。本文提出了一种新的APP信息数据采集方法,通过实现APP自动运行和对屏幕快照有序截取,并利用OCR技术对快照中的内容进行识别,从而达到APP信息数据采集的目的,对传统的网络爬虫等方法形成有益补充。本文在Android APP的自动运行技术和OCR文字识别技术的基础上,实现了APP文字内容的自动提取。论文主要工作包括:第一,设计和实现了Android APP自动运行子系统,通过APP预处理、APP界面响应判断、APP行为模拟、界面冗余判断、界面边界判断、屏幕快照截取、标题信息采集等手段实现APP的屏幕快照的自动有序采集。其中,根据APP界面数据展示方式的差异,采用APP控件解析技术和图像文字检测与定位技术相结合进行标题信息的收集,并引入图像对比和网络分析的方法实现自动运行所需的界面响应判断和网络响应判断。第二,基于图片预处理方法、文字区域检测技术、字符识别技术,利用Tesseract-OCR引擎实现了屏幕快照文字信息自动识别子系统。并通过设计屏幕快照截取策略以及快照内容重组策略,对快照识别结果进行重组,实现对原APP信息内容的拼接和结构还原。第三,基于多主机并行处理技术,采用Redis消息队列设计并实现了对Android APP具有并行分析能力的Android APP信息分析系统(AIAS,APP Information Analysis System)。实验结果表明,AIAS具有较好效果,实现了程序自动化、高效的对各种类型的APP进行数据采集,具有广泛的适应性。采集结果对原APP所包含内容的关系也进行了体现。本文的研究为APP数据信息采集提供了有力支撑。