论文部分内容阅读
随着互联网的发展和金融市场的完善,较多的投资者开始在网上进行金融投资活动。金融领域中的许多重要信息,如新股的大量公司财务数据等,大都是存放在PDF文件内的表格里,通过各大权威网站进行发布的。因此,随着PDF文档的应用范围越来越广泛,对PDF中表格的信息进行自动抽取与再利用,也显得十分有意义。然而,在PDF中并没有实际的表格存储结构,它的单元格与表格线之间没有任何逻辑关系,单元格内容与表格线是单独存储的,不能直接从PDF的表格中抽取出相关信息。本文的研究实现了从PDF的表格中自动抽取出需要的信息,为接下来的金融数据分析提供了良好的数据基础。公司发行新股是实现多渠道融资的重要途径。由于新股上市首日的市场价格一般会远远高于其发行价格,所以,投资者申购新股后,在上市首日能够获得超额的投资收益。但金融市场的波动性决定了投资者在收益的同时,也会有一定的风险。如果能够在新股申购之前,通过对公司发布的相关数据进行有效地分析,得到新股上市首日收益率估计值,就可以为投资者提供相对可靠的参考建议。本文的研究通过建立相关模型,有效地实现了该工作。本文的主要研究内容包括以下两个方面:(1)本文通过对基于PDF表格形式数据抽取技术的研究,设计并实现了适用于PDF中表格信息的抽取系统。该系统通过对PDF解析、表格信息的识别、栅格化、构建表格的拓朴结构等步骤,最终实现了对PDF表格信息的抽取。(2)将获取到的数据进行校验与预处理后,运用最大熵模型、支持向量机模型、BP神经网络模型及本文改进的RBFNN自适应模型分别进行实验,并通过实验对比与分析得出结论,表明本文改进的RBFNN自适应模型的有效性。本文所研究并实现的信息的自动抽取与分析方法,能够运用在金融领域中的新股的收益分析问题上。本文采用了2011年6月20日至2012年7月16日上市的新股作为实验数据,实现了对这些新股的招股说明书(PDF格式)中的表格信息进行自动抽取,并对抽取到的结果进行实验与评估,这简化了大量的人工操作;接下来,将获取的数据进行验证和预处理后,建立相关的分析模型进行实验,通过几种实验方法的对比可知,本文改进的RBFNN自适应模型在新股收益分析问题上是可行且有效的。本文的研究工作可以为投资者提供及时有效的投资信息,使投资者把握市场的趋势,采取有效地方法获利。