金融领域信息的自动抽取与分析方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zcat16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和金融市场的完善,较多的投资者开始在网上进行金融投资活动。金融领域中的许多重要信息,如新股的大量公司财务数据等,大都是存放在PDF文件内的表格里,通过各大权威网站进行发布的。因此,随着PDF文档的应用范围越来越广泛,对PDF中表格的信息进行自动抽取与再利用,也显得十分有意义。然而,在PDF中并没有实际的表格存储结构,它的单元格与表格线之间没有任何逻辑关系,单元格内容与表格线是单独存储的,不能直接从PDF的表格中抽取出相关信息。本文的研究实现了从PDF的表格中自动抽取出需要的信息,为接下来的金融数据分析提供了良好的数据基础。公司发行新股是实现多渠道融资的重要途径。由于新股上市首日的市场价格一般会远远高于其发行价格,所以,投资者申购新股后,在上市首日能够获得超额的投资收益。但金融市场的波动性决定了投资者在收益的同时,也会有一定的风险。如果能够在新股申购之前,通过对公司发布的相关数据进行有效地分析,得到新股上市首日收益率估计值,就可以为投资者提供相对可靠的参考建议。本文的研究通过建立相关模型,有效地实现了该工作。本文的主要研究内容包括以下两个方面:(1)本文通过对基于PDF表格形式数据抽取技术的研究,设计并实现了适用于PDF中表格信息的抽取系统。该系统通过对PDF解析、表格信息的识别、栅格化、构建表格的拓朴结构等步骤,最终实现了对PDF表格信息的抽取。(2)将获取到的数据进行校验与预处理后,运用最大熵模型、支持向量机模型、BP神经网络模型及本文改进的RBFNN自适应模型分别进行实验,并通过实验对比与分析得出结论,表明本文改进的RBFNN自适应模型的有效性。本文所研究并实现的信息的自动抽取与分析方法,能够运用在金融领域中的新股的收益分析问题上。本文采用了2011年6月20日至2012年7月16日上市的新股作为实验数据,实现了对这些新股的招股说明书(PDF格式)中的表格信息进行自动抽取,并对抽取到的结果进行实验与评估,这简化了大量的人工操作;接下来,将获取的数据进行验证和预处理后,建立相关的分析模型进行实验,通过几种实验方法的对比可知,本文改进的RBFNN自适应模型在新股收益分析问题上是可行且有效的。本文的研究工作可以为投资者提供及时有效的投资信息,使投资者把握市场的趋势,采取有效地方法获利。
其他文献
随着计算机技术和多媒体技术的迅速发展,以及互联网的蓬勃兴起,人们获取信息的方式发生了翻天覆地的变化,各种图像获取设备以及图像处理技术也随之飞快发展。从光学照相机到如今
数据可用性问题是k-匿名隐私保护模型带来的一个具有挑战性问题。1998年L.sweedy提出了保护用户隐私的k-匿名隐私保护模型,泛化准标识符,虽然保护了用户的隐私但是大大降低了数
概念格理论又称为形式概念分析,用于概念的发现、排序和显示。它作为一种用于数据组织和数据分析的形式化工具,在理论研究和实际应用上都具有重要意义,已经在多个领域获得了成功
21世纪以来,计算机、通信等领域科学技术得到了飞速的发展,而作为一种多学科高度交叉融合技术的无线传感器网络(Wireless Sensor Networks,WSN)技术也已经得到了前所未有的发展。
在科技领域中,经常会出现一些的全局优化问题,而且这些优化问题往往具有大规模、强约束、非线性、多目标、建模困难等特点,这使得在使用传统的优化技术(如牛顿法、共轭梯度法
在信息集成等应用领域,会产生同一实体的不同描述记录,这些记录往往会在属性值上存在描述性的差异。导致描述性差异的原因有很多,例如误输入、格式不统一、信息不完整、同一概念
近年来,网络上的Web服务数量激增,出现了众多可以完成相同或相似功能的Web服务。然而单个Web服务只能提供一些比较单一的功能,通常无法满足复杂应用的需求,所以需要对单一服
无线多媒体传感器网络WMSNs (Wireless Multimedia Sensor Networks)能够提供更加丰富的视频信息,近年来越来越受到人们的重视。然而在WMSNs中网络异构性导致带宽经常发生波
随着Internet的发展,以Web服务及面向服务架构(SOA,Service-OrientedArchitecture)为代表的分布式计算技术得到了快速的发展,受到学术界和企业界的广泛关注。随着Web服务数量的
随着计算机技术与其他行业的结合越来越紧密,模型的重要性也日益显现,其中数学模型在辅助决策过程中的应用尤其广泛。但是很多模型只专注于算法的精确性,而对用户界面考虑较少,甚