论文部分内容阅读
信息技术的发展进入大数据时代,金融行业的应用也在不断的进行发展。国内的大数据发展处于起步阶段,很多单位都有建设大数据平台的需求。国内某金融研究机构,希望建立一个金融大数据平台,以此来支持其金融研究工作。目前,该金融研究机构的数据来源包括内部金融刊物、商业金融数据库、内部研究论文和国内外公开的行业数据,以这些数据为基础建立一个金融大数据平台。金融大数据平台的建设目标是建设多尺度、多分辨率、多种类、多用户的金融领域基础经济数据体系,深入开发和应用金融信息资源,构建全国权威的、唯一的、通用的金融信息公共平台和金融信息咨询平台,促进金融行业数据资源的整合、共享和利用,为国家金融领域信息化规划、建设和管理服务,为政府、企业、专家、公众提供金融服务。本文根据上述情况,首先介绍了金融大数据平台的建设背景,然后介绍了建设金融大数据平台所涉及到的关键技术,本文所涉及到的关键技术有网络爬虫、网页解析、中文分词和数据展示技术。然后利用软件工程的思想完成了对需求的识别和分析工作,进而从系统概要设计的角度介绍了金融大数据平台的设计思想和整体框架。然后从详细设计的角度介绍了作者独立参与的金融大数据平台中期刊论文数据库、互联网数据抓取和应用平台中的两个模块,即理财产品专题和期刊论文检索的设计思想与实现过程。最后介绍了系统的功能性测试和非功能性测试结果。针对期刊论文数据的特点,详细介绍了其数据的采集、预处理、数据存储、数据索引和数据检索的设计和实现方式,采用SOLR搜索引擎的技术方案对期刊论文进行全文索引,并提供基本检索、高级检索、全文下载和在线阅读的功能。在互联网理财产品数据信息的处理部分,详细介绍了互联网理财产品数据的采集方案、存储方案和数据展示方案。使用网络爬虫技术来抓取互联网信息,采用JSOUP技术来解析和抽取页面数据,使用人工与程序结合的方式来每日更新理财产品数据,同时使用SOLR索引技术对抓取到的数据进行索引,并完成了部分理财产品数据的统计结果展示。针对国家统计数据,详细介绍了统计数据的抓取策略以及数据的存储策略。目前,金融大数据平台的建设正在如火如荼的建设当中,距离正式上线提供服务还有一定的时间,后续的工作有建立分布式的SOLR搜索引擎,完善数据挖掘算法等工作。