金融大数据平台部分模块的设计与实现

被引量 : 12次 | 上传用户:guosuzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展进入大数据时代,金融行业的应用也在不断的进行发展。国内的大数据发展处于起步阶段,很多单位都有建设大数据平台的需求。国内某金融研究机构,希望建立一个金融大数据平台,以此来支持其金融研究工作。目前,该金融研究机构的数据来源包括内部金融刊物、商业金融数据库、内部研究论文和国内外公开的行业数据,以这些数据为基础建立一个金融大数据平台。金融大数据平台的建设目标是建设多尺度、多分辨率、多种类、多用户的金融领域基础经济数据体系,深入开发和应用金融信息资源,构建全国权威的、唯一的、通用的金融信息公共平台和金融信息咨询平台,促进金融行业数据资源的整合、共享和利用,为国家金融领域信息化规划、建设和管理服务,为政府、企业、专家、公众提供金融服务。本文根据上述情况,首先介绍了金融大数据平台的建设背景,然后介绍了建设金融大数据平台所涉及到的关键技术,本文所涉及到的关键技术有网络爬虫、网页解析、中文分词和数据展示技术。然后利用软件工程的思想完成了对需求的识别和分析工作,进而从系统概要设计的角度介绍了金融大数据平台的设计思想和整体框架。然后从详细设计的角度介绍了作者独立参与的金融大数据平台中期刊论文数据库、互联网数据抓取和应用平台中的两个模块,即理财产品专题和期刊论文检索的设计思想与实现过程。最后介绍了系统的功能性测试和非功能性测试结果。针对期刊论文数据的特点,详细介绍了其数据的采集、预处理、数据存储、数据索引和数据检索的设计和实现方式,采用SOLR搜索引擎的技术方案对期刊论文进行全文索引,并提供基本检索、高级检索、全文下载和在线阅读的功能。在互联网理财产品数据信息的处理部分,详细介绍了互联网理财产品数据的采集方案、存储方案和数据展示方案。使用网络爬虫技术来抓取互联网信息,采用JSOUP技术来解析和抽取页面数据,使用人工与程序结合的方式来每日更新理财产品数据,同时使用SOLR索引技术对抓取到的数据进行索引,并完成了部分理财产品数据的统计结果展示。针对国家统计数据,详细介绍了统计数据的抓取策略以及数据的存储策略。目前,金融大数据平台的建设正在如火如荼的建设当中,距离正式上线提供服务还有一定的时间,后续的工作有建立分布式的SOLR搜索引擎,完善数据挖掘算法等工作。
其他文献
目的观察生津益胃合剂治疗糖尿病性胃轻瘫的临床疗效。方法将124例糖尿病性胃轻瘫患者随机分为两组。对照组62例给予西沙必利治疗,治疗组62例给予生津益胃合剂治疗,7d为1个疗
20世纪西方文化哲学思潮中的文化进化主义与文化相对主义,在其演变过程中,一直试图寻求合理的文化价值模式,但是它们各有利弊,文化统一理想并没有建立起来.笔者认为,只有进步
目的探讨中西医结合治疗新生儿高胆红素血症的临床疗效。方法选取2012年6月至2014年6月我院收治的新生儿高胆红素血症患儿作为研究对象,按照随机数字表法将84例患儿均分为观
园林生态学属于应用生态学的范畴,是以人类生态学为基础,与城市、景观密切相关。园林生态学是研究园林可能影响范围内的人类生活、资源使用、环境质量和美观4者之间的关系及
合作性是幼儿亲社会性的重要组成部分,是幼儿人格不可或缺的一部分。合作性有利于儿童思维发展,有利于儿童去自我中心,有利于儿童同伴交往,提高社会交往能力。幼儿合作性的发
<正>巧妙惊人的情节设置,敏锐真实的写作笔调,睿智并发人深省,便是《追风筝的人》——部来自阿富汗著名作家卡勒德·胡赛尼笔下的经典之作带给读者的感受。当它出现在读者面
纳撒尼尔·霍桑是美国十九世纪后期影响最大的小说家,也是美国文学的真正奠基人之一。他一生著作颇丰,包括四部长篇罗曼史—《红字》、《带有七个尖角阁的房子》、《福谷传奇
对话交流是两国开展双边关系的重要方式。中美之间在各个领域的对话交流对促进中美关系的良性互动起到了积极的推动作用,同时由此产生的一系列对话机制则是双方对话交流的机
研究背景及目的:动脉粥样硬化(atherosclerosis, AS)是一组全身性动脉疾病,冠状动脉粥样硬化性心脏病(coronary heart disease, CHD)作为其中的一种,已成为临床最常见的心血管
小额贷款公司作为一种新型的金融创新形式,是指“由自然人、企业法人与其他社会组织投资设立,不吸收公众存款,经营小额贷款业务的有限公司或股份公司”。其试点工作于2005年