论文部分内容阅读
进入21世纪以来,人们的日常生活发生了很大变化,投资理财逐渐平民化,在众多的投资方式中,股票尤其独树一帜,高收益的同时伴随着高风险,如何充分了解股票走势,低风险却有可观回报成为热门研究,尤其是当今互联网时代对股票市场的发展情况产生了极大影响,不但将股票市场从线下扩展到线上,而且在这一过程中产生了海量的股票交易数据。利用计算机技术分析这些海量的数据信息,可以很好的了解市场的走势以及查看相似的股票走势来预测未来。所以,要想及时了解股市动态,稳住收益又不被套,急需要拥有自己的股票交易系统从旁佐助。R语言产生于统计学领域,R的前身是S语言,符合GNU的开源软件,所以与生俱来具有强大的统计计算和制图能力,其中开源实现的工具包至今有5200多个,充分利用这些工具包,合理搭配使用,将大大简化我们工作的建模过程,但是单机版的R有着诸多问题,互联网时代,数据成指数性增长,由于大数据所带来的单机问题,制约着R的更准确、更快速地统计分析能力;在处理大数据方面,Hadoop是热门研究之一,Hadoop使TB、PB级的存储、计算成为了可能,然而Hadoop虽然可以进行全量数据的分析工作,然而其中缺少成熟的数学模型,也缺乏理论依据,因此使用者编写的模型预测出的结果也就会缺少理论上的证实;如此看来,将R的统计分析和Hadoop海量数据处理能力结合起来使用,正好可以互补短长;于是,Rhadoop的出现无疑是给有这方面想法的人带来了福音,Rhadoop主要由rmr、rhbase、rhdfs三部分组成,每一部分都是一个独立的包,分别实现了R对Hadoop系统中的Map Reduce、Hbase、HDFS的调用。本文便是通过RHadoop开源软件包,使R与Hadoop互联,各取其优点。结合R中的各种相关开源包,用R语言进行Map Reduce程序设计,Hadoop的HDFS系统负责存储海量股票数据,二者取长补短,构建股票交易系统。本文主要工作:在linux系统中安装Xen Server,实现虚拟化,然后搭建Hadoop分布式环境,并配置Hadoop的相关文件,安装配置JDK,eclipse,R软件;利用RHadoop搭建R的基于Hadoop分布式平台的并行程序设计环境,配置相关文件,进行用R语言编写Map Reduce分布式程序;结合R语言中的各种包,构建一个完整的交易系统。该系统包括:注册与登陆、获取交易数据、可视化分析、账户管理功能以及以IBM股票(IBM)为例的系统演示。