论文部分内容阅读
近年来随着中国股市的日趋成熟,越来越多的个人开始参与股票的相关投资。而相对于机构来说,个人投资因缺乏相关的资源还是处于劣势。介于此,为了更好地帮助个人参与到股票的投资中来,本课题针对证券数据库进行了研究与构建,涉及到股票数据的获取、加工处理、存储以及数据平台地搭建。首先是股票数据的来源问题,本课题的股票数据少部分来源于现有的股票分析软件上手动下载下来的Excel格式的数据和免费的第三方接口返回的Json格式的数据,大部分数据来自网页数据。网页数据部分又涉及到网页数据的抓取技术,相对于传统的数据抓取调度策略,本课题借鉴了操作系统中的多级反馈队列调度算法进行URL的调度,其中涉及到优先级的划分等问题。而在多线程情形下,本文将一致性哈希算法应用到URL的分配策略中,解决了新增或删除一个线程可能会出现的所有URL的哈希映射结果都会变化的情况。同时,针对于网页重复问题本文也做了研究,并在常用去重策略的基础上进行了改进并最终使用了基于Bitmap算法的BloomFilter算法进行去重。接着本文介绍了数据的加工处理与存储,包括数据质量的定义、数据质量的保证以及数据库表的搭建等内容。最后本课题实现了一个股票数据平台,从而更好地以界面化的形式将股票数据展示给个人,整个数据平台以Tornado+MySQL+Python技术为基础。为了解决人机交互的界面设计优化问题,本系统前端采用Bootstrap、JQuery作为模板,后端采用Tornado作为web框架兼web server。