论文部分内容阅读
随着信息技术的普及与发展,计算机应用作为现代社会一个不能缺少的工具已渗透到日常生活的每一个角落。在日常的计算机应用中,尤其是金融行业中基金公司的信息系统中,涉及到大量数据的处理。目前,基金公司的应用系统都是根据公司现有数据库的数据来开发应用系统。本文针对系统后台数据的获取以及系统前台数据处理进行展现,设计出基于网络爬虫的基金信息的抽取与分析平台。该系统具有良好的稳定性、可扩展性、跨平台性,不仅仅只适应于基金公司,而且只要进过简单修改就能适应于各行各业。具体工作包括系统后台的网页抓取与网页的抽取,以及系统前台J2EE三层架构设计与系统报表的实现。系统后台网页的抓取采用Heritrix网络爬虫实现,并对保存到文件系统的网页利用HTMLParser进行信息数据抽取,作为公司的数据库数据来源,能实时地获取到互联网数据,具有解决实时网络数据埋没的优点。在系统的前台是基于Hibernate、Struts、Spring开源框架搭建三层松散的J2EE架构模型,并在JSP页面中获取查询请求条件进行数据业务逻辑的处理,在前台利用Open Flash Chart、JS Chart动态生成报表,以一种直观、易理解的方式展现给用户。在对系统的需求、研究、实现的基础上,给出了基于互联网上的网页经过该系统后,展示出来的是有参考价值的数据报表模型,并在最后给出了系统的实现过程。