论文部分内容阅读
随着网络的迅速发展,万维网成为大量信息的载体,这些数据中蕴藏着许多有价值的信息,其中存在的巨大潜能不容小觑。目前国内外都在关注大数据给我们带来的潜在商机,各行各业都有自己潜在的商业数据,在市场中取得最大的商业利润。大数据行业是一个垂直的行业,如何从业务角度,从大数据视角上,能够挖掘出更利于企业发展的价值,而不是单纯的从技术层面上说数据挖掘、数据分析,而是挖掘“我”需要的有用的信息,利于“我”企业发展的信息。本文针对网络数据的潜在价值这一特征,设计并实现了基于网页内容的海量数据管理系统。该系统能够有效的利用数据挖掘方法,从网络中获取海量信息并提取出有用的模式和规律利用它将数据转化为商业智能,提高企业的核心竞争力。本文首先阐述海量数据管理系统的项目背景,项目目的和意义;然后介绍本系统涉及到的相关技术,之后提出系统业务、功能性和非功能性的需求分析;随着对系统的设计提出解决方案。其中数据抓取采用网络爬虫技术,数据分析阶段采用聚类算法中的K均值算法和K中心点算法,关联分析中采用频繁渐增模式树(Frequent Pattern Growth, FP-growth)算法来实现的。在整个项目的开发工作中,作者独立负责完成了网络数据抓取模块,部分数据预处理模块功能和数据挖掘分析模块的设计与实现。作为主要参与者,作者参与完成了网络数据抓取、数据预处理和数据分析模块的功能实现。最后论文对系统的测试结果进行分析和指标的评估总结。该项目已通过内测,目前已准备进入运行阶段。本人参与设计与实现的各模块功能运行正常,不仅能够满足用户需求,而且系统对运行环境的兼容性和各模块的可扩展性均达到预期结果。