论文部分内容阅读
随着互联网技术与计算机技术的高速发展,Web应用得到了越来越大发展,已经深入到社会的各行各业当中。人才市场网络化的产生,使得网络招聘规模日益增加,互联网上的数据量越来越庞大,网络招聘也已成为企业招聘的主渠道。因此,如何利用海量的网络招聘数据,从中快速、准确的找到相应的信息,发掘隐含的知识模式,是一个十分有价值的研究课题。数据挖掘是一个针对大数据量进行数据分析的技术,它能够从有模糊的、噪声的、随机的海量数据里,发现隐藏在该数据未知的、内部的、潜在有用的知识,构建相关模型,实现预测等。数据挖掘技术的特点十分适用于网络招聘信息的分析,对大数据量的信息进行研究,找出其中的知识,以进行决策支持。以数据挖掘为基础,利用基于Lua的网络蜘蛛技术,本文设计了一个网络招聘职位信息采集与数据挖掘框架体系。该系统遵循灵活性、可扩展性、健壮性等设计原则,将网络招聘职位信息采集流程与数据挖掘流程相结合,实现招聘职位信息的数据分析。首先对网络招聘职位信息采集与数据挖掘相关技术和方法的国内外研究现状进行的总结,给出了论文的研究背景和研究意义。其次,对本文使用的关键技术和理论进行了概述,分析了目前主流的数据挖掘技术,讨论了Lua脚本语言与Weka数据挖掘平台等,为系统的设计与实现提供理论基础。接着,对本文提出的框架体系进行了分析和设计,探讨了网络招聘职位信息采集与数据挖掘研究的体系模型,提出了系统的设计原则和目标,分析了系统的各个功能模块。最后,基于分析和设计框架,实现了网络招聘职位信息采集系统,并通过Weka数据挖掘工具对采集到的数据进行分析,得到有用的招聘职位知识,为求职者及企业相关招聘人员提供有用的招聘信息。给出了各个实现的细节及步骤,并对核心功能进行了详细分析。通过系统的实现及结果分析,本系统能够完成网络招聘职位信息的采集工作,并能够实现数据挖掘功能,具有较好的实际应用价值。