论文部分内容阅读
摘 要:为了将高校数据库、知识发现技术高度集成,结合J2EE可扩展、可重用、独立性强等优点,构建基于J2EE的高校知识发现系统,在此基础上介绍了该系统的体系架构、技术实现和功能模块。
关键词:J2EE EJB 数据挖掘 知识发现系统
中图分类号:TP311文献标识码:B文章编号:1673-8454(2007)10-0054-03
本文拟在J2EE平台上,利用XML技术、数据库、知识库、数据挖掘和信息搜索技术,构建高校知识发现系统,将地理位置分散的、异构的数据进行合理地组织和挖掘,不仅能实现不同部门内部的知识发现,而且能胜任部门之间的联合知识发现。
一、系统可行性分析
高校建立知识发现系统在设备、技术、人才方面都具有很强的可行性。目前高校都在投入较大的物力和财力来实现数字化校园,已经利用成熟的WEB技术建立了Internet系统,将学校内部的各种数据、信息和文档置于Web数据库和服务器上,便于教职员工和学生之间信息的共享与交流,同时也将Intranet系统和外面的Internet世界连接,建立起对外信息发布窗,为基于网络上的不同部门的知识发现提供了可能;而高校各个部门的管理信息化都已成熟,如人事、科技处等都积累了完善的历史数据,为知识发现提供可靠的数据来源;而高校拥有雄厚的信息技术和信息人才储备,这些都使得高校实现知识发现成为可能。鉴于高校数据地理位置分散、异构等特性,拟在J2EE平台上开发实现该系统。
二、J2EE的体系结构介绍
J2EE(Java 2 Enterprise Edition)是由SUN公司领导,各厂商共同制定,并得到广泛认可的工业标准。可以满足当前不断变化和日趋复杂的商业应用需求,也很快变成了企业构建新系统和集成、扩展已有系统的首选技术。J2EE的体系结构图如图1所示,可以分为4层。[1]
图2 基于J2EE的高校知识发现体系图
系统分为用户层、Web层、业务层、数据层。用户根据需要通过校园局域网浏览器发送请求,通过HTTP、HTTPS、IIOP等协议访问后端的应用服务器内的资源,客户应用层根据用户的权限不同而显示不同的信息。Web服务器层是连接用户层和业务逻辑层的桥梁,通过由显示动态HTML/WML页面的JSP与用户进行交互,根据用户请求Servlet控制器将其传递给相应的业务EJB操作处理。业务处理服务器层是功能实现EJB集合,根据系统实现目标包括知识查询和知识发现两大模块,狭义的知识发现是基于数据挖掘的,笔者认为广义的知识发现应包括知识检索与查询。该层包括知识查询EJB、数据处理EJB、数据挖掘EJB、知识处理EJB,其中后3个是完成狭义知识发现功能的。数据层由分布在高校各个部门的数据库和存储发现结果的知识库构成,系统采用杨炳儒教授提出的“双库协同机制”进行数据驱动,双库即数据库和知识库,传统的知识发现是针对各类数据库进行的,为了体现认知的自主性以及使新旧知识有机融合,杨教授首次提出双库协同机制,为知识发现领域的一大创新。[3][4]
四、系统技术实现
整个系统是在J2EE1.4平台开发的,系统整体架构采用B/S模式,其中Web Server使用Tomcat,应用服务器采用遵从J2EE规范的EJB服务器Jboss。在设计开发系统时,充分考虑其复杂性和分布性,采用了面向对象的系统开发方法和JSP Servlet Java Bean的开发结构。为便于系统移植和维护,将主要的业务逻辑封装在EJB,为JSP和Servlet提供各种方法和属性调用。
由于高校知识发现系统要涉及不同部门的信息,而他们已经有了各种不同的管理信息系统,数据库存在异构性,很难在各系统之间达到共享,为解决这个问题,采用XML数据格式的接口,实现异构数据的集成。XML是全球范围内用于描述数据和交换数据的一种标准方式,由于它的自描述性、可扩展性、可校验性、多样式表支持等特点,已在多方面得到了广泛的应用,如应用于内容管理发布、数据层集成、应用层集成、系统配置信息描述、工作流描述等。在该系统中,XML主要解决以下几个问题:将客户端传来的异构数据转换成统一XML数据给业务处理服务器,并且将以XML形式的知识发现结果转换成客户端的特定形式返回给用户;作为数据挖掘元模型的配置文件,描述知识发现业务流程,支持建模与业务过程重构描述;描述EJB组件在容器中的动态部署配置文件。[5]
五、系统功能模块
1.知识查询EJB
知识查询模块利用SQL技术实现数据库之间的简单查询功能,例如要查询学生“张三”的信息,系统会从教务、学工以及财务等保存张三信息的相关数据库中将他的学习成绩、行为表现以及缴费信息查找出来,利于教师全面了解学生。
2.数据预处理EJB
高校数据库中的数据多半具有不完整、噪声和不一致的特征,数据预处理在数据挖掘之前使用,可以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理包含数据清洗、数据集成、数据转换、数据归约。[2] 数据清洗通过填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致来“清洗”数据;数据集成将来自不同数据元的数据集合成一致的数据存储,元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成;数据变换将数据变换成适于挖掘的形式,如属性数据规范化,使得他们落入小区间,如0.0-1.0;数据归约如数据立方体聚集、维归约、数据归约和离散化都可以用来得到数据的归约表示,使得信息内容的损失最小。
3.数据挖掘EJB
预处理后的数据要根据用户的要求进行不同的分析处理,该系统面向的用户是具有一定数据挖掘知识、会根据具体问题选择适合的数据挖掘方法并且能进行结果分析利用的人。
这是一个数据挖掘EJB Container,包含实现数据挖掘功能如分类、聚类、预测以及关联的常用算法实现组件(如图3):分类的决策树C4.5算法、K-Means聚类算法、Apriori关联算法、时间序列分析、回归分析算法、BP神经网络分类算法以及SOM神经网络聚类算法等,这些组件是小的Java Bean,用户可以根据需要调用其中的某种或某几种方法进行分析比较,另外,随着数据挖掘算法的不断成熟与完善,新的算法组件可以方便地加入Container中,这种可移植性是J2EE的EJB优势之一。[2]
图4 知识处理内部逻辑图
六、结语
J2EE平台支持简化的、基于组件开发模型,由于J2EE基于Java编程语言和J2EE平台,它提供了编写一次,随处运行的可移植性,遵循J2EE标准的所有服务器都支持该模型。EJB组件使编写应用程序更为简单,由于在EJB模型中,各个软件组件都是严格分离的,因此,可以从现有的软件组件装配出服务器端应用程序,另外,J2EE对应用层要求低、操作简单。因此基于J2EE的高校知识发现系统有效解决了高校数据库异构、分散的缺陷,并且具有良好的可重用性、可扩展性,能为高校教学、管理人员从纷繁的数据中发现真正感兴趣的知识助一臂之力。
参考文献:
[1]Sue Spielman, Meeraj Kunnumpurath著,马树奇等译. J2EE1.4编程指南[M]. 北京:电子工业出版社,2005.5
[2] Jiawei Han Micheline Kambe著,范明等译. 数据挖掘概念与技术[M]. 北京机械工业出版社,2005.2
[3]杨炳儒等. 基于知识发现的实用智能系统总体结构模型[J]. 计算机工程,2003(10):42-45
[4]杨炳儒等. 基于内在认知机理的知识发现理论及其应用[J]. 自然科学进展,2006(1):107-115
[5]李强等,基于J2EE的数据挖掘算法组件库设计[J]. 计算机工程与设计,2005(11):3091-3093
[6]何新贵著. 知识处理与专家系统[M]. 北京:国防工业出版社,1990.9
关键词:J2EE EJB 数据挖掘 知识发现系统
中图分类号:TP311文献标识码:B文章编号:1673-8454(2007)10-0054-03
本文拟在J2EE平台上,利用XML技术、数据库、知识库、数据挖掘和信息搜索技术,构建高校知识发现系统,将地理位置分散的、异构的数据进行合理地组织和挖掘,不仅能实现不同部门内部的知识发现,而且能胜任部门之间的联合知识发现。
一、系统可行性分析
高校建立知识发现系统在设备、技术、人才方面都具有很强的可行性。目前高校都在投入较大的物力和财力来实现数字化校园,已经利用成熟的WEB技术建立了Internet系统,将学校内部的各种数据、信息和文档置于Web数据库和服务器上,便于教职员工和学生之间信息的共享与交流,同时也将Intranet系统和外面的Internet世界连接,建立起对外信息发布窗,为基于网络上的不同部门的知识发现提供了可能;而高校各个部门的管理信息化都已成熟,如人事、科技处等都积累了完善的历史数据,为知识发现提供可靠的数据来源;而高校拥有雄厚的信息技术和信息人才储备,这些都使得高校实现知识发现成为可能。鉴于高校数据地理位置分散、异构等特性,拟在J2EE平台上开发实现该系统。
二、J2EE的体系结构介绍
J2EE(Java 2 Enterprise Edition)是由SUN公司领导,各厂商共同制定,并得到广泛认可的工业标准。可以满足当前不断变化和日趋复杂的商业应用需求,也很快变成了企业构建新系统和集成、扩展已有系统的首选技术。J2EE的体系结构图如图1所示,可以分为4层。[1]
图2 基于J2EE的高校知识发现体系图
系统分为用户层、Web层、业务层、数据层。用户根据需要通过校园局域网浏览器发送请求,通过HTTP、HTTPS、IIOP等协议访问后端的应用服务器内的资源,客户应用层根据用户的权限不同而显示不同的信息。Web服务器层是连接用户层和业务逻辑层的桥梁,通过由显示动态HTML/WML页面的JSP与用户进行交互,根据用户请求Servlet控制器将其传递给相应的业务EJB操作处理。业务处理服务器层是功能实现EJB集合,根据系统实现目标包括知识查询和知识发现两大模块,狭义的知识发现是基于数据挖掘的,笔者认为广义的知识发现应包括知识检索与查询。该层包括知识查询EJB、数据处理EJB、数据挖掘EJB、知识处理EJB,其中后3个是完成狭义知识发现功能的。数据层由分布在高校各个部门的数据库和存储发现结果的知识库构成,系统采用杨炳儒教授提出的“双库协同机制”进行数据驱动,双库即数据库和知识库,传统的知识发现是针对各类数据库进行的,为了体现认知的自主性以及使新旧知识有机融合,杨教授首次提出双库协同机制,为知识发现领域的一大创新。[3][4]
四、系统技术实现
整个系统是在J2EE1.4平台开发的,系统整体架构采用B/S模式,其中Web Server使用Tomcat,应用服务器采用遵从J2EE规范的EJB服务器Jboss。在设计开发系统时,充分考虑其复杂性和分布性,采用了面向对象的系统开发方法和JSP Servlet Java Bean的开发结构。为便于系统移植和维护,将主要的业务逻辑封装在EJB,为JSP和Servlet提供各种方法和属性调用。
由于高校知识发现系统要涉及不同部门的信息,而他们已经有了各种不同的管理信息系统,数据库存在异构性,很难在各系统之间达到共享,为解决这个问题,采用XML数据格式的接口,实现异构数据的集成。XML是全球范围内用于描述数据和交换数据的一种标准方式,由于它的自描述性、可扩展性、可校验性、多样式表支持等特点,已在多方面得到了广泛的应用,如应用于内容管理发布、数据层集成、应用层集成、系统配置信息描述、工作流描述等。在该系统中,XML主要解决以下几个问题:将客户端传来的异构数据转换成统一XML数据给业务处理服务器,并且将以XML形式的知识发现结果转换成客户端的特定形式返回给用户;作为数据挖掘元模型的配置文件,描述知识发现业务流程,支持建模与业务过程重构描述;描述EJB组件在容器中的动态部署配置文件。[5]
五、系统功能模块
1.知识查询EJB
知识查询模块利用SQL技术实现数据库之间的简单查询功能,例如要查询学生“张三”的信息,系统会从教务、学工以及财务等保存张三信息的相关数据库中将他的学习成绩、行为表现以及缴费信息查找出来,利于教师全面了解学生。
2.数据预处理EJB
高校数据库中的数据多半具有不完整、噪声和不一致的特征,数据预处理在数据挖掘之前使用,可以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理包含数据清洗、数据集成、数据转换、数据归约。[2] 数据清洗通过填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致来“清洗”数据;数据集成将来自不同数据元的数据集合成一致的数据存储,元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成;数据变换将数据变换成适于挖掘的形式,如属性数据规范化,使得他们落入小区间,如0.0-1.0;数据归约如数据立方体聚集、维归约、数据归约和离散化都可以用来得到数据的归约表示,使得信息内容的损失最小。
3.数据挖掘EJB
预处理后的数据要根据用户的要求进行不同的分析处理,该系统面向的用户是具有一定数据挖掘知识、会根据具体问题选择适合的数据挖掘方法并且能进行结果分析利用的人。
这是一个数据挖掘EJB Container,包含实现数据挖掘功能如分类、聚类、预测以及关联的常用算法实现组件(如图3):分类的决策树C4.5算法、K-Means聚类算法、Apriori关联算法、时间序列分析、回归分析算法、BP神经网络分类算法以及SOM神经网络聚类算法等,这些组件是小的Java Bean,用户可以根据需要调用其中的某种或某几种方法进行分析比较,另外,随着数据挖掘算法的不断成熟与完善,新的算法组件可以方便地加入Container中,这种可移植性是J2EE的EJB优势之一。[2]
图4 知识处理内部逻辑图
六、结语
J2EE平台支持简化的、基于组件开发模型,由于J2EE基于Java编程语言和J2EE平台,它提供了编写一次,随处运行的可移植性,遵循J2EE标准的所有服务器都支持该模型。EJB组件使编写应用程序更为简单,由于在EJB模型中,各个软件组件都是严格分离的,因此,可以从现有的软件组件装配出服务器端应用程序,另外,J2EE对应用层要求低、操作简单。因此基于J2EE的高校知识发现系统有效解决了高校数据库异构、分散的缺陷,并且具有良好的可重用性、可扩展性,能为高校教学、管理人员从纷繁的数据中发现真正感兴趣的知识助一臂之力。
参考文献:
[1]Sue Spielman, Meeraj Kunnumpurath著,马树奇等译. J2EE1.4编程指南[M]. 北京:电子工业出版社,2005.5
[2] Jiawei Han Micheline Kambe著,范明等译. 数据挖掘概念与技术[M]. 北京机械工业出版社,2005.2
[3]杨炳儒等. 基于知识发现的实用智能系统总体结构模型[J]. 计算机工程,2003(10):42-45
[4]杨炳儒等. 基于内在认知机理的知识发现理论及其应用[J]. 自然科学进展,2006(1):107-115
[5]李强等,基于J2EE的数据挖掘算法组件库设计[J]. 计算机工程与设计,2005(11):3091-3093
[6]何新贵著. 知识处理与专家系统[M]. 北京:国防工业出版社,1990.9