论文部分内容阅读
摘要:本文详细描述了网络行为分析系统的设计实现细节,同时在真实的教育区域网络中进行了实验,验证了系统的功能。首先介绍本系统的应用背景——广州市海珠教育科研网,本系统的设计与应用完全针对该教育科研网,力求能对网内用户(主要是学生)的网络行为进行分析,并在此基础上进行一定的引导和管理。其次介绍网络行为分析系统的设计实现细节,从总体设计目标,总体结构以及主要模块的设计三个角度加以阐述。最后介绍实验环境、实验过程以及实验结果分析。
关键词:网络行为;系统设计;网络行为分析系统;海珠教育科研网
中图分类号:TP393 文献标识码:A文章编号:1673-8454(2009)10-0070-05
一、 海珠教科网概述
广州市海珠教育科研网建设项目是海珠区教育基础设施项目之一,是海珠区社会信息化的重要组成部分,具有网络管理功能及数据中心功能,此中心之上将为基础教育、职业教育、成人教育和教师继续教育等提供全方位的教育教学信息资源服务,为相应群体提供电子教学的平台及内容,并为各教育实体提供相应的管理平台。海珠区教育科研网中心将集网络管理及教育管理信息化、教育教学资源、教育行政信息、远程教育、教师培训、社区成人教育等应用项目于一体。
所有的海珠区完成校园网建设的中小学校、幼儿园与海珠教科网中心之间实现高带宽、稳定、安全的连接,广州市海珠教育科研网以1000M的裸光纤连接广州市教育科研网,教科网成为全区各中小学校、幼儿园校园网和直属单位网络的唯一出口。图1为广州市海珠教育科研网拓扑图。以下是海珠区教育信息化的建设情况:
图2是针对海珠区教科网用户及管理员的数据交换图。网络行为分析系统的体系结构如图3所示。
(1) 数据采集模块
网络监听技术本来是提供给网络安全管理人员进行管理的工具,可以用来监视网络的状态、数据流动情况以及网络上传输的信息等。当信息以明文的形式在网络上传输时,使用监听技术进行攻击并不是一件难事,只要将网络接口设置成监听模式,便可以源源不断地将网上传输的信息截获。网络监听可以在网上的任何一个位置实施,如局域网中的一台主机、网关上或远程网的调制解调器之间等。
网络行为分析系统的工作方式是:将要发送的数据包发往连接在一起的所有主机,包中包含着应该接收数据包主机的正确地址,只有与数据包中目标地址一致的那台主机才能接收。但是,当服务器打开工作监听模式,无论数据包中的目标地址是什么,服务器都将接收(通过镜像口复制流经网关的所有数据)。
本模块实现的功能到Libpcap库流程的循环抓包前为止通过OpenPcap函数依次调用图5的Libpcap库中的函数。
(3)应用协议解析模块
应用协议解析模块是网络行为分析系统中的核心模块。本文实现的应用层协议识别是基于正则表达式的分组内容模式匹配。
该模块从正则表达式规则库中载入各种应用协议的正则表达式特征字,实时对分组内容进行匹配。本文目前实现的正则表达式规则库总共包含78种应用协议的特征字。
(4) 主题分析模块
主题分析功能模块主要实现的功能是,对一些统计分析主题进行常用统计、相关分析、聚类分析和判别分析等,从而得出科学的统计分析信息。这些统计分析信息主要是以排行榜和统计报表的形式显示。
一些分析主题的例子包括:学生最喜爱的网站排行、学生最喜爱的搜索引擎排行、学生最喜爱的栏目排行、学生最喜爱的论坛排行等。
1)学生网上流行前线:记录学生上网最关注的时事、体育、娱乐热点话题,在一个固定的时间(如一个星期,一个月)系统自动得出学生最关心的网上流行话题统计表,用户也可以自定义时间段得出所需要的统计报表。
2)学生最喜爱的网站排行:记录学生所有曾经浏览的网站的IP地址,统计每一个IP地址的访问总人次和访问频率。
3)学生最喜爱的搜索引擎排行:记录学生所有曾经访问的搜索引擎的IP地址、URL和引擎名称,统计每一个搜索引擎的总访问人次和访问频率。
4)学生最喜爱的栏目排行:收集学生较多关注的网站栏目,记录该栏目的网页URL,把不同网站同一类型的栏目当成一个栏目统计其访问总人次。
5)学生最喜爱的资源排行:统计学生较多关注的网络资源,如电影、动漫、连续剧、MP3等,统计每一类的访问总人次得出排行榜。
6)学生最喜爱的软件排行:统计学生所有曾经下载的软件,浏览学习或者下载过其教程的软件。
7)学生最喜爱的论坛排行:记录学生所以曾经登录、发帖的论坛的IP地址和论坛名称,统计其访问总人次和访问频率,每星期更新排行榜。
8)学生最喜爱的聊天工具排行:统计学生所有曾经使用的聊天工具名称和其连接端口。
9)学生最喜爱的下载网站排行:记录学生所有曾经访问的主流专业下载网站的IP地址和网站名称,统计访问总人次和访问频率。
10)学生最喜爱的音乐站排行:记录学生所有曾经访问的主流音乐网站的IP地址和网站名称,统计访问总人次和学生上这类网站的目的(下载音乐、关注动向等)。
11)学生最喜爱的娱乐站排行:记录学生所有曾经访问的主流娱乐网站的IP地址和网站名称,统计访问总人次和学生关注的娱乐项目(电影、音乐、八卦新闻等)。
12)学生最喜爱的游戏站排行:记录学生所有曾经访问的主流游戏网站的IP地址和网站名称,统计访问总人次、学生关注的游戏类型(网游、大型单机游戏、游戏等)和学生在线玩小游戏的频率和所使用的端口。
13)学生最喜爱的新闻站排行:记录学生所有曾经访问的主流新闻门户网站的IP地址和网站名称,统计访问总人次和学生关注的新闻栏目(体育、时事)等。
14)学生最喜爱的电子邮局排行:记录学生所有曾经访问的电子邮局的IP地址和网站名称,统计访问总人次和访问频率。
15)使用匿名代理的统计分析:统计使用匿名代理上网的数量。
16)浏览性教育相关网站栏目的统计分析:记录学生浏览性教育相关网站、栏目的IP地址或者网页URL,统计访问总人次。
17)浏览暴力相关网站的统计分析:记录学生浏览暴力相关的IP地址,统计访问总人次。
18)浏览色情/性行为相关网站的统计分析:记录学生浏览色情/性行为相关网站的IP地址,统计访问总人次。
19)对指定关键字库进行搜索的统计分析:统计学生对指定关键字库中存在的关键字的搜索人次和搜索频率。
(5) 行为分析模块
行为分析功能模块是以数据仓库为基础,运用数据挖掘的各种技术,对历史的,综合的数据进行统计,以统计报表的形式输出统计结果,方便用户进行下一步的分析(如图7)。这个功能模块主要包括三方面统计数据:一是访问人群信息统计,主要包括新访问者与重复访问者的数据统计,具体信息还包括这些人群地理分布等;二是访问行为统计分析,主要包括以单篇日志为单位的访问量分布统计、以日志分类为单位的分布统计等;三是对网志站点向外链接与来访站点分布的统计,还包括通过搜索引擎访问网志的信息分布统计等。
可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的数据集合正常。这个表中的每一行表示了类似这样的信息:安全的学习类型Http访问正常,危险的娱乐类型FTP访问异常等等。系统把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性,而条件属性:安全类别、访问类型、传输方式都是可以通过管理员添加设置。系统将管理员设置的条件属性发送至内部判断机制类,自动计算决策属性(最后一项的是否正常)的近似值,最后我们得到化简后的知识库R2,R3,从而能得到下面的决策规则:安全的学习->正常,学习Http->正常,危险的数据传输->异常,流媒体数据传输->正常,危险的FTP->异常,利用粗集的理论还可以对这些规则进一步化简得到:安全->正常,学习->正常,危险->异常。这就是上面这个数据表所包含的真正有用的知识,而这些知识都是从数据库有粗糙集方法自动学习得到的。
三、小结
本文详细描述了网络行为分析系统的设计实现细节,同时在真实的教育科研网络中进行了实验,验证了系统的功能。
首先介绍了本系统的应用背景——广州市海珠教育科研网,本系统的设计与应用完全针对该教育区域网,力求能对网内用户(主要是学生)的网络行为进行分析并在此基础上进行一定的引导和管理。第二部分是网络行为分析系统的设计实现细节,从总体设计目标,总体结构以及主要模块的设计三个角度加以阐述。最后还介绍了实验的环境、实验过程以及实验结果分析。
参考文献:
[1]殷肖川,刘志宏,姬伟锋,万映辉.网络编程与开发技术[M].西安:西安交通大学出版社,2003:33-92.
[2]卢开澄.计算机密码学——计算机网络中的数据预安全[M].北京:清华大学出版社,1998:12-23.
[3]陈蕾蕾,曲保章.IP数据报重组算法及实现[J].今日电子,1998.第7期:31-33.
(编辑:隗爽)
关键词:网络行为;系统设计;网络行为分析系统;海珠教育科研网
中图分类号:TP393 文献标识码:A文章编号:1673-8454(2009)10-0070-05
一、 海珠教科网概述
广州市海珠教育科研网建设项目是海珠区教育基础设施项目之一,是海珠区社会信息化的重要组成部分,具有网络管理功能及数据中心功能,此中心之上将为基础教育、职业教育、成人教育和教师继续教育等提供全方位的教育教学信息资源服务,为相应群体提供电子教学的平台及内容,并为各教育实体提供相应的管理平台。海珠区教育科研网中心将集网络管理及教育管理信息化、教育教学资源、教育行政信息、远程教育、教师培训、社区成人教育等应用项目于一体。
所有的海珠区完成校园网建设的中小学校、幼儿园与海珠教科网中心之间实现高带宽、稳定、安全的连接,广州市海珠教育科研网以1000M的裸光纤连接广州市教育科研网,教科网成为全区各中小学校、幼儿园校园网和直属单位网络的唯一出口。图1为广州市海珠教育科研网拓扑图。以下是海珠区教育信息化的建设情况:
图2是针对海珠区教科网用户及管理员的数据交换图。网络行为分析系统的体系结构如图3所示。
(1) 数据采集模块
网络监听技术本来是提供给网络安全管理人员进行管理的工具,可以用来监视网络的状态、数据流动情况以及网络上传输的信息等。当信息以明文的形式在网络上传输时,使用监听技术进行攻击并不是一件难事,只要将网络接口设置成监听模式,便可以源源不断地将网上传输的信息截获。网络监听可以在网上的任何一个位置实施,如局域网中的一台主机、网关上或远程网的调制解调器之间等。
网络行为分析系统的工作方式是:将要发送的数据包发往连接在一起的所有主机,包中包含着应该接收数据包主机的正确地址,只有与数据包中目标地址一致的那台主机才能接收。但是,当服务器打开工作监听模式,无论数据包中的目标地址是什么,服务器都将接收(通过镜像口复制流经网关的所有数据)。
本模块实现的功能到Libpcap库流程的循环抓包前为止通过OpenPcap函数依次调用图5的Libpcap库中的函数。
(3)应用协议解析模块
应用协议解析模块是网络行为分析系统中的核心模块。本文实现的应用层协议识别是基于正则表达式的分组内容模式匹配。
该模块从正则表达式规则库中载入各种应用协议的正则表达式特征字,实时对分组内容进行匹配。本文目前实现的正则表达式规则库总共包含78种应用协议的特征字。
(4) 主题分析模块
主题分析功能模块主要实现的功能是,对一些统计分析主题进行常用统计、相关分析、聚类分析和判别分析等,从而得出科学的统计分析信息。这些统计分析信息主要是以排行榜和统计报表的形式显示。
一些分析主题的例子包括:学生最喜爱的网站排行、学生最喜爱的搜索引擎排行、学生最喜爱的栏目排行、学生最喜爱的论坛排行等。
1)学生网上流行前线:记录学生上网最关注的时事、体育、娱乐热点话题,在一个固定的时间(如一个星期,一个月)系统自动得出学生最关心的网上流行话题统计表,用户也可以自定义时间段得出所需要的统计报表。
2)学生最喜爱的网站排行:记录学生所有曾经浏览的网站的IP地址,统计每一个IP地址的访问总人次和访问频率。
3)学生最喜爱的搜索引擎排行:记录学生所有曾经访问的搜索引擎的IP地址、URL和引擎名称,统计每一个搜索引擎的总访问人次和访问频率。
4)学生最喜爱的栏目排行:收集学生较多关注的网站栏目,记录该栏目的网页URL,把不同网站同一类型的栏目当成一个栏目统计其访问总人次。
5)学生最喜爱的资源排行:统计学生较多关注的网络资源,如电影、动漫、连续剧、MP3等,统计每一类的访问总人次得出排行榜。
6)学生最喜爱的软件排行:统计学生所有曾经下载的软件,浏览学习或者下载过其教程的软件。
7)学生最喜爱的论坛排行:记录学生所以曾经登录、发帖的论坛的IP地址和论坛名称,统计其访问总人次和访问频率,每星期更新排行榜。
8)学生最喜爱的聊天工具排行:统计学生所有曾经使用的聊天工具名称和其连接端口。
9)学生最喜爱的下载网站排行:记录学生所有曾经访问的主流专业下载网站的IP地址和网站名称,统计访问总人次和访问频率。
10)学生最喜爱的音乐站排行:记录学生所有曾经访问的主流音乐网站的IP地址和网站名称,统计访问总人次和学生上这类网站的目的(下载音乐、关注动向等)。
11)学生最喜爱的娱乐站排行:记录学生所有曾经访问的主流娱乐网站的IP地址和网站名称,统计访问总人次和学生关注的娱乐项目(电影、音乐、八卦新闻等)。
12)学生最喜爱的游戏站排行:记录学生所有曾经访问的主流游戏网站的IP地址和网站名称,统计访问总人次、学生关注的游戏类型(网游、大型单机游戏、游戏等)和学生在线玩小游戏的频率和所使用的端口。
13)学生最喜爱的新闻站排行:记录学生所有曾经访问的主流新闻门户网站的IP地址和网站名称,统计访问总人次和学生关注的新闻栏目(体育、时事)等。
14)学生最喜爱的电子邮局排行:记录学生所有曾经访问的电子邮局的IP地址和网站名称,统计访问总人次和访问频率。
15)使用匿名代理的统计分析:统计使用匿名代理上网的数量。
16)浏览性教育相关网站栏目的统计分析:记录学生浏览性教育相关网站、栏目的IP地址或者网页URL,统计访问总人次。
17)浏览暴力相关网站的统计分析:记录学生浏览暴力相关的IP地址,统计访问总人次。
18)浏览色情/性行为相关网站的统计分析:记录学生浏览色情/性行为相关网站的IP地址,统计访问总人次。
19)对指定关键字库进行搜索的统计分析:统计学生对指定关键字库中存在的关键字的搜索人次和搜索频率。
(5) 行为分析模块
行为分析功能模块是以数据仓库为基础,运用数据挖掘的各种技术,对历史的,综合的数据进行统计,以统计报表的形式输出统计结果,方便用户进行下一步的分析(如图7)。这个功能模块主要包括三方面统计数据:一是访问人群信息统计,主要包括新访问者与重复访问者的数据统计,具体信息还包括这些人群地理分布等;二是访问行为统计分析,主要包括以单篇日志为单位的访问量分布统计、以日志分类为单位的分布统计等;三是对网志站点向外链接与来访站点分布的统计,还包括通过搜索引擎访问网志的信息分布统计等。
可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的数据集合正常。这个表中的每一行表示了类似这样的信息:安全的学习类型Http访问正常,危险的娱乐类型FTP访问异常等等。系统把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性,而条件属性:安全类别、访问类型、传输方式都是可以通过管理员添加设置。系统将管理员设置的条件属性发送至内部判断机制类,自动计算决策属性(最后一项的是否正常)的近似值,最后我们得到化简后的知识库R2,R3,从而能得到下面的决策规则:安全的学习->正常,学习Http->正常,危险的数据传输->异常,流媒体数据传输->正常,危险的FTP->异常,利用粗集的理论还可以对这些规则进一步化简得到:安全->正常,学习->正常,危险->异常。这就是上面这个数据表所包含的真正有用的知识,而这些知识都是从数据库有粗糙集方法自动学习得到的。
三、小结
本文详细描述了网络行为分析系统的设计实现细节,同时在真实的教育科研网络中进行了实验,验证了系统的功能。
首先介绍了本系统的应用背景——广州市海珠教育科研网,本系统的设计与应用完全针对该教育区域网,力求能对网内用户(主要是学生)的网络行为进行分析并在此基础上进行一定的引导和管理。第二部分是网络行为分析系统的设计实现细节,从总体设计目标,总体结构以及主要模块的设计三个角度加以阐述。最后还介绍了实验的环境、实验过程以及实验结果分析。
参考文献:
[1]殷肖川,刘志宏,姬伟锋,万映辉.网络编程与开发技术[M].西安:西安交通大学出版社,2003:33-92.
[2]卢开澄.计算机密码学——计算机网络中的数据预安全[M].北京:清华大学出版社,1998:12-23.
[3]陈蕾蕾,曲保章.IP数据报重组算法及实现[J].今日电子,1998.第7期:31-33.
(编辑:隗爽)