论文部分内容阅读
[摘 要] 随着互联网技术的快速发展,将会有更多智能设备通过校园WiFi设备接入互联网。了解智能设备的准确信息可以进一步提高网络运营商的网络服务质量以及服务提供商的安全性,并为高校智慧图书馆建设提供数据分析依据。提出一种基于Hadoop平台和用户自定义功能的校园WiFi网络智能设备信息提取方案。用户自定义函数是根据高校图书馆日常服务中的常见参数开发的,用于处理大量非标准化数据。提出的信息提取方案的核心是将处理后的输入数据与预先构建的智能设备规则数据库进行字符串匹配。测试是基于高校图书馆日常师生登陆平台检索数据集进行的。测试结果表明,提出的方法能准确地从校园WiFi网络中提取设备信息。
[关 键 词] 高校图书馆;智能设备;信息提取;无线网络
[中图分类号] G647 [文献标志码] A [文章编号] 2096-0603(2019)25-0224-02
在校园网络中,读者用户使用各种智能设备(如手机、平板电脑、智能手表等),通过校园无线网络接入互联网。随着智慧图书馆的发展,更多的智能设备将通过无线网络接入互联网。为了向服务订阅者提供更好的网络服务质量和业务体验,高校图书馆服务人员将收集大量的测量数据,包括安全性和用户行为信息。然后进一步执行数据处理,如测试网络管理的瓶颈,并提高用户的体验质量。智能设备的提取是上述数据处理过程中的关键任务之一。本文通过高等院校图书馆在校园网络环境下提取数据流量以此建立分析智能设备信息的方案。传统蜂窝网络的运营商可以通过分析信息流量获取大部分设备信息,如国际移动设备标识通常嵌入信息通信量中。然而,这些信息在默认情况下不包含在WiFi条件下的数据流量信息。为了获得校园无线网络中智能设备等此类信息,一种可能的方法是收集和解析智能设备与云之间交换的超文本传输协议(HTTP)消息中的用户代理(UA)字符串。图1显示了UA的一个例子。如图所示,可以通过解析过程提取浏览器类型、操作系统、字符集等信息。
尽管有两个公共标准可用于格式化设备标签,但大多数制造商都忽略了这些标准,从而使信息提取更加困难。对这个问题,现有两种解决方案。一种是无线通用资源文件(WURFL),这是一种基于唯一内容的UA识别方法,如设备信息。通过将唯一标识的内容与预定义的文件进行匹配,可以从Web服务器中提取设备信息。然而,由于新设备的出现和现有设备的频繁升级,WURFL不能保证长期的高精度。另一种解决方案基于UA字符串匹配。应用UA字符串匹配,需要使用包含UA字符串和设备模型的匹配规则预先设置数据库。提取设备信息的方法是将捕获的字符串映射到数据库中的预置值。虽然实现起来很简单,但是这种方法效率很低,尤其是在大数据背景的今天,我们提出的方案旨在克服现有两种方法的缺点,特别是我们在方案中实现Hadoop以快速高效地处理大量数据。此外,Hive UDF以统一数据格式对数据进行预处理。
本文的其余部分组织如下:给出智能设备信息提取方案的框架;介绍基于Hadoop的数据处理技术,并描述了如何实现UDF函数;给出实验结果;总结这项实验工作。
一、方案概述
图2显示了所提议的信息提取方案的概述。总体而言,该方案包括4个部分,即流量采集、数据预处理、智能设备信息提取和智能设备信息记录(SDIR)。
流量收集是指从目标网络中收集原始数据流量。流量收集点可以部署在通信网络的不同位置,如核心网络、聚合层、基于远程服务器的访问节点和网络网关。
数据预处理是对采集到的交通数据进行净化和过滤,因为采集到的交通数据可能存在噪声。经过数据预处理后,核心函数(即基于DPI9的核心函数)只处理采集数据的一小部分,大大降低了方案的计算开销。研究发现,大多数移动应用程序使用HTTP与服务器通信。在本文中,我们将使用HTTP演示所提出的信息提取方案。我们提出的方案可以很容易地扩展,如应用报头/消息字段以更好地兼容其他专有协议。在大量实验基础上设计该方案的滤波策略,使近98%的原始数据能够被准确地清洗和滤波。策略包括用户类型、位置、通信协议等。
智能设备信息提取是本方案的核心功能。此函数用于匹配从预定义库中捕获的、经常维护和更新的UA字符串。
SDIR是提取方案的汇总。在此步骤中,从原始数据流量中成功地提取了所需的信息,如设备类型、品牌、模型等。收集SDIRs以进行进一步的数据统计、分析和挖掘。SDIR的详细应用超出了信息提取方案的范围。
二、基于UDF的智能设备信息提取方案
经过数据预处理后,可以获得包含接入网络用户账户、用户访问统一资源定位器(URL)和UA字符串的有用数据流,用于基于UDF-方案的信息提取。为了处理大量的UA字符串,实现基于Hadoop的MapReduce支持并行处理。Hadoop需要处理的5个步骤如下:
1.在Hive數据库中收集和预处理原始流量。
2.从预处理中清除和过滤UA字符串数据。
3.使用在MapReduce上实现的UDF函数解析和正则化UA字符串数据。
4.通过WebMagic.11创建和管理一个智能设备规则数据库。 5.通过与数据库匹配的UA字符串提取智能设备信息。
在第1步中,Hive是一个基于Hadoop的数据仓库,它使用Hadoop-HDFS作为数据存储并提供HiveQL。除了内置功能外,Hive还提供用户定义功能(UDF)来增强数据处理。由于非标准的UA字符串不能由HiveQL内置in语句处理,因此我们定义了一个UDF,它将非标准数据格式处理为期望的格式,以便进行信息匹配。
要启动步骤3中的调节过程,将一个UA字符串的正则表达式文件作为数据结构列表读入内存。正则表达式包含智能设备信息,用于解析原始的UA字符串。表1显示了正则表达式的一个示例。当原始的UA字符串与正则表达式匹配时,将得到解析过的UA字符串。表2显示了一些原始UA刺和相应的解析过的刺的例子。
在步骤4中,WebMagic是一个简单而灵活的Java web爬虫程序框架。它被用于从可信的电子商务网站收集智能设备相关信息,信息数据库也由WebMagic自动定期更新。最终结果存储在SDIR数据结构中。
三、实验与案例分析
在本节中,我们以实际网络数据为基础,通过实验验证所提出的信息提取方案。通过与中国一家网络运营商的合作,以天津音乐学院图书馆为调研地点收集了为期5天的原始数据。数据来自2种类型的智能设备。其中手机3630台,平板电脑1609台。正如我们所看到的,智能手机在收集数据中占主导地位。然而,为了提供更好的用户体验,网络运营商可能需要更详细的信息,如设备类型、设备品牌、操作系统等。在不损失通用性的前提下给出利用该方案提取设备类型和品牌的结果。特别是我们的虚拟计算集群配备了8核心中央处理器(CPU)和64GB隨机存取内存(RAM)。整个信息提取过程包括数据预处理,在12小时内完成。通过运行我们提出的信息提取方案可以准确地提取出各类智能设备的品牌。在真实的实验中,所有类型的智能设备的准确率都达到了92%以上,准确度是通过正确检测的数量与智能设备总数的比值来衡量的。
有了这些信息,网络运营商将能更有效地提供服务和管理他们的网络资源,以提高用户的使用感受。如网络运营商可以根据用户设备的不同为视频流服务分配不同的缓存大小和优先级。类似网络资源管理可以应用于其他应用程序,如游戏、在线购物、社交网络等。为了进一步提高用户的使用感受,智能设备制造商和应用程序开发人员可以通过固件和应用程序更新等方式对产品进行改进,从而充分利用优化后的网络资源。
四、结语
本文提出了一种智能设备信息提取方案。该方案将UDF应用于处理非标准的UA字符串格式,因此,可以使用基于Hadoop的平台进行处理,实验基于真实的网络数据进行。结果表明,在实际应用中,该方法在智能设备信息提取中可以达到92%以上的精度。此外,在今后的工作中还将探讨一些开放的问题,如UA签名数据库的更新和维护,更快的匹配等。我们还将与未来可能进行的相关工作进行性能比较。
编辑 冯永霞
[关 键 词] 高校图书馆;智能设备;信息提取;无线网络
[中图分类号] G647 [文献标志码] A [文章编号] 2096-0603(2019)25-0224-02
在校园网络中,读者用户使用各种智能设备(如手机、平板电脑、智能手表等),通过校园无线网络接入互联网。随着智慧图书馆的发展,更多的智能设备将通过无线网络接入互联网。为了向服务订阅者提供更好的网络服务质量和业务体验,高校图书馆服务人员将收集大量的测量数据,包括安全性和用户行为信息。然后进一步执行数据处理,如测试网络管理的瓶颈,并提高用户的体验质量。智能设备的提取是上述数据处理过程中的关键任务之一。本文通过高等院校图书馆在校园网络环境下提取数据流量以此建立分析智能设备信息的方案。传统蜂窝网络的运营商可以通过分析信息流量获取大部分设备信息,如国际移动设备标识通常嵌入信息通信量中。然而,这些信息在默认情况下不包含在WiFi条件下的数据流量信息。为了获得校园无线网络中智能设备等此类信息,一种可能的方法是收集和解析智能设备与云之间交换的超文本传输协议(HTTP)消息中的用户代理(UA)字符串。图1显示了UA的一个例子。如图所示,可以通过解析过程提取浏览器类型、操作系统、字符集等信息。
尽管有两个公共标准可用于格式化设备标签,但大多数制造商都忽略了这些标准,从而使信息提取更加困难。对这个问题,现有两种解决方案。一种是无线通用资源文件(WURFL),这是一种基于唯一内容的UA识别方法,如设备信息。通过将唯一标识的内容与预定义的文件进行匹配,可以从Web服务器中提取设备信息。然而,由于新设备的出现和现有设备的频繁升级,WURFL不能保证长期的高精度。另一种解决方案基于UA字符串匹配。应用UA字符串匹配,需要使用包含UA字符串和设备模型的匹配规则预先设置数据库。提取设备信息的方法是将捕获的字符串映射到数据库中的预置值。虽然实现起来很简单,但是这种方法效率很低,尤其是在大数据背景的今天,我们提出的方案旨在克服现有两种方法的缺点,特别是我们在方案中实现Hadoop以快速高效地处理大量数据。此外,Hive UDF以统一数据格式对数据进行预处理。
本文的其余部分组织如下:给出智能设备信息提取方案的框架;介绍基于Hadoop的数据处理技术,并描述了如何实现UDF函数;给出实验结果;总结这项实验工作。
一、方案概述
图2显示了所提议的信息提取方案的概述。总体而言,该方案包括4个部分,即流量采集、数据预处理、智能设备信息提取和智能设备信息记录(SDIR)。
流量收集是指从目标网络中收集原始数据流量。流量收集点可以部署在通信网络的不同位置,如核心网络、聚合层、基于远程服务器的访问节点和网络网关。
数据预处理是对采集到的交通数据进行净化和过滤,因为采集到的交通数据可能存在噪声。经过数据预处理后,核心函数(即基于DPI9的核心函数)只处理采集数据的一小部分,大大降低了方案的计算开销。研究发现,大多数移动应用程序使用HTTP与服务器通信。在本文中,我们将使用HTTP演示所提出的信息提取方案。我们提出的方案可以很容易地扩展,如应用报头/消息字段以更好地兼容其他专有协议。在大量实验基础上设计该方案的滤波策略,使近98%的原始数据能够被准确地清洗和滤波。策略包括用户类型、位置、通信协议等。
智能设备信息提取是本方案的核心功能。此函数用于匹配从预定义库中捕获的、经常维护和更新的UA字符串。
SDIR是提取方案的汇总。在此步骤中,从原始数据流量中成功地提取了所需的信息,如设备类型、品牌、模型等。收集SDIRs以进行进一步的数据统计、分析和挖掘。SDIR的详细应用超出了信息提取方案的范围。
二、基于UDF的智能设备信息提取方案
经过数据预处理后,可以获得包含接入网络用户账户、用户访问统一资源定位器(URL)和UA字符串的有用数据流,用于基于UDF-方案的信息提取。为了处理大量的UA字符串,实现基于Hadoop的MapReduce支持并行处理。Hadoop需要处理的5个步骤如下:
1.在Hive數据库中收集和预处理原始流量。
2.从预处理中清除和过滤UA字符串数据。
3.使用在MapReduce上实现的UDF函数解析和正则化UA字符串数据。
4.通过WebMagic.11创建和管理一个智能设备规则数据库。 5.通过与数据库匹配的UA字符串提取智能设备信息。
在第1步中,Hive是一个基于Hadoop的数据仓库,它使用Hadoop-HDFS作为数据存储并提供HiveQL。除了内置功能外,Hive还提供用户定义功能(UDF)来增强数据处理。由于非标准的UA字符串不能由HiveQL内置in语句处理,因此我们定义了一个UDF,它将非标准数据格式处理为期望的格式,以便进行信息匹配。
要启动步骤3中的调节过程,将一个UA字符串的正则表达式文件作为数据结构列表读入内存。正则表达式包含智能设备信息,用于解析原始的UA字符串。表1显示了正则表达式的一个示例。当原始的UA字符串与正则表达式匹配时,将得到解析过的UA字符串。表2显示了一些原始UA刺和相应的解析过的刺的例子。
在步骤4中,WebMagic是一个简单而灵活的Java web爬虫程序框架。它被用于从可信的电子商务网站收集智能设备相关信息,信息数据库也由WebMagic自动定期更新。最终结果存储在SDIR数据结构中。
三、实验与案例分析
在本节中,我们以实际网络数据为基础,通过实验验证所提出的信息提取方案。通过与中国一家网络运营商的合作,以天津音乐学院图书馆为调研地点收集了为期5天的原始数据。数据来自2种类型的智能设备。其中手机3630台,平板电脑1609台。正如我们所看到的,智能手机在收集数据中占主导地位。然而,为了提供更好的用户体验,网络运营商可能需要更详细的信息,如设备类型、设备品牌、操作系统等。在不损失通用性的前提下给出利用该方案提取设备类型和品牌的结果。特别是我们的虚拟计算集群配备了8核心中央处理器(CPU)和64GB隨机存取内存(RAM)。整个信息提取过程包括数据预处理,在12小时内完成。通过运行我们提出的信息提取方案可以准确地提取出各类智能设备的品牌。在真实的实验中,所有类型的智能设备的准确率都达到了92%以上,准确度是通过正确检测的数量与智能设备总数的比值来衡量的。
有了这些信息,网络运营商将能更有效地提供服务和管理他们的网络资源,以提高用户的使用感受。如网络运营商可以根据用户设备的不同为视频流服务分配不同的缓存大小和优先级。类似网络资源管理可以应用于其他应用程序,如游戏、在线购物、社交网络等。为了进一步提高用户的使用感受,智能设备制造商和应用程序开发人员可以通过固件和应用程序更新等方式对产品进行改进,从而充分利用优化后的网络资源。
四、结语
本文提出了一种智能设备信息提取方案。该方案将UDF应用于处理非标准的UA字符串格式,因此,可以使用基于Hadoop的平台进行处理,实验基于真实的网络数据进行。结果表明,在实际应用中,该方法在智能设备信息提取中可以达到92%以上的精度。此外,在今后的工作中还将探讨一些开放的问题,如UA签名数据库的更新和维护,更快的匹配等。我们还将与未来可能进行的相关工作进行性能比较。
编辑 冯永霞