论文部分内容阅读
企业日志元数据,即员工在企业内部使用网络服务时系统保存的记录,包括网页浏览日志元数据、邮件日志元数据、TCP流量日志元数据等。这些元数据在一定程度上反映了企业内部员工的组织结构、社群团体、日常工作模式以及员工的各种异常行为等。对这些元数据进行分析,有助于企业高层及时把控企业的运行状况,发现企业潜在威胁,进而更好的进行决策。现有的分析方法大多数是使用数据挖掘和机器学习之类的算法,在单一数据基础上如邮件日志进行分析。本文认为:(1)将以数据为中心的分析算法和以人为中心的交互式可视分析方法相结合能够同时发挥算法和人的分析优势;(2)可视分析方法可以更有效地将具有海量、多元、时变、异构等特征的日志元数据结合起来分析,从而提供多角度、全方位的深层次分析。本文的主要研究工作是通过一系列的数据处理和视觉映射,完整地把数据到知识的转换过程呈现出来,用交互可视分析的手段更好的促进数据挖掘。具体来说,是以企业日志元数据为信息源,将可视化与可视分析学的理论知识,应用到企业日志元数据的问题分析当中。为此,本文运用可视化及可视分析技术,设计并实现了面向企业日志元数据的员工工作行为可视分析系统EWB-VIS。主要提供了3个可视分析方法:(1)基于聚类算法的区分员工工作部门可视化方法。该方法结合力导向布局算法,用散点图的方式灵活直观地展现员工及其所属部门;(2)融合行为信息时间轴的类甘特图可视化方法。该方法可以准确展示具有时间信息的数据,并结合堆叠图向用户展示尽可能多的数据,以实现时间序列事件模式的分析;(3)辅助可视化方法。即提供给用户多层次可选的可视化方法,包括用词云图展示员工网页浏览和收发邮件的文本数据,用雷达图展示员工在时间维度上的各个活动以及活动的数量,用热力图展示公司内部网络活动的TCP流量。除此之外,还为系统设计了丰富的交互,从而实现对员工工作行为相关信息的联动分析。最后,通过在ChinaVis2018挑战赛公开数据集上的实验,证明了本系统的可用性和相关可视化方法的有效性。本文可视化系统主要面向那些具备一定企业日志元数据相关知识的分析人员,能够直观地支持他们分析员工工作行为模式、发现员工异常现象等。与单纯的使用数据挖掘算法相比,本文以数据为中心的分析算法和以人为中心的交互式可视化相结合,在发挥算法和人的分析优势的同时,用新颖的视图设计和丰富的交互使得分析过程更加直观易懂,更好的解决了企业员工工作行为模式分析的多个问题。