基于Wikipedia词条访问日志数据的可视分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ppp9904140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,对大数据的挖掘、分析、可视化已经成为当今时代的迫切需求。数据可视化综合运用计算机图形学、图像处理、人机交互等技术,以图形图像的方式表现和传达数据信息,成为人们理解复杂现象,探索数据蕴藏规律的重要途径和手段。  时序数据可视化是数据可视化领域中的一项重要技术。结合时序数据可视化与数理统计、机器学习、数据挖掘、模式识别等方法,可以帮助用户更好地提取有价值的统计信息,发现隐藏在数据背后的特征与模式。近年来,这项技术被广泛应用于统计学、信号处理、计量经济学、数理金融、天气预报、地震预测、控制工程等领域。  本文首先简单介绍了时序数据的定义和特征。然后从分类的角度,详细阐述了当前常用的时序数据可视化技术,包括线性、周期和分支时间可视化技术,单变量和多变量时序数据可视化技术、静态和动态可视化技术。随后,本文提出了一种基于维基百科词条访问日志数据的交互式可视分析工具——Visitpedia,来帮助用户检测隐藏在数据背后的重大社会事件以及分析这些社会事件如何随时间而演变。Visitpedia的独特之处在于,首先,它使用维基百科词条访问日志记录作为数据源。该类型用户反馈数据相较于网络新闻数据能更好地反映人们对于社会事件的关注点。其次,Visitpedia从时序数据分析而不是语义分析的角度出发,处理基于事件的任务,规避了繁琐的文本分析。该方法可看作传统方法的一种经济、高效的替代品。最后,本文使用了两个实际的案例分析来验证Visitpedia的有效性。
其他文献
目前电力企业的配用电系统主要包括配电自动化系统、用电信息采集系统、营销管理系统等,但它们大多是孤立的,没有形成数据共享,造成信息孤岛多、互操作性差等诸多问题,妨碍了跨部
随着网络规模的不断扩大,电力通信网中资源类型繁多,资源间连接关系日趋复杂,对电力通信资源进行统一有效管理的需求日益迫切。如何对电力通信资源的属性状态和连接关系进行快速准确的识别已经成为影响高效管理的重要问题之一。本文就该问题深入研究了电力通信资源网络拓扑可视化及传输业务的最优路径选取问题。文章针对电力通信资源管理面临的问题和挑战,明确了对电力通信资源网络进行拓扑可视化优化的必要性和现实意义。重点研
虚拟化技术出现已经有几十年的历史,给企业和个人使用计算机资源带来了极大的便利,使得计算资源得到更加充分的利用。现在随着云计算技术的普及,虚拟化技术作为云计算中的关键技
目前软件定义网络架构(Software-Defined Networking,SDN)存在流表项资源消耗与控制器负载过大等问题。这些问题会直接影响到网络的转发能力和扩展性。分段路由技术的核心思想是
交互式问答受到了越来越多的关注。但交互式问答中存在着各种各样的语言现象,这些现象使得计算机难以充分理解用户的提问,指代现象就是其一。近年来,国内外许多学者对指代消解进
随着计算机技术和网络技术的飞速发展,蒙古文信息处理的工作也取得了很大的进步。但是由于蒙古文国际标准编码出台的相对滞后,目前市场上各种软件厂商采取自己的编码标准,使
个性化推荐服务可以根据用户的兴趣为用户提供个性化的推荐项目和商品。协同过滤推荐技术是其中应用最广泛和常用的技术。随着协同过滤技术的不断发展,协同过滤的作为推荐技术
近年来各领域对高性能计算的需求与日俱增,服务商为了迎合计算需求通常需要在硬件资源上投入大量资金,而大部分平台的资源利用率却并不高,故集群资源的有效利用成为一个亟待解决
强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中
在对土壤-植物-大气连续体(SPAC)系统的研究中,土壤植物系统是一个重要的子系统。植物根系的研究又是土壤植物系统研究的重中之重。从生物角度讲,植物根系能直接反映植物的生长状