【摘 要】
:
随着信息技术的迅猛发展,网络在极大地丰富人们日常生活的同时,也产生了大量的用户上网行为记录数据。因此,如何有效地从海量的用户上网行为记录数据当中,提取出潜在的、隐藏的、
论文部分内容阅读
随着信息技术的迅猛发展,网络在极大地丰富人们日常生活的同时,也产生了大量的用户上网行为记录数据。因此,如何有效地从海量的用户上网行为记录数据当中,提取出潜在的、隐藏的、有价值的信息,是当前数据挖掘领域研究的一个热点,也是当今信息化时代亟待解决的一个问题。由于网络数据的数据量非常大,且形式多样,结构复杂,若采用传统的关系型数据库如SQL Server、MySQL等,则很难进行准确地分析,而且效率很低。作为关系型数据库的发展,数据仓库技术常用来组织和存储海量网络异构数据。在对数据进行分析的时候,只需要从数据仓库中提取出相应字段的数据,通过构建相应的挖掘分析模型和多维数据立方体,可以很直观很方便地得到相应地统计数据以供进一步挖掘分析。本文以实际开发项目为背景,以从数据堂上采集的Web日志数据集为实验数据,通过利用OLAP联机分析处理的技术构建数据立方体的方法,从不同的维度和粒度对数据集中的数据进行了挖掘分析,成功地挖掘出了网络内用户的上网时长和时段、用户访问的文件类型等上网行为特征。同时,利用ARMA(p, q)时间序列预测算法,以网络内访问电影站点这一上网行为为例,对其建立了预测模型,并对未来半个月内访问电影站点的人数进行了预测。实验结果表明,该模型在步长较小的情况下,对未来较短时期内访问电影站点的人数的预测效果很好,预测值与实际观测值之间的拟合度较高,是一个可靠的用户上网行为预测模型。通过对用户上网行为的分析和预测,从而为网络的管理、维护和优化提供了决策支持和科学依据。
其他文献
随着对外汉语教学的不断深入研究和发展,汉语口语教学逐渐成为汉语教学中的一大焦点。对来华的汉语学习者来说,汉语口语技能是工作、学习以及日常生活中最基本也是最重要的语言
在现代通信系统中,绝大多数接收机都基于数字信号处理器。传输速率达几Gsps的通信系统,需要高速高精度的模数转换器(ADC)。由于工艺等限制,单个ADC无法同时实现高速高精度,一种比较
中国非物质文化遗产是中国一代又一代人智慧的结晶,它体现中国几千年传统文化中的精华,而传承人是中国非物质文化遗产得以传承下去的重要载体,充当着传递者的角色。这些令人
在新媒体时代,历史信息的传播面临诸多新情况、新问题和新挑战,历史虚无主义借助新媒介呈现出传播泛滥化、传播渠道分散化、传播手段多元化等特点,只有监管和净化网络空间环
【正】 1859年英国生物学家达尔文《论通过自然选择或生存斗争中保存良种的物种起源》一书问世了.在书中,达尔文集生物进化理论之大成,成功地揭示了生物进化、发展的客观规律
[研究目的]通过免疫组织化学(immunohistochemistry technique IHC)的方法,检测不同级别脑胶质瘤及正常脑组织中MGMT、XRCC1基因的表达情况,分析基因MGMT与XRCC1在不同级别脑
胜任特征是用于描述个体较好胜任某个岗位,所必须具备的潜在心理特征的术语。胜任特征的概念起源于美国,开始的时候属于管理心理学范畴的概念,后来逐渐成为其他门类学科,如心理学
<正>产褥期抑郁症是指产后6周内第一次发病(既往无精神障碍史)以抑郁、悲伤、沮丧、哭泣、易激动、烦躁等一系列症状为特征的精神疾患(精神紊乱),重者出现幻觉、自杀或杀害婴
目的:观察椎管内肿瘤患者的手术前后的神经功能改变情况,并分析预后的影响因素。本研究对我科自2008.6-2011.3的40例椎管内肿瘤手术病例进行分析,通过对患者的随访和对病历资
Q345E钢是国产低合金钢,由于其良好的力学和焊接性能,在多个领域中得到了广泛运用,但目前对此类钢材性能的研究多数仅限于常规的力学性能、焊接性能以及冲击韧性等方面,然而,