【摘 要】
:
针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基
【基金项目】
:
中央高校研究生科技创新基金个人项目资助(No.CDJXS11180023)
论文部分内容阅读
针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。
其他文献
本文主要讨论一类二阶泛函微分方程Neumann边值问题在上下解反序条件下,解的存在性条件.
研究了一种特殊的模糊度量ρ,称为区间值度量。区间数的运算(如加减乘除运算)在相关文献中已有定义,对区间数的减法运算进行新的定义,得到相应的不等式性质,接着给出了区间值度量的
讨论集值信息系统基于限制相容关系的属性约简方法;给出相似水平核心属性的特征。通过实例说明该算法能够得到集值信息系统的相对约简。
通过抽象信息系统,阐明了经典粗糙集模型分类质量、相对正域、决策类下近似具有非单调递减性;变精度粗糙集模型在约简过程中分类质量和相对正域会出现跳跃现象,约简过程具有
解三角形是中学数学的重要组成部分,虽然有公式提供给学生应用,但在实际教学中发现,学生会很容易记住公式的内容,但是运用的时候就没有章法,不能很好的灵活运用,下面为学生提
优化了反相高效液相色谱法测定人尿液中异硫氰酸酯含量的方法。本法适合大批样品测定人尿液中异硫氰酸酯.