论文部分内容阅读
Web日志挖掘是为网站经营和策略调整提供数据支持的重要手段,但原始的日志数据往往杂乱不完整,非结构化,因此预处理结果的好坏极大影响到挖掘的质量,通过对预处理过程中几个主要步骤进行深入讨论,总结已有的各种处理手段并提出新的改进方法.针对现有预处理方法的局限和不足,对分析网页内嵌元素尤其是图像元素进行了深入研究,提出了相应的处理手段.