论文部分内容阅读
频繁Web访问模式发现是Web使用挖掘的关键内容,能够从海量Web数据中发现有用的用户访问信息,从而帮助企业改善站点和服务器设计,提升用户服务质量。语义Web为当前Web上的内容赋予了计算机可以理解并解释的语义,能够有效提升Web使用挖掘的效率。语义Web中,本体和规则的结合能够扬长避短,相互弥补不足。对于进一步改善频繁模式发现的效果具有重要意义。本文从语义Web本体和规则出发,着重研究日志本体之上本体和规则的结合以及同构语义日志知识库上的频繁Web访问模式发现。主要工作如下:1.提出了一种日志本体形式化描述的改进。将日志本体七元组的形式改为六元组,采用应用规则表示日志本体中的领域关系,并完善了日志本体的分层形式化描述。这种改进不仅可以避免在日志本体中出现较为复杂的领域关系,也更加符合Web使用挖掘领域的要求。2.改进了本体翻译算法并应用于日志本体,引入DL-safe规则将日志本体知识库和Datalog规则库取并构建同构日志知识库。在现有研究的基础上结合日志本体的特征改进了本体翻译算法,将日志本体知识库转换为选言Datalog规则库。这种方法转换的日志本体可以和在DL-safe规则限制下的网站应用规则同构形成语义日志知识库。在一定程度上实现了日志本体和规则的统一。3.基于FARMER算法提出一种频繁Web访问模式发现的方法。在FARMER算法的基础上,给出了一种同构日志知识库之上的频繁模式发现算法。可以从日志本体基准事件出发构建可接受谓词集,在扩展trie树节点的同时通过模式有效性验证和支持度计算发现频繁访问模式频繁访问模式发现。4.设计和实现了一个同构日志知识库频繁Web访问模式发现系统。综合前面的研究成果,开发和实现了一个用于频繁Web访问模式发现的系统实现了日志本体和应用规则导入,在满足DL-safe安全约束的条件下,翻译日志本体为选言规则生成同构日志知识库,并在基础上实现本文提出的深度优先频繁访问模式发现算法。对该系统进行实验测试验证了理论研究的可行性。