论文部分内容阅读
Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面: 第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。 第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。 第三,研究基于降维技术的网页摘要方法,提出一种利用点击日志的改进型网页摘要算法ALSA,从点击日志数据中挖掘Web用户使用查询词搜索网页的知识;另外,结合点击日志数据和Web上人工标注的网页类别信息,提出一种构造主题词典(Thematic Lexicon)方法帮助网页摘要。 第四,提出一种通过优化组合核函数进行网页分类的方法GECKO。网页分类的一个难点是网页具有异构特征。本文使用组合核函数方法综合利用异构特征,通过求解广义特征值问题优化核函数的组合,基于优化的核矩阵训练SVM分类器。试验结果显示该算法能够取得好的泛化性能。 第五,研究基于隐链接关系的网页分类算法。用户使用搜索引擎时,输入查询词后通常会点击一些主题相关的网页,因此基于点击日志数据可以构建网页间的隐链接关系。本文提出构建隐链接的方法和基于隐链接构造网页虚拟文档表示的方法,并且基于两类网页分类算法比较文中定义的两种隐链接和三种超链接关系。试验结果显示基于隐链接关系可以改进网页分类的精度。 作者参加了数据挖掘组承担的国家973项目,将本文研究成果用于该项目的Web挖掘原型系统WebME(Web Mining Environment)中,系统的良好性能验证了本文所提出方法的有效性。