论文部分内容阅读
随着科学技术的发展,目前Web成为了世界上最大的数据源。这些信息在页面上的分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。本文主要研究Web文本挖掘技术在网站文本推荐中的应用。首先根据前人研究成果提出一种基于该技术的模型,然后按照该模型的流程依次剖析Web页面主要内容的提取、Web文本的聚类和一种改进的推荐算法。推荐算法作为模型核心,内容的提取作为文本聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究内容如下:1,基于经典推荐模型,结合Web文本的特点,设计出一个针对网站中文本的推荐模型。2,研究了Web页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建DOM(Document Object Model)树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。3,Web文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距离(approximate EMD)。利用近似EMD (Earth Mover’s Distance)距离代替常规距离,使得实体间的度量更加精确。实验采用中国科学院计算技术研究所的文本数据,基于欧氏距离的DBSCAN算法聚类的平均正确率是78.9%,基于EMD的改进算法的平均正确率为84.4%,说明EMD距离代替常用距离在聚类的精确性上是可行的。4,研究了推荐算法。基于纯文本的内容推荐只关注页面内容本身,对应的推荐对象将保持不变。而利用协同过滤算法,加上用户对信息的打分,可以得到用户的爱好倾向;同时利用项目加权,形成推荐目标重要性阶梯变化的加权规则。两者相结合,更能容易找到用户感兴趣的信息,从而形成推荐列表对用户加以推荐。