论文部分内容阅读
作为一个广泛分布的全球信息服务中心,万维网集中了海量的信息,其中大多数是以网页文本的形式存放的。这些文本信息种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。个性化服务的概念应运而生。所谓个性化服务指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。 为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法作了研究,完成了以下三个方面的研究工作: ①网页正文的提取。目前网页的形式多种多样,包含了大量与网页主题无关的内容,如广告、图片、无关链接等,这些与网页主题无关的内容会严重影响搜索引擎等Web服务的效果。本文通过对网页HTML的语法分析,基于启发式规则提出了两种网页正文提取方法:HTML元素选择删除法和超链接判断正文过滤法,测试表明这两种方法都能有效地得到大部分HTML网页的正文部分。 ②网页关键词提取。传统的机械分词的分词词典数据量庞大,分词系统的负荷很大,针对网络用户的兴趣不同,本文提出个性化词典这一新概念,通过对不同用户浏览过的网页集进行分词处理,分别为每个用户建立不同的个性化词典。该词典存放于客户端,从而将网页关键词提取的工作由服务器端转移到客户端,节省了系统开支,并且通过实验表明基于个性化词典的网页关键词提取在保持分词精度的同时可以增强系统的实时性,降低了网页描述的维度。 ③网页特征词的权重改进计算。TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,它并不适用于任何情况下。本文以矢量空间模型为Web文本的表示方法,提出了一种改进的TF-IDF网页特征词加权方法。该方法在网页标签分析的基础上,在网页描述时结合了中文词长特征,改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了系统的聚类精度。 本文介绍的网页特征描述技术实际应用于个性化搜索引擎实验系统 MyPSE中,实验结果证明,利用本文介绍的方法得到的网页特征向量可以较为准确的描述网页,为MyPSE系统中用户兴趣建模和个性化搜索提供了良好的支持。