面向个性化服务的网页特征描述研究及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:averyhut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个广泛分布的全球信息服务中心,万维网集中了海量的信息,其中大多数是以网页文本的形式存放的。这些文本信息种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。个性化服务的概念应运而生。所谓个性化服务指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。  为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法作了研究,完成了以下三个方面的研究工作:  ①网页正文的提取。目前网页的形式多种多样,包含了大量与网页主题无关的内容,如广告、图片、无关链接等,这些与网页主题无关的内容会严重影响搜索引擎等Web服务的效果。本文通过对网页HTML的语法分析,基于启发式规则提出了两种网页正文提取方法:HTML元素选择删除法和超链接判断正文过滤法,测试表明这两种方法都能有效地得到大部分HTML网页的正文部分。  ②网页关键词提取。传统的机械分词的分词词典数据量庞大,分词系统的负荷很大,针对网络用户的兴趣不同,本文提出个性化词典这一新概念,通过对不同用户浏览过的网页集进行分词处理,分别为每个用户建立不同的个性化词典。该词典存放于客户端,从而将网页关键词提取的工作由服务器端转移到客户端,节省了系统开支,并且通过实验表明基于个性化词典的网页关键词提取在保持分词精度的同时可以增强系统的实时性,降低了网页描述的维度。  ③网页特征词的权重改进计算。TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,它并不适用于任何情况下。本文以矢量空间模型为Web文本的表示方法,提出了一种改进的TF-IDF网页特征词加权方法。该方法在网页标签分析的基础上,在网页描述时结合了中文词长特征,改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了系统的聚类精度。  本文介绍的网页特征描述技术实际应用于个性化搜索引擎实验系统 MyPSE中,实验结果证明,利用本文介绍的方法得到的网页特征向量可以较为准确的描述网页,为MyPSE系统中用户兴趣建模和个性化搜索提供了良好的支持。
其他文献
随着通信技术和互联网技术的发展,政府机构和企业积聚了大量的业务数据,在这些不同类型的业务数据中,有一类很有特点的数据集合—交往数据集,比如通信记录、邮件收发记录、Web链
随着云计算在企业中的广泛使用,拥有HDFS分布式文件系统和分布式计算模型MapReduce的Hadoop成为了众多IT企业的首选。在大型企业中,Hadoop分布式集群通常由成百上千个节点组
学位
随着信息化程度的不断提高,全球数据日益膨胀。面对当前PB级的海量数据存储需求,传统的存储系统在容量和性能的扩展上存在瓶颈。分布式存储以其扩展性强、性价比高、容错性好
在嵌入式系统中,嵌入式微处理器的应用日益广泛。其中,Intel的XScale系列高性能嵌入式微处理器以其高速、低功耗、外设接口丰富等特点而得到广泛的应用,尤其是在PDA、掌上电
智能考试系统是近几年来随着计算机网络技术迅猛发展而新兴的研究课题,它既有和传统计算机题库系统相同的一方面,又有自己的特点。利用智能考试系统,学习者可以突破传统教育
在常见的业务信息系统中,有关的报表生成基本都是预先定制的,格式也是固定的,显示出如缺少灵活性、新增报表烦琐等缺点,并且因为系统数据库设计的不合理,数据格式多种多样,数据来源
网格是一个集成的计算与资源环境,它能够重新吸纳各种计算资源,将他们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力。在网格计算技术中,任务调度显得尤为重
在体育比赛中,比赛的规范性和结果的公正性越来越受到人们的关注和重视。如何提高比赛的公平和公正、减少人工干预、避免人为失误一直是一大难题。目前,在田径比赛中的计圈计
集成学习是近年来机器学习研究中发展迅速的一个分支。与学习算法直接面对样本数据不同的是,它专注于维护一套建立在各种分类器算法之上的框架。通过将原问题分解,并学习得到