Web文本挖掘技术在网页推荐中的应用研究

被引量 : 0次 | 上传用户:george890120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,目前Web成为了世界上最大的数据源。这些信息在页面上的分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。本文主要研究Web文本挖掘技术在网站文本推荐中的应用。首先根据前人研究成果提出一种基于该技术的模型,然后按照该模型的流程依次剖析Web页面主要内容的提取、Web文本的聚类和一种改进的推荐算法。推荐算法作为模型核心,内容的提取作为文本聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究内容如下:1,基于经典推荐模型,结合Web文本的特点,设计出一个针对网站中文本的推荐模型。2,研究了Web页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建DOM(Document Object Model)树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。3,Web文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距离(approximate EMD)。利用近似EMD (Earth Mover’s Distance)距离代替常规距离,使得实体间的度量更加精确。实验采用中国科学院计算技术研究所的文本数据,基于欧氏距离的DBSCAN算法聚类的平均正确率是78.9%,基于EMD的改进算法的平均正确率为84.4%,说明EMD距离代替常用距离在聚类的精确性上是可行的。4,研究了推荐算法。基于纯文本的内容推荐只关注页面内容本身,对应的推荐对象将保持不变。而利用协同过滤算法,加上用户对信息的打分,可以得到用户的爱好倾向;同时利用项目加权,形成推荐目标重要性阶梯变化的加权规则。两者相结合,更能容易找到用户感兴趣的信息,从而形成推荐列表对用户加以推荐。
其他文献
茶叶作为我国传统的农业经济作物和出口创汇产品,其质量安全问题的现实存在,以及欧美等主要茶叶进口国监测标准的提高,使得解决我国茶叶质量的安全问题刻不容缓。国内企业纷纷通
目的 探讨康复运动在慢性心衰患者中的应用价值.方法 回顾性分析2015年1月至2016年1月来我院心内科就诊的128例慢性心衰患者的资料,并将其按照就诊时间顺序分成对照组(n=64)和
目的:探讨缩宫素联合米索前列醇预防产后出血的临床价值。方法:回顾性分析110例产妇临床资料,按照促子宫收缩药物的不同将其分为观察组(缩宫素联合米索前列醇,n=55)与参考组(
反贫困法律制度的建立与完善契合了经济法的社会整体利益,凸显了经济法社会责任本位的实质内容,亦为构建和谐社会的基石。我国反贫困的嬗变历程表明贫困地区正在缩小范围,然
微博是信息化、网络化时代产生的一种新媒体。它是一把双刃剑,其价值及影响需要我们理性地评判。在正确的导向和规范下,它可以成为虚拟开放社交的载体、信息资源共享的渠道、
用植物,特别是用花或花的组成部分来给女性命名,或用女性名给台风命名都含有一种对女性性别的歧视。花,是植物的生殖器,把女性比作“花”,女性的美像花一样,这种赞美其实隐含着女性
通过土柱模拟实验研究了垃圾渗滤液中的重金属在地下环境中的衰减效率和机理.结果表明,不同顺序氧化还原带对不同的重金属去除效率不同,硫酸盐还原带的去除效率最高,Cr、Ni、Zn、
机体免疫系统功能紊乱可引起多种疾病,这些疾病中很大一部分是由于机体长期暴露于环境中的各种污染物所引起的。二噁英是非人为生产,没有任何用途,存在于各种环境介质的一类环境
什么是幸福?怎样获得幸福?这是人类永恒的热点,是人一生未断的思索和追求的目标。中国三十余年的改革开放,最初的二十多年里,目标很物化、具体化,温饱、小康、国民生产总值翻两番,解
目的:探讨眶隔脂肪游离移植填充眶下缘凹陷应用于下睑整形术中的有效性和可行性。方法:对2016年1月-2018年1月笔者医院收治的36例下睑松弛患者进行回顾性研究,均为泪沟和眶颧