基于Web的用户兴趣及需求技术的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gbyljk008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多年来,呈指数级增长的各种信息,使得Internet用户快速获取准确必需的信息显得越发急迫。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,用户兴趣挖掘技术正悄然兴起,倍受关注。它的出现恰好在一定程度上能解决Internet的信息多样化与用户需求的专一化之间的矛盾。用户兴趣挖掘技术的主要研究内容是如何根据所提供的用户浏览信息或行为或Web日志等数据,较为准确地挖掘出用户的个体兴趣,构建用户个体兴趣模型,分析用户个体兴趣,更进一步的根据个体兴趣对用户进行聚类挖掘出用户群体兴趣,并从个体兴趣和群体兴趣两方面刻画用户的兴趣需求,完善兴趣模型。本课题主要通过介绍一个基于Web、WAP的用户兴趣挖掘项目对以下提出的技术和算法进行具体分析和详细介绍并以真实的数据进行了实验验证其有效性。(1)用户兴趣建模技术根据用户浏览记录中的URL爬取并解析出所浏览网页的正文,基于内容的文本分析是本课题挖掘用户兴趣的基础。因此,在文本获取和预处理阶段,本课题提出基于规则和DOM树的网页正文提取技术以及基于卡方与关键词权重的文本分类方法。在用户兴趣建模阶段,提出多元化的建模思路,不仅从长期兴趣,短期兴趣方面建模,还综合了从个体兴趣和群体兴趣分别统计用户自己的历史行为和若干用户相似的历史行为的建模思路,更全面地刻画了用户的兴趣偏好。(2)用户个体兴趣挖掘技术主要通过挖掘用户的历史访问页面,了解用户在信息需求方面的兴趣倾向。本研究提出了适合本课题应用场景的两个算法:①挖掘用户的长期兴趣的算法;②挖掘用户的短期兴趣的算法;用户兴趣反映用户在主题需求、内容形式上的偏好,在维护和修改用户兴趣的过程中,采用兴趣类访问密度加时间属性的方法挖掘长(短)期兴趣。对用户模型的更新方面,引入遗忘因子,采用生物遗忘规律的方法对不活跃的用户或兴趣进行遗忘,对活跃的用户或兴趣进行记忆上的增强,最终达到对用户兴趣模型进行更新的目的。(3)用户群体兴趣挖掘用户是海量的,因此会有某些用户的历史行为存在相似性,这种群体性兴趣可以视作单一用户的潜在兴趣而具有协同推荐的作用。用户群体兴趣挖掘的难点在于对海量用户进行有效聚类。
其他文献
图像去噪是图像处理方面的一个经典问题,近年来该问题主要采用多尺度几何分析理论进行研究,其中将多尺度几何分析理论与隐马尔可夫模型(HMM)相结合是该领域中的一个研究热点
在网络飞速发展的今天,海量的信息让人们感到迷惑,这种局势使得推荐系统成为了个性化研究领域的热点。协同过滤算法则是推荐系统中使用得最多、最成功的算法。由于相似度计算在
20世纪计算机的诞生,推动了互联网技术的发展,开启了人类社会的网络信息时代,无形中被复杂繁多的数据包围。数不胜数的“网络”以有形和无形的方式融入到生活中,从有形的电信
随着移动终端软硬件和无线网络传输技术的迅速发展,人们期望在无线平台上开发种类更多,功能更强的应用软件,即移动增值应用。但是移动终端种类众多,并且没有一个统一的应用程
学位
移动互联网的发展使得移动用户访问互联网变得越来越方便,这样的发展也吸引了更多的用户加入到移动互联网的体验中。移动技术摆脱了有线连接的束缚,能在任何时间、任何地点访
学位
我们知道本体的一个主要作用是在共享语义层上进行数据交换。在万维网上有越来越多的本体被构建和使用,并开始用本体的语义规范指导数据交换,以取代旧的方式。然而,随着本体
随着数据采集和处理技术的不断发展和进步,使得人们对不确定性数据的认识逐步加深,对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的
游戏引擎技术的发展现在已经步入了成熟阶段,由于我国对其研究的起步较晚,技术相对落后,目前尚处于成长阶段。近年来,伴随着国家加大对自主研发游戏产业的支持力度,我国自主
如今的社会网络,已不再是狭义上社会学研究的内容,转而成为了集尖端的科研价值与巨大的商业潜质于一体的火热研究课题,吸引着愈来愈多各领域的研究人员的关注。随着时代的发
随着互联网、计算机网络、有线电视网三网融合的脚步日益加快,数字图像、音频和视频等多媒体数字产品越来越被广泛应用于各个方面。因此著作版权的保护和信息的安全保护问题