适用于文本信息推荐的用户兴趣模型构建与更新方法

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:XM201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户需求的多样化,个性化推荐系统不仅用于电子商务,也用于推荐网页、电影、文本等。为了让人们方便准确地获得需要的文献,研究基于文本信息的推荐技术成为必要。文本信息推荐系统的功能是收集和分析用户历史阅读过的感兴趣文本,据此来认识用户偏好信息并建立用户兴趣模型,然后将与模型匹配度高的文本推荐给用户。在文本信息推荐系统中,用户兴趣建模模块是其中一个核心的模块。模型创建时,通过分词、特征选择直接从文本中获得特征词向量的文本表示方法只考虑了文本在词形上的相同点,而忽略了文本在词义上的相同点。这将会导致推荐时,仅能推荐出词形相同的文本,不能推荐出词形不同但词义相关的文本,从而导致查全率低。此外,当用户使用系统的时间越长,用户累计的历史阅读信息就越多。此时,对用户兴趣模型进行更新时,系统从历史用户阅读文本中提取用户兴趣模型的计算量会变得越来越庞大。在此情况下,系统响应时间变得越来越慢。这不利于用户体验。针对以上问题,本文做了如下工作:1)本文设计了一种文本信息推荐系统框架,给出了系统的整体结构和各个模块的功能。本文参与了系统整体设计,实现了用户兴趣模型模块功能。2)提出了一种基于单词间词义相关性的用户兴趣模型创建方法:通常认为每个单词具有多个词义,单纯依靠单词本身无法确定单词的词义,但在同一篇文本中的多个单词,其词义具有相关性,即同一篇文本的多个单词可能具有相同的上位概念(更一般化的概念)。该模型创建方法的主要思想是利用单词间的词义相关性来判断单词在文本中的正确词义,进而选择该词义下的上位概念来构建用户兴趣模型。本文提出了利用文本单词间的词义相关性来进行词义识别的方法。由于单词的一重词义具有它固有的上位概念,单词间词义的相关性体现在它们的上位概念关系中,因此该词义识别方法通过单词间各个词义的上位概念关系来判断单词的正确词义。最后通过该词义识别方法获得单词正确词义下的上位概念,以上位概念表示单词构建文本的概念向量,在此基础上创建用户兴趣模型。3)对用户兴趣模型的快速更新方法进行了研究:通常模型更新是在前一次模型中增加或者删除信息,在这个过程中保存前一次模型创建时的中间结果,在这个中间结果的基础上再进行更新时,可以减少重复计算工作,达到快速更新的目的。本文对模型快速更新方法的一般思路进行了梳理,实现了三种常见模型的快速更新方法。在本文设计的文本信息推荐系统结构上,实现了基于单词间词义相关性的模型增量更新方法。最后通过实验证明,本文提出的基于单词间词义相关性的用户兴趣模型创建方法提取出的模型在推荐时具有更高的查全率。本文这种增量更新方法比原始更新方法具有计算量低、更新速度快的优点。
其他文献
随着智能电网数据采集系统不断建设和发展,越来越多的智能仪表被装入电力网络,用以获取电网和用户的实时数据。这些实时数据具有数据量大、采集频率高等特点,而且数据间关联性较强。在售电侧改革情景下,这些海量数据的潜在价值逐渐被挖掘与应用。本文以智能电网中用户用电行为的特征提取与用户聚类方法、“网-荷”互动模式为两大研究点。首先介绍了智能电网用户用电行为分析理论框架以及应用场景,重点分析了提取动态马尔科夫模
随着网络通信技术的发展,以隐蔽通信为目的的隐密术受到了社会的广泛关注。隐密术是指将秘密信息嵌入到载体数据的冗余位置,利用公开信道以不被察觉的方式进行秘密通信的技术
在近几年中,随着云计算技术和移动终端服务的快速发展,通信网络承载的业务流量迅速增多,通信网络在人们日常的生活工作中扮演的角色越来越重要,用户也对通信网络的承载能力、
网络作为至关重要的基础资源,随着需求和规模的急速扩张,一方面促进了网络技术研究人员对于新体系、新技术的研究,另一方面由于现有网络结构日趋复杂以及网络设备相对封闭,使
随机模拟技术是地质统计学的新发展,在储层建模中由于地质环境的复杂性及观测数据的间接性和微量性,为储层建立的模型存在很高的不确定性。随机模拟是为储层建立随机模型并产
伴随网络与多媒体技术的日益发展,可实现高压缩比例同时又能满足用户不同需求的图像压缩技术愈显出其重要性。感兴趣区域编码技术是指针对人们的喜好,将图像划分为背景区域(B
文本的向量表示是指从文本中挖掘和学习其中蕴含的语义信息,并将其表示为具体的实数值向量,以便计算机进一步处理后续自然语言处理任务。最简单常用的文本表示方法为词袋子模
无源毫米波探测成像系统利用高灵敏度接收机接收人体自身辐射的毫米波能量信号,利用人体与隐匿物发射率的差异实现成像。其无辐射、方式隐蔽、非接触、分辨适度,对被检人员不
协议识别技术是实现流量监控、入侵检测以及用户行为分析等应用的基础。随着互联网的发展,新型的网络类型不断出现,新的协议规范很多都不再对外公开且使用随机的端口。另外,
近年来,随着科学技术的发展,图像增强已经成为科学研究中一个非常重要的课题,成为机器视觉中不可缺少的一部分,在计算机视觉的各个领域有着广泛的应用。图像增强已经渗透到人