基于内容的电子书和作者推荐方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lhawk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,电子书及作者资源变得越来越丰富,但在海量的资源中读者却越来越难以发现真正感兴趣的信息,而推荐系统能够快速地帮助读者选择感兴趣的、有价值的信息。在实际生活当中,读者更倾向于阅读题材内容相同者相似的图书,或者阅读与自己喜爱的作者写作风格内容相近的作者所著的图书。所以,个性化的电子书推荐和作者推荐成为网上书城比较关注的热点问题。因此,本课题对基于内容的电子书推荐和作者推荐方法的研究具有重要的实用价值。本课题主要研究内容如下:在基于内容的电子书推荐方面,传统一些文本处理模型针对短文本研究较多,对长文本研究较少,因为与短文本(如新闻)相比,长文本(如电子书)存在预处理维度更高、更复杂,文本语义关系更难度量等问题。本课题从电子书权威网站爬取电子书全文文本,构造实验长文本数据集,针对电子书长文本维度高、处理复杂等特点,采用分治的思想,将长文本分割成若干部分,提出了多维潜在语义算法模型,通过构建词语义关系图谱矩阵,来表达文本语义关联性的特征。针对长文本语义关系难度量的特点,采用融合全局和局部语义的相似性距离,对电子书文本内容相似性进行衡量,并对实验涉及的参数进行一系列实验研究。实验结果表明,多维潜在语义算法模型在五种量化评价指标的衡量下,优于传统的其他文本处理模型;在基于内容的电子书作者推荐方面,研究大多集中在专家推荐,并且推荐里使用的特征比较单一。针对上述问题,本课题利用爬虫程序,从电子商务网站爬取与作者相关的三种异构特征,即电子书作者简介、作者所著书摘要以及读者评论。利用这三种电子书作者的异构特征,本课题提出了作者树状结构的表示方法,应用多层自组织映射算法模型,进行电子书作者推荐。实验根据作者树结构中作者节点特征是否与另外两种特征信息融合设计两组实验,并对实验涉及的参数进行研究。实验结果表明,在五种量化指标的衡量下,基于作者树的多层自组织映射模型优于传统文本处理模型。
其他文献
现有基于Petri网、Agent等技术的多媒体同步模型,均使用单一的同步尺度,难以解决流内同步和流间同步的矛盾。选择对象粒度太小,有利于保持流间同步,但会破坏流内同步,即造成
学位
随着信息时代的到来和计算机网络技术的飞速发展,分布式环境日益普遍,而传统的集中式数据挖掘技术无法解决分布式下的挖掘问题,故在分布式下如何进行有效的数据挖掘成为当今
近年来,随着互联网和各种信息交互平台的大力发展,现实世界中的个体在不同的网络虚拟空间中形成了多种多样的社会网络。其中,各种交流论坛收集了丰富的用户个人信息,用户之间
本体,这个概念起源于哲学,在计算机科学与信息科学领域,因为它对知识工程中的很多问题有很大的帮助,所以在最近几年,有着很大的发展。生物医学领域,近几年也在飞速发展,而本
随着互联网技术的不断发展,网络入侵技术也在不断进步,复合攻击已经成为网络攻击的主要形式之一,给社会带来了越来越大的危害。现在大多数的入侵检测系统只能检测到攻击,却不
公钥基础设施PKI以非对称加密技术为基础,为网络信息安全提供保障。PKI以数字证书为密钥管理工具,终端实体之间进行通信之前必须要验证使用的数字证书是否已经被撤销,即验证
相似网页(Near-Duplicate Web Pages)在互联网中的大量存在,给搜索引擎带来了多方面的问题,如爬行程序反复的搜录同样内容的网页给搜索引擎的爬行程序自身及互联网都带来了沉
随着网络技术的飞速发展,在Internet上出现了很多新的应用,比如网络会议、视频点播、分布式内容系统、远程教学等,这些应用都依赖于从一台主机向多台主机或者从多台主机向多
特征选择是当前人工智能领域,尤其是机器学习领域的研究热点之一。随着人工智能和计算机科学技术的迅速发展,特征选择在理论和应用方面均得到了较大的发展。特征选择不仅可以去