论文部分内容阅读
随着互联网的迅速普及,电子书及作者资源变得越来越丰富,但在海量的资源中读者却越来越难以发现真正感兴趣的信息,而推荐系统能够快速地帮助读者选择感兴趣的、有价值的信息。在实际生活当中,读者更倾向于阅读题材内容相同者相似的图书,或者阅读与自己喜爱的作者写作风格内容相近的作者所著的图书。所以,个性化的电子书推荐和作者推荐成为网上书城比较关注的热点问题。因此,本课题对基于内容的电子书推荐和作者推荐方法的研究具有重要的实用价值。本课题主要研究内容如下:在基于内容的电子书推荐方面,传统一些文本处理模型针对短文本研究较多,对长文本研究较少,因为与短文本(如新闻)相比,长文本(如电子书)存在预处理维度更高、更复杂,文本语义关系更难度量等问题。本课题从电子书权威网站爬取电子书全文文本,构造实验长文本数据集,针对电子书长文本维度高、处理复杂等特点,采用分治的思想,将长文本分割成若干部分,提出了多维潜在语义算法模型,通过构建词语义关系图谱矩阵,来表达文本语义关联性的特征。针对长文本语义关系难度量的特点,采用融合全局和局部语义的相似性距离,对电子书文本内容相似性进行衡量,并对实验涉及的参数进行一系列实验研究。实验结果表明,多维潜在语义算法模型在五种量化评价指标的衡量下,优于传统的其他文本处理模型;在基于内容的电子书作者推荐方面,研究大多集中在专家推荐,并且推荐里使用的特征比较单一。针对上述问题,本课题利用爬虫程序,从电子商务网站爬取与作者相关的三种异构特征,即电子书作者简介、作者所著书摘要以及读者评论。利用这三种电子书作者的异构特征,本课题提出了作者树状结构的表示方法,应用多层自组织映射算法模型,进行电子书作者推荐。实验根据作者树结构中作者节点特征是否与另外两种特征信息融合设计两组实验,并对实验涉及的参数进行研究。实验结果表明,在五种量化指标的衡量下,基于作者树的多层自组织映射模型优于传统文本处理模型。