论文部分内容阅读
随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的产品。电子商务推荐系统直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。在日趋激烈的竞争环境下,电子商务推荐系统能有效保留客户、防止用户流失,提高电子商务系统的销售。 然而随着电子商务系统规模的进一步扩大,电子商务推荐也面临一系列挑战,由于用户兴趣主题分类中的特征较多,因此在商品语料中,往往存在一些特征仅在某一些用户主题类别中出现,而在其它的用户主题中并不出现,即数据稀疏问题,影响了推荐系统的精度;推荐方法的冷开始问题,即如果一个新项目没有人去评价它,或都不去评价它,则这个项目得不到推荐,推荐系统就失去了作用;只注重外延的推荐方法的优化,较少考虑产品自身的语义信息等等。对此本文以用户感兴趣的信息主题来刻画用户的兴趣特征,对电子商务推荐系统中主题分类技术、概念相关聚类方法、语义信息处理方法以及推荐系统体系结构等关键技术进行了深入研究和探索,以提高电子商务推荐方法的性能。本文研究的主要内容包括: 第一,基于主题的推荐系统需要分析资源内容信息,通过比较资源是否跟用户用户档案一致决定是否进行推荐,它需要从资源中进行特征提取。由于用户兴趣主题分类中的特征较多,因此在商品语料中,往往存在一些特征仅在某一些用户主题类别中出现,而在其它的用户主题中并不出现,进而引发了数据稀疏问题,严重影响了推荐精度。对此,引入统计语言模型中Good-Turing算法直接对特征词的条件概率平滑,采用“折扣再分配”策略对统计参数进行重新估值,计算缺失特征词的补偿概率。此外,又将贝叶斯主题推荐中的类别与特征词看作是Bigram语言模型中的二元对,并引入绝对折扣(Absolute Discount)平滑算法针对二元对进行平滑,来克服数据稀疏问题带来的影响。 第二,由于表达方式的多样性,即使同一商品概念如商品名称及属性名称也可能有不同的表达形式,不同概念也可能存在部分-整体、值-属性等多种相关关系。而相关研究中一般采用基于外延的推荐方法,仅利用商品的外在特征等统计信息,使得推荐质量受到影响。对此,以知网作为商品概念相关知识源,扩展推荐中的概念空间,利用词概念相关计算模型来计算用户的兴趣主题,并与统计信息进行有效融合,以提升商品推荐对概念的敏感能力。本文以融入自组织映射网络为例,对融合概念相关知识的方法作以深入探讨。 第三,在第二部分提出融合概念知识的基础之上,进一步对推荐对象的语义信息构造方法进行研究,构建推荐概念知识库。对领域术语候选计算及领域术语抽取,商品同义词词典的构造方法以及相关词构造方法进行研究。领域术语抽取用于获取推荐系统原来未知的语义单元,新的专业术语等。当新的商品、新的词汇出现时,推荐系统应该具备识别这些新术语的能力,此外本文探讨基于词矢量空间计算相似度的方法以及基于平均互信息计算相关词,这些不仅可用于概念相关知识推荐中,还可用于用户查询意图扩展中。 第四,不同的用户对同样的问题的理解不尽相同,理解的粒度也可能不同。本文由此对用户个人偏好的异质性问题研究,提出基于协同的扩展偏聚类方法,挖掘隐藏在主题内部的用户偏好。提出基于协同的扩展偏聚类方法,将用户模型与用户对自身信息需求(兴趣爱好、信息访问方式及思维方式)的组织形式相关联,以用户个性化的主题分类体系、主题分类标识为框架,采用协同过滤方法扩展同类偏好数量,同时其用户端的层次化信息组织管理,来克服以权重方式刻画用户兴趣的模型可能导致的偏置现象。 第五,对主题的电子商务推荐系统设计与相关应用进行研究,提出一种“通用推荐”和“个性化推荐”相结合的主题推荐系统框架,其综合前几项研究成果,同时由于在推荐初期采用通用推荐可克服冷开始问题,即如果一个新项目没有人去评价它,或都不去评价它,则这个项目肯定得不到推荐,推荐系统就失去了作用。系统利用构建用户兴趣模型来全面、准确地描述用户的购买意图,对主题搜索返回的结果进行过滤、排序与归类,提供推荐。在论文稿件领域推荐的任务中,着重研究稿件的特征抽取与论文稿件的领域识别,针对主题垃圾邮件过滤这一特殊主题推荐任务,分析应用主题分类技术进行邮件过滤所需要的关键技术,使邮件过滤模型具有快速的预测能力。 本文将电子商务推荐理论与技术相结合,旨在研究电子商务推荐系统中的关键技术,其成果有望为电子商务推荐理论做出贡献,同时也有望对其实际应用研究产生积极的作用。