论文部分内容阅读
随着电子商务的快速发展,带来的巨大经济利益的推动下,使得推荐系统的关注度日益升高,推荐系统逐渐成为一个专门的研究领域。推荐系统的主要构成包括两个方面,推荐算法的设计和基于推荐算法的推荐,一个良好的推荐系统总是针对一部分特定的领域所涉及的一种智能化推荐服务系统,推荐算法的鲁棒性也只能体现在某些特定的数据集中。目前,随着电子商务平台多样化,信息资源规模呈海量式增长,信息的表现形式也林林总总,对于这些海量信息的处理,传统的推荐算法逐渐显露出推荐效果差、信息处理速度缓慢等一系列问题,急切的需要引入新的知识和理论改进这些传统的推荐算法或者设计新的推荐算法。航空票务电子商务平台不同于普通的电子商务平台,首先,机票有别于一般的商品,有着自身的特殊属性,机票的刚需性和时效性决定了传统的推荐算法无法进行有效的推荐;其次,各大售票门户为了增加机票的销量,采用直接购买方式,即无需注册平台账号,无需验证用户身份,只需用户提供有效的手机号码和身份证号码即可购买,这种方式在很大程度上促进了平台的销量和方便了用户的使用,但同时导致了用户的真实个人信息难以获取等问题,这种方式导致传统的推荐技术很难实现精准的推荐应用。为了改善传统推荐技术在航空票务推荐应用中出现的弊端,近一步改进和完善目前主流的航空票务平台的推荐算法,本文采用粒计算框架下的Rough集理论技术,通过采用基于Rough集的粒度模型,分析航空票务数据,通过对原始数据的离散化、属性约简、值约简等处理,提出基于断点重要度的离散化方法,属性重要度的约简方法,从中发现知识,提取初步的决策规则。对于票务数据的增量式特征,本文通过使用可辨识矩阵的特性,使用多粒度原则,对增量式数据进行多粒度分类,在分类的基础上进行分类分析处理,从中提取新增的决策规则集,完成对票务数据最终决策规则集的提取。通过对原始航空票务数据的分析,从中提取相应的决策规则,并设计出相应的票务推荐算法,为各大售票平台的推荐算法设计提供了一种新的高效数据处理的方法和思路,同时改进和完善目前航空票务推荐系统这一应用方面的不足。本文的主要工作和主要研究成果如下:1.对去哪儿网站的航空票务数据进行分析,结合网站的垂直搜索规则,采用基于深度原则的网络爬虫算法提取航空票务数据;2.研究了Rough集在数据预处理中的应用,分析了Rough集离散化方法,给出了基于断点重要度的可辨识矩阵行优先离散化算法;3.研究了决策表的属性约简和值约简方法,并应用于航空票务数据,给出了初始决策规则;4.研究了增量数据的规则获取问题,通过分析改进式的可辨识矩阵在增量数据规则获取中的应用,给出了动态获取增量数据新增决策规则的算法,并应用于航空票务数据,完成了最终决策规则集合的导出;5.在最终决策规则集合的基础上,设计出了基于知识发现的航空票务推荐算法。