论文部分内容阅读
Web文本挖掘的目的在于从Web页面中提取有用的信息和知识,而个性化推荐可以看成一种“信息找人”的方式。有效的信息是产生精确个性化推荐的基础,因此Web文本挖掘已成为了个性化推荐研究的一个热点。同时,大数据时代的到来,数据信息呈现爆炸式的增长,正是由于这种爆炸式的增长,人们发现自己感兴趣信息的难度也在增大。因此,个性化推荐技术在互联网很多领域变得更加重要。 电子商务个性化推荐的研究对用户和网站来说是一种双赢的模式。对用户而言,可以快捷方便的得到自己的需求物品,满足自己的真实需求;对于网站经营者而言,可以充分的展示自己的商品,充分的挖掘长尾理论带来了销售额。从研究的价值角度上是很有前景的。 本文对电子商务网站个性化推荐的研究是基于Web文本挖掘模型的,推荐的数据来源为网站的Web服务器日志,并给出了基于Web文本挖掘的电子商务个性化推荐模型。首先,模型分析了电子商务网站的拓扑结构和页面结构,通过对日志进行数据过滤、会话识别、用户识别和路径补充来提取交易事务;其次,进行Web文本挖掘,主要涉及到中文分词,特征词条权重计算以及特征词条集合的提取等;进而对交易事务集进行特征化的转换表示和聚类分析;最后,当用户访问网站时,通过分析当前用户会话的特征信息,计算与聚类集中交易事务的相似性,进而产生个性化推荐集。本文最后建立了基于Web文本挖掘的电子商务网站个性化推荐系统,用于验证文中的模型,验证的衡量指标为个性化推荐研究领域认可的精准率、召回率、推荐结果覆盖率以及新颖度。同时,实验中对比了传统Web文本挖掘中使用的TF*IDF算法与本文选择使用BM25F算法的优劣。本文构建的基于Web文本挖掘的个性化推荐能够很好的跟踪用户在访问页面中产生的兴趣意向变化问题,当用户从一类商品跳转到另一类物品时,对特征词条的提取也会变化,故能够及时的调整推荐集。