论文部分内容阅读
双结构新型网络以传统TCP/IP网络为主结构,添加以异步广播通信为基础的“播存环境”作为次结构,来缓解当前互联网面对的流量高度冗余、内容难以监管等问题。播存环境通过“统一内容标签”(UCL, Uniform Content Label)为用户提供交互性的主动信息服务。“话题”作为UCL的关键字段和重要概念,在播存环境强调的个性化推荐和内容聚类中,起着刻画网页内容特征和用户需求的重要作用。因此,研究符合播存环境特点与需求的话题挖掘算法,以便从采集到的热门网页资源中动态、高效地挖掘话题对播存环境具有重要意义。本文结合播存环境需求与特点,提出并实现一种播存环境在线话题挖掘算法BS-OLDA (Broadcast-Storage Online Latent Dirichlet Allocation),同时将BS-OLDA算法和话题信息应用于播存环境个性化推荐中,提出并实现了基于话题的个性化推荐算法BS-TR (Broadcast-Storage Topic-based Recommendation)。本文的主要研究工作如下:·为了解决播存环境中话题信息不易挖掘的问题,设计出一种播存环境在线话题挖掘算法:BS-OLDA。BS-OLDA利用UCL信息和贝叶斯方法改进传统话题挖掘算法,达到了对海量新闻网页动态、高效地进行话题挖掘,自动填充UCL话题字段的效果。同时,BS-OLDA通过新话题检测方法,检测网络中最新涌现的话题,从而更新话题映射表以动态反映网络中的话题变化。·针对播存环境中的个性化推荐需求,提出了一种基于话题的个性化推荐算法BS-TR。 BS-TR算法应用BS-OLDA提取网页内容的话题特征向量,并根据用户历史阅读行为,计算用户话题兴趣特征向量,在此基础上利用相对熵衡量相似度以进行个性化推荐。相比于传统的协同过滤算法和基于内容的推荐算法,BS-TR算法效率更高,并一定程度上缓解了冷启动问题,同时能更精确地刻画用户和网页的特征。·在面向播存环境的内容分发原型系统中,实现了BS-OLDA和BS-TR算法,利用BS-OLDA对原型系统采集的网页内容进行话题挖掘,并且利用BS-TR算法计算用户话题兴趣特征向量,进行基于话题的个性化推荐。实验与分析结果表明,本文提出的BS-OLDA算法和BS-TR算法,可有效提高播存环境下内容分发的效率,显著改善用户的使用体验。