论文部分内容阅读
随着互联网及信息技术的快速发展,人类社会的信息传播已经迈入了新的时代。人们可以随时随地通过以微博、微信为代表的在线社交服务平台来发布和分享各类新鲜的消息与思想,也可以方便地与其他用户进行实时沟通,因此这些平台已经成为当今社会人们进行信息传播和交流的最重要的场所之一。若将每个平台用户视为一个网络节点,那么此类服务平台就可以被看作是一个开放、拥有大量网络节点的信息传播网络,而且各个网络节点之间在不断地产生和传播着规模庞大的信息流。由于针对信息传播网络的研究和分析能够产生巨大的社会意义和应用价值,因此它在近年来吸引了大量研究人员的兴趣。本论文的工作主要围绕着信息传播网络中的热门话题实时检测、话题的未来流行度预测、节点–话题未知传播关系的预测等三个关键研究问题展开,研究成果主要集中在以下三个方面:首先,为了在成本受限的条件下对信息传播网络中新出现的热门话题进行实时检测,本文设计了一套基于选取和利用全部网络节点中的关键子集网络节点来完成在线检测任务的算法。相较于耗费巨大的成本来不断地获取和处理来自全体信息传播网络节点的全量信息流的传统检测方法,本文提出了通过训练数据来选取少量关键子集网络节点的算法,这些节点拥有最大的话题检测期望收益并符合成本约束条件。本文还设计了基于子集节点覆盖度模型的话题检测算法,它通过使用上述方法选取的关键子集网络节点所产生的实时信息流来对整体信息传播网络中新出现的热门话题进行在线实时检测。在新浪微博真实数据集上的一系列对比实验结果表明,本文针对话题实时检测问题而提出的算法能够在保证检测结果准确性的同时明显减少实时检测所需要的资源成本和运行时间。其次,为了在成本受限的条件下尽早预测新出现的话题在整个信息传播网络中的未来流行度及其变化趋势,本文设计了一套基于选取和利用关键子集网络节点来进行话题未来流行度预测的算法。该预测算法能够使用少量关键子集网络节点在已知时间段内的话题参与时序数据来预测未来各时间段内话题在整个信息传播网络中的话题流行度。与此同时,本文还将热门话题实时检测任务与话题未来流行度预测任务进行了有机地结合,并提出了能够同时考虑话题检测与流行度预测效果以及成本约束条件的关键子集网络节点选取算法。从对新浪微博真实数据集进行的一系列相关实验结果可以看出,本文提出的方法能够利用所选取的少量关键子集网络节点的在线数据来对信息传播网络中的热门话题进行实时检测并对话题未来流行度进行尽早预测,且得到检测与预测结果的时间甚至比原数据集当中来自微博官方的结果要提前若干个小时。最后,为了在成本受限的条件下预测信息传播网络中的每个节点是否会参与各项新话题的传播,本文设计了一套基于选取和利用关键子集网络节点的相关数据来预测各个节点–话题未知关系以及话题未来热度指数的联合预测算法。其中,话题未来热度指数可以看作是未来某较远时刻话题流行度的一种推广。由于每个信息传播网络节点对不同内容话题的喜爱偏好不同,而对新话题进行联合预测面临着因缺少有效的节点–话题已知关系数据而无法准确计算待预测话题隐含特征的“冷启动”问题,因此本文改进了原有的泛函矩阵分解算法,并提出了通过训练数据来构建一个对于求解联合预测问题最为关键的子集网络节点选取决策树模型的算法。本文还提出了利用该决策树模型来估算待预测话题的隐含特征向量并进行联合预测的算法。在新浪微博数据集和电影评分数据集上进行的一系列实验结果表明,本文提出的算法能够利用极少数关键网络节点与待预测话题的评价关系来对节点–话题未知关系和话题热度指数进行联合预测,并能够获得比已有代表性算法更为优秀的联合预测结果。综上所述,本文针对信息传播网络中的三个重要问题进行了深入的分析和研究,并创新性地提出了基于信息传播网络中的关键子集网络节点来对相关问题进行分析和研究的算法。由于本文将各个网络节点的成本有效性作为关键子集网络节点选取算法中的重要考量因素,因此本文针对各个研究问题所提出的算法均能够在满足成本约束和实时性要求的同时对具有较多数量的网络节点和较大规模信息流的真实信息传播网络进行分析,从而得到比代表性算法更为理想的算法运行结果。