论文部分内容阅读
近年来,随着互联网的大力普及与服务的完善,网络及新兴媒体已经成为意识形态交锋的重要阵地,各种文化和价值观在网上激烈碰撞,网民能更多发表和接触到越来越多的信息,其中包括了网民自己发表的言论和企业机构等发表的言论。然而,如何挖掘网民言论的影响力,鼓励网民在网上正确发声,目前还是一个极富挑战的课题。本论文首先分析了国内外研究现状,着重介绍了当前针对博文、新闻、微博等新媒体出现以后随之而出现的新的分析影响力的方法,以及传统的论文的影响力分析方法,如“基于H指数的分析方法”等。随后介绍了理解本论文所需要的相关基础知识,包括海量文本相似度计算算法SimHash算法以及与其相组合的海明距离计算方法等,也包括建立作者文章网络使用的链接分析算法如HITS算法,和计算文章权威值所使用的经典PageRank算法等;随之从五个大的维度来衡量网络文章的影响力,并构建了作者的社交关系网络和文章的链接网络等,计算每个大维度之下的各个小的指标。然后通过人工标注等方式来构建文章影响力的样本,最终通过神经网络的方式来对文章的影响力进行拟合,通过多项对比实验,确立最终的神经网络设计架构以及权重调整方法,并得到影响力计算的最终算法。经验证,实验结果理想,未出现过拟合的现象,算法所计算的文章影响力能很大程度上代表文章的真实影响力。本算法的一大难点是在影响力本身的定义上面,什么样的文章才算影响力高,这里给到一个相对标准的定义,即受众面积越大且对读者所造成的印象越深刻即为影响力越高,无关乎文章本身的情感、政治等倾向。所以本算法的计算结果验证也采取人工标注的结果与计算结果进行对比的方式,在标注的时候不考虑作者本身的情况,在计算的时候才将作者相关指标加入进去,并对比计算结果与人工标注结果的吻合程度。实验结果证明了本算法的有效性。