论文部分内容阅读
以Twitter为代表的社交网络已成为人们表达政治意愿、参与政治活动的重要平台,大量富含政治倾向的内容与行为数据在社交网络产生。依托社交网络开展政治倾向分析的研究大量涌现,对国家引导舆情走向、政治团队制定竞选策略、市场部门设计营销方案等多个阶层的实际需求起到了积极影响。然而,当前在融合内容与行为分析用户政治倾向的研究中,存在赋权融合方法对权重分布考虑不全面、简单地拼接内容与行为的特征向量容易丢失信息等不足,导致模型对用户的数据利用率不高,政治倾向分析准度、精度有待提升。本文从内容与行为融合的不同阶段出发,提出了两种融合内容与行为的Twitter用户政治倾向分析方法。论文的主要工作如下:1.针对赋权融合方法对权重分布考虑不全面的问题,分析了权重分布对融合结果的影响,提出了基于自适应权重融合的Twitter用户政治倾向分析方法。该方法创新性地引入指数函数与权重调配系数,在权重计算过程中较为全面地考虑了权重分布。首先通过交叉验证训练基模型做好融合准备,然后根据分类个数计算权重调配系数,接着以指数函数、基模型的F1值和权重调配系数为基础,设计权重分布计算方法,最后通过不断迭代的方法自适应地优化融合权重,实现不同分类任务下的模型融合。在3个不同规模、不同分类、不同领域的数据集上进行的一系列实验表明,该方法的融合效果优于基线方法,与单个模型相比,融合后结果的F1值稳定增加了3-25个百分点;与其他融合方法相比,F1值稳定提升了1-2个百分点。在不同规模的4个Twitter数据集上,Twitter用户三分类政治倾向分类的F1值分别为0.9703,0.9531,0.9489,0.9367。2.针对简单地拼接内容与行为的特征向量容易丢失信息的问题,提出了基于多维关系图嵌入的Twitter用户政治倾向分析方法。不同于以往早期融合方法先提取特征再拼接的方式,提出的方法将内容数据直接构建到行为关系网络中,减少了数据特征在训练过程中的丢失。针对Twitter用户的内容与行为数据,首先提取和抽取推文数据中的主题与话题,将“主题”与“话题”视为图节点,结合用户的“关注”、“喜欢”、“转发”、“回复”、“提及”五种关系,构建多维关系图,然后通过拆分多维关系图在图卷积网络上得到单个关系图的嵌入,接着通过组合策略实现单关系图嵌入的组合,得到最终的嵌入信息,最后用softmax函数对用户实体进行三分类。在4个不同规模的Twitter数据集上,分析了话题、不同的单个关系对政治倾向分析结果的影响,得到恰当的“话题”数量,以及“喜欢”和“关注”关系能更好地表现用户政治倾向的结论。与基线方法的对比实验表明,提出的方法在F1值与准确率上均有3%左右的提升,在4个不同规模的数据集上,三分类的政治倾向分析F1值分别为0.9411,0.9591,0.9481,0.9356。