论文部分内容阅读
Web2.0技术的快速发展,使得网络成为一个公共的信息编辑和发布的平台,让每个人可以分享自己的观点、心情,其中也包含了大量的个人意见、情绪和情绪反馈。识别和度量基于时间序列以及主题的大规模网络人群情绪及其变化在社会学研究和经济学研究中都有着重要意义。本课题研究集中在读者角度的情绪反馈预测。也就是通过对新闻文本中的词语或语义进行分析,来预测读者阅读完这段文本后可能产生的情绪。目前的文本情绪研究大多是从作者角度出发,而较少从读者预测角度进行研究。已有的读者情绪预测研究往往把情绪预测问题看成是一个单标签问题,认为一篇新闻文本只会让读者产生一种情绪,这明显与人类直觉和对读者情绪进行大规模统计得到的结果不符。另外,这些工作大多是采用基于词袋的方法,而心理学研究显示,读者情绪不仅会与文本中的一些特定的词语有关,很多时候,还与文中表达的事件主题相关。为此,本课题对网络环境下读者情绪预测进行了系统化的研究,首先,在对读者情绪生成机制进行分析的基础上,利用大规模的社会化标注数据,构建读者情绪语料库。通过对读者情绪标注进行观察发现,一篇新闻文本常常对应着多个具有统计显著性的读者情绪投票,因此将情绪预测问题视为一个多标签分类任务较为合理。同时对文本和读者情绪反馈进行观察可以发现,相似事件的新闻文本往往会导致相同的情绪,也就意味着读者情绪与文本主题具有一定的相关性。因此,课题分别研究了基于词袋模型和基于LDA(Latent Dirichlet Allocation)主题模型的方法进行读者情绪预测,并在此基础上,对主题模型进行改进,包括带权重的LDA模型以及引入情绪类别信息的分块LDA模型,以改进传统LDA模型的性能。本课题在8,802篇新闻文本上的预测实验结果表明:一、在研究读者情绪反馈问题上,采用多标签分类技术比单标签分类技术更合理;二、对于基于词袋模型的方法,通过采用不同的分类算法和特征集进行组合,可以获得较好的效果;三、采用主题模型进行情绪预测,进一步提高了新闻文本的情绪预测精度,同时课题中改进的主题模型的实验结果超过已有的一些方法,最高精度达到了0.89。此外,本课题研究中建立的读者情绪语料库也可以作为各种情绪研究的重要公共资源,支持相关领域的研究。