论文部分内容阅读
随着社交媒体平台的出现以及快速地发展,越来越多的社交网络应用出现在人们的视野中。这些应用不仅吸引了许许多多的用户在该平台上进行交流与互动,还吸引了国内外广大的研究者们对其进行研究与探索。在社交媒体平台上,所有的信息会以发布时间为序呈献给用户,称为用户的Timeline。本文主要致力于研究如何对社交网络中用户的Timeline生成自动摘要,由于这些摘要能够以更加结构化的方式来组织Timeline中的社交媒体消息,所以用户通过阅读这些摘要,可以过滤掉其Timeline中内容或话题重复的消息。该自动摘要的生成主要基于对社交网络中短文本消息的聚类,聚类过程中不仅提取了每条消息的文本特征,而且提取了有效的社交网络结构特征。同时,为了进一步地验证聚类结果的正确性,本文人工标注了一个新浪微博的分类数据集,作为本文实验部分的测试集。为了提高人工标注的效率与准确性,本文设计并实现了一个文档标注系统来协助标注者们完成标注工作。最后,经过大量的实验得到的查准率和查全率表明,本文提出的社交媒体消息聚类方法是明显有效的。本文的实验数据集也将共享在网络平台上,供研究相关方向的研究者们参考。本文主要的研究工作及贡献包括以下几个部分:·社交媒体消息聚类本文主要研究对社交媒体消息进行聚类的方法。在聚类过程中,我们着重研究了聚类特征的选择问题,不仅提取了社交媒体应用中消息的内容特征,而且提取了社交媒体中的社交网络的结构特征。由于社交网络结构特征的加入,使聚类的效果也有明显提高。· Timeline的自动摘要在社交媒体消息聚类的基础上,本文通过对每个类别中的消息进行评分,选出得分最高的消息作为该类别的摘要内容。同时如果用户阅读了某类别的摘要内容后,觉得对此类话题感兴趣,可以再查看该类别下的其它消息。·新浪微博分类数据集本文人工的标注了一个新浪微博的分类数据集,作为本文实验的测试集来评估消息聚类结果的正确性。该数据集不仅为本文的实验部分验证聚类结果的正确性提供了重要的评估标准,而且还为其他研究短文本聚类等相关方向的研究者们提供一个真实可用的测试集。·文档标注工具本文设计并开发了文档标注系统,来协助标注者们提高标注数据集的效率和准确度。该系统不仅可以记录每篇文档的标注关键词,而且可以记录所有标注关键词之间的结构关系。本系统不仅满足了本文中相关的标注需求,而且能够为研究实体关系抽取等方向的研究者们进行人工数据标注时提供有效的帮助。·扩展地实验对比本文通过详细完整的实验,验证了本文提出的聚类方法的有效性。通过对比实验可以看到,在加入了社交网络的结构特征之后,消息聚类的效果得以明显提高。同时,我们通过对实验中参数的调节,观察参数的变化对实验效果的不同影响,进一步的提高了聚类结果的准确性。