论文部分内容阅读
随着互联网技术的蓬勃发展,社交网络服务如微博客等迅速兴起并渗透到社会各层群体,同时积累了大量的用户。通过微博客平台,用户可以关注感兴趣的用户或者话题,随时随地发推分享自己的状态。主流的微博平台拥有庞大的用户规模和海量数据信息流,已成为新闻的重要来源和传播手段。在学术领域,微博平台的热点话题分析也受到越来越多研究者的关注。微博热点话题分析有着重要意义,为信息导航和查询事务的倾向等应用场景提供支持:一方面可以让使用者随时获得当前的热门信息;另一方面可以帮助平台管理人员了解当前用户群体的关注点和喜好,为相关的业务决策提供服务;再者,可以为政府和社会舆情工作者分析当前社会的公共事件热点趋势提供有力的数据和技术支持。在经典的主题模型、微博热点话题探测以及中文微博的特性相关研究工作基础上,本文继续对微博话题检测进行了一系列的深入研究,并针对热点话题的细粒度层面切分这一任务提出了基于关键字固定的LDA主题模型(Key-Anchored LDA)。主要解决了如何从粗粒度的主题中细分出细粒度的语义层面、短文本的主题模型建模、利用表情标签生成有明显情感倾向的主题、利用微博的‘@’标记生成用户对话内容主题,从而可以较为准确获得粗粒度话题所包含的细粒度语义层面。本文的主要内容有以下四点:(1).本文提出区别于传统的话题检测的潜语义分析任务,即给定一个已知特定粗粒度话题下的文本集合,如何去获取细粒度的主题语义信息。具体地说,本文研究对推文流中粗粒度的热点话题切分以获得其细粒度的语义维度表征信息;(2).本文提出“实体级主题”(Entity-Level Topic)的细粒度语义维度概念用于描述主题的粒度程度,从而把主题的粒度限定在易于人们理解的实体层面,使得主题在语义表达上更易于人去理解;(3).根据(2)提出的思想,本文提出了基于命名实体和名词关键字作为固定标签的Key-Anchored LDA主题模型,较好地解决了经典的LDA在短文本话题建模存在的不足和话题粒度的设定人工干预性较大(一般由语料的话题数目K决定)和Labeled LDA需要语料带标记信息的不足;(4).本文提出了基于表情符号标签服从伯努利分布给推文生成表情标记的方法,再利用该标记生成带有情感倾向的表情主题,该方法能有效地对热门话题推文中含有表情符号的文本建模并生成对应的情感主题维度,从而可以获得该话题的情感层面表征信息;提出了利用‘@’标记生成对话内容的主题维度,用于生成热门话题下的对话层面的主题内容。基于以上几点,我们从腾讯微博平台推特流中抓取了一段时间内的热点话题进行话题的细粒度语义层面分析实验,结果证明本文提出的改进的Key-AnchoredLDA主题模型在进行微博话题层面分析任务是有效的。对于给定的热点话题,本文提出的方法能够分析出细粒度的主题层面信息和情感主题;在与经典的LDA话题模型对比结果上,各项指标如PMI、Perplexity都取得了较好的表现;引入实体信息使得生成的话题的可理解性更强。