【摘 要】
:
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分
【机 构】
:
中国科学院网络数据科学与技术重点实验室,中国科学院计算技术研究所,中国科学院大学
【基金项目】
:
本课题得到国家自然科学基金(61572473,61472400)和国家青年科学基金(61303156)资助.
论文部分内容阅读
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势.
其他文献
目的 探讨高血压脑出血超早期术后再出血原因及防治措施.方法 回顾性总结我院2004年6月~2010年3月所处理29例高血压脑出血术后再出血的临床资料.结果 本组29例高血压脑出血,首次均在6小时以内采用直切口小骨窗血肿清除21例和去骨瓣减压血肿清除8例.术后再出血时间:术后6h以内者19例,6~24h 8例,1d以上者2例.出血量30~80mL.29例再出血均经CT扫描确诊,再出血位于原发部位.其
购买数码相机时,常常会发现包装盒和产品说明书上有如图1的标志。可能很少会有人去关心这个标志具体代表什么意思,但事实上,我们都在直接或间接地享受着这一技术带来的便利。
Personal Digital Assistant,简称PDA,中文名称是个人数字助理。PDA的概念目前有广义和狭义两种解释,广义上的PDA是指所有能够充当个人数字助理角色的电子设备;而狭义上的PDA则通
目的对目标管理模式在外科护理管理中应用进行探讨。方法目标管理的过程可以概括为:一个中心,三个环节,四个阶段和九项主要工作,制定出护理管理中实施目标管理的制度。结果取
目的 探讨人工股骨头置换手术失误的原因及预防手段.方法 通过对苏州吴中区东山人民医院从1997年至2008年71例人工股骨头置换术患者的随访,对出现的手术失误进行回顾分析.结
购买笔记本电脑的方式有两种:一眼的邂逅就让人对某一款产品心生爱意,顷刻就以千金换回所好,这种感性的方式堪称行为艺术:反复的思量才会选定一款适合自己的类型.并循序渐进的付帐
本文总结20年来文献,结合笔者自身经验,概述了老年人肺部感染的临床特点、诊断和治疗。
密码学中的多线性映射具有广泛应用,包括多方密钥交换、广播加密、基于身份的加密、基于属性的加密、不可区分模糊器和函数加密等.虽然多线性映射存在无限应用的可能,但目前
对于很多国内手机用户来说,来自韩国的手机品牌泛泰(Pantech)还是一个比较陌生的名字,其实它现今已成为世界第九大手机制造厂商。2004年底,泛泰以自有品牌在国内推出了自己的手
高血压是临床常见心血管疾病之一,其主要症状为全身动静脉血压升高。分原发性高血压(高血压病)和继发性高血压。在患高血压的人群中约有90%为原发性高血压。高血压必须及时治疗