【摘 要】
:
在大数据时代,互联网中包含着海量的信息,这些信息被发布到不同的信息源,如新闻网站、网络社区以及社交媒体中。其中,不同信息源中的信息在互联网中的特点也各不相同。这些信息源传播的信息已成为人们浏览互联网的重要内容,并且制造了人们生活中一个又一个热门话题。互联网中热门话题的检测对有关部门进行舆情监管起到了至关重要的作用。有时舆情监管者需要进行热门话题检测的信息源不仅来自单一信息源,还可能来自多种信息源类
论文部分内容阅读
在大数据时代,互联网中包含着海量的信息,这些信息被发布到不同的信息源,如新闻网站、网络社区以及社交媒体中。其中,不同信息源中的信息在互联网中的特点也各不相同。这些信息源传播的信息已成为人们浏览互联网的重要内容,并且制造了人们生活中一个又一个热门话题。互联网中热门话题的检测对有关部门进行舆情监管起到了至关重要的作用。有时舆情监管者需要进行热门话题检测的信息源不仅来自单一信息源,还可能来自多种信息源类别,比如一个文本集中既有新闻网站的信息,也有网络社区和社交媒体的信息。现有的热门话题检测技术,主要应用于单一类型的信息源信息,并不适用于多源混合信息的热门话题检测。同时,热门话题检测技术的检测结果是一系列具有代表性的词汇,舆情管理者有时很难理解这些词汇所代表的真正意义。为了解决上述问题,本课题设计并实现了基于融合聚类的多源文本热门话题检测模型。该话题检测模型针对不同信息源之间的特征差异,设计并实现了多源文本特征融合方法,其中基于TextRank算法对长文本进行摘要提取,并且基于哈工大同义词词林对短文本进行语义拓展,以解决不同信息源之间信息的特征差异问题。另一方面,还设计并实现了基于狄利克雷混合模型的文本聚类方法,以解决特征融合后的多源文本特征依旧较稀疏的问题。不同的信息源的信息经过多源文本话题检测模型后,会得到一系列热门话题,每个热门话题用三个话题候选词来代表该热门话题的内容。本课题设计并实现了基于策略与深度学习序列模型融合的话题语义表示模型,以生成与话题候选词语义相近且通顺的话题标签,帮助舆情管理者更容易地去理解这些热门话题的真正意义。同时本课题设计并实现了多源文本热门话题检测系统,使得舆情管理者可以更方便地使用热门话题检测模型和话题语义表示模型。多源文本热门话题检测系统提供了数据源爬取、数据持久化存储以及热门话题可视化展示等功能,可以有效地帮助政府或者有关部门进行舆情引导或者干预,推动有关部门进行监管。为了验证多源文本热门话题检测模型的效果,本课题选取了复旦大学中文数据集以及新浪微博数据组成的多源文本数据集进行对比实验。实验表明,该模型的热门话题检测效果均优于参照的热门话题检测模型。同时为了验证话题语义表示模型的效果,本课题选取了双语评估替换(Bilingual Evaluation Understudy,BLEU)得分和人工评估两个维度进行对比实验。实验表明,该模型的语义表示效果均优于其他参照的语义表示模型。
其他文献
目的分析目前产科床边交接班现存的问题及影响产妇对产科床边交接班满意度的因素;探讨基于SBAR的一项质量改进方案在产科床边交接班过程中的使用效果。方法1.第一部分 产科床边交接班体验的质性研究采用质性研究中的现象学研究方法,对8名产后恢复期的产妇进行半结构访谈,通过深入了解产妇的床边交接班体验,探究产科床边交接班现存的问题。采用Colaizz分析程序对访谈记录进行分析、编码,整理访谈资料,分析访谈结
东南沿海中-新生代火山岩一直是国内外地学领域研究热点之一,本文研究区位于浙江省新昌地区,在大地构造上属于中国东南部晚中生代火山岩带最为发育的浙闽地区,区内广泛分布着一套多期火山活动形成的火山-沉积岩系。根据中国东南沿海地区大面积分布的火山岩地质特征及火山地层之间的区域性不整合性质,前人将晚中生代火山岩地层划分为“上、下火山岩系”,本文选择对“上火山岩系”展开系统野外地质调查、岩石学和岩石地球化学、
研究目的:对维持性血液透析患者中医证候演变规律及心身因素与预后相关性进行研究,以期提高透析患者长期生存率。研究方法:本研究采用回顾性研究方法,对从2014年至2019年广安门医院血液净化中心的140例维持性血液透析患者的临床资料进行整理分析,分为两个研究。第一个研究为对MHD患者入组、24个月、48个月3个时间节点的证候分布特征及演变规律进行研究,并与患者预后相关性进行分析。第二个研究将患者截止到
机动车用燃油中含硫量过高会导致SO_2等污染物的大量排放,引起酸雨、细颗粒物(PM2.5)等较为严重的环境污染问题,故生产超低硫燃油和无硫燃油成为当今保护环境的重中之重。氧化脱硫技术是目前研究较为广泛且能够进行深度脱硫的关键技术之一,仿生催化氧化脱硫技术具有操作条件容易实现、反应体系较为温和且有较高的脱硫效率,金属酞菁具有活化氧分子功能,可以实现仿生催化氧化脱硫,受到研究者的广泛关注。然而金属酞菁
目的本课题基于SREBP信号通路,从分子水平上探讨苦参碱通过影响肿瘤细胞脂代谢发挥抗肿瘤作用的机制,为临床研究提供实验依据。方法体内实验:利用CT26细胞建立荷瘤小鼠模型;灌胃不同剂量苦参碱,检测给药前后各组荷瘤小鼠肿瘤大小及重量,计算苦参碱的抑瘤率;肿瘤组织行HE染色,观察肿瘤组织形态学改变并对其进行核分裂象计数;油红O染色观察给药后肿瘤组织中脂质含量的变化,同时检测其游离脂肪酸(FFA)的水平
我国当前老龄化问题日益严重,快节奏的生活使家人及儿女对于老人的陪伴有限,导致多数老年人出现老年孤独感等现象。传统的养老设施规划是以老年人的基本生活如护理、医疗等作为研究视角,对于老年人的社交需求的精神层面研究较少,已经不能满足当代老年人高层次的养老、社交需求,为了使老年人有一个良好的晚年生活环境,同时重新融入社会,实现社会角色的转换,在养老设施的规划中需提供更具交往性的活动空间场所,保持老年人的活
我国一直致力于通过对社会治理新模式的探索来来构建完善的社会秩序,尽管目前仍然是行政治理方法占据主导地位,但司法制度融入社会治理的模式逐渐发挥效益我国在建国初期就有了司法建议,它的功能有:降低和防止社会纠纷的发生、增强社会普遍的法律意识、参与公共政策制定等等。现在已经是法院提供社会司法服务和承担社会责任的重要途径。司法承担的社会责任,使得法院必须主动承担打破法律职业范围内的“藩篱”、不断寻求突破,让
2017年,党的十九大报告提出实施乡村振兴战略,坚持农业农村优先发展,按照产业新旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,建立健全城乡融合发展体制机制和政策体系,加快推进农业农村现代化。在此政策的刺激和引领下,我国农村经济近年的发展比较迅速,在发展过程中对于金融的需求量显著增大。经过多年的探索与发展,农户小额信用贷款在农村市场得到了快速发展,在扶贫领域和农村经济建设中发挥着越来越重要的作
随着科学技术的不断提升,工业生产技术也得到迅猛发展,工艺过程愈发复杂,加之工业上的巨额投入,工业生产安全正变得越来越重要,而过程监测则是保证工业生产安全的有效途径。在过程监测的各种方法中基于数据驱动的过程监测是一种较为热门的方法,该方法具有无需模型和经验的特点,这使其拥有良好的适用性和推广性。统计过程监测是基于数据驱动的监测方法,其可以分为单变量统计过程控制(Univariate Statisti
目的 探讨抗载脂蛋白 A1 抗体(anti-apolipoprotein A-1IgG,抗 apoA-1 IgG)、基质金属蛋白酶 9(metalloproteinase-9,MMP-9)、对氧磷酶 1(paraoxonase-1,PON-1)、氧化低密度