【摘 要】
:
随着推特等社交媒体平台的快速发展,大量用户会针对不同事件在平台上发表内容,导致产生大规模简短、嘈杂的信息,使得人们想要从中快速抓取关键信息比较困难。推特摘要研究致
论文部分内容阅读
随着推特等社交媒体平台的快速发展,大量用户会针对不同事件在平台上发表内容,导致产生大规模简短、嘈杂的信息,使得人们想要从中快速抓取关键信息比较困难。推特摘要研究致力于从大量相关的短文本中生成简短的摘要来描述特定话题的主要内容,有助于提高人们获取资讯的效率,同时可以帮助相关部门监管社会事件的整个过程,从而把控舆情方向。研究已经发展了几十年,但是由于社交短文本的不规范、嘈杂等特性,使得推特摘要研究依旧是一个难点。传统摘要方法只考虑了文本信息,并不足以直接迁移到社交媒体环境中。现有的一些推特摘要方法很少挖掘推特之间的潜在关系,忽略了信息可以沿着社交网络进行传播这一点。基于前面提到的问题,本文提出了一个结合稀疏重构和推特潜在网络结构的新型推特摘要框架。1)受到社会学理论中表达一致性与表达传染性这两种理论的启发,本文对推特潜在的网络结构进行建模,并作为社会正则项整合到稀疏重构的框架中。该框架主要是基于稀疏重构的思想,即认为一个好的摘要能够尽可能重构原始语料。社会正则项的引入有助于纠正重构误差,使得那些有关联的推特在重构前后保持某种相关性。2)相似推特在互相重构的过程中会提高彼此在整个语料的重要性,导致生成的摘要中出现大量相似的推特对。通过在稀疏重构的框架下引入多样性正则,避免这种“相似”的重构现象,从而去除摘要冗余信息。3)整个问题转换为数学优化问题,并提出一个基于Nesterov加速梯度下降的优化算法来解决该问题。4)制作了推特摘要的标准评测语料,并在此语料上进行实验,实验结果证明了我们模型的有效性。本文提出的基于稀疏重构和社交网络结构的推特摘要框架,结合了文本内容和结构信息。该框架通过挖掘推特层次的潜在网络结构,试图获得更多的语义线索。整个框架通过结合社会项正则、多样性正则、稀疏项正则,解决了推特摘要研究中的重要性、多样性问题,为推特摘要研究提供了具有启发性的研究思路。
其他文献
在军、民用非协作无线通信中,只有快速、准确地完成调制识别,相应采用正确解调方法,才能及时、正确接收来自多个发送源的信号。传统调制识别方法识别效率较低,依赖人工干预,面对当前复杂无线通信环境时力不从心。近年来基于神经网络的调制识别被视为实现自动识别的全新技术途径而广受重视;然而其发展也遇到瓶颈,表现在传统的计算架构在移动应用有限的资源下难以处理神经网络所需的海量数据,限制了识别效率和正确性的提升。基
本文主要的研究对象是几类带有Rellich项的双调和方程(组)和一类带有Hardy项的椭圆方程组,共分为四章.在第一章中,主要介绍本文研究的问题和背景以及主要结论.在第二章中,我
为了阐明秦巴山区陕南栎类资源现状及其生长潜力;经营和管理好现有的次生林,恢复其群落功能;发挥其珍贵优秀树种的生态和经济价值;促进高效利用推广实施。本研究利用陕西省森
栓皮栎(Quercus.variabilis)是我国暖温带和亚热带地带性植被主要建群种,也是重要的栲胶资源树种。为了阐明栓皮栎不同天然类型栲胶含量及其与地理环境因素的关系,通过沿环境
随着城市经济的发展,空调已成为人们日常生活中不可或缺的一部分,这也促使夏天空调制冷负荷用电占整个城市用电的比例不断上升,加剧了电网负荷压力。冰蓄冷空调是一种能够对电力负荷进行移峰填谷的技术,不仅可以有效降低用户电费支出,还可以减轻夏季城市电网负荷压力,是电力调峰的重要手段。对冰蓄冷空调技术的研究有助于更好地优化蓄冷系统性能,更高效地消减电负荷高峰,解决电力市场供需不平衡的问题。本文主要针对内融冰式
本文以蓝莓为对象,研究不同冻藏环境(-20℃、-40℃和-80℃)对蓝莓水分迁移及品质的影响;通过顶空固相微萃取(HS-SPME)结合气质联用(GC-MS)技术对蓝莓冻藏期内风味物质成分的
链路预测是复杂网络研究中的一个重要内容,传统的静态链路预测方法忽略了网络演化的时间特性,而时序链路预测可以利用历史网络的一些信息,更好地做出预测。首先,本文基于局部
高盐已成为全球范围内影响公众健康的主要危害因子之一,低温乳化型肉制品作为食品领域重要的减盐对象,现有减盐的策略尚不完美。食盐含量影响肉糜的乳化稳定性及保油性,但食
概率论是研究随机现象的一门学科,它起源于赌博问题的研究,随着学科的不断发展和完善,如今作为数学的一个重要分支,在物理、经济、通信等各个领域都有所应用。而在概率论中,B
江西秤锤树即狭果秤锤树(Sinojackia rehderiana)隶属于安息香科秤锤树属,分布于广东北部、湖南、江西一带,为我国亚热带特有属濒危树种。本文以江西永修县的秤锤树居群为研究