面向社交物联网的数据生成文本研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:liongliong462
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交物联网是融合了物联网和社交网络的新兴范式,它使社交功能从最初的人与人之间扩展到人与物以及物与物之间。如何实现这人与物以及物与物之间的社会交互,是一个亟待解决的问题。自然语言生成技术,关注于从非语言数据中生成自然语言的文本,这对于在社交物联网中实现人类和其他智能对象之间的无障碍交互至关重要。然而,现有的数据生成文本研究方法依赖于特定的模板和标准神经网络模型,当应用于具有不同含义的大规模结构化数据时,这些模型生成的文本中存在着内容不一致,叙述不流畅的问题。本文结合传统的流水线模块和神经生成系统,提出了两种管道辅助神经网络模型,用于社交物联网中的数据生成文本任务。本文主要的研究内容和创新工作如下:(1)深入研究了序列到序列模型的基本原理本文首先系统的介绍了神经网络、循环神经网络及其变体的基本概念,深入研究了数据生成文本任务中通用的基本序列到序列模型的框架以及模型的后期发展,为本文后续的社交物联网中的数据生成文本研究奠定了理论基础。(2)提出基于门控机制的内容选择数据生成文本模型针对现阶段的基于神经网络的数据生成文本模型单纯依赖编码器-解码器框架,使用者无法直接操控内容的选择与生成,输出文本中频繁出现引用相同数据记录或与输入不符的错误记录等问题,本文提出了基于门控机制的内容选择数据生成文本模型,融合了传统方法中的内容选择模块,巧妙地利用门控机制有选择性的生成输出内容。在Roto Wire数据集上的实验结果显示此模型有着良好的生成性能,提高了内容选择的精度,降低了生成关系的重复率,有效地提升了输出文本的可解释性和可控性,能够将结构化的数据转化为自然语言文本,实现社交物联网领域中人类与智能对象的社会交互。(3)提出基于实体追踪的表层实现数据生成文本模型针对在大规模数据集中生成高质量的长文本,模型难以寻找到输入数据中显著性内容的问题。本文提出了基于实体追踪的表层实现数据生成文本模型,融合了传统方法中的内容规划和表层实现模块,通过开发专门的记忆组件来进行显著内容的选择、指向和转换。在Roto Wire数据集上的实验结果显示模型拥有高达94.82%的关系生成精度分数,在内容排序指标上也有着16.03%的优化,生成的文本内容丰富且保真度高,实体追踪方式也让文本更加连贯,逻辑性强,可读性高,接近人类撰写风格。
其他文献
区块链技术因为比特币的引入被人们广泛关注。随着近几年的发展,区块链技术的应用已不再局限于比特币等数字货币,更多传统行业与区块链结合的应用被开发出来,大量数字资产通过区块链进行管理导致区块链很容易遭受黑客攻击,安全问题阻碍了区块链的发展。共识协议是区块链的核心技术,目前已知的区块链系统受到的攻击大多针对于共识协议,只有保证共识协议的安全性才能使得区块链更加可靠从而被广泛应用。形式化方法是分析网络协议
图像情感分析具有重大的经济和社会价值,因此,它是机器视觉领域的热点问题。现有研究面临样本稀缺问题,且未充分利用多模态特征间蕴含的跨模态语义,也忽视了特征在决策时的互补性。为此,提出基于样本精选与来自转换器的双向编码器表示模型(Bidirectional Encoder Representation from Transformers,BERT)引导的图像情感分析模型,它包含样本精选、跨模态语义挖掘
随着我国司法建设的不断完善,海量的裁判文书在网上大规模的公开,并且裁判文书中含有大量有价值的信息,对这些信息进行挖掘将具有较大的价值。在深度学习的背景下,文本分类作为自然语言处理领域中重要的基础任务之一,该研究基于裁判文书为数据基础进行裁判文书的文本分类实验。通过对裁判文书中案件类别多标签分类,可以为司法判案提供参考提高法官办案效率,为司法领域“同案同判”提供有价值的参考。一篇裁判文书包含的信息量
为了实现"碳达峰"、"碳中和"目标,煤炭产业亟需广泛而深刻的结构调整。宁夏深化煤炭体制改革,推动区域经济发展方式的转变,大力推进绿色矿山和煤矿智能化建设。针对煤炭产业的转型升级对专业技术人才的需求问题,基于宁夏煤炭行业发展现状,统计分析宁夏煤炭相关专业大学生就业状况,探讨了"双碳"目标下煤炭行业吸引高素质人才的有效途径。
量子秘密共享(QSS)是量子通信研究领域中一个重要分支,它的核心思想是将秘密信息拆分成若干个部分,并由若干参与者共同管理。任何一个参与者都不能单独恢复出原始的秘密信息,只有若干个参与者一起合作才能恢复秘密信息。在SQSS方案中,把半量子方案应用于量子秘密共享成为目前实际应用中的主流。此外,身份认证在量子通信协议的安全性上能够发挥巨大的作用。因此,本文主要对基于身份认证的半量子秘密共享协议(SQSS
目前,裁判文书的书写愈加规范,且随着电子化裁判文书的普及,裁判文书已然成为司法领域研究的重要对象。本文基于孪生神经网络,并结合文本表示、词嵌入、预训练语言模型、文本特征提取等技术对裁判文书的相似性进行研究,为司法判案提供参考,以实现司法领域“同案同判”的需求。主要的工作如下:(1)针对裁判文书的领域性、措辞严谨性以及动态变化性提出了基于TinyBERT-CNN的裁判文书文本表示模型。其中基于Tin
茶叶是我国最主要的饮品之一,并且中国也是茶叶种植规模最大的国家之一,而茶叶的各种病害一直严重影响着茶叶的产量和质量。藻斑病作为主要病害之一,其覆盖辽阔,在全国主要茶区均有发生。藻斑病会对茶树正常代谢造成胁迫,导致茶叶产量和品质下降,给茶农造成直接经济损失。当前,藻斑病的传统检测方法时限长、预处理复杂且成本较高,难以在实际生产中大面积推广应用。因此,准确识别茶叶病害及时采取防治措施成为茶产业发展的关
随着“数字化”不断地普及,现实生产、生活中大量的如文本、网页、图像等信息需要被存储。许多互联网、高科技公司都配备专门的服务器来存储这些有价值的数据。大规模、高维度的数据中通常包含噪声和特征冗余,直接存储这样的数据将会带来高昂的存储代价,并且是不可取和没必要的。机器学习算法则被用于分析、挖掘数据当中有价值的信息。大多数在小规模数据集上使用的机器学习算法已经不能很好地处理这样大规模的数据,因为它们在处
学位
地震作为破坏性极强的自然灾难之一,给人类带来的教训是惨痛的,而有效的地震预报可以减少人员伤亡和经济损失。导致地震的因素繁多但其因素之间存在非线性关系,随着计算机技术飞速发展,使得机器学习模型解决复杂的、非线性的问题广泛进入应用。本文使用MATLAB和python平台,在地震震级预报这一领域内使用自组织特征映射神经网络(SOM)和支持向量回归算法(SVR)提高预报精度。本文首先介绍了机器学习模型在地