基于纯文本跨模态的三维模型生成技术研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wuyishijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在专业的建模设计者利用计算机三维建模工具进行模型设计的时候,这是一份繁重且困难的工作。虽然三维建模工具具有建模精度高且可以依靠建模人员的意图来创建富有创意性、复杂性和新颖性的三维模型的优点,但是三维建模工具的使用入门门槛较高、操作复杂、需具备专业的建模知识以及软件的成本较高,例如3DS MAX、MAYA、AUTO CAD等软件。这些限制条件对于初学者来说都是不太友好的,同时需要耗费大量的人力和时间成本。文本作为人类记录思想、交流思想或传播语言的图像或符号,文本是表达事物的最佳方式,语言使人们能够交流思想和感受。长期以来,人工智能研究一直在模仿人类认知的这一组成部分。采用深度学习的方法从自然语言描述如“一张带有四个木腿的白色长方形桌子”中,提取模型的结构和几何特征实时自动重建出与文本语义一致的三维模型,这是本论文研究的重点。本文提出一种端到端的从自然语言描述生成三维模型的方法,采用分阶段方式来将此任务进行拆分,第一阶段是从文本特征中生成具有形状、颜色等信息的特征图,第二阶段是从单视角特征图中重建出高分辨率的三维模型。同时为了减少生成特征图的信息丢失和提高图像的质量、多样性和文本一致性,本文以增大网络深度和增加额外的约束条件两种优化策略来提出两个版本的网络结构,分别是CWGANgp和自注意力机制,同时用Inception Score(IS)和Frechet Inception Distance(FID)两个指标来评估生成效果,结果表明两个不同的实验在IS和FID两个指标都有一定程度的提升。意味着本文提出的两个优化网络在新的数据集上表现力更好,生成的图像更清晰、与文本一致性更高。同时以Res Net网络作为第二阶段的编码器,将前者输出的图像特征经过编码器得到特征向量,再以Occupancy Networks作为编码器来训练出高分辨率的三维形状。同时本文基于此方法实现了一套从文本到三维模型自动建模系统,帮助建模人员和初学者能够快速高效的自动建模。
其他文献
伴随着深度学习方法的飞速发展,人脸表情识别方法同样获得了快速发展,但是其仍旧面临着不少难题。对于不同的人类个体来说,即便是表达相同类别的表情,也会存在一定的差异,并且在实际生活中,人们在表达表情的同时还会伴随着言语,这些言语会造成口型的变化从而带来视觉差异,这种情况造成的表情类内差异性问题会严重影响到识别的准确率。同时,表情是一个动态变化的过程,以往使用二维卷积神经网络对单帧图像进行特征提取,忽略
随着计算机技术的迅猛发展,与计算机安全相关的攻防技术也在不断演变进化。本文关注的是众多攻击技术中的ROP攻击(Return–oriented Programming),攻击者控制源程序的返回地址来间接操控程序的走向,从而执行特定的攻击(一般是获取控制权限)。目前,ROP攻击通常利用的是系统内静态库和动态库中的短指令工具链(gadget),通过拼接这些gadgets,完成特定目标的攻击。而针对它的检
近几年来高送转现象是我国资本市场上的一大焦点,我国上市公司接二连三的推出高送转的股利政策,不仅中小投资者热衷于购买高送转股票,甚至还出现了高送转概念股。而在实施高送转的公司当中发现创业板公司占据了绝大多数,由于创业板公司股本规模普遍小于主板公司,又由于属于高新技术企业,具有高成长性的特点,可以利用高送转在快速扩大公司股本规模的同时,向外界传递利好信号。其实高送转的本质是把未分配利润和资本公积转增股
随着计算机技术的飞速发展,语音合成(Text-to-Speech,TTS)已经成为人机交互中不可或缺的一部分,并且在人机交互中扮演着重要角色。而目前针对于中文情感语音合成的研究还在萌芽阶段,大部分的研究还是中文语音合成,缺乏情感的加入。本文将研究基于循环神经网络的中文的情感语音合成。研究内容主要有如下工作:1.提出了一个基于循环神经网络的端到端的中文语音合成方法。该方法解决了在资源受限的条件下,经
近年来,我国A股市场规模日趋增大,日渐完善的监督审核机制使得上市公司外延式并购越来越频繁。并购伴随着较多不确定性风险,经常发生整合效果欠佳甚至并购失败。适时引入业绩承诺,可以规避并购交易中的高估值风险,保护相关各方利益。但越来越多的被并购方为了实现高溢价并购而做出了高额业绩承诺,忽视了公司本身有限的盈利能力,由此也产生了业绩“变脸”这一现象。经历了2013年的并购浪潮,业绩“变脸”问题也愈发突出。
区块链技术自诞生以来就由于它本身可追踪、不可篡改等特性成为了学界、产业界研究的热点。随着区块链2.0时代的到来,智能合约赋予了区块链解决更多实际应用问题的可能。然而,由于区块链技术账本公开透明的设计使用户的隐私安全受到了冲击,更为严重的是由于区块链去中心化的特性,使其不能有中心化应用一样的针对隐私泄露的弥补措施。为了满足区块链应用对用户隐私信息的保护需求,近年来已有相关研究人员对区块链隐私保护问题
现今,随着雷达技术的发展和研究的日益进步,雷达对目标的探测能力日渐成为工业领域、军事应用、汽车应用等各个领域不可或缺的技术。雷达测距是雷达的基本性能之一,其通过接收照射目标反射回来的回波能量完成测距的任务。调频法测距技术可以运用于连续波雷达中,调频连续波(FMCW:Frequency Modulated Continuous Wave)雷达通过向物体发射周期性的高频线性频率斜坡来测量距离,具有调制
学位
通过端到端的深度卷积神经网络结构来学习特征表示,然后使用控制变量实现对生成信息的特定属性控制则是信息生成研究的一个重点方向。虽然将控制变量与输入信息或特征图级联能够实现对生成信息的特定属性控制,但控制变量与输入信息或特征图之间存在的信息量差异过大和维度不匹配将对属性控制带来一定的困难。因此本文对控制变量的引入方式进行了具体的分析和研究,并做了如下工作:(1)本文提出了一种控制信息引入方式,通过引入
随着网络普及,新疆地区越来越多用户开始从互联网中获取信息。由于区域特殊性,网络中信息传播与获取使用户更加便捷的获取信息,但许多负面效应也随之而来,面向新疆地区的敏感不实信息以及涉疆、涉暴信息的传播迅速形成社会舆论,产生巨大的舆论压力。所以,采用有效措施及时对这些敏感信息进行管控以及处理迫在眉睫。这些敏感信息载体大多以文本、图像、视频等载体在网络中进行传播,传统检测方法多基于单一模态,无法处理网络中