【摘 要】
:
蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的生命活动都需要蛋白质的参与。氨基酸是蛋白质的基本组成元素,不同氨基酸的排列组合构成了蛋白质的基本序列骨架,称为蛋白质序列。通过分析蛋白质序列对进一步分析蛋白质的高级结构信息有着极大帮助,这也是对蛋白质结构乃至功能进行分析的前提和基础,并对下游的药物设计等应用领域也有一定的指导作用。蛋白质序列分析的首要步骤是先对蛋白质序列进行编码提取特征。目前
论文部分内容阅读
蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的生命活动都需要蛋白质的参与。氨基酸是蛋白质的基本组成元素,不同氨基酸的排列组合构成了蛋白质的基本序列骨架,称为蛋白质序列。通过分析蛋白质序列对进一步分析蛋白质的高级结构信息有着极大帮助,这也是对蛋白质结构乃至功能进行分析的前提和基础,并对下游的药物设计等应用领域也有一定的指导作用。蛋白质序列分析的首要步骤是先对蛋白质序列进行编码提取特征。目前较为常用的编码方式包括将氨基酸残基转变为正交向量的one-hot编码形式、利用多序列比对打分构建PSSM谱编码的方法和将氨基酸序列通过word2vec等工具生成氨基酸向量编码等。本文分别结合了以上这几种特征分析了蛋白质序列的信息。现有的蛋白质序列分析模型中基于双向循环神经网络的方法效果比较突出,这主要是因为蛋白质的序列信息可以和文本的信息有很好的类比相似性。但是RNN,LSTM等模型在有效获得长距离输入信息之间的相互依赖关系方面还有一定缺陷。另一方面,蛋白质序列在局部的范围内相邻氨基酸残基会通过化学键相互连接,而局部氨基酸基团和相邻的氨基酸基团间又通过各种分子作用力相互影响,这也为蛋白质序列分析带来了很大困难。而在Transformer模型中,通过引入Self-attention机制可以有效地解决输入序列内部特征相关性强的问题,可有效地捕捉到长距离输入信息的相互依赖关系,特别适合于蛋白质序列分析问题。基于上述原因,本文分别对蛋白质二级结构预测和水溶性分析两种典型的蛋白质序列分析问题构建了基于Transformer的求解模型。为了检验所提出模型的效果,分别对其进行了数值模拟实验。与已有文献相比,两种方法都取得目前最好的实验结果,表明了基于Self-attention机制的Transformer模型可以很好地解决蛋白质序列分析中的任务。同时本文分析了蛋白质的不同特征的影响,结果发现采用PSSM的特征表示和氨基酸分布式表示方法作为输入的模型结果更好,相对于PSSM以及已有方法中常用的其他特征,氨基酸分布式表示非常简单,无需额外计算,并可以取得相当的效果。本文提出的基于Transformer的蛋白质序列分析方法提高了算法效率,并可在使用更简单特征的情况下超过或接近现有的最好方法。
其他文献
中国股票市场历经20余年的发展,逐步演变为能够推动经济快速发展的催化剂,但由于市场法律制度的不成熟和上市公司治理体系的不完善,导致投资者的价值观念发生扭曲,信息不对称问题和代理冲突凸显,股票市场沦为政策和圈钱的工具,分红乱象诸多,引发了市场参与者与众多学者的分析与讨论。现金股利政策是资本市场研究和公司金融领域一直关注的热门课题,中外学者将其他经济理论加以融合,衍生出丰富的股利政策理论和假说。近年来
无线传感器网络应用十分广泛,极大地改变了人类的生活方式,该技术有非常好的发展前景。目前,无线传感器网络中关于择优路径的路由算法主要是基于动态传感器网络的,研究主要集
在无线电的发展进程中,各种电子产品的广泛使用,使得电磁环境日益复杂,所需的无线电往往是混有大量噪声的混合信号,一些有用信号甚至淹没在噪声中,导致人们难以获得并利用它
关键蛋白质对于生命的维持至关重要,其缺失会使生物体致病甚至死亡。识别关键蛋白质有助于对细胞功能和生物学机制的研究和探索。近年来,大量基于蛋白质相互作用网络(PPI网络)识别关键蛋白质的算法被提出,传统PPI网络基于生物实验测得的蛋白质相互作用数据(PPI数据)搭建,但这种PPI数据中有很多假阳性问题,如何有效过滤假阳性数据有待深入研究。PPI网络中,一个蛋白质重要程度并不仅仅取决于他的局部邻居的相
塔里木油田库车山前地区中浅层普遍分布的巨厚砾石层是制约该地区丰富油气资源有效勘探开发的关键性难题之一。该地区地质条件极其复杂,砾石层最大厚度达5000m以上,且纵横向
改革开放40年间,我国政府不断推进扶贫开发进程,已取得了巨大的成就。但我国贫困问题仍然存在,解决贫困问题已到了攻坚克难的关键时期。而外商投资作为有效缓解贫困的方式之一,通过对资本强有力的补充,可以推动教育、医疗等多方面的发展。因此,文章从发展的视角出发,分析我国FDI与贫困的区域性,研究FDI减贫的空间效应。论文首先梳理了 FDI与贫困的相关文献和理论,并分析FDI减贫的传导机制。其次界定贫困的概
40年来的改革开放,使中国在经济持续高增长的同时,科技实力和创新能力也取得了长足进步,中国专利数量出现“爆炸式”的增长。然而对于中国取得的令人睹目的创新成就,即中国专利申请数量的激增,却可能并非是中国研究者的创新灵感翻倍的结果,而是政府创新发展战略和补贴政策推动的结果。2014年,国家产权局特别指出,中国目前高质量专利占比不高。据国家产权局数据,2016年中国有超过一半的企业接受过政府补贴。此外,
电化学DNA生物传感器具有灵敏度高、特异性好、携带方便、耗能少等优点,与各种信号放大策略和可再生策略相结合,可以实现对检测目标的痕量分析,受到了研究者们的广泛关注,目前已成为当今生物学、医学领域的前沿性课题。然而,开发高灵敏度的电化学DNA生物传感器仍然面临很多挑战。在电极与溶液的界面上,传质速率的减小和拥挤效应的增加,使得DNA的识别与杂交受到很大影响。DNA纳米技术的出现,为电化学DNA生物传
随着我国信贷业务的逐年增加,金融机构和地方经济得以蓬勃发展,但也伴随着信用风险的不断增长。为了有效规避风险,减少客户误判导致的银行亏损,我们需要探讨更优的方法来对个人信用进行评估。本文选取Lending Club公司2018年的贷款数据作为原始数据,结合国内外文献和信用评估构建准则,建立指标体系并据此确定了50个变量。研究内容主要包括两方面:第一,针对指标体系中特征选取的问题,本文创新性的将主成分
一方面,关系专用性投资可以降低企业的生产成本,但另一方面,关系专用性投资也会在交易双方之间形成一种锁定效应,使交易一方有机会攫取专用性资产产生的潜在的可挤占的专用性准租。现实世界中,由于人的有限理性等原因,契约经常是不完全的,交易一方可以对另一方的收益进行掠夺,即发生了敲竹杠这一事后的机会主义行为。做出专用性投资的一方预期到这种被敲竹杠的风险,很难选择有效率的投资水平,进而影响整个社会的福利水平。