DNA序列4D表示及基因识别算法研究

被引量 : 0次 | 上传用户:ty20011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,生物基因数据呈指数形式增长,找出蛋白质编码基因,即基因识别,是进行基因组分析的基础,在生物信息处理中占有非常重要的地位。本文着重研究DNA编码区与非编码区的识别算法及DNA序列的表示法。针对目前常用的基因识别算法对特征选取的主观性,本文提出了一种基于特征筛选的基因识别算法,使用该方法根据特征之间的相关性来获取基因的主特征,利用提取的主特征用fisher判别进行编码区与非编码区识别。通过分析研究已有的DNA序列表示法,提出了一种新的DNA序列4D表示,该表示法不仅包含明确的生物学意义,而且有效避免了由DNA序列表示转化为几何表示法过程中造成的信息丢失。接着在DNA序列4D表示的基础上运用傅立叶变换,对编码区与非编码区序列进行频谱分析,从而实现编码区与非编码区的识别。由于在编码区存在较强的周期三行为特征,非编码区周期三行为特征较弱甚至没有。利用这种差异,在新的DNA序列4D表示法基础上提出了一种可描述信号的相关性的共频系数,进而识别编码区与非编码区。本文构造数据库对上述研究进行了验证和分析。实验结果表明:基于动态特征筛选的方法的识别率高达98%以上;基于DNA序列4D表示法的共频系数方法可以获得较高的识别率。
其他文献
<正>在社会信息化环境下,随着信息技术以及网络技术的飞速发展,审计人员的工作环境发生了翻天覆地的变化,由原来成本、成册的纸质化工作对象,转变为信息系统、数据库和各种应
目的建立同时测定林下参、鲜人参、生晒参和红参中14种中性和酸性皂苷量的方法。方法采用反相高效液相色谱法,以COSMOSIL 5 C18-MS柱(250 mm×4.6 mm,5μm)为分析柱,乙腈-0.0
目的探讨丹参酮ⅡA对腹部术后粘连模型大鼠成纤维细胞增殖,以及对成纤维细胞粘连相关基因纤溶酶原激活剂(TPA)、纤溶酶原激活剂抑制剂-1(PAI-1)和炎症相关的环氧酶-2(COX-2)
作为后发的中国社会工作,无论在理论成熟度还是实践模式的丰富度上都无法与西方已相对成型的社会工作专业体系相提并论,中国社会工作理论研究不仅严重滞后,而且本土性理论建
<正>天然气水合物是20世纪中叶科学家在海底及永久冻土地带发现的一种固体矿产资源,是水与天然气在长期高压和低温状态下形成的,由于其外貌极像冰块和固体酒精,在20℃的情况
<正>鸡病种类比较多,科学防治鸡病非常重要。但是,在实际养殖过程中,一旦发生鸡病,在防治过程中的有些观念和做法并不科学合理,有时甚至是错误的。现将鸡病防治过程中常见的
文章综合考虑了经济水平、产业结构、用水强度及人口规模四因素对产业用水量的影响,基于扩展的Kaya恒等式建立因素分解模型,应用LMDI分解方法对中国1997—2007年的三次产业用
<正>【活动意图】八年级上册是初中生以单元为单位学习文言文的开始,需要学习自晋代以来的9位大家和10位诗人的作品。但从这些诗文的学习来看,仍然缺乏整体感。借学期末完成"