论文部分内容阅读
图聚类法是利用蛋白质序列信息推断其家族分类的有力手段.对于蛋白质数据集中家族内外存在着如同许多超家族一样的复杂关系,图聚类法达到较好表现必须两因素,1)输入的相似性图需要包含有足够的用于分类的信息;2)需要稳健的算法以识别被隐藏在相似性图中的模糊集团.作者测试模块度最优算法Contraction-Dilation (CD)算法,采用来自于Pfam中的具有高度序列差异的烯醇酶宗族作为测试数据集.结果表明使用CD算法在相关参数与相似性图比较恰当的情况下,得到聚类结果与Pfam中高度一致.该算法能在一般情况下,