中科院遗传所基因组分析平台首席技术专家、通讯作者梁承志

图片[1]-中科院遗传所基因组分析平台首席技术专家、通讯作者梁承志-4747i站长资讯

生物信息学包括许多应用技术。诚然,它的应用越来越广泛,可以解决的问题也越来越多,但也需要与其他生物技术相结合。也就是说,它的发展离不开生物学的发展,两者相辅相成。当今生物信息学最大的变化是效率的提高。过去,生物学研究主要以实验为基础。这个过程漫长而昂贵,积累的数据量有限。

今年5月,世界顶级学术期刊《自然》在线发表了中国科学院遗传与发育生物学研究所(简称“中国科学院遗传研究所”)植物细胞与发育国家重点实验室中国科学院遗传与发育研究所基因组分析平台染色体工程种子创新研究所等完成的研究论文。该研究完成了小麦A基因组的测序和精细染色体序列的定位,对于深入研究小麦植株基因组结构和功能具有重要的理论意义和实用价值。

作为底层计算支撑平台,联想对中科院基因所建立的HPC(高性能计算)平台起到了重要的支撑作用,以高性能计算助力科学研究。那么c语言大数据运算,在海量生物数据的计算和分析中,生物信息学需要什么样的计算呢?对此,《中国科学》采访了中科院遗传所基因组分析平台首席技术专家、上述论文通讯作者梁承志。

改进了第三代测序数据的处理

《中国科学报》:5月发表在《自然》上的小麦A基因组研究工作中,部分测序工作采用了第二代高通量测序技术和第三代单代测序技术。分子测序技术。在您看来,三代测序技术对计算平台提出了哪些新要求?

梁承志:我们从2014年就开始对小麦基因组进行测序,实际上距离我们拿到数据到最后发表文章已经过去两三年了。使用了部分单分子测序数据。

三代测序本身的错误率比较高,但系统误差很小。当测序倍数比较高时,可以比二代测序取得更准确的结果,但数据量更大,对计算和存储的需求也会相应增加。另外,目前三代测序数据的处理速度还比较慢,软件功能也比较不成熟。

在完成小麦A基因组计划的过程中,我们开发了一些新的生物信息学分析技术。使用这些新软件和新方法,我们可以使用纯三代测序技术完成小麦基因组的工作。

目前三代单分子测序的价格已经下降到我们当时用的1/10,所以现在做这样的基因组更便宜,质量比以前更高,速度也更快比以前。可以看出,技术的发展是非常快的,我们的软件分析能力也有了很大的提升,但是总体来说还不够,还需要更多的改进。

生物信息学将承担更大的使命

《中国科学报》:早在几年前,就有业内人士将生物信息学描述为“在无尽的草原上行驶”,方向很多,发展潜力巨大。随着计算能力的提升,生物信息学是否迎来了更加黄金的时代?

梁承志:严格来说,生物信息学是一门技术学科,它所涉及的计算理论和方法很多来自计算机技术和统计分析,未来也会用到人工智能的方法。

生物信息学包括许多应用技术。诚然,它的应用越来越广泛,可以解决的问题也越来越多,但也需要与其他生物技术相结合。也就是说,它的发展离不开生物学的发展,两者相辅相成。

当今生物信息学最大的变化是效率的提高。过去,生物学研究主要以实验为基础。这个过程漫长而昂贵,积累的数据量有限。随着实验能力的提高,10年前需要一年才能完成的实验,现在可以在一个月甚至一周甚至一两天内完成。这种效率提高所产生的数据需要生物信息学分析来结合有用的信息和知识被挖掘出来。从这个角度来看,生物信息学可能在未来发挥主导作用。

《科学中国报》:大数据的爆发是否给生物信息学带来了独特的发展机遇?

梁承志:生物信息学的爆发是可以预见的。在大数据时代,生物信息学可以解决的问题越来越多。首先是精准医疗,涉及到我刚才提到的个人基因组。如果能测量1000万或1亿人的基因组,以及各种组学数据,包括转录组、蛋白质组、代谢组、表组、表型,再加上食物营养、疾病信息、药物信息等,这些信息的积累或者说数据越来越多,生物信息分析的作用也越来越重要。

第二个重要应用是分子设计育种。中国科学院遗传研究所在该领域取得丰硕成果,培育出一批高产优质水稻新品种。结合生物信息大数据的分析,可以增加未来分子设计育种的目标范围和设计深度,设计多性状,进一步提高育种效率。

“计算”生物信息仍是瓶颈

《科学中国报》:高性能计算集群在生物信息学分析中扮演什么角色?

梁承志:生物大数据除了数据量大c语言大数据运算,还有“三高”:高复杂度、高不确定性、高维度。数据维度高导致计算复杂,需要高性能集群。没有高性能集群的支持,我们的数据分析是做不到的,因为数据量太大,对存储和计算有很高的要求。

《科学中国》:在做生物信息学分析的时候,计算还存在哪些瓶颈?

梁承志:计算有很多瓶颈。生物系统本身是特别复杂和分层的。一个生命体有个体层面的各种数据,也有组织、器官、细胞层面的各种数据。在代谢水平、生化水平,甚至遗传进化方面都有不同的数据,而且复杂度特别高。因此,如果计算系统的存储硬件不足,计算效率将大大降低。在做分析的时候,需要同时考虑计算和存储,所以复杂度要高很多,这是基本要求。

此外,生物数据的复杂性使得对软件的要求越来越高。市面上的生物信息分析软件比十年前好多了,但总的来说还是不够用。

还有一个很重要的一点就是分析能力不够,这是未来5到10年急需改变的局面。随着数据越来越多,开发新软件和新分析方法也会有大量投资。其中最重要的一点是,随着生物数据的增加,对人工智能技术的需求也会越来越高,其他领域已经做得很好的人工智能分析方法也可以借鉴。

数据的增加和分析能力的提高之间存在一定的时间差,相对来说,它们是相辅相成的。两者是共同发展的过程。

《中国科学报》:既然生物信息学分析计算需要兼顾存储和计算,是否可以通过高性能集群的云化来解决这个问题?

梁承志:生物信息学的领域很多,有的分析可以通过云计算解决,但是很大一部分分析使用云计算有点困难。因为很难将数据传输到云端。

用于生物信息学分析的高性能集群,具有非常强的“特异性”。生物数据分析具有一定的特殊性。如果我们使用为其他学科的数据分析而设计的高性能集群,我们很难进行生物数据分析。

文章来源:https://www.sohu.com/a/257124621_100016941

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享