当前位置:主页 > 世间生物 > 第0章 我所理解的人工智能与生物信息学2

第0章 我所理解的人工智能与生物信息学2

时间:2024-08-14 01:52:11 作者:
摘要:2 我理解的生物信息学大语言模型对于学科概念的理解还是很在行,首先也看看文心一言的回答:每次问的时候,回答可能会略有差异,但回答的还是很全面。2

2 我理解的生物信息学

大语言模型对于学科概念的理解还是很在行,首先也看看文心一言的回答:

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

每次问的时候,回答可能会略有差异,但回答的还是很全面。

2.1什么是生物信息学

虽然大语言模型能很精准的告诉你什么是生物信息学,但对于生物信息学下一个定义还真的很难,下面是几个比较著名的定义:

林华安(Hua A. Lim)博士是bioinformatics这个名称的首创者,最初的名称带有法文后缀bio-informatique;最有名的当属NIH的这个定义,NIH同时也给计算生物学(Computational Biology)一个定义:

Computational Biology (The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. ): 开发和应用数据分析、理论方法、数学模型和计算机仿真技术,用于生物学、行为学和社会群体系统的研究。

所以,我在前面说过,怎样才能分得清生物信息学与计算生物学呢?而我们国家在生物学学科下面干脆就设立了一个“生物信息学与计算生物学”方向,你爱怎么分就这么分。

曾经有一个说法,任何一个人对生物信息学下的定义都如同盲人摸象,主要原因是,生物信息学(Bioinformatics)是一门交叉科学,它融合了生物学、计算机科学、数学和信息学等多个领域的知识。所以,从事生物信息学工作的,既有学生物学,也有学计算机科学和数学的,甚至其它信息科学领域的人。每一个人的出发点不一样,对生物信息学的定义自然就关注点不同了。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

所以,生物信息学是通过综合利用生物学、计算机科学和信息技术来揭示大量而复杂的生物数据所蕴含的生物学奥秘。

我个人认为,还是从Bioinformatics造词出发比较容易理解,Bio是“生物学”前缀,那意味着解决的都是生物学问题;informatics是“信息学”,那本质还是属于信息学科。

“信息”一词在英文、法文、德文、西班牙文中均是“information”,日文中为“情报”,我国台湾称之为“资讯”。作为科学术语最早出现在哈特莱(R.V.Hartley)于1928年撰写的《信息传输》一文中。20世纪40年代,信息的奠基人香农(C.E.Shannon)给出了信息的明确定义,“信息是用来消除随机不确定性的东西”。

在吴军先生《数学之美》中谈到,人类最早利用声音通信。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

上图是一个简单的通信模型,人类早期的合作是很少的,只需要简单的声音就能够完成交流;随着合作的进一步加大,信息爆炸,就产生了语言、文字与数字。语言、文字与数字都是信息的载体,产生的目的就是记录和传播信息。

1949年由美国的两位信息学者C.香农和W.韦弗在《传播的数学理论》提出的通信模型,又称为“传播过程的数学模式”,为我们了解信息的传播提供了理论基础。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

生物信息学主要研究对象DNA和蛋白质等生物大分子是生物信息的载体,是生命的语言文字,那么解码生物信息的方法与通信模型不就是一样的吗?

2.2 生物信息学发展史

人类在追求文明,挑战进步,探索未来,从未停下脚步,永远在路上!

生命科学的前2次革命都是学科交叉的产物!

第一次生命科学革命不到100年,大约在70年前。当时有一批物理学家、化学家进入到生命科学领域,想搞清楚基因的物质基础,基因到底是什么。基因是分子?还是结构?还是什么东西?这是在思路上带给生命科学的,第二个是在方法上,把大量的工具带进生命科学,X射线、核磁共振、电子显微镜、离心机等等,这一革命的标志性的成果就是沃森和克里克发现了DNA双螺旋结构,就是用X射线照出来的,没有X射线他们也发现不了。第一次生命科学革命以1953年沃森和克里克发现DNA双螺旋结构为标志!

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

图例:Watson在开始研究DNA双螺旋时几乎完全不懂有机化学与物理化学;Crick本来是个物理学家,对生物学也知之甚少。当他们发现DNA的结构时并不认为需要知道(更不用说记住)四个核苷酸碱基的化学结构。当Erwin Chargaff问他们在不知道DNA构成要素结构的情况下如何解决DNA结构问题时,他们问答说如果有需要的话总可以在书中查找到这个结构。——N.C. Jones & P.A. Pevzner, An Introduction to Bioinformatics Algorithms

经常有学生问我,学生物信息学究竟要掌握多少生物学知识,Watson和Crick就是一个很好的例子,掌握基本的原理就够了,要用的时候能够找得到,能够理解就好了。当然,现在的情况比Watson和Crick好多了,我们有大语言模型了,再次强调一下,要学会利用大语言模型进行学习,在工作中学习。

第二次生命科学革命大概是上世纪末九十年代开始的基因组学,也就是我们现在说的测序,基因组学是数学和计算机科学与生命科学的交叉。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

图片来源:Nature 2011, 470: 204–213

上图对基因组学的研究进行了系统总结,最为显著的是1990年开始的人类基因组计划(Human Genome Project, HGP)。海量的基因组序列为生物学和信息学提供了共同语言,于是生物信息学诞生了。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

我国的生物信息学科的起步几乎和世界同步,杨焕明院士、陈润生院士及向仲怀院士等老一辈科学家领衔的团队参与和主持了人类基因组计划、水稻基因组计划、家蚕基因组计划等重大科研计划,贺福初院士领衔的团队首次领导并实施国际人类肝脏蛋白质组计划(Human Liver Proteome Project, HLPP),标志着中国科学家在生物信息学某些领域的研究与国际上领先的国家处于相同的水平。

在陈润生院士等老一辈科学家倡议下中国国家生物信息中心(China National Center for Bioinformation,CNCB)在中国科学院北京基因组研究所已经成立;全国十余个省市纷纷成立了生物信息学一级学会,2020年9月在上海中国生物信息学一级学会(筹)成立大会也如期举行。生物信息技术也逐渐成为一个非常有效的手段去研究一个复杂生物学现象,并且在人类重大疾病,农业和生命科学基础研究等领域不断崭露头角。

生物信息学的发展主要围绕数据库构建、研究工具开发展开,重点探讨基因组学、转录组学、蛋白质学、代谢组学、表观基因组学和宏基因组学等,在医学、农学等方面均取得了很大的进展,关注的话,请参阅相关文献。

2.3 生物信息学的未来

当AI遇见生命大数据,我们可以期待一个激动人心的生命科学新时代。

因为我学习主要聚焦在生物医学领域,所以从生物医学出发进行展望。

问题思考:

1)为什么同一种病,使用同一种治疗方式,有时候无效?

2)为什么一种药物可以治疗不同的疾病?比如二甲双胍。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

图中是现代医学之父希波克拉底(Hippocrates)之树(希腊科斯岛),传说他在此梧桐树下发誓行医。

西方人可能受《圣经》的影响,爱发誓。现在的临床医生入学时也按照波克拉底的方法宣誓入职,感受至深的当属那句“No harm”,一切救治应当建立在无伤害基础之上。希波克拉底把疾病看作是发展的现象,医生不能见病不见人,首先注意病人的体质、生活方式、性格(注意到了心理问题)等元素,不要轻易用药。为了为了抵制“神赐疾病”的谬说,提出的著名的“体液学说”,四体液(血液、粘液、黄胆和黑胆)理论已经被现代医学知识更新(不断更新前辈的理论学说是不是值得我们学习呢?),但他提出的气质类型的名称及划分沿用至当代。他第一次在医学上提出了“ 预后”这个概念, 认为医生不但要对症下药, 而且要根据病症预告其发展趋势, 造成后果及康复措施, 这就把治疗提高到一个更高的层次上。

人们对医学的认识经历了巫医时代、朴素的哲学时代,现代科技的革命医学进入现代医学时代。事实上,我们并不是第一次遇到精准医学,只是“精准”的定义随着医学技术的演进一直在变……

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

现代医学从诞生时起,就在探索精准医学,最开始的医疗器械是石刀,接下来变成了柳叶刀、组合式外科手术器械,然后到了今天的“达芬奇”手术机器人等,但精准医学真正的兴起还是来源于现代科学技术的发展。

精准医学(Precision medicine)这个名词来源于2015年1月30日,美国总统奥巴马在国情咨文演讲中推出的“精准医学计划(Precision medicine Program)”,提议在2016年向该计划投入2.15亿美元,以推动个性化医疗的发展。NIH上给Precision medicine的定义:Clinical, therapeutic and diagnostic approaches to optimal disease management based on individual variations in a patient's genetic profile.(National Institutes of Health,NIH)——根据患者遗传特征的个体差异,优化疾病管理的临床、治疗和诊断方法。NIH的解释是指对患者的基因组学、蛋白质组学和代谢组学等各种内环境信息进行综合分析研究后,在分子生物学水平上去了解各种复杂疾病的发病根源,以此针对患者拟定出最合适的治疗药物和手段。

英国政府官网对Precision medicine的定义是:利用诊断测试和临床数据分析为患者选择最合适的治疗手段。

我国对Precision medicine的定义:整合应用现代科技手段与传统医学方法,科学认知人体机能与疾病本质,系统优化人类疾病防治和健康促进的原理和实践,以高效、安全、经济的健康医疗服务获取个体和社会最大化健康效益的新型健康医疗服务范式。在临床实践中,精准医疗追求针对每个病人正确选择和精确应用适宜的诊疗方法,实现医源性损害最小化、医疗耗费最低化以及病患获益最大化。

比较三个国家对于Precision medicine的定义,可以发现Precision medicine在不同的国家包含的内容不完全相同,美国版本更加强调对居民综合数据信息的搜集和分析,英国版本则侧重对临床数据的收集,中国则更强调利益最大化。但有一些共性:

1)都是基于大数据的诊疗方式;

2)具有更广阔的应用范围。包括疾病的早期诊断、个性化指导、遗传风险分析和疾病检测等,目前现阶段目标聚焦癌症治疗;

3)强调个性化和差异化。

精准医学是一种新兴的综合考虑居民基因、环境、生活方式等变量的疾病预防和治疗手段,承诺为个体患者量身定制治疗方案,目前最大的作用在于用药方面,即把最合适的药物在最合适的时间里,以最合适的剂量给于最合适的患者。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

工欲善其事,必先利其器。有显微镜我们就看到细胞了,有测序仪我们就知道基因了,有质谱仪我们就知道蛋白质组了,有AI我们就可以理解负责生命数据了。过去、现在和将来的医疗数据从基于症状、基于临床个体,完成基于远算的转变,而举措从经验医疗、循证医疗,完成精准医疗的转变。在精准医疗领域,人工智能为患者量身定制诊断、治疗和监测疾病进程的方法。 AI 最后不会颠覆医生,它会变成医生的好帮手。

随着多组学技术、单细胞测序技术和空间组学技术等大规模高通量测序技术,以及物联网传感器技术等信息技术的不断发展,产生了大规模多维度的组学数据,生物医学进入了“大数据”时代,传统的分析方法可能不再足够。AI作为一种在数据处理、模式识别和预测建模方面的前沿技术,已成为推动科学研究边界不断扩展的关键力量。AI在生物科学中的应用,正逐步改变了数据分析的传统方法,极大提升了研究效率,促进我们对生物系统的理解和医学治疗的创新,为解决复杂的生物学难题开辟了新途径,推动医学和生命科学的未来发展,第三次生命科学革命正在进行,精准医学正在成为现实......

3 我们需要学习什么

我们再看看维基百科对生物信息学的定义:

Bioinformatics is marriage between biology and computer. It is the use of computers for the acquisition, management, and analysis of biological information. It incorporates elements of molecular biology, computational biology, database computing, and the internet. Bioinformatics is clearly a multi- disciplinary field including: computer systems management networking, database design, computer programming, molecular biology from using computers for molecular biology.

核心思想:生物信息学是为理解生物大数据(尤其是当数据集大而复杂时)进行算法设计和软件开发的一门交叉学科。

个人理解:生物信息学本质上属于信息学科。

首先,生物信息学研究的核心——基因组,是数字化的(digital)。基因可以编码信息,可以通过破译而解读。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

第二,生命的数字化表现为2类信息。第一类为编码蛋白质的基因;第二类是控制基因行为的调控网络。

第三,生物信息是有等级次序的。生物信息在不同的层次间流动,有确定的流动方向(中心法则——特别重要!):DNA→mRNA→蛋白质→蛋白质相互作用网络→细胞→组织、器官、系统→个体→群体。每个层次信息都对理解生命系统的运行提供有用的视角。

因此,生命过程就是一个信息流动过程,揭示这种信息接收、加工、存储和传输的过程,可以对生命进行理解。从某种意义上说,生命就是算法。生物信息的解读是实现精准医学的关键之一。

要解读生物信息首先要做一名生物程序员(俗称:生物码农),其次要会做生物实验,至少是理解做生物实验的程序员。

3.1 边界判断

边界判断就是判断什么事能做,什么事情不能做。不懂的事情不要做,真正能成大事的人,都有“边界思维”, 知道自己的能力是有边界的,会在能力边界之内寻找更大的价值空间。《三体》中描述:“科学边界“试图开辟一条新的思维途径,简单地说就是试图用科学的方法找出科学的局限性,试图确定科学对自然界的认知在深度和精度上是否存在一条底线——底线之下是科学进入不了的。现代物理学的发展,似乎隐隐约约地触到了这条底线。

做生物信息学研究,最重要的一点就是要明白做事情的边界,然后在边界内改进,否则很多努力都花在了制造不可能实现的永动机上了。首先要做的是解决生物学领域的可计算问题,不是所有的生物学问题。同时也涉及到数学的边界,计算机的边界和各种算法的边界。我在学习与科研的时候,是利用AI解决精准医疗所面临的一些问题,那就需要有清楚的辨识,即AI并非万能。即无论AI如何强大,其解决的问题,也只是人类面临所有问题的很小一部分。因为从目前的认知水平上来看,现实世界中有海量的问题并不是数学问题,也就不可能通过计算来求解。目前人工智能已经找到解决方案的问题,也只是可计算问题的一小部分(见下图)。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

问题:ChatGPT走红 “狂飙”的人工智能边界在哪?

3.2 问题转化

站在巨人的肩膀上会看得更远的前提是要先找到这个可以站肩膀的巨人,这在交叉学科领域,以及应用型研究和工程师当中至关重要。比如在做利用深度学习方法处理蛋白质组数据时,就已经有了自然语言处理的一些工具了,我们必须先把蛋白质组序列的处理问题转化成和自然语言处理类似的数学问题,然后利用自然语言处理模型来解决蛋白质组序列处理相关问题。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

对于我们从事生物信息学研究的人来说,培养计算思维,具备把临床需求问题转化为可计算问题,尤其是AI可以解决的问题能力尤为重要。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

3.3 深刻理解

这种深刻理解包括空间上和时间上的理解。所谓空间上的理解,就是知识的广度和深度。所谓时间上的理解,就是从算法的过去、现在和未来看清楚它的发展规律。有了这样的理解,才能在遇到复杂问题时找到最简单而有效的解决方法。

所以说,生物信息学的学习曲线是这样的:

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

生物信息学需要学习生命科学、数学和计算机科学与技术等多学科知识,学习非常曲折,早期缓慢,只有锲而不舍者,才能最终学有所成,才可能对生物信息问题有深刻的理解。

3.4 简单美

科学发展到一定程度,一定会成为一门艺术,比如牛顿、爱因斯坦的物理定律简单而优美。将生物信息学技术掌握到炉火纯青、运用之妙存乎一心的地步,需要体会出这门学科中的一种美感,生物信息学工作者也需要完成从工匠到艺术家的升华。这个要求有点高,只有站得很高的时候才能欣赏你足下最美的风景。

美(aesthetic)的拉丁文aisthetikos,本意就是“感知、感觉”的意思。比如我最喜欢雨过天晴后天空的颜色,就是一种感受。摄影大师Ansel Adams说,“技术决定下线,而审美决定上线“也是这个道理。

推荐几本我喜欢的书:

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

简洁也是生命的基本特征之一。

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

生活中也可以发现这种简洁的美:

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

螺纹其实就是斐波那契数:随着数列项数的增加,前一项与后一项之比越来越逼近黄金分割的数值0.6180339887…

我从开始自学计算机编程语言的时候就开始使用从0开始计数了。关于这个问题我也问过很多人,也上网查询过。最让我记忆犹新的说法是代码会很优雅:比如切片,最常见的用法就是“取前n个元素”和“取从i开始的后n个元素”,如果在使用这两种用法时不需要带有+1或者-1的补偿操作,那代码会很优雅,a[:n]和a[i:i+n]。

代码真的需要象诗一样写得很优雅吗?

3.5 想象力

人类不仅可以回忆过去感知过去的事物形象,而且还能创造新的形象。人类能在过去认知的基础上,去构建没有经过的事物和形象的能力就叫想象力。例如《西游记》中的大闹天空的故事,孙悟空、猪八戒等形象美杜莎想象力的产物,孙悟空扯根猴毛变身不及时现代生物克隆技术的早期想象吗?电视剧《三体》中的三体世界也是;元宇宙(Metaverse)的概念出自科幻小说《雪崩》,书中对元宇宙的愿景正在现实世界中发生,移动计算、虚拟现实、数字货币、智能手机和增强现实等成为现实......

写代码也需要想象力吗?

使人工智能爆红的 AlphaGo 和李世石的人机大战在程序界掀起了一阵风雨。写出 AlphaGo 的哈萨比斯是想证明人工智能能打败人类吗?虽然这个问题饱受争议,但是起码证明了他的想象力。哈萨比斯说:“在国际象棋方面,电脑可以通过快速计算战胜人类。但围棋存在国际象棋所无法比拟的大量变数,在围棋博弈中,人的直观感受和洞察力可以发挥决定性作用。因此人们一直认为围棋是人工智能不可能战胜人类的领域,而我们正是想要挑战这种不可能。”

在程序员圈常被提及的一个高频词是“造轮子“,“造轮子“是重新创造一个已有的或是已被其他人优化的基本方法。很多开发者会被告知:Stop Trying to Reinvent the Wheel,然后大家会疑问,重复造轮子是否真的没有意义?

重复制造轮子和重复发明轮子是不一样的,发明是 researching ,制造是 engineering ,不能混为一谈。用轮子其实也并非一件容易的事。首先我们需要有很强的检索能力,在快速检索到后我们还需要能准确而高效地判断项目的质量。

对于未知的明天是每个程序员要去挑战的,而对于脑海中的轮子在一定情况下也是需要我们去构画和想象的。

我们想象我们怎样以最快的速度造出最 NB 的轮子;

我们想象如何让以现在的轮子造出更 NB 的项目;

我们想象我们是否可以有更大的可能性......

3.6 好奇心

我很喜欢法国电影《蝴蝶》(2002年),对它的主题曲印象深刻,尤其是那一老一少对世界探讨的对话记忆犹新:

三种主要生物大分子_三种主要生物大分子_三种主要生物大分子

少:为什么漂亮的花会凋谢?

老:因为那是游戏的一部分。

少:为什么会有魔鬼又会有上帝?

老:是为了让好奇的人有话可说。

少:为什么木头会在火里燃烧?

老:是为了让我们像毛毯一样暖。

......

在孩子们眼中,世界上存在那么多他们不了解和不熟悉的事物,这份好奇心,让童年充满了不一样的精彩。但是,随着年龄的增长,好奇心往往会被曲解为种"愚蠢"的标志,人们甚至羞于向身边的人询问"为什么",或者羞于亲自坚定地去探讨研究某件从来不曾研究过的事情。

所以,《道德经》里面的智慧是“复归于婴儿”。

保护好奇心,远比我们想象的更加重要。

相关阅读

发表评论

登录后才能评论

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。