斑马鱼数字智能贾树新:生命科学领域的实验室数字化趋势与创业机会 | 嘉程商业评论
04.24.2022
|
嘉程资本Next Capital
|
嘉程创业流水席
斑马鱼数字智能创始人在嘉程创业流水席分享了生命科学领域的实验室数字化趋势与创业机会。
在传统的生命科学和生物科技的实验室场景过程中,实验数据的记录管理主要依靠人工在纸质单据上记录,这就导致了数据记录和存储呈现碎片化、机械化,缺乏效率的同时也带来了极高的运作成本。
随着生命科学和生物科技领域的不断发展,市场和科研人员对于这一领域的数字化、自动化需求在持续增长,亟需通过智能化的数据管理软件或工具,高效完成对实验数据的记录、存储、分析和追踪等,进而提升实验室流程的效率。
嘉程创业流水席第134席,我们邀请了斑马鱼数字智能创始人贾树新,分享讨论了生命科学领域的实验室数字化趋势与创业机会。
目前来说物理是一个比较成熟的学科,大家看到的上面左图是某年我在欧洲布拉格拍的照片,图中两人分别是第谷和开普勒。第谷在开普勒发现三大定律之前,已经进行了20多年的星象观测,积累了大量数据,但是他并没有从中得到非常多规律性的总结,开普勒把这些行星的观测轨迹总结成了三大定律。
开普勒三大定律为什么重要?正是因为有了开普勒三大定律,牛顿在发明微积分之后,才可以从微积分和万有引力的假说推导出牛顿三大定律,验证整个物理学的基础。
牛顿发明微积分之后,物理学才进入高速发展的历史阶段,一直到300年后的今天,现在量子力学、相对论给我们的科技生活带来了翻天覆地的变化。所以对于物理学的发展来说,数学的引入是一个非常重要的标志性事件。从牛顿发明微积分开始,物理学才进入了近代物理的发展阶段。
所以,一门学科真正的成熟是从它能娴熟的运用数学工具开始,物理是自然学科的王冠,而数学是王冠上的明珠。
我们再看生物学,其实会发现在近一百年的历史进程中,生物也在逐渐把数学工具引入到行业中来。在19世纪之前,生物学更多的是总结和分类各种动植物的形态和特点,直到1900年,我认为才是现代生物学的开端。
1900年,孟德尔第一次用统计学的方法去统计豌豆的表面形态,最后提出了隐性基因和显性基因的理论。从那之后,大家就知道有一些遗传物质可以决定生物的表观。
1944年,物理学家薛定谔写了一本书叫《生命是什么》。在这本书中有一个概念非常重要,就是薛定谔讨论了遗传物质究竟是某种东西,并且从一些定量的角度、从遗传物质的最小单元尺度进行了估算,而且对DNA的组织形式进行了推测。他认为遗传物质应该是像同素异形体一样的化学物质,而且它是异常链的东西,通过持续的排列组合来形成各种各样的变化。
1947年,物理学家克里克看到了《生命是什么》这本书后转行到了生物学。其实从薛定谔开始就不断有物理学家跳到生物领域中去,尝试用不同定量方法引入各种数学工具,去研究这个极为复杂的生命系统。
克里克和沃森一起,在1953年的时候提出了双螺旋结构。这其中最重要的有两方面,一方面是沃森和克里克提出的这个理论,另一方面是工具的引入,即X光衍射对晶体结构预测的使用。
这两方面结合在一起,才使得沃森和克里克最终提出双螺旋结构,这样大家才知道遗传物质的确像当初薛定谔推测的那样存在。当大家认识了遗传物质存在的基本形式之后,生物学的发展就变得突飞猛进。
1961年至1968年,又发现了限制性内切酶,生物学家得到了一个可以直接介入生命系统并对其进行改造,再进行大量人工干预实验的工具。有了这样的工具之后,人们对生命,尤其是生命现象、遗传相关的规律,才能够了解的更加清楚。
从1900年,孟德尔通过数豌豆引入了基本的数学工具之后,生物进入了快速发展的历史阶段。所以我们可以看到,像这样的定量数学思维和工具,引入到生物学科之后,它可以发挥非常大的作用。其实从物理中也可以看到,每一次物理学的突飞猛进,都是由于某些数学工具被成熟地应用到这个学科当中。
从数豌豆一直到薛定谔的《生命是什么》,又过去了一百年左右的时间。那么,现在的生物学,对数学的运用到了一个什么阶段呢?Linkedin在前年对全球的生物学领域人才和技能进行了统计,从中我们可以看到不论是制药行业、生物技术行业,还是医疗设备行业,软硬件工程信息技术都是他们非常重视和需要的人才类型。
如果我们去看全球排在前五位的人才增长技能统计,会发现其中包括分析技能、软硬件工程、Python和R语言等技能,这些编程和数据处理的技能已经成为了生物领域中大家非常重视的技能储备。
其实从侧面也反映出来,在整个生命科学领域中大家已经逐渐地产生了共识——即将数学思维和数学工具引入到学科中应用极为重要。
在当前生物制药这个热门领域,这一点体现的更加明显,而且使用的工具也会更加高端,比如前几年对机器学习算法、人工智能的使用。在传统药物发现过程中有三个10定律,一是只有10%的成功率;二是时间周期长,一款药从研发到最终上市可能要10年时间;三是10亿美元量级的研发成本。这三个10定律导致了很多药物上市后的售价很高,尤其生物制药,它拥有一人一药的特点,可能会导致成本更高。
在这种情况下,机器学习算法的引用,可以在很大程度上改变这三个10的情况:一是可以提高药物发现的成功率;二是可以缩短药物发现时间,从而降低药物发现的成本。
所以很多大型药企开始逐渐引入机器学习的方法来研发管线,做一些找药和药物分子计算相关的工作,这个算法实际上就是在运用数学。截止目前,还没有任何一款药物在机器学习算法的主导下上市。
但值得注意的是,其中有30多家公司在使用机器学习算法的过程中建立了数据集。从这一点可以看出,在药物发现过程中要使用机器学习算法、人工智能算法,首先要有一个比较好的数据集。
这一点实际上是很多机器学习算法在应用过程中受到局限的原因。虽然机器学习算法、人工智能等工具的应用效果好、能量大,但是它需要建立在非常完备的标准数据库基础上,才能够训练它的网络参数和特征。有了数据库之后,机器学习算法才能够更好地发挥它的作用。
但是实际上,目前在生物领域并没有非常完备的数据库,主要原因在于实验室中的很多工作方式还非常传统,数据本身也分散,没有进行数据化管理;另外,我们在存储和整理数据的过程中也没有很好地将数据结构化和标注;还有一个客观存在的情况,就是很多生物领域的文章,它的数据可重复性不高。
这是现在整个生物领域面临的主要现状——数据的管理存在很多问题。国外有一个叫TDC的数据库——是由哈佛、MIT等10几所美国高校组织一起做的开源项目。他们专门针对医药领域收集整理了很多数据库,可以直接拿来做机器学习训练,所有的代码和数据库都可以在GitHub上找到,而且这个数据库应用起来也非常方便,用Python写几行简单的代码,就可以调取里面的数据。
这个数据库基本的结构有三层,一层是对问题的划分,他们把所有进行学习的训练需求分成了三大类:一类是单体问题,一类是多体问题,还有一类是要制造计算出新的结构,每一类问题里又分了很多训练的任务,一共是20多个学习任务,每一个任务下又区分了很多种不同的训练集。
他们还提供了一系列工具,可以供他们训练数据集。一般在做机器学习的时候,会把数据库分成训练集、验证集和测试样本集;他们也会根据不同的需求提供工具,把数据库随机或者根据各种组合要求、拆分成各种训练集;他们还提供了一些其他工具,可以把计算出来的数据进行很好的可视化处理。
按照TDC的说法,他们可能是全球第一个也是唯一一个比较完备的数据库,而他们的这个数据库在后面也做了非常多的人工工作,现在每年仍在持续维护和更新数据库的内容。我们也知道在业界还有像IPA分析的工具,这个公司也做了非常多的幕后整理工作,把基因的调控网络整理出来,供用户使用。
国外最近几年也有很多公司在做数据收集和整理的工具,并且也取得了非常好的效果和认可。比如2012年成立的Benchling,它在2015—2018年期间开始高速增长,现在已经成为业界标杆型品牌。
用户普遍反映使用Benchling后带来的优势:一是工作协同功能,极大降低了他们对电子邮件的依赖,可以在整体上提高团队的工作效率;二是Benchling会给他们提供一个工具用来追溯整个实验过程中数据、样品的流转以及加工处理的过程,能够让他们回溯整个实验。
通过这样的工具,研发人员和管理人员能够极大提高分析数据和决策的效率。一线的使用人员在应用这种电子化工具后,不需要再做纸质记录,可以极大降低重复录入的工作。
一是和自动化平台Beam进行对接,他们做了一套自动化设备,可以让研究人员通过一系列仪器来自动化完成实验流程。他们引入了Benchling平台,在开始的时候,用Benchling作为实验流程以及实验参数的录入工具;在自动化流程结束时,用Benchling作为他们数据收集和呈现的工具。通过这种方式,给用户提供了更好的体验。
另外,Benchling收购了一家体内检测实验的公司——Overwatch,它基于实验过程提供一套数据处理规则。Benchling收购这家公司之后,可能会对它的数据处理方式进行极大的优化和迭代。
为什么这两个动作在Benchling的产品发展过程中非常重要?我们认为要把数学很好地引入到生物中去,就需要处理很多的数据。只有整个实验流程自动化,实验的通量、数据总量才能提高。
数据总量提高之后,分析和处理这个数据的工具也极为重要。Benchling做了这两点之后,我们认为它下一步可以把自己变成一个非常好用的数据收集和管理的平台化工具。
除了Benchling之外,美国还有很多公司在做类似的尝试,比如Labarchives,它自称叫做ERN(electronic research notebook),也是一个电子实验记录本,里面会有很多数据收集和处理的小工具。Labarchives有两个版本,一个是教学版,一个是研究版,教学版可以作为教学软件来使用,它还集成了很多工具如snapgene、PubMed,给用户提供了很多便利。
还有一家公司叫做SciNote,它一开始做开源软件,后来与Gilson合作做生物仪器。它可以让用户在平板上出现一个界面,在这个界面上把上样的96孔板放上去,通过投影的方式把加样的孔标记出来。它做了一些这样的小工具,一方面可以帮助用户去做实验记录、收集数据;另一方面通过这种巧妙的方式,让软件和真实事件实现非常有意思的融合。
看到国外的这些工具和数据库,我们一直在想为什么不能自己做一款这样的工具,为什么国内没有很好的工具?尤其是刚才讲的TDC,是由美国很多顶尖高校一起做出的,但实际上其中很多主要成员都是中国人。这就说明,并不是我们做不出来,而是在国内因为种种原因可能没有去做这样的尝试。
斑马鱼团队在分析了整个学科的发展、国内外情况之后,我们认为也可以设计一款这样的工具。在学习了国外的先进经验之后,我们对这款产品有了自己的理解。所有的数据都要收集和整理在一起,这样数据最终结构化存储后,我们才能很好的去利用这些工具。
那么怎么能够把这些数据非常有条理的去整理在一起?结合我们多年在实验室中的实验经验,我们认为实验记录是所有数据整理记录的一个核心区域。
虽然传统的实验记录是纸质记录,但它其实本质上是对最终测得实验数据的解释说明。只是在以前我们没有非常好的工具,只能把这两样东西分开保管和管理。但是当我们有电子化产品时,我们就可以在线上同时去进行记录、标记。所以我们认为实验记录功能是我们在做电子实验记录本的过程中,最为核心的功能模块。
我们在做很多实验的时候,对实验的设计全都围绕样品的处理展开,对这个实验进行分组,对每一个组进行处理。所以我们对数据的标注也应该是围绕对每个样品进行关键条件的改变、标记。
我们认为样品和参数是实验记录中最核心的要素,我们会在实验记录本当中提供一系列的表格,让用户去做一些关键信息的录入。而这些信息又和我们物料库存里面的样品、中间产物以及设计耗材可以关联在一起。
当然,我们把仪器设备也放在了注册库存的概念下面。在数据和样品进行关联之后,实际上对最终测得的数据,尤其是解析存储之后的数据进行标注,这些数据就可以被结构化的存储和标记,将来我们就可以通过样品把这些数据找出来。
不同样品可能有的参数是一样的,我们就可以通过同类的参数,最终找到一个非常大的数据集,这样就可以对我们做的历次实验的数据进行具有统计学意义的分析。
我们认为用户友好性是非常重要的一个点,产品提供的录入方式、信息、收集方式非常重要。上图是我们产品截图,我们在实验记录本里面提供各种各样的录入方式,可以随意记录,也可以规范记录关键的参数,再统一地存储到我们的后台里面。
在这个流程上我们也提供了非常直观的操作界面,这些用户在使用的过程中,相对来说可以形成较为契合的工作习惯。对于一些管理人员来说,也可以非常清晰地通过项目数据的拉取,来看到整个团队的工作进展。
我们最终想做的是数据管理和分析处理的工作,我们认为最核心的是要围绕数据展开一系列的功能。我们现在能够给用户提供的一个非常有特点的功能,就是在实验过程中,样品在进入实验流程之后,经过历次的实验加工。比如类器官培养,人的组织样本收取过来之后,分离出细胞做重编程,又变成诱导干细胞,最后再经过分化变成分化细胞,培养成类器官,最后可以做一些药物筛选的实验,后面还会有很多检测数据,我们现在是以一个类器官培养这个实验流程,作为例子来展示这个功能。
在整个实验过程中,有可能一个样品在屡次的加工之后,会有非常复杂的样品流转过程。追溯样品在上游、在每一个实验环节上,对当时样品处理的关键参数以及数据,都可以在这个图上为用户很直观地呈现出来。这可以帮助用户进行实验的回溯,以及帮助下游的实验做决策分析。
作为一个新兴公司、国内自主研发的软件,我们也可以非常有信心地讲,我们现在也可以提供类似于Benchling的一些功能点。在将来,我们也可以基于这样的功能进一步地去优化,做到真正地把标准化的数据集建立起来,让用户能够使用更多的工具来进行数据分析的功能。
除此之外,我们还给我们的用户提供了非常具有专业特色的工具,可以让我们的用户在系统内部把剪辑的序列图谱非常直观地展示出来;我们也可以把酶切位点、启动子和终止子都标记出来,可以把它翻译成氨基酸序列;我们还提供了比如设计Overlap PCR的引物策略算法,能够让用户比较方便地得到引物设计的序列;我们也会像Benchling一样,逐步地在这个核心功能的基础上,做出很多引物设计的高端工具;我们还可以用工具预测虚拟的电泳胶图。
我们希望团队做出来的工具,能够形成一个智慧实验室场景。这样我们的用户、科学家坐在电脑前通过软件就可以把实验流程设计好,借助无人化的实验室生产出数据。然后再回到这个系统里面,借助脚本或者工具,直接对数据进行分析。科学家所要做的就是提供idea,可以把自己的精力都放在科学问题上,而不需要再去关心实验室或者是数据处理过程中的琐事。
嘉程资本Next Capital是一家专注科技领域的早期投资基金,我们极度信仰科技驱动的行业创新,希望成为创新者的第一笔钱,与极具潜力的未来商业领袖共同开启创新的未来。
我们的投资领域涵盖新消费、新技术、新医疗。投资案例包括熊猫速汇、多抓鱼、十荟团、拉面说、店匠、bosie、熊猫星厨、核桃编程、橄榄枝健康等多家创业公司的天使轮或早期阶段。
嘉程资本旗下的创投服务平台「嘉程创业流水席」,致力于为科技互联网创业者和行业人士提供深度链接和一手行业信息,迄今已服务数万名创业者,汇聚了数百个创业者社群,有近千位企业家与行业专家在嘉程创业流水席分享过行业观点。
嘉程资本创始合伙人李黎是知名天使投资人,曾主导投资过乐信(纳斯达克代码:LX)、团车(纳斯达克代码:TC)、老虎证券(纳斯达克代码:TIGR)、牛股王、蜜芽、辣妈帮、PingCAP、易订货、彩贝壳、鹿客、Krazybee等明星公司的天使轮。
嘉程资本是创业者思考的伙伴,成长的伙伴。
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017