MBZUAI陈真皞:阿布扎比——人工智能的新增长极|嘉程创业流水席202席精彩回顾
    12.26.2023 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席
    阿联酋学生和来自不同国家的优秀学生一起学习,有助于在人工智能领域,以及整个科技领域,形成一个自下而上的、类似于足球梯队的层次化组织,这才是一个能够持续发展的模式。
    近日,嘉程创业流水席第202席【探讨年轻人在中东的发展机会】,邀请了阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)机器学习专业一年级博士生陈真皞分享,主题是《阿布扎比:人工智能的新增长极——从MBZUAI到AI2031战略,浅谈阿联酋在人工智能领域的学术与创新生态》。
    我目前是在学术圈领域进行活动,所以我的分享更侧重于学术方面以及与学术相关的创新创业方面。简要介绍一下我自己,我是MBZUAI机器学习专业一年级的博士生,目前的研究方向包括因果表示学习,以及当前比较热门的大语言模型、多模态大模型等。之前我也曾经参与过华为MindSpore平台的GPT-2模型的实现,包括整个文本生成的采样流程。

    酋长的野望——寻求转型的阿联酋

    首先,我先介绍一下背景。最近几年,阿联酋在国际舞台上的关注度非常高,例如最近的联合国气候大会就是在迪拜举行的。阿联酋也是海湾地区第一个公布2050碳中和计划的国家,并且也要加入这一计划。大家都知道,GCC国家的经济基础是石油和天然气,它们向世界出口化石燃料,如果离开了石油和天然气,它们还能靠什么赚钱呢?
    比如我们看到迪拜,大部分人可能提起阿联酋就会想到迪拜,尽管它并不是首都,而且只占阿联酋国土面积的不到10%。迪拜的石油储量已经接近枯竭,但是可以造“奇观”。就像迪拜酋长说的,“我们只记住世界的第一样”,他建造了世界上最高的楼,大力发展了旅游业、房地产业等,并且把迪拜打造成了另一个金融中心,通过这种方式来推动它的非石油经济。
    阿布扎比也有一些值得关注的例子,如果大家喜欢看足球赛,一定知道曼城足球队,它大约在10多年前被阿布扎比现任酋长的亲弟弟收购,今年还赢得了欧洲冠军联赛的冠军,这是一项相当不错的投资,但对阿布扎比来说,这还不够。
    最近几年,人工智能越来越火热,这很可能是未来科技领域的一个重要发展趋势。在2017年,阿联酋就成立了世界上第一个以人工智能为部级单位的政府,并且它的人工智能部创始部长,最近还入选了美国《时代周刊》的AI 100人名单。阿布扎比的另一位皇室实权成员,在他的支持下,阿布扎比还成立了一个名为G42的集团。这个集团目前不仅在阿联酋承接了很多科技相关的业务,还和世界上很多知名的公司、企业有合作,比如它是梅赛德斯奔驰车队的赞助商之一。
    另外,Falcon模型的资助方TII,也有着阿布扎比政府的强大背景,它的研究领域非常广泛,不仅涉及人工智能,还包括密码学、量子信息等领域。
    在这些机构成立之后,2019年,MBZUAI也成立了。校长是美国CMU的教授,也是机器学习领域非常知名的人物Eric Xing,创始校董会也包括了像李开复博士这样的国内知名的AI领域大牛。

    MBZUAI定位——培养AI领域顶级人才

    那么,为什么要建立一个像MBZUAI这样的学校呢?因为MBZUAI的定位是一个专注于研究的大学,它和KAUST类似,没有本科生,只招收研究生和博士生,并且提供全额奖学金。如果阿联酋只靠企业和研究机构,就只能从外部引进人才,而阿联酋本身的教育质量和经济实力相比是很不匹配的。比如,他们本地人的辍学率很高,我觉得这就像是“陪太子读书”。在这里建立学校之后,一方面,确实能吸引来自世界各地的优秀学生,另一方面,我们学校也保证了一定比例的本地学生,让他们能够在家门口享受到世界各地最优秀的师资和科研氛围。这样,他们就能和来自不同国家的优秀学生一起学习,提高自己的教育水平,有助于在人工智能领域,以及整个科技领域,形成一个自下而上的、类似于足球梯队的层次化组织,这才是一个能够持续发展的模式。
    我们学校并没有像QS Rankings那样的排名,为了让大家更直观地了解,我给出了一个Science Rankings的例子,这是美国几位计算机科学家提出的一个评价体系,它是一个完全开源的、基于学术成果的计算机水平排名。如果把这个领域和我们学校所涉及的人工智能、计算机、视觉、NLP等等领域进行对比,我们学校目前的排名是世界第十九位。我们和MIT、加州大学伯克利分校、苏黎世联邦理工学院、南京大学、华盛顿大学等机构相差无几。另外,还有一个指标,就是顶级学术会议的论文发表。目前,大家都知道的大模型,比如基于Transformer这种核心架构的模型,都是首次在像NeurIPS这样的顶级学术会议上发表的。以这个指标来看,我们学校今年在顶级学术会议上发表的论文数量非常多,每个顶级学术会议都有几十篇。据统计,今年每60篇论文中,就有一篇来自MBZUAI。
    我们学校的大致规划是要服务于阿联酋的整体发展战略,包括交通、健康等民生领域,通过使用AI技术给这些领域赋能。

    黑客马拉松、孵化器、创业课程——为创业者提供的资源

    刚才我主要讲了一些学术方面的内容,接下来我会重点介绍一些应用和创业方面的内容。
    我们可以看到,阿布扎比有很多黑客马拉松的活动,这些活动主要是针对学生的,当然也不排除其他人的参与,全世界的人都可以报名。这个是最近阿里云在GITEX上举办的一个关于AIGC的马拉松,我们学校的学生包揽了前三名,目前也有一些关于LLM的马拉松正在进行。

    MBZUAI虽然是一个AI的学术机构,但是它也想把我们的学术成果进行落地。最近,我们学校也设立了一个AI孵化器基金,它可以接受外部的成员,唯一的条件是需要有一个MBZUAI的学生或者老师作为类似创始人的角色,其他方面没有太多的限制。它分阶段提供从2万 aed(约合4万人民币)到14万人民币的资金支持,再加上外部投资的匹配,最高可以达到40万人民币,同时也没有额外的要求,比如股份的分配。
    此外,我们学校也开设了一些创业课程,包括一些work shop,比如和StartAD的合作,扶持从学校走出来的AI初创公司项目。但是目前还在非常初步的阶段,这些政策都是最近一两个月刚出的,在这之前,我们学校也没见到什么人创业。之前毕业的学生里应该也只有三个人最后是在创业。如果这些扶持政策能够更多地实施,我相信会有越来越多的学生选择创业,因为我们学校的态度是非常开放和合作的,也欢迎中国的一些投资者和创业者加入我们的合作。
    再从大家比较感兴趣的、最近非常火的大模型来分享一些信息。我们学校最近训练了一个名为JAIS的大模型,这是一个基于阿拉伯语-英语的从头训练的大模型,我有一个同学就是负责这个训练的。他们使用了一个叫Cerebras Systems的公司的产品,这其实是英伟达的一个竞争对手。我们都知道,英伟达对于中国、阿联酋、沙特等国家,都提出了先审核才能购买英伟达设备的要求。而且,由于现在做AI的大部分都是在英伟达的生态系统中,英伟达已经形成了一种事实上的垄断地位。但是阿联酋这边也不是人傻钱多,不希望被割韭菜,他们想要参与到整个AI的软件和硬件,以及基础架构的建设中。所以,他们应该也是投资了像Cerebras Systems这样的公司,并且他们是第一个购买超算系统的,并且在超算系统上训练出了阿联酋的主权模型。

    MBZUAI与AI公司密切合作

    同时我们学校也有一些对外的合作,比如我们学校也是Llama2、meta等AI公司的开源模型的合作方,同时基于Llama模型,我们也参与了一个可能是最著名的微调领域的工作Vicuna,这个工作也是在我们实验室的集群上训练的。另外,之前我也提到过一个叫TII的机构,它虽然是一个偏向学术的组织,但它其实更像是一个公司的架构,它们的动作也很大,比如之前他们也举办了一个非常知名的机器人竞赛MBZIRC。当然,他们最近最出名的就是Falcon大模型,这是目前开源大模型中最大的一个,并且声称和谷歌闭源的大模型PaLM2 Large性能相当。

    阿联酋大模型生态

    在大模型方面,阿联酋也有一些动作。比如,10月份,OpenAI的CEO奥特曼访问了阿布扎比,和G42公司达成了一个在中东区域的合作,包括使用OpenAI的一些服务为G42提供一些适应本地的AI应用,同时也希望基于Falcon大模型模仿OpenAI。最近,阿布扎比政府也成立了一个AI71的公司,它和TII同属于一个技术委员会的管理,它的开幕式也由阿布扎比王储出席,这可以看出阿布扎比高层非常重视目前包括大模型在内的人工智能领域的发展。

    阿联酋高度重视人工智能发展

    从国家的角度来看,阿联酋通过设立第一个人工智能部,表明了政府对人工智能的高度重视,包括最近部长的一些言论,Omar最近在财富全球论坛上发表了观点。因为最近大家都在讨论AI风险的问题,是否要因为AI风险而暂停开发,马斯克等人都在积极地讨论这件事。这位部长的观点是,如果我们现在因为风险而过度监管,甚至停止AI的开发,就像当年奥斯曼帝国拒绝印刷机进入中东一样,会阻碍人类文明的发展。从这个角度可以看出,这边政府对于科技的发展是非常开放的。
    同时他们的更顶层的策略,包括AI2031战略,他们希望在2031年之前成为人工智能领域的一个比较有领导地位的国家,同时他们也认为人工智能会在未来为阿联酋贡献非常多的非石油GDP,这就实现了他们的目标,就是阿布扎比如何摆脱对石油的依赖,这是一个可行的路径。
    以上就是我的分享,谢谢。

    Q&A

    席友:现在的OpenAI大模型,在阿拉伯语方面有没有什么挑战?你们做的阿拉伯最大的大模型有什么优势吗?

    陈真皞:阿拉伯语的主要问题是缺乏专门的语料,像OpenAI,它们没有对阿拉伯语进行单独的训练,它们可能以英语为主,英语的语料可能占到九成以上。不同地方的文化也会有差异,它们的语料不一定能涵盖阿拉伯所有的文化方面。现在大模型的关键不是算法,而是算力和数据,我们学校和G42都有一个团队,这个团队的主要工作就是处理这样的数据,收集更多的阿拉伯语的数据。你有了更多的数据,同时模型也足够大,你就能有更好的性能,道理很简单。

    席友:你们找的老师教授都是全球顶尖的,招的学生也很优秀,这是不是一个典型的产学研结合的模式?

    陈真皞:虽然早期的老师有很多是从G42过来的,但是现在的老师基本上都是从世界各地的名校过来的,比如我们的计算机视觉的主任就是之前牛津的教授,后来又是澳大利亚的一个院长。我觉得从产学研的角度来说,这是没错的,因为G42和MBZUAI背后的人,他们为什么要设立这些机构,都是因为他们的支持,既然有了他们的支持,下面的合作就是很自然的事情。他们当时想设一个学校,也是为了服务于他们的整体愿景的一部分,所以从一开始设立,我觉得就是想做这样的产学研结合。

    嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

    我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

    嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

    嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

    嘉程资本是创新者思考的伙伴,成长的伙伴。

     

    嘉程资本
    握手未来商业领袖
    BP 请发送至 BP@jiachengcap.com
    微信ID:NextCap2017