王牌论坛

 

论坛回顾 | 王顺:谷歌云Gemini2.0大模型助力出海企业创新

王牌论坛
2025-01-06

 

王顺

谷歌云资深机器学习架构师

 

12月20日,2024前海数据经济论坛在前海国际人才港举行。论坛由深圳数据经济研究院与香港中文大学(深圳)经管学院联合举办,以“人工智能赋能商业(Business+ AI)”为主题,聚焦于新质生产力的发展与科技创新,探讨人工智能在金融、供应链、营销及大健康等领域的深远影响与未来前景。

谷歌云资深机器学习架构师王顺发表主题演讲《Gemini2.0助力出海企业创新》,以下为演讲实录整理稿。

 


 

演讲实录:

 

大家下午好!非常荣幸有机会参加这次的论坛,上午我听了全程,第一次参加学术性很强的活动,有很多的体会和收获。

今天给大家讲的主要是Gemini2.0,它是一周前刚刚更新的版本。因为谷歌在国内的团队主要面向出海企业,所以在座有出海需求的企业可以了解一下同行是怎么使用Gemini赋能创新的。

中午的时候,我们和一些其他专家探讨到,谷歌在AI方面有非常大的积累和沉淀。谷歌这些年从Transformer模型开始做出不少新的贡献,这和谷歌的企业文化有关,因为谷歌的企业文化是属于开放型,大家耳熟能详的就是可以20%工作时间精力放在感兴趣的项目。包括Transformer的技术本身也是一群不同的人自发地组成了一个团队,为了计算机的顶会准备的工作,最后成了大模型背后理论的基石。

谷歌在这方面发展得不是最快的,Transformer的技术出来之后,谷歌选了另外一条路线,叫Auto-Encoder技术,最成功的名字就是BERT (Bidirectional Encoder Representation for Transformers,Google推出的一种基于Transformer的神经网络模型),通过BERT的模型赋能谷歌搜索。这个技术非常强大,谷歌搜索里有10%的搜索结果得到进一步BERT的能力提升,但是基于编码器的模型和基于解码器的模型差异在于生成结果的创意性有点欠缺。所以在GPT系列里,围绕解码器的技术能力非常的强大,LLM的目标就是准确的预测下一个词,带来新的技术革命。谷歌之前基于谷歌基础技术Pathway的Pathway Language Model,分别做了PaLM和PaLM2。去年12月,谷歌发布Gemini1.0,3月份升级到了Gemini1.5。12月份也就是上周发布了Gemini2.0,可以说谷歌有一些独一无二的东西保证了Gemini2.0的领先。今天早上谷歌发布了Gemini2.0 最新的模型Thinking Model,在推理侧做了优化,可以解决更复杂的数学、物理、工程学上的问题。在大语言模型里,现在没有一个绝对权威的榜单。大家比较公认的就是Arena的Leaderboard榜单,Gemini2.0 在整个榜单是排第一的。除了Gemini2.0,谷歌还有其他的模型,比如文生视频或者图生视频的技术,比如Veo模型,谷歌在上周升级了Veo2.0,使生图更加的逼真。

我第一次把Gemini2.0技术在公开的技术论坛上给大家讲解,所以我着重讲一下Gemini相对于大家所知道的Gemini1.0和1.5有什么显著的提升?原来大家所接触到的多模态的模型,Gemini最核心的亮点是原生多模态,在训练的时候,输入数据有几种不同的模态,包括文本、代码、图像、音频、视频,以前所谓的原生多模态是指输入训练数据有这些模态,但是输出的解码器只能输出文字。

第一,Gemini2.0带来原生多模态的输出,可以直接输出语音,或直接生成图片。比如给我生成某一个菜的菜谱,它不仅把做菜的步骤生成出来,而且在步骤中把具体相应的图片生成出来,这是最大的亮点,就是支持了原生其他模态的输出。

第二,是对于原生工具的使用。比如我们问今天深圳的天气怎么样?Gemini并不是用所谓的幻觉编造答案,而是知道这个问题最好的解决方案是谷歌搜索拿到天气网站最权威的答案,它会直接使用工具。原来的其他做大模型的方法论是使用工具 Function Calling(函数调用),现在Gemini2.0训练的过程中就自动去推理哪些场景下需要使用工具?哪些场景下用基于大模型自己的知识?所以Gemini2.0发布之后,直接给大家带来了原生工具的使用。

第三,是对空间坐标位置的理解。我们的客户有非常真实的业务需求,比如说Gemini是原生多模态的大模型,当我上传一张照片问里面有几个人时,客户自然而然会问一个问题:能把人所在的位置在图里坐标给我扣出来吗?便于对图中某一个人做单独的修图工作。虽然之前的1.0也是原生多模态,但是做不到把一个图里的坐标找出来,等于作为一个新的任务丢到原先的 Gemini里重新训练,而Gemini2.0新的能力就是可以支持对空间位置的理解,以及更复杂的视频理解,以及实时响应的能力。今年所有大模型公司都在做实时响应,比如最自然的交互是对话,大模型可以做到语音输出。因此,客户问得最多的的5月份在 Google I/O 大会上发布的项目Astra,Astra 会跟大模型进行对话,大模型用预训练好的语音回答。在回答过程中,结合了Gemini对多模态原生的理解和长上下文的能力,里面有一个场景是问 Gemini:你还记得我刚才的眼镜放在哪了吗?大模型基于过去十几分钟上下文的内容,能够直接回答:你的眼镜在苹果的边上。

在新版本发布之后,无论是竞技场还是其他的平台上有很多的公开报道, Gemini2.0的反馈非常高。对于谷歌的工程师来说,因为谷歌两个连续的发布,一个是量子计算的升级,二是Gemini2.0的发布,都对谷歌股票提升5-6%,所以在市场上的反响非常好。

我们在ToB的业务场景里观察到的数据,与其他嘉宾表达的一些观点是相似的。去年年初企业用户的规模和现在的用户规模相比,已经提升了36倍。在文生图的企业用户场景里,比较大的客户就是原始设备制造的手机厂商,比如在景点拍照的场景里,把额外的人做一些消除或者对图片部分做一些美化工作时,除了简单的文生图之外,还可以进行图片编译。Imagen3模型业务这块也有5倍的增长。   

虽然谷歌的统计数据是全球的增长,但我们在出海部分接待的使用Gemini的客户非常多,全球TOP10的客户里,有两家非常大的客户是国内出海的客户。具体的客户案例中,比如Snapchat有一个应用叫MyAI,你和它互动的过程背后调的就是Gemini。还有一个品牌就是Puma,它在产品市场推广宣传里大量的用Imagen3,对某一些服装、鞋子的背景做一些编辑或者生成工作。在客户印度的站点上的点击率,因为使用了Imagen3提升了10%。在一些其他行业里面,比如说福布斯有一个类似谷歌搜索的搜索工具叫 Adelaide,这个工具背后也是依托于Gemini的技术。这就引申出Gemini另外一个非常强大的能力叫接地,它可以接任何想要的数据,他们接的是自己非常高质量的文章及数据,可以提供更好的内容问答。

所以,围绕谷歌Gemini的能力,大家可以怎么用它呢?我们有一个四层的结构图,就是谷歌云帮助出海的客户可以使用到的围绕大模型的一些能力,分成四个层次(Agent Builder、Model Builder、Model Garden、Google Cloud Infrastructure(Gpu/TPU)|Google Data Cloud),我具体讲一下。Google Cloud Infrastructure(Gpu/TPU)|Google Data Cloud这一部分,有些人好奇大模型最大的产出或者收入从哪出来的?其实还是基本算力。谷歌除了搭载英伟达的GPU,还有自研TPU的硬件,随着芯片“卡脖子”的限制,在云上使用海外的高端算力,在短期是比较好的解决方案。在这之上,围绕Gemini的模型,或者其他一些流行的模型,除了OpenAI以往还有 Anthropic的ClaudeSonnet,或者开源的Llama之外,谷歌也开源了 Gemma,或者是大家耳熟能详的模型比如千问,都可以在Vertex AI上一键部署。它里面有接近200个不同的模型,当然也可以一键把huggingface上几万个模型部署在Vertex上,那我们这个产品叫Model Garden,可以在里面找到各种各样适合具体业务场景的模型。在这之上,如果需要建立自己的模型,做端到端的训练和推理,可以使用Model Builder的模块。现在大家提到未来是一个智能体Agent的时代,我们还提供了一些做 Agent Builder 的功能。

我引用了两篇学术论文,一个是GPT-2,大家都知道OpenAI的对技术的颠覆,但是很少有人知道,GPT最开始也是在谷歌上训练的。在GPT-2训练文章的致谢中,感谢了好多位谷歌TPU团队的工程师对OpenAI 团队做的深度支持,最终才把GPT-2的模型训练出来。国内有一家叫作彩云科技的初创公司,他们在谷歌TPU上做了大量的训练工作,我们也深度支持帮他们做。我一直在一线做大模型训练,之前也在创业公司做过类似的工作,所以怎么把大语言模型最高效的训练和推理,这块的经验相对于其他大模型的落地,我在这块的经验是最多的,我们也非常深度地支持这样的客户。他们在今年7月份 ICML 国际机器学习大会上,其全新通用模型结构DCFormer的相关论文获得高分,他们论文的致谢,也特别提到了谷歌的TPU帮助到他们的研究工作。

除了刚刚提到的这两个工作之外,今年给大家印象最深刻的是苹果,因为 Apple Intelligence,做了两种类型的模型,一种是云端基座大模型,这个模型也是搭载在谷歌的TPU上。然后还有一种是端上的模型,预训练的过程也是在TPU上做的,这些给我们带来了非常直观的认识。我们之前和国内出海的大客户深度做TPU上模型的训练,但是以前可以列举的参考用户案例非常少,现在大家普遍的把最好的大模型放在TPU上,而且推理的性能比GPU 还要好。再举一个例子,比如刚刚提到的Anthropic的 Claude 3.5 Sonnet 放在TPU上的推理,性能会比在GPU上好非常多。很多用户其实在不同的云平台上都可以用Sonnet的模型,但是发现在谷歌的平台上,推理的延迟更低。当然这个技术背后的软件栈的移植工作也非常简单,10行代码或者小于10行代码就可以完成。

我再讲一下Model Garden的更新,主要是实时语音互动,我们叫 Multimodal Live API。对于Gemini 1.5 Pro来说,最大的是原生多模态长上下文。所谓的长上下文是指能处理200万个Tokens,换句话了来说就是一个两个小时的视频,基本上可以理解是一部电影。可以直接把一部电影拖进来,对这个电影场景问答,可以解决所有的需求。如果是那些不支持长上下文或者视频格式的其他模型,就需要做很多前预处理。如果是输入语音的话,换算过来就是20多小时的语音。如果是代码,换算过来就是6万行代码。如果是一本书就是150万个词以内,都可以一次性和Gemini互动。网上有些老师把自己的上课的视频拖给Gemini,可以很快速的生成试题。如果是使用网站视频,它有一个独一无二的优点,就是可以把YouTube的URL直接输给它,用户不用再去下载视频分析它。

在构建模型的环节里,围绕预训练的模型,很多时候在具体B端应用中发现,有些客户想稍微地微调一下输出的风格。比如我们有一个来自金融财经网站的客户,它希望在新闻稿底下的一个评论使用总监的风格。用了其他大模型以后,发现和人工写的评论差异很大,后来给了我们十几篇评论的内容,让大模型微调一下。这个微调的成本非常低,这是业内普遍用的技术叫 LoRA,因为参数量非常小,推理的成本和原来基座模型的成本一样,但是通过微调之后,可以适配到具体的业务需求。在另一个业务场景里也可以微调另外一个基座模型,在不同的业务场景里,都有属于自己的Gemini模型。而且我们的微调相对于业界,在原生多模态的能力上有文字、图像、语音,当然我们对大的视频平台客户开放了私有化的预览,甚至对视频的内容也可以做LoRA的微调。

Imagen3模型的能力很多,除了文生图,还可以对图片做扩图、缩图,或者在图上做编辑。以及它最大的能力就是生成文字,它在文字生成上的质量非常高。其他的一些细节就是比如修图、扩图,以及手机用户可以把图片不需要的内容擦除。还有一个功能就是定制化,风格迁移。比如我拿自己的大头照和提供一段提示词,就可以生成属于自己风格的图片,或者简单地画一个简笔画,让它生成真实的图片。

Veo模型则可以生成非常逼真的视频,比如拿图片输入,它就会生成6秒的动图。这个动图可以不停地扩展,但是为了保持形象的一致性,现在的功能是每扩展一次增加6秒,在最后可以非常高效地生成一些带剧情的视频。

最后我们讲 Agent Builder 模块,我举几个例子,主要是接地的能力非常重要。比如问今天的天气,它会从谷歌搜索找到最权威的结果。如果需要一些金融类第三方权威的数据,我们和穆迪、明晟等平台直接对接并可以采集他们的权威数据集。我具体做了一个示例,就是怎么样建立Agent,需要做的输入是在 Agent Builder 入口界面写上一段文字,可以和机器人很礼貌地互动一下。我问Gemini之前一代的模型叫 PaLM(Pathways Language Model),我问它:What’s PaLM?我用我自己的DataStore给它接了一个地,所以它会从接地里找到PaLM的技术报告或者论文里找出具体的答案,总结出来并生成。如果用户问的问题是关于人工智能的,可以塞入想阅读的论文,只要把它们塞到DataStore,就可以通过询问来了解某一个技术,同时用户可以不停地更新DataStore。比如我的一个客户,问什么是MLOps?它就会回答谷歌云官方的文档,网页上有的内容,所以会自动跳转到网页的 playbook,playbook里设的是解答所有谷歌云上技术问题的答案,但它又总结了新的答案,这次和上次的变化在于走了不同的路径,之所以这样实现,因为我在这个地方加了一条,如果问的问题和MLOps 相关的,就把它切到Webplaybook里操作。如果用户问的问题不是人工智能,也不是 MLOps,比如美国的建国时间等基础知识,大模型会将基于互联网的知识压缩到参数里,可以实现直接回答。所以,用户通过非常简单地输入几段话来建立一个Agent,就可以解决大多数的业务场景。

另外,当我们把一堆论文塞到DataStore里,不一定在 Agent Builder 里,比如我问大语言模型论文,把这堆论文里的观点列一个对比表,就会快速的生成对应格式的表格,而且把论文的编号列出,可以直接让它帮助我们解析论文里的内容。大家可能听到更多的是RAG的解决,但它相对复杂,如果用的是 Agent Builder,就是开箱即用,很方便实现同样功能的服务。如果大家要建RAG,也可以到我们的平台上做。我们的平台调用工具是多模态的,实现差异化的能力支持。

最后是我们明年年初会在深圳举行非常重大的 Google Cloud 出海峰会。大家感兴趣的话可以持续关注我们的活动,谢谢!

 


 

直播回顾:2024前海数据经济论坛

扫码进入直播回顾