贡献最大重返谷歌负责Gemini Transformer

作者： 2024年08月23日直播浏览

出任Gemini联合技术主管！

这就是Transformer“贡献最大” Noam Shazeer （诺姆·沙泽尔），重返谷歌后的最新动向。

据The Information的更多爆料，Shazeer将与谷歌AI主管和DeepMind首席科学家 Oriol Vinyals ，一起致力于Gemini的开发。

而Gemini作为直接与OpenAI的GPT模型对标的项目，随着Transformer原的回归，这场battle可以说是越发的热闹了起来。

被谷歌“打包回收”

其实在这次爆料之前，谷歌在本月初已经做了一件 “壕横” 的收购——

打包带走明星AI独角兽 Character.AI 的核心团队。

其中就包括两位创始人，Noam Shazeer和Daniel De Freitas。

谷歌当时开出的价格足足 25亿美元 （约179亿元），远高于Character.AI 10亿美元的估值。

虽然Character.AI大部分团队留下来继续构建Character.AI产品，但网友们还是发现了华点：

而Shazeer与谷歌的渊源还要追溯到更早。

2021年，Shazeer离开谷歌和同事Freitas创办了Character.AI。

还在谷歌时，他俩主要负责构建，这是一种用于AI对话的语言模型。

Shazeer更是Transformer八位之一，还被公认为“贡献最大”——

他根据自己的想法，重新编写了整个项目代码，把系统提升到了新的水平，使得Transformer项目“拉开了冲刺的序幕”。

而创办Character.AI，主要也是想进一步研究更加个性化的超级智能。

这不，经过两年多发展，Character.AI以“各式各样的AI角色”攒了2000多万用户。

创始人背景和快速增长的流量吸引了投资者关注，2023年3月，Character.AI以10亿美元估值完成1.5亿美元融资，a16z领投，GitHub前CEO Nat Friedman、Elad Gil、A Capital 和 SV Angel参投。

不过在此之后，这家明星AI独角兽开始陷入困境：

这次融资4个月后，有消息传出Character.AI正在进行新一轮融资谈判，但后来再没有下文。

今年来，Character.AI更是频频传出融资不顺的消息。就在7月4日，Character.AI被曝考虑卖给谷歌和Meta。

而现如今，Character.AI的结果也算是变相的卖给了谷歌，毕竟连核心团队都被带走了。

AIGC公司的“通病”

如果仔细思考Character.AI结果的背后，其实还暗示着AIGC初创公司们的一些“通病”——

那就是烧钱和缺钱。

烧钱不难理解，毕竟训练大模型所需要的昂贵的算力，就让很多企业头疼不已，更不要提竞争之激烈，各个玩家都在紧锣密鼓更新迭代。

而缺钱，就是AIGC产品业务很 难变现 了。

和Character.AI上演“同款操作”的，还有 Inflection 、等。

微软给钱得到了Inflection的技术授权，而Inflection创始人携大部分员工直接加入微软，成立了一个新部门。

同样，亚马逊和另一家Transformer创办的初创公司Adept也有类似操作，还因此被美国联邦贸易委员会（FTC）调查了：这怕不是在通过技术授权的形式规避反垄断调查。

除此之外，还有创始人和核心团队通通跑路的 Stability AI ，AI搜索扛把子 Perplexity ……都有寻求收购的传闻流传坊间。

而最新的一个消息是，Perplexity宣布：

它的广告策略将采用 CPM（每千次展示费用）模式，据知情人士透露价格会超过50美元（约合人民币357元），初步展示的广告类别包括技术、健康和制药等领域。

这也让人不得不感慨，即使是AI搜索，在盈利模式上还是和传统搜索一样，都得靠广告。

参考链接：[1]https://www.theinformation.com/briefings/google-makes-former-character-ai-ceo-shazeer-a-co-leader-of-gemini-ai[2]https://breakingthenews.net/Article/Google-allegedly-appoints-ex-CEO-of-Character.AI-as-Gemini-co-head/62609805[3]https://x.com/erinkwoo/status/1826760171479334999

gemini上线时间

2023年12月6日。根据谷歌DeepMindCEODemisHassabis的宣布，Gemini1.0于2023年12月6日正式上线。 Gemini是谷歌最大的人工智能模型，采用了64个稀疏的Transformer块，拥有超过1.6万亿的参数，通过训练约5000亿个单词，并且使用了超过1.4万张GPU。

谷歌大语言模型 Gemini 解读和实践

本文深入解析谷歌大语言模型 Gemini 的能力与实践。首先，我们从 Gemini 的震撼视频 demo 出发，分析了其强大的 multimodal prompting 技巧与技术实现。接着，我们探讨了 Gemini 与 GPT4 的对比，揭示了 demo 中展示能力的实现细节与剪辑策略。在解析部分，我们通过具体的 demo 片段，拆解了 Gemini 在视觉谜题、石头剪刀布、空间感知与逻辑推理、生成图片等场景中的实际步骤。例如，在视觉谜题中，Gemini 实际通过人工挑选的静态图片和文本提示完成任务，而非直接与视频和语音实时交互。石头剪刀布示例展示了 Gemini 通过静态图片理解游戏，但 demo 中对 prompt 的剪辑使交互更加高效。空间感知与逻辑推理展示了 Gemini 对图片顺序的感知和推理能力，而生成图片则涉及零样本推理。接下来，我们对 Gemini 的技术实现进行总结。 Gemini 基于 Transformer Decoder 结构，采用 multi-query attention 优化计算效率，支持原始多模态输入与图片生成。训练数据量级基于 scaling law 推导，分为模型结构、多模态对齐、训练数据和能力评测四个部分进行深入分析。在 Gemini 与 GPT4 的对比中，我们探讨了人相关问题的回答策略，如 Gemini 对于人物图像的直接拒绝与 GPT4 的相关性回答。在数数困难症问题上，Gemini 提供了详细的计算过程，而 GPT4 则给出了简明的答案。通过这些对比，我们能更直观地理解 Gemini 的真实能力与与 GPT4 的差异。总结而言，Gemini 的能力在多个模态任务中展现出强大的表现，特别是在多模态交互、逻辑推理与生成任务方面。然而，与 GPT4 的实际应用效果比较，还需要更多实践验证。整体来看，Gemini 确实超越了 GPT-3.5，但与 GPT-4 的具体优势需通过实际应用进一步探讨。