开始掌管Gemini 重返谷歌的Transformer AI

作者： 2024年08月23日创投浏览

机器之心报道

机器之心部

本月初，初创公司 Character.AI 宣布了一则重磅消息，约 25 亿美元「卖身」谷歌，并授予谷歌获得 Character.AI 大型语言模型（LLM）技术的非独家许可。

Character.AI 的联合创始人 Noam Shazeer 和 Daniel De Freitas 也将重返谷歌。其中，Noam Shazeer 是 Character.AI 的创始人、CEO，也是 Transformer 论文之一，他曾在谷歌任首席软件工程师。而 Daniel De Freitas 是 Character.AI 的总裁，曾在谷歌担任高级软件工程师。

Daniel de Freitas（左）和 Noam Shazeer。

最新消息，据 The Information 媒体报道，重返谷歌的 Noam Shazeer 有了新职位，将担任谷歌最重要的人工智能计划 Gemini 的联合技术负责人。

根据领英资料显示， Shazeer 今年八月入职谷歌，在不到一个月的时间里，已经被谷歌委任了非常重要的职位。

Shazeer 将与 Google DeepMind 首席科学家 Jeff Dean 和深度学习团队的负责人 Oriol Vinyals 展开合作，全力构建 Gemini ，这一项目被谷歌视为与 OpenAI 的 GPT 系列模型展开竞争的关键。

去年四月，谷歌宣布将 Google Brain 和 DeepMind 进行合并，成立名为 Google DeepMind 的新部门。Demis Hassabis 担任 Google DeepMind 的 CEO；Google Brain 联合创始人之一 Jeff Dean 担任 Google Research 和 Google DeepMind 的首席科学家。

Gemini 就是一款由 Hassabis 领导的部门开发的聊天机器人，也是谷歌迄今为止展示其能够赶上 ChatGPT 的最佳机会。谷歌也在多款消费产品中集成了 Gemini，并向开发者出售访问权限。

今年四月，据 The Information 消息，Gemini 团队直接负责人就有 36 位，不过有些人已经选择离开，或加入 OpenAI 或创办初创公司。

对于 Shazeer 回归，有人表示这是谷歌花了一大笔钱又把 Noam Shazeer 请回来了。

Noam Shazeer 简介

Noam Shazeer 是谷歌最重要的早期员工之一。他在 2000 年底加入谷歌，曾在谷歌担任首席软件工程师，负责过早期广告系统。

2017 年，Transformer 架构横空出世，Noam Shazeer 是 Transformer 论文《Attention is All You Need》的八位之一。Noam Shazeer 根据自己的想法，重新编写了整个项目的代码，把整个系统提升到了一个新的水平。

2021 年，Noam Shazeer 因对谷歌这家搜索巨头的官僚主义感到失望而离开谷歌，并创办了 Character.AI。

Character.AI 创始人除了 Noam Shazeer，还有一位是 Daniel De Freitas，他们都来自谷歌的 LaMDA 团队。此前，他们在谷歌构建了支持对话程序的语言模型 LaMDA。

https://www.theinformation.com/briefings/google-makes-former-character-ai-ceo-shazeer-a-co-leader-of-gemini-ai?rc=ks2jbm

谷歌大语言模型 Gemini 解读和实践

本文深入解析谷歌大语言模型 Gemini 的能力与实践。首先，我们从 Gemini 的震撼视频 demo 出发，分析了其强大的 multimodal prompting 技巧与技术实现。接着，我们探讨了 Gemini 与 GPT4 的对比，揭示了 demo 中展示能力的实现细节与剪辑策略。在解析部分，我们通过具体的 demo 片段，拆解了 Gemini 在视觉谜题、石头剪刀布、空间感知与逻辑推理、生成图片等场景中的实际步骤。例如，在视觉谜题中，Gemini 实际通过人工挑选的静态图片和文本提示完成任务，而非直接与视频和语音实时交互。石头剪刀布示例展示了 Gemini 通过静态图片理解游戏，但 demo 中对 prompt 的剪辑使交互更加高效。空间感知与逻辑推理展示了 Gemini 对图片顺序的感知和推理能力，而生成图片则涉及零样本推理。接下来，我们对 Gemini 的技术实现进行总结。 Gemini 基于 Transformer Decoder 结构，采用 multi-query attention 优化计算效率，支持原始多模态输入与图片生成。训练数据量级基于 scaling law 推导，分为模型结构、多模态对齐、训练数据和能力评测四个部分进行深入分析。在 Gemini 与 GPT4 的对比中，我们探讨了人相关问题的回答策略，如 Gemini 对于人物图像的直接拒绝与 GPT4 的相关性回答。在数数困难症问题上，Gemini 提供了详细的计算过程，而 GPT4 则给出了简明的答案。通过这些对比，我们能更直观地理解 Gemini 的真实能力与与 GPT4 的差异。总结而言，Gemini 的能力在多个模态任务中展现出强大的表现，特别是在多模态交互、逻辑推理与生成任务方面。然而，与 GPT4 的实际应用效果比较，还需要更多实践验证。整体来看，Gemini 确实超越了 GPT-3.5，但与 GPT-4 的具体优势需通过实际应用进一步探讨。

谷歌联合创始人布林亲自“拯救”Gemini口碑：承认内部测试不充分，称问题改善了至少80%

谷歌联合创始人布林亲证AI革新：Gemini模型的新生与挑战

在一场盛大的黑客马拉松活动中，谷歌联合创始人谢尔盖·布林坦诚面对Gemini 1.5模型在种族问题测试中的失误，他揭示了内部测试的不足导致的意外结果。然而，这并不妨碍他对AI的坚定信念，尤其是其在提升编程效率和安全性方面的潜力。布林强调，Gemini API的价格保持稳定，模型的推理优化和小模型效率得到了显著提升，为广告定制和特定行业应用开辟了新的可能。

他表示，Gemini 1.5 Pro虽未公开，但已在红队测试中遭遇极端情况。视频聊天项目，尽管布林保持乐观，但他并未透露具体名称。 AI在编程领域的应用中，他个人已体验到AI编写代码的便捷，而在游戏领域，AI展现出了图形增强和智能NPC的广阔前景。

挖掘AI潜力，挑战与机遇并存

布林期待AI在长上下文试验中的突破，特别是在代码识别和视频聊天bug的检测上。他强调理解模型的工作原理，尽管进展缓慢，但聚焦于探寻失败原因。 AI的“反射式编程”和“递归自我完善”概念令人振奋，尽管目前局限在特定领域，但大模型的高成本背后是长远的效益，比如节省大量开发时间，AI已能在手机等设备上高效运行。

Gemini模型作为开源项目，其小而高效的特性使其成为离线应用的理想选择，尤其在客户服务和文档分析等行业。布林透露，Gemini的低成本和高效性可能会保持，未来的低价策略得益于模型的优化和规模的精简。 AI在医疗保健和生物技术中的应用，如药物发现和个性化医疗，展现出强大的潜力。

Transformer架构虽是主流，但非Transformer的创新和稀疏化技术同样值得关注。布林反思了Transformer在推理上的局限，指出现实可能并未完全达到理论设想。借鉴Google AR眼镜的教训，未来可能扩展AI至3D和空间计算，实现不同产品间的协同效应。

模态融合开启新世界

Gemini团队正在尝试融合理解模型，这可能带来意想不到的新奇体验。然而，AI的“幻觉”能力引发的伦理问题，如假信息传播，需要谨慎对待。减少AI错误、确保生成内容的真实性，是布林团队的重要目标。

AI对程序员的影响深远，编程可能成为最具挑战的任务，但同时AI的引入有望提高代码安全性，但也可能带来过度依赖的问题。人形机器人领域投资需审慎，软件与AI的同步发展是未来的重点。

广告行业的收入模式正在演变，个性化广告凭借AI的力量成为可能，关键在于创造真正的用户价值。在Google搜索上，深度信息处理的能力将引领搜索的未来。

AI的个人关注领域：探索未知与挑战

对于那些前沿问题，如延年益寿，AI或许能提出新的假设，如AlphaFold在蛋白质结构解析上的突破。虽然在处理复杂系统上可能展现潜力，但在热门问题上，AI的优势可能并不明显，但这正是AI创新的驱动力所在。

大模型MoE技术深度解读,引领AI走向新高度

大模型MoE技术的崛起，引领AI迈向新高度。它源自上世纪的集成学习思想，通过构建由众多独立网络组成的系统，每个网络针对数据子集进行高效处理，共同构成一个动态且精准的解决方案。 MoE的核心是“集思广益”，通过整合众多专家网络，每个专家处理数据的不同层面，提升整体性能和预测的灵活性。 MoE的核心组成部分包括智能门控网络和众多专家网络。这些专家网络如神经网络，针对特定任务进行训练，形成高效的信息处理能力。每个输入数据被转化为高维向量，专家模型能从中洞察模式，确保处理多样化任务时的高效。门控网络作为决策者，动态选择并融合专家的建议，实现精准预测。 MoE模型的实现，如Switch Transformer，通过混合专家模型层，融合了多专家的专长，显著提升决策和预测的准确度。其训练特点在于专家模型的广泛适用性，联合训练优化了门控网络，指令调优则针对不同任务进行精细化微调。在实际应用中，MoE已经广泛用于大型语言模型、强化学习和个性化推荐系统，例如，谷歌的Gemini 1.5和Mixtral 8x7B展示了MoE架构在模型效率和性能上的显著优势。通过MoE，AI技术正在以前所未有的方式解决复杂问题。要亲身体验MoE，可以尝试用TensorFlow/Keras构建基础模型，通过定义专家模型、门控网络和MoE函数，来体验这种集成学习的威力。在未来的AI发展中，MoE无疑将继续扮演重要角色，推动技术进步和应用创新。