出任Gemini联合技术主管!
这就是Transformer“贡献最大” Noam Shazeer (诺姆·沙泽尔),重返谷歌后的最新动向。
据The Information的更多爆料,Shazeer将与谷歌AI主管和DeepMind首席科学家 Oriol Vinyals ,一起致力于Gemini的开发。
而Gemini作为直接与OpenAI的GPT模型对标的项目,随着Transformer原的回归,这场battle可以说是越发的热闹了起来。
被谷歌“打包回收”
其实在这次爆料之前,谷歌在本月初已经做了一件 “壕横” 的收购——
打包带走明星AI独角兽 Character.AI 的核心团队。
其中就包括两位创始人,Noam Shazeer和Daniel De Freitas。
谷歌当时开出的价格足足 25亿美元 (约179亿元),远高于Character.AI 10亿美元的估值。
虽然Character.AI大部分团队留下来继续构建Character.AI产品,但网友们还是发现了华点:
而Shazeer与谷歌的渊源还要追溯到更早。
2021年,Shazeer离开谷歌和同事Freitas创办了Character.AI。
还在谷歌时,他俩主要负责构建,这是一种用于AI对话的语言模型。
Shazeer更是Transformer八位之一,还被公认为“贡献最大”——
他根据自己的想法,重新编写了整个项目代码,把系统提升到了新的水平,使得Transformer项目“拉开了冲刺的序幕”。
而创办Character.AI,主要也是想进一步研究更加个性化的超级智能。
这不,经过两年多发展,Character.AI以“各式各样的AI角色”攒了2000多万用户。
创始人背景和快速增长的流量吸引了投资者关注,2023年3月,Character.AI以10亿美元估值完成1.5亿美元融资,a16z领投,GitHub前CEO Nat Friedman、Elad Gil、A Capital 和 SV Angel参投。
不过在此之后,这家明星AI独角兽开始陷入困境:
这次融资4个月后,有消息传出Character.AI正在进行新一轮融资谈判,但后来再没有下文。
今年来,Character.AI更是频频传出融资不顺的消息。就在7月4日,Character.AI被曝考虑卖给谷歌和Meta。
而现如今,Character.AI的结果也算是变相的卖给了谷歌,毕竟连核心团队都被带走了。
AIGC公司的“通病”
如果仔细思考Character.AI结果的背后,其实还暗示着AIGC初创公司们的一些“通病”——
那就是 烧钱 和 缺钱 。
烧钱不难理解,毕竟训练大模型所需要的昂贵的算力,就让很多企业头疼不已,更不要提竞争之激烈,各个玩家都在紧锣密鼓更新迭代。
而缺钱,就是AIGC产品业务很 难变现 了。
和Character.AI上演“同款操作”的,还有 Inflection 、等。
微软给钱得到了Inflection的技术授权,而Inflection创始人携大部分员工直接加入微软,成立了一个新部门。
同样,亚马逊和另一家Transformer创办的初创公司Adept也有类似操作,还因此被美国联邦贸易委员会(FTC)调查了:这怕不是在通过技术授权的形式规避反垄断调查。
除此之外,还有创始人和核心团队通通跑路的 Stability AI ,AI搜索扛把子 Perplexity ……都有寻求收购的传闻流传坊间。
而最新的一个消息是,Perplexity宣布:
它的广告策略将采用 CPM(每千次展示费用)模式,据知情人士透露价格会超过50美元(约合人民币357元),初步展示的广告类别包括技术、健康和制药等领域。
这也让人不得不感慨,即使是AI搜索,在盈利模式上还是和传统搜索一样,都得靠广告。
参考链接:[1]https://www.theinformation.com/briefings/google-makes-former-character-ai-ceo-shazeer-a-co-leader-of-gemini-ai[2]https://breakingthenews.net/Article/Google-allegedly-appoints-ex-CEO-of-Character.AI-as-Gemini-co-head/62609805[3]https://x.com/erinkwoo/status/1826760171479334999
gemini上线时间
2023年12月6日。 根据谷歌DeepMindCEODemisHassabis的宣布,Gemini1.0于2023年12月6日正式上线。 Gemini是谷歌最大的人工智能模型,采用了64个稀疏的Transformer块,拥有超过1.6万亿的参数,通过训练约5000亿个单词,并且使用了超过1.4万张GPU。
谷歌大语言模型 Gemini 解读和实践
本文深入解析谷歌大语言模型 Gemini 的能力与实践。 首先,我们从 Gemini 的震撼视频 demo 出发,分析了其强大的 multimodal prompting 技巧与技术实现。 接着,我们探讨了 Gemini 与 GPT4 的对比,揭示了 demo 中展示能力的实现细节与剪辑策略。 在解析部分,我们通过具体的 demo 片段,拆解了 Gemini 在视觉谜题、石头剪刀布、空间感知与逻辑推理、生成图片等场景中的实际步骤。 例如,在视觉谜题中,Gemini 实际通过人工挑选的静态图片和文本提示完成任务,而非直接与视频和语音实时交互。 石头剪刀布示例展示了 Gemini 通过静态图片理解游戏,但 demo 中对 prompt 的剪辑使交互更加高效。 空间感知与逻辑推理展示了 Gemini 对图片顺序的感知和推理能力,而生成图片则涉及零样本推理。 接下来,我们对 Gemini 的技术实现进行总结。 Gemini 基于 Transformer Decoder 结构,采用 multi-query attention 优化计算效率,支持原始多模态输入与图片生成。 训练数据量级基于 scaling law 推导,分为模型结构、多模态对齐、训练数据和能力评测四个部分进行深入分析。 在 Gemini 与 GPT4 的对比中,我们探讨了人相关问题的回答策略,如 Gemini 对于人物图像的直接拒绝与 GPT4 的相关性回答。 在数数困难症问题上,Gemini 提供了详细的计算过程,而 GPT4 则给出了简明的答案。 通过这些对比,我们能更直观地理解 Gemini 的真实能力与与 GPT4 的差异。 总结而言,Gemini 的能力在多个模态任务中展现出强大的表现,特别是在多模态交互、逻辑推理与生成任务方面。 然而,与 GPT4 的实际应用效果比较,还需要更多实践验证。 整体来看,Gemini 确实超越了 GPT-3.5,但与 GPT-4 的具体优势需通过实际应用进一步探讨。