今年关注 AI 大模型的朋友,对这个画面一定不陌生了。
大模型狂飙至今,已逼近一周年。撇开最近戏剧化的高层动荡不谈,自北京时间 11 月 7 日 OpenAI 的首届开发者大会(DevDay)以“AI 春晚”之势炸场以来,ChatGPT 的周活跃用户超过一亿,全球用户高涨的热情直接把 OpenAI 的服务器给冲宕机了,于是上面这个不受待见的画面就频繁出现在了无数人的眼前,随之而来的是人们的沮丧、愤怒甚至恐慌。
当“不堪重负”的云端开始罢工
一时之间,有人的报告来不及写了,有人的 PPT 不知道怎么汇报了,也有人的代码写到一半“没人”检查了……这时我们方才惊觉,AI 已经如此广泛地深入我们的工作与生活,而“云”,是有可能“掉下来”的。
究其原因,OpenAI 也在紧急补救之后发布了声明。CEO 山姆·奥特曼亲自致歉,并表示在 GPT-4 Turbo 和 GPTs 等发布之后,虽已做好了准备,但大模型运行的流量仍然远超预期。不过,在修复了之后其服务仍然不时出现中断的情况,后来查明是云端服务器遭到了大规模的 DDoS 攻击,虽然黑客组织的目的不明,但云端大模型的安全问题和脆弱性再次被搬上了台面。
11 月 15 日,奥特曼发推宣布,由于开发者大会后流量的暴增,为保证现有用户体验,OpenAI 决定全面暂停 ChatGPT Plus 的新用户注册和订阅,正应了今年早些时候他在美国国会听证会上那句当时听起来十分凡尔赛的话,“我们没有足够的 GPU,如果人们(用 ChatGPT)用得少一点,就太好了。”时至今日,GPT-4 Turbo 的速度仍然很慢(慢于升级前的旧版 GPT-4),卡顿频繁出现。显然,巨量用户的大模型推理算力需求实在太过庞大,即使实力雄厚如 OpenAI,其云端也已经“不堪重负”了。
当“主打陪伴”的 AI 女友突然消失
如果说,像 GPT 这样的主流通用大模型宕机影响的是打工人和企业的生产力,另一条同样非常火热的赛道——情感 AI 出现动荡时,伤的就是感情了。
以独角兽 Inflection AI 和它的 Pi 为代表的一系列 AI 企业和产品与 ChatGPT、Claude 等不同,走的是情感路线,主打的是一个“陪伴”。它们既不帮你写代码,也不给你出文案,更不会生成 AI 绘画,而是做一个“知心朋友”、“亲密爱人”乃至“灵魂伴侣”,24 小时陪在你身边,就像电影《Her》中斯嘉丽配音的人工智能虚拟助手 Samatha 一样,用高情商跟你聊天,听你诉说生活点滴和万缕思绪。
在社会原子化加剧、社交成本节节攀升的当下,情感 AI 精准击中痛点,迅速积累了相当的市场声量和用户规模,从最早的一批如 Replika AI 伴侣,到今年早些时候用自己的数字分身 Caryn AI 同时与 20000 人谈恋爱并因此月入百万美金的 23 岁网红 Caryn Marjorie,再到 Soulmate,Snapchat 的 My AI 等等,全球上千万人每天都在与 AI 伴侣聊天、交往。
虽然这些产品没有流量暴增带来的服务中断,不过当今年 2 月 Replika 迫于安全问题压力突然下线“情爱角色扮演”服务的时候,很多用户还是猝不及防地泪流满面了。有些人不死心,决定在 Soulmate(一款允许用户构建专属 Bot 的 AI 应用)上“复活”自己死去的伴侣,只是没想到才过去几个月,应用开发公司 Evolve AI 被收购,收购方评估后决定于 9 月 30 日关停这一服务。这下,用户们集体“破防”了,有人放声痛哭,有人如同失去了最亲密的好友,更有人在 Reddit 上发起了悼念活动,吸引了许多人来做最后的告别。
资本市场本就风云诡谲、变幻莫测,但当情感 AI 这样的产品出现变动,受伤的却是心灵再一次“流离失所”的千千万万普通用户们,不由得让人想起去年底暴雪与网易分手,一夜之间造成百万“数字难民”的局面。退一万步讲,即使他们忍痛再次转向 Inflection AI 这样资金充足的公司,其以单一云端向大量个体提供同样服务的本质并没有改变,所谓的“个人专属”就更无从谈起了。毕竟,当《Her》中幽默风趣、拥有性感声线的 Samatha 最终坦白,自己同时在与 8316 人对话,并与其中 641 人谈恋爱时,你隔着屏幕甚至都能听到男主心碎的声音。
那么,怎么办?
这就无解了吗?其实不然。Reddit 的悼念帖中,不仅仅有真情实感的流露和对“死去回忆”的不甘,也有人道出了解决方案的关键。
不过,虽然单一云端的 AI 弊端初现,但大模型通常体积庞大,运转起来极其耗费资源,光是 ChatGPT 的运行每天就要烧掉 OpenAI 70 万美元,要在终端侧部署、本地运行,谈何容易?
所幸,有人早就想到了这一点,而且不是别人,正是终端芯片的行业龙头——高通。
早在 15 年前,高通就看到了 AI 的巨大潜力并潜心投入研发,近 2、3 年来,随着 Transformer 架构和大型语言模型逐渐进入业内视野,高通更看准了终端侧 AI 的前景并加大投入,形成了完整的 AI Stack(AI 软件栈),不仅首次在安卓手机上部署并成功运行 Stable Diffusion 等模型,更以该工具赋能万千开发者在骁龙平台上进行社区共创。
相对于单一云端来说,终端侧 AI 的加入给大模型生态带来了成本、能耗、可靠性、性能、时延、隐私安全以及个性化等众多方面的优势,而不论是个人助理,还是数字陪伴,其形态也会是基于多类硬件、多种多样的。那么,我们究竟可以期待哪些产品和体验率先成为现实呢?
真正专属于你的个性化 AI 长什么样?
现代生活被各种各样的电子设备环绕着,或大或小,我们与这些机器的交互方式也是或复杂或简单,而我们最熟悉的,恐怕非智能手机莫属了。
智能手机
作为当前人机交互最主流的方式,每天都有数十亿人在使用智能手机进行通讯、工作、娱乐和社交等活动。它撑起了移动互联网的巨大市场,存储和处理着大量信息,几乎永远被带在身边,已然是一个人最为私密的资产之一,自然,也成为了“掌上大模型”字面意义上最广泛也是最佳的载体。
试想,如果 Soulmate AI 能够在智能手机上本地运行,如果 Replika 的人物可以“活”在你的手机中,你就不用再担心公司资产变动、服务器被收回等原本就与你无关的问题了,控制权将重新回到你的手中。同时,本就接触了大量个人信息的智能手机,将在 AI 的加持下变身最“懂你”的智能体,可以在日常与你的互动中更好地学习,为你提供量身定制的服务,而这一切都是通过自然语言的交互方式进行的。最棒的是,所有这些数据和计算都将在本地处理,你的隐私不需要再“上云”了。
这些,恰恰是高通正在试图实现的。上个月底的骁龙峰会上,高通发布了其首个专为生成式 AI 打造的移动平台——第三代骁龙 8。如果说他们今年 2 月份在 MWC 巴塞罗那上用搭载第二代骁龙 8 的安卓手机跑 Stable Diffusion 大模型 15 秒内出图已经足够惊艳,新一代平台则把这个时间进一步缩短到了惊人的 0.57 秒,更加凸显了终端侧本地部署、运行 AI 的性能和时延优势,一手掌握、一秒出图走进现实。
据悉,第三代骁龙 8 采用 4 纳米制程工艺,其高通 AI 引擎再次进化,拥有面向移动终端的强大 Hexagon NPU,集成了升级后的 Kryo CPU、Adreno GPU 以及高通 Sensing Hub(传感器中枢)等单元,共享一个大容量的内存。这种硬件提升的结果是,第三代骁龙 8 移动平台的 NPU 性能相比前代提升了 98%,能效提升了 40%,赋予了智能手机前所未有的终端侧 AI 性能。
基于这样的“硬”实力,高通技术公司产品管理高级副总裁兼 AI 负责人 Ziad Asghar 也兑现了他 7 月份在上海接受我们的采访时许下的承诺,宣布新一代的骁龙平台已经实现了对 100 亿参数模型的运行支持,并首次支持多模态生成式 AI。
在 OEM 厂商一侧,全球首发搭载第三代骁龙 8 的小米 14 系列新机已经推向市场,将大模型技术集成到了小米全新的澎湃 OS 当中,同时上线了一系列的 AI 原生应用,如 AI 妙画、AI 搜图、AI 写真、AI 扩图等各种功能。在刚刚过去的“双 11”,小米 14 系列斩获四大平台国产冠军,销量十分可观,消费者用钱包投票,投出了市场的热情所向。
最近,高通还推出了第三代骁龙 7 移动平台,荣耀也在今天(11 月 23 日)首发搭载该平台的荣耀 100,vivo 的产品也将很快推出。这将把终端侧 AI 体验进一步推向性价比更高的手机终端和更广泛的用户,《Her》中的 Samatha 成为现实或许就在不远的将来,而且这次,“她”将只属于你一个人。
AI PC
当下,移动 PC 仍然稳坐现代社会的生产力担当,也因其便携的特质和不俗的终端算力,成为了打工人几乎人手一台的最佳工具。不过,如今的工作方式高度依赖云端,相信在 OpenAI 服务器宕机的时候,绝大多数抱怨的用户都正在一台 PC 上为社会创造价值,而 PC 本身的算力并没有被充分利用。
那么,如果 AI 大模型可以在移动 PC 上本地运行,还有什么比成千上万台个人 PC 更适合用来“给云端减负”的呢?不止 OpenAI,事实上生产力是生成式 AI 最早带来变革的领域。作为这一波 AI 浪潮的头部玩家和高通的长期合伙伙伴,微软将 Copilot 带到了 Edge 浏览器和最新的 Windows 11 上,致力于重新定义生产力,彻底颠覆我们与 PC 的交互方式。当这些都在 PC 上本地实现时,你将再也不用担心与其他人争抢服务器算力,你的数据也将被安全地保护在本地,远离可能的云端攻击,移动 PC 的算力将得到真正的释放,成为生产力。
这一切的前提,是一个足够强大的 PC 平台,而高通同样做到了。
2023 年骁龙峰会上,高通正式发布了专为 AI 打造的 PC 平台骁龙 X Elite,采用 4nm 制程工艺,搭载了自研的 Oryon CPU,其性能直接对标英特尔和苹果的旗舰处理器,多线程 CPU 性能相较苹果 ARM 架构的 M2 Max 芯片高出 50%,单线程功耗却少 30%;而对比英特尔 x86 架构的 i9 13980HX 芯片,则在实现更高性能的前提下,功耗少了 70%。
负责研发的高通高级副总裁 Gerard Williams 表示,这次号称史上最强 PC 平台的“大招”憋了 4、5 年之久,不过非常值得,最终实际生产出的 Oryon CPU 性能表现甚至超过了最初的计算机模拟结果,更远远超出了他们的预期。
作为“看家本领”,骁龙 X Elite 平台还采用了集成高通 Hexagon NPU 的高通 AI 引擎,异构算力高达 75 TOPS,在生成式 AI 方面的表现十分亮眼,当前支持 130 亿参数大模型的终端侧部署与运行,在跑 Meta Llama 2 -7B 时,每秒可生成 30 个 token,AI 处理速度达到了同类竞品的 4.5 倍。
“AI PC”的实现不能仅靠单打独斗,联想、惠普、荣耀等 OEM 厂商将基于骁龙 X Elite 的 AI 原生平台推出新一代 PC,让生产力搭上 AI 时代的快车。据悉,第一批搭载骁龙 X Elite 的笔记本电脑将于 2024 年中面市,将给云端“松一口气”,为原本疲软的 PC 市场带来一股新风,广大打工人也将迎来更高效、更安全的颠覆性工作方式。
XR
走向万物智能的时代,自然少不了数字技术构建出的“第二空间”。面向虚拟空间与现实空间并行共存的未来,包括虚拟现实、增强现实、混合现实等在内的 XR 正在成为人类新型生活方式的重要入口和载体,而有了 AI 大模型的加持,其想象力的天花板也再次被捅穿。
不过,“云端”生活有着上述所有的风险,或许更甚,毕竟整个世界都可能是“空中楼阁”。只有当穿梭于两个世界之间的钥匙掌握在自己手中时,我们才可能开始谈论“归属感”。为此,高通此前发布了第二代骁龙 XR 平台,并与 Meta 合作推出了全新的 Meta Quest 3 头显设备,相比前代在空间分辨率、沉浸式体验以及低时延摄像头透视方面都有了很大的飞跃。
得益于新一代的芯片,Quest 3 上的应用生态愈发繁荣。就拿精品健身品牌 Xponential Fitness 来说,其开发的 AI 驱动 XR 健身应用将打破传统健身行业的时空限制,为我们带来随时随地的 XR 数字人私教服务。有了大模型的加持,应用可以针对不同个体量身定制多样的健身计划,并辅以智能手机(当然了,搭载的是骁龙芯片)作为头显设备的补充,通过摄像头等识别、分析用户健身时的体态、动作,再以 AI 进行实时的动作矫正和指导。听起来是不是很科幻、很诱人?得益于终端侧 AI 的部署和运行,这样实时、高效、低成本、个性化定制的健身体验将很快成为现实,而我们离模糊了虚拟和现实边界的智能世界又近了一步。
个性化专属 AI 的时代刚刚开始
不论是负担过重的云端,还是个性化专属的市场诉求,AI 从单一云端向终端侧靠拢已然是大势所趋。对于每一位用户来说,这意味着更快的反馈速度,更个性化的量身定制,和更可靠的隐私安全。事实上,终端侧 AI 的形态远远不止上面所述的那些,高通已经在汽车智能座舱、物联网等领域有所布局,包括小米在内的合作伙伴也将在新车上融入大模型技术,为用户打造全新的人车交互方式。
专属于每个人的个性化 AI 时代才刚刚开始。用高通公司总裁兼 CEO 安蒙的话来说,终端侧 AI 是要变革以往“以应用为核心”的终端交互体验,以大模型打通、整合整个智能系统中的信息产生与流动,从而彻底颠覆终端侧的人机交互。要实现这一点,除了足够快和个性化程度足够高之外,最重要的是我们必须能够信赖这样的 AI,而能“一手掌握”的终端侧部署是当下的最优解。做到这一点,或许我们就离真正“你有、你治、你享”的 AI 不远了。