你没读就签下的那份合同
每一次你把一个 prompt 发往云端,你都执行了一个微小的信仰之举。你相信对面那家公司下周还会存在。你相信你今天用的模型明天还会以同样的方式回应。你相信价格不会在你已经离不开它的时候翻三倍。你相信你的数据——你粘贴的那封邮件、你请它审阅的那份合同、你扔进对话框的那份医疗诊断——不会去训练竞争对手的模型、不会在一次事故里泄露、不会成为一纸司法传票里的证据。你没读那份合同。没人读。而那份合同可以在任何时刻被更改,且追溯既往,不会以任何对你有意义的方式通知你。
这就是 2026 年 AI 的真实架构。不是 transformer 和注意力机制的那套架构——那套是公开的,写在论文里。我说的是经济与政治的架构:一小撮公司控制着正在被缝进一切之中的认知基底。你的文本编辑器、你的邮件客户端、你的 IDE、你的病历、你的 CRM。智能不再是一个功能,它变成了基础设施。而基础设施,你不会向一个随时能切断供应的人去租。没有人会把工厂建在一张邻居一时兴起就能拉闸的电网上。
云向我们兜售了一份真实的便利,并为它收取了一个只有事后才看得见的价格。这个价格就是主权。而主权属于那种东西:你不会意识到自己已经失去它,直到你需要它的那一天——直到 API 改变使用政策的那一天,直到它弃用了你整个公司赖以为生的那个模型,或者干脆判定你的使用场景违反了那份在某个周二凌晨被重写的服务条款。
这种依赖不是意外,它就是商业模式
让我们对发生了什么说得精确些。当前这一代生成式 AI 诞生于云端,有一个正当的技术原因:训练和服务前沿模型需要谁家里都没有的 GPU 集群。这说得通。但起初出于必要的东西,变成了刻意的设计。AI 占主导地位的商业模式不是卖智能——而是按 token 计量地出租依赖。
想想这在结构上意味着什么。你的每一次交互都是一个计费事件。你每一次生产力的提升都变成别人的经常性收入。你的成功是他们的可变成本,而对按 token 收费者而言,最优的设计就是让你在没有 token 时无法运转。OpenAI、Anthropic、Google——所有人都有经济利益让你永远拿不到一个跑得足够好的本地替代品。这不是恶意。这是引力。当计费单位是消耗、护城河是无法退出时,任何理性的供应商都会这么做。
而 AI 的锁定(lock-in)比传统软件的锁定更深。当你依赖 AWS 时,你还能忍着痛迁移到 Google Cloud。基本单元是相似的:一台虚拟机就是一台虚拟机,一个存储桶就是一个存储桶。但对 AI 而言,锁定缠绕在行为周围。你把自己的 prompt 调校到了某个特定模型的脾气上。你在某种回应模式之上构建了评估。你的用户习惯了某一种声音。当供应商弃用那个模型时——他们确实会弃用,而且经常,因为服务旧版本代价高昂——你全部的 prompt 工程一夜之间变成垃圾。你重写一切。重跑测试。重新赢回用户的信任。切换成本不是技术性的,而是行为性的,正因如此它在你撞上它之前都是隐形的。
就在几年前曾有那么一刻,整间整间的创业公司被构建成 OpenAI 某个 API 之上的一层薄薄的封装(wrapper)。市场上那句玩笑既残忍又精准:"这是一个功能,不是一家公司。"没人用同样的坦率说出来的是,大多数大公司其实也变成了封装。只不过员工更多、可失去的更多。封装创业公司和大企业之间的区别,在于大企业要花更久才会发现:自己并不掌控自己产品里最核心的那个组件。
你真正失去的东西:延迟、成本、隐私、连续性
主权听起来很抽象,那我们就把它落到云依赖收取代价的四个具体维度上。
延迟。 每一次网络调用都有一个金钱买不到的物理下限:光速,以及互联网的拓扑结构。你的 prompt 离开你的机器,横跨国境或海洋,在某个数据中心排队,被处理,再返回。最好的情况是几百毫秒,真实情况是几秒,糟糕的情况是超时。对一次聊天而言,没问题——你读得慢。但 AI 正在不再是聊天。它正在变成那一层:在你打字时补全你的代码,实时转录你的会议,驱动一个为解决一个任务而发起上百次链式调用的智能体。当智能必须身处行动的循环之中时,网络延迟就不再是不便,而成为不可能。一个本地模型以你面前那块硅片的时间来回应,而不是以跨大西洋往返的时间。对于一切真正具有交互性的东西,这不是渐进式的改善——这是可行与不可行之间的区别。
成本。 每 token 的成本在下降,这是真的,云的拥护者一直拿这点说事。但云上每次推理的边际成本永远到不了零——按其构造它就不可能,因为那是一笔收入。在你自己机器上一次推理的边际成本,在你付清硬件之后,就是那块芯片消耗几秒钟的电费。趋近于零。这个区别彻底改变了哪些应用在经济上说得通。当每次推理都要花钱时,你会精打细算。你不会让一个智能体就一个问题思考一万次,因为账单吓人。当推理几乎免费时,你解放了一整批曾经贵到不可行的用途:持续索引你的所有文件,运行一个整天在后台思考的助手,让多个模型彼此交谈数小时来打磨一个回答。边际成本为零的经济学不是"更便宜"——它是一条不同的可能性边界。
隐私。 这是云话术的虚伪暴露得最赤裸的维度。"我们不用你的数据训练"是一句合同承诺,不是一项架构保证。这个区别意义重大。一句承诺可以被违背、被重新解读、因一桩收购而作废,或者干脆被一次安全事故捅穿。架构保证是指数据在物理上根本不离开你的机器——没有可泄露之物,因为根本没有传输。对个人而言,这是信任与无需信任之间的区别。对一家医院、一间律所、一家银行、一家受 LGPD 或 GDPR 约束的企业而言,这是能否在敏感数据上用 AI 的区别——根本意义上的能否。今天有整片整片的行业陷于瘫痪,不是因为缺好模型,而是因为把数据发给第三方在法律上不可能。本地 AI 对这些场景不是一个更差的版本——它是唯一存在的版本。
连续性。 这是被谈得最少、伤得最深的一个。AI 正在变成记忆。不只是工具——是记忆。它累积你的上下文,学习你的模式,接住你对话的线头,变成你认知的一种延伸,并随时间而愈发丰富。而这种连续性,如今,寄存在一台你并不掌控的服务器上。在那家公司换主、转向、破产,或者干脆决定终止那个产品的那一天,你的连续性蒸发了。你失去的不是一个 app。你失去的是你外化的心智的一块。我们已经见过这种事发生在那些消失的云服务身上,它们带走了多年的数据。而对 AI 来说,消失的不只是文件——是那段关系的连续性。运行在你机器上的智能,是唯一谁也无法远程关闭的智能。你所拥有的连续性,是唯一真实的连续性。
主权不是隐私——它是对决策层的权力
有人把这一切都简化为隐私,而隐私是最好卖的论点。但它是最不重要的论点。真正攸关的东西更根本:谁掌控决策层。
几十年来,计算在某种意义上是中立的:软件精确地执行你所下达的命令。一种愚蠢的确定性,但可预测,且属于你。AI 打破了这一点。它把判断引入了机器。它决定什么是相关的,什么是恰当的,什么要拒绝,如何来取景。而这个判断,是由造模型的人按照他们的价值观、监管压力和商业利益来训练和调校的——而那些不是你的。当这一判断层寄居于第三方的服务器上时,你已经把你自己一部分的辨识力外包给了一个有着自己议程的实体。
这已经是具体的了。云模型会拒绝正当的任务,因为一个为平均情况校准的安全过滤器觉得这可能出事。它们在版本之间改变行为,以一种你既不掌控也不被告知的方式。它们携带着内嵌的政治与文化偏见,折射出它们诞生的那个地方。对一次随意的聊天,无关紧要。对一个 AI 充当中介你决策的那一层的系统——你读什么,你写什么,什么在抵达你之前被过滤掉——谁来调校这个判断,是下一个十年的核心政治问题。AI 主权,归根结底,是认知主权。它是保留这样一种权利:你所用的智能服务于你的利益,而非供应商的利益。
各国比个人更早明白了这一点。这就是为什么国家层面正在掀起一场对"主权 AI"的竞逐——法国、印度、阿联酋,人人都想要自己的模型跑在自己的基础设施上。他们意识到,依赖另一个强权的认知层是一种附庸形式,它让对石油的依赖都显得无足轻重。对国家成立的,在尺度上也对企业和个人成立。AI 主权是分形的:同一个论点在每一个层级上重复——只要那里存在一个不愿把自己的辨识力向某个地主租来的能动者。
技术之窗已经打开——而大多数人没察觉
如果本地 AI 不管用,这一切就只是漂亮而无用的哲学。两年前,它确实不可行:能在一台笔记本上跑的模型是玩具,而管用的那些需要数据中心。主权的论点撞上了硬件的现实。这个论点已经死了。
三条曲线交汇了。第一:开放模型变好了。不是"作为免费货色还算好"——是好。今天能装进一台消费级机器内存里的模型,做的是一年半前云之前沿才能做的事。蒸馏、量化和更高效的架构以一种没人预见到的方式、以发生了的那种速度,把能力压缩了。一个只占几个 GB 的量化模型,推理、写代码、遵循指令的水平,放在不久前会像是科幻。
第二条曲线:消费级硬件变成了 AI 硬件。Apple 那些带统一内存的芯片让一台笔记本能加载从前需要服务器显卡的模型,因为 CPU、GPU 和神经引擎共享一个庞大的高速内存池。这最初并不是为本地 AI 设计的,但它被证明是为它而生的理想架构。而且不止 Apple——整个 PC 产业都在嵌入专用 NPU。你为工作买来的硬件,已经自带富余的推理用硅片,大部分时间空闲着,等着一个懂得用它的软件。
第三条曲线:软件层成熟了。在本地跑一个模型,不再需要一个 ML 工程的博士学位。运行时(runtime)把一切打了包,模型格式标准化了,安装的摩擦降到了装一个普通应用的水平。这三条曲线的组合意味着,本地优先的 AI 离开了"爱好者实验"那一类,进入了"站得住脚的架构决策"那一类。谁要是还觉得本地 AI 是个玩具,他看的是一张十八个月前的照片。
窗口现在就开着,这正是此刻之所以是此刻的原因。云公司比谁都更清楚这一点——这正是为什么它们抢着把 AI 嵌进一切,制造行为锁定,在本地替代品好到无法忽视之前把开发者拴在 API 上。这是一场与自身商品化的赛跑。而历史上,当能力被商品化时,价值会从组件迁移到掌控用户关系与数据的那一方——也就是说,迁回边缘,迁回那个人所拥有的机器。
诚实的张力:云不会死
我不会向你兜售一个非黑即白的未来,云是恶、本地是救赎。那会是不诚实的,而不诚实会削弱真正的论点。云的规模经济是真实而强大的,有整片整片的问题域是它取胜、且会继续取胜的。
训练前沿模型会继续是手握数十亿 GPU 者的事。这不会进笔记本,永远不会。那些确实需要尽可能大的模型的任务——最深的推理、最长的上下文、能力的绝对前沿——会继续跑在数据中心,因为当模型巨大无比时,计算的物理学偏爱集中。云还在另一种情况下取胜:当你需要野蛮的弹性时——不可预测的尖峰,从零冲到数百万再回落的负载。为你最糟的那一天配置本地硬件是浪费;租用那个尖峰是理性的。
因此,正确的问题不是"本地还是云"。而是"哪一次推理住在哪里"。而正在浮现的答案,是一种带着清晰引力原则的混合架构:默认是本地,云是有正当理由的例外。本地模型处理量——代码补全、转录、对你文件的语义搜索、整天思考的智能体,一切高频、敏感或延迟攸关的东西。云在那个特定任务超出本地硅片所能、且那个任务的数据可以正当地离开机器时,且仅在那时,介入。这颠倒了当前的默认值——当前因为架构上的懒惰,一切都去往云端,只有当有人为之奋斗时才留在本地。
这种颠倒就是全部要点。今天的默认是依赖,主权是需要努力的特例。本地优先的架构反其道而行:默认是主权,依赖是有意识的例外。你确切地知道哪个字节离开了你的机器、为什么离开,因为离开是你授权的那个例外,而不是那条隐形的规则。云的规模经济仍然存在——它只是不再因惯性而成为你整个计算生活栖居的地方。
当智能属于你时,什么改变了
让我具体地勾勒一下,当智能跑在你拥有的硬件上时,什么变得可能,因为正是在这里,论点从防守转为进攻。主权不只是避免损失。它是解锁那些云依赖使之成为不可能的东西。
一个对你无所不知的助手——你所有的文件、邮件、对话、你数字生活的全部历史——而这一切从不离开你的机器。在云上,这样的助手是一个隐私噩梦,没有哪家严肃的公司会去构建,也没有哪个谨慎的个人会去使用。在本地,它既简单又安全,因为你生活的索引从不触及别人的服务器。最亲密也最有用的那种 AI,恰恰是那种无法存在于云上的 AI。
会累积、谁也无法关闭的连续性。一份 AI 记忆,它随你生长多年,接住一切的上下文,变成你认知的一层——而它是你磁盘上的一个文件,你给它做备份、复制它、把它带到下一台机器、把它遗赠给身后。不是一台服务器上、可能在某次企业转向中消失的数据库。你的连续性变成你的一项资产,而非某个可被关闭的账户里的余额。
真正的离线运行,看似细节,实则不是。在飞机上,在野外,在信号糟糕的区域,在一场互联网中断的危机里。依赖云的 AI,正是在你最孤立、最需要它的时候抛弃你的那种 AI。住在你机器上的智能,在末日里管用,在地铁里管用,在海底光缆断裂时管用。韧性不是偏执狂的奢侈品——它是你认真对待的任何基础设施的基本属性。
而也许最重要的,是可组合性。当智能属于你、且在本地时,你可以动它。调校它、专门化它、把它接到你的数据上、与你的系统链起来、让它精确地做你需要的事,而无需向一份服务条款请求许可。云 AI 是一个 API 之后的黑箱,由那个 API 定义你能做什么、不能做什么。本地 AI 是一件你掌控的软件。租一辆引擎被封死的车,与拥有一台你能掀开引擎盖去改的机器,二者之间的区别,就是使用与拥有之间的区别。而谁拥有决策层,谁就拥有建在其上的未来。
即将到来的那个周期,不会由谁在最大的数据中心里拥有最大的模型来定义——那是正在终结的周期,极致集中化的周期。下一个是再分配的周期:好到足够的智能,跑得便宜到足够,跑在数十亿人已经揣在口袋里、背在书包里的硬件上。计算的历史是大型机与个人之间、集中与边缘之间的一个钟摆,而 AI 正在画出与大型机变成 PC、固定电话变成你手中那台机器时一模一样的弧线。它从集中开始,因为它不得不从那里开始。它不会以集中告终。智能会回到你的机器,不是因为这是一项高尚的事业,而是因为这是物理、经济和人类对主权的渴望共同推向的那个平衡点。问题不是这会不会发生。问题是当钟摆走完弧线时,你会不会正站在它正确的那一侧建设——还是仍在每个月,签下你自己心智的租约。
常见问题

创始人。系统构建者。信号阅读者。我每天都在理解科技、商业、健康与人工智能如何重组——并阐明接下来会发生什么。
下一个周期,先于头条。
一封不定期的信:一次阅读、一种架构、一个信号。没有噪音,不必匆忙。
