Flipbook 深度解析：当浏览器不再需要 HTML

过去 50 年，人机交互经历了 CLI → GUI → Web 的演进。今天，一个名为 Flipbook 的实验性产品正在悄悄开启第四个时代——AI 生成界面（AGI，AI-Generated Interface）。每”页”都是一张 AI 实时生成的图片，没有 HTML，没有 CSS，没有 JavaScript。你看到的一切，都是像素。

一、什么是 Flipbook？

最近刷到 Shopify CEO Tobi Lütke 转发了一条动态，引起了我的注意。一个叫 flipbook.page 的平台，被描述为：

“An infinite visual browser generated entirely on demand in real time.”
（一个完全按需实时生成的无限视觉浏览器）

用一句话概括：

你在 Flipbook 里看到的每一”页”，都是一张 AI 实时生成的图片。点击图中的任何元素，就会生成一张新图片，带你深入探索那个方向。

听起来有点科幻？但它已经上线了。

二、它长什么样？

传统浏览器的渲染链路是这样的：

1	用户点击链接 → 服务器返回 HTML → 浏览器解析 DOM → CSS 渲染 → JS 执行 → 显示页面

Flipbook 的链路则完全不同：

1	用户点击图片某处 → AI 理解意图 → 实时生成一张新图片 → 显示为"下一页"

具体来说：

你打开 flipbook.page，输入一个你想探索的主题
AI 生成一张精美的信息图——包含文字、图标、图表、插图
所有文字都是图片像素，不是 HTML 文本覆盖层
你点击图中的某个元素（比如一张图表中的某个数据点）
AI 理解你点击的内容，实时生成一张更深入的图
如此往复，没有终点

这就像在探索一张无限展开的知识地图，而不是在浏览一个个独立的网页。

三、核心技术架构

3.1 两个模型的协同

Flipbook 背后有两套 AI 系统在协作：

系统	职责	类比
图像生成模型	根据用户意图，实时绘制每一页	“画家”
自定义视频模型	在页面之间生成平滑过渡动画	“导演”

用户开启”视频流”模式后，两系统合并为连续 1080p 视频流，页面切换不再是跳变，而是平滑的镜头运动。

3.2 知识从哪来？

这不是一个”纯幻觉”的生成器。Flipbook 的内容来源有两个：

代理式网络搜索（agentic web search）—— 实时从互联网获取真实数据
图像模型自身的知识库 —— 模型训练时学到的世界知识

官方自己也说：“事实准确性大致等同于 ChatGPT/Gemini/Claude 的水平。”

3.3 文字也是像素

有一个细节很有意思：官方专门解释了文字渲染问题。

“All text on the screen is rendered as pixels by the image model. There are no text overlays applied to the images.”

这意味着图中的每一个字、每一行标题、每一个数字标注，都是图像模型”画”出来的。偶尔会出现文字不够清晰、位置偏移的问题——但这会随着模型迭代而改善。

换句话说，文字在这个系统中不再是可复制的文本节点，而是视觉元素的一部分。

四、谁在做这件事？

Flipbook 的创始团队背景很有意思：

创始人	背景
Zain Shah	前 OpenAI 研究员
Eddie Jiao	前 Humane、Slack
Drew Carr	前 Apple

算力由 Modal 赞助，投资方是 South Park Commons（这家机构还投了 Notion、Figma 等知名产品）。

一个前 OpenAI 研究员 + 两个顶尖产品设计师的组合，解释了为什么这个项目既有技术深度，又有极强的交互直觉。

五、为什么这件事值得兴奋？

5.1 它打破了一个根深蒂固的假设

过去 30 年，我们默认了一个前提：人机交互的界面是由工程师编写代码构建的。

无论是早期的 HTML 页面、Flash 动画，还是现在的 React 组件，本质上都是：工程师定义结构 → 浏览器渲染 → 用户交互。

Flipbook 打破了这个假设：

界面不再是”建造”出来的，而是”生成”出来的。

就像从”手工绘制每一帧动画”进化到”实时渲染引擎”——只不过这里的渲染引擎不是 GPU，而是大模型。

5.2 信息表达的维度被彻底打开

官方有一段话很打动我：

“一张图片价值千言万语，但我们的屏幕上却大多只是文字和彩色方块。”

在传统 Web 上，如果你想解释一个复杂概念，你只有几种选择：

写文字（读者需要理解）
放图片（需要设计师提前制作）
做动图/视频（成本高，不够灵活）

在 Flipbook 里，如果最有效的表达方式是一个词，你会看到一个词；如果是一幅插图，你会看到一幅插图；如果是一个数据可视化，你会看到一个数据可视化——AI 会自动选择最适合当前语境的形式。

这不是在”展示信息”，而是在”选择最佳的信息传达方式”。

5.3 灵感来自 HyperCard

Flipbook 被描述为 “AI 完全实现的 HyperCard”。

HyperCard 是 Apple 在 1987 年推出的一个软件，允许用户以卡片式的方式组织知识和导航。它的核心理念是：知识应该以空间方式探索，而不是线性搜索。

这个理念在当时太超前了，最终被万维网（WWW）取代。但 37 年后，AI 让”空间化知识探索”重新有了可能——而且这次不再需要用户手动制作卡片。

六、未来的惊艳方向

官方明确表示，Flipbook 目前是一个实验。但它规划的演进方向，每一条都足够让人兴奋。

6.1 一站式交易闭环

官方原话举例：

“现在你用 Flipbook 研究旅行计划，但预订要去别的地方。未来整个过程都可以在 Flipbook 内完成。”

想象一下：

搜索”巴厘岛数字游民生活” → 生成精美信息图（签证、成本、社区）
点击”Co-working Space” → 生成实时价格表，包含可预订的空间
点击”预订” → 在图内完成支付和确认
不需要跳转到 Airbnb、Agoda 或任何第三方 App

从”信息探索”到”行动执行”的闭环。

6.2 实时数据流嵌入

当前页面是”快照式”的图片。但未来可能实现：

股票价格、汇率、天气 实时渲染在图中，每帧都在更新
航班状态、快递追踪、赛事比分无需刷新，实时流动
Flipbook 从”信息探索工具”变成 “实时动态仪表盘”

6.3 真正的交互能力

官方提到了 “more interactive” 和 “take actions and store their own data”：

表单输入：直接在生成的图片上打字、选择、拖拽
状态存储：Flipbook 拥有自己的”记忆”——购物车、收藏夹、项目草稿
复杂操作：在图中直接编辑文档、调整设计

这意味着交互能力将内嵌到像素生成的过程中，不再是 HTML 元素的专利。

6.4 跨 App 的统一入口（操作系统的替代品）

这是最大胆的方向。官方说：

“我们想象一个世界，你使用的所有工具都像我们生活的世界一样丰富和可视化。”

翻译成大白话：Flipbook 可能成为所有 App 的”元界面”。

场景	现在	未来（Flipbook）
打车	打开 Uber App → 输入地址 → 确认	在 Flipbook 里说”叫车去机场” → 生成选择图 → 点击确认
发邮件	打开 Gmail → 写邮件 → 发送	在 Flipbook 里说”给 Alice 发项目更新” → 生成预览图 → 点击发送
点外卖	打开外卖 App → 选餐厅 → 下单	在 Flipbook 里说”点份泰餐” → 生成推荐图 → 点击下单

所有功能都通过自然语言 + 视觉界面调度，不需要打开任何独立 App。

这不就是 AI 一直在说的”无 App 的未来”吗？

6.5 个性化实时生成

当前生成的是通用信息图。未来结合个人数据后：

你的健康数据 + 运动目标 → 专属于你的健身计划图
你的消费习惯 + 预算 → 为你量身定制的理财建议图
你的学习进度 + 知识盲区 → 针对你的薄弱点的教学图

每个人看到的内容完全不同，而且是当下即时生成的。

6.6 多人协作探索

你探索到一张有价值的信息图 → 生成链接 → 朋友打开后从同一节点继续探索
多人同时在同一个”视觉空间”中探索，各自走不同路径
类似”多人版维基百科”，但导航是视觉空间式的而非链接式的

七、技术挑战

当然，Flipbook 要走的路还很长。以下是当前的核心瓶颈：

挑战	当前状态	突破方向
算力成本	每页实时 AI 生成，极其昂贵	模型压缩、缓存热点页面、边缘计算
文字渲染精度	官方承认”偶尔不完美”	下一代图像模型的文本能力
事实准确性	类似 ChatGPT 水平，可能有幻觉	RAG + 实时搜索 + 引用溯源
交互延迟	生成需要等待时间	流式生成、预判意图提前生成
商业化模式	目前靠赞助算力	订阅制、按页面消耗计费、B2B

八、个人感受

说实话，第一次看到 Flipbook 的演示时，我的第一反应是：这东西真的能用吗？

但仔细思考后，我发现它触及了一个本质问题——我们为什么需要浏览器？

浏览器的核心功能是”获取信息并交互”。传统 Web 用 HTML/CSS/JS 实现了这个功能，但这只是一种实现方式，不是唯一的方式。

Flipbook 用 AI 重新定义了”获取信息”的界面形态：不再是工程师预先写好的页面，而是根据你的意图即时生成的视觉表达。

这就像从”预先录制的电视节目”进化到”实时互动的直播”——内容不再是固定的，而是随观众需求变化的。

九、总结

Flipbook 目前可能只是一个实验性产品，但它代表了一个可能改变行业走向的信号：

界面，正在从”被构建”走向”被生成”。

如果说 HTML 定义了 Web 1.0 的界面范式，React 定义了 Web 2.0 的界面范式，那么 Flipbook 可能正在定义 Web 3.0 的界面范式——AI 生成的实时视觉界面。

这不是在取代 Web，而是在 Web 之上叠加了一层新的交互维度。

正如官方所说：

“We wanted a computing experience full of rich beautiful visuals made just for us, generated just in time.”