过去 50 年,人机交互经历了 CLI → GUI → Web 的演进。今天,一个名为 Flipbook 的实验性产品正在悄悄开启第四个时代——AI 生成界面(AGI,AI-Generated Interface)。每”页”都是一张 AI 实时生成的图片,没有 HTML,没有 CSS,没有 JavaScript。你看到的一切,都是像素。
一、什么是 Flipbook?
最近刷到 Shopify CEO Tobi Lütke 转发了一条动态,引起了我的注意。一个叫 flipbook.page 的平台,被描述为:
“An infinite visual browser generated entirely on demand in real time.”
(一个完全按需实时生成的无限视觉浏览器)
用一句话概括:
你在 Flipbook 里看到的每一”页”,都是一张 AI 实时生成的图片。点击图中的任何元素,就会生成一张新图片,带你深入探索那个方向。
听起来有点科幻?但它已经上线了。
二、它长什么样?
传统浏览器的渲染链路是这样的:
1 | 用户点击链接 → 服务器返回 HTML → 浏览器解析 DOM → CSS 渲染 → JS 执行 → 显示页面 |
Flipbook 的链路则完全不同:
1 | 用户点击图片某处 → AI 理解意图 → 实时生成一张新图片 → 显示为"下一页" |
具体来说:
- 你打开 flipbook.page,输入一个你想探索的主题
- AI 生成一张精美的信息图——包含文字、图标、图表、插图
- 所有文字都是图片像素,不是 HTML 文本覆盖层
- 你点击图中的某个元素(比如一张图表中的某个数据点)
- AI 理解你点击的内容,实时生成一张更深入的图
- 如此往复,没有终点
这就像在探索一张无限展开的知识地图,而不是在浏览一个个独立的网页。
三、核心技术架构
3.1 两个模型的协同
Flipbook 背后有两套 AI 系统在协作:
| 系统 | 职责 | 类比 |
|---|---|---|
| 图像生成模型 | 根据用户意图,实时绘制每一页 | “画家” |
| 自定义视频模型 | 在页面之间生成平滑过渡动画 | “导演” |
用户开启”视频流”模式后,两系统合并为连续 1080p 视频流,页面切换不再是跳变,而是平滑的镜头运动。
3.2 知识从哪来?
这不是一个”纯幻觉”的生成器。Flipbook 的内容来源有两个:
- 代理式网络搜索(agentic web search)—— 实时从互联网获取真实数据
- 图像模型自身的知识库 —— 模型训练时学到的世界知识
官方自己也说:“事实准确性大致等同于 ChatGPT/Gemini/Claude 的水平。”
3.3 文字也是像素
有一个细节很有意思:官方专门解释了文字渲染问题。
“All text on the screen is rendered as pixels by the image model. There are no text overlays applied to the images.”
这意味着图中的每一个字、每一行标题、每一个数字标注,都是图像模型”画”出来的。偶尔会出现文字不够清晰、位置偏移的问题——但这会随着模型迭代而改善。
换句话说,文字在这个系统中不再是可复制的文本节点,而是视觉元素的一部分。
四、谁在做这件事?
Flipbook 的创始团队背景很有意思:
| 创始人 | 背景 |
|---|---|
| Zain Shah | 前 OpenAI 研究员 |
| Eddie Jiao | 前 Humane、Slack |
| Drew Carr | 前 Apple |
算力由 Modal 赞助,投资方是 South Park Commons(这家机构还投了 Notion、Figma 等知名产品)。
一个前 OpenAI 研究员 + 两个顶尖产品设计师的组合,解释了为什么这个项目既有技术深度,又有极强的交互直觉。
五、为什么这件事值得兴奋?
5.1 它打破了一个根深蒂固的假设
过去 30 年,我们默认了一个前提:人机交互的界面是由工程师编写代码构建的。
无论是早期的 HTML 页面、Flash 动画,还是现在的 React 组件,本质上都是:工程师定义结构 → 浏览器渲染 → 用户交互。
Flipbook 打破了这个假设:
界面不再是”建造”出来的,而是”生成”出来的。
就像从”手工绘制每一帧动画”进化到”实时渲染引擎”——只不过这里的渲染引擎不是 GPU,而是大模型。
5.2 信息表达的维度被彻底打开
官方有一段话很打动我:
“一张图片价值千言万语,但我们的屏幕上却大多只是文字和彩色方块。”
在传统 Web 上,如果你想解释一个复杂概念,你只有几种选择:
- 写文字(读者需要理解)
- 放图片(需要设计师提前制作)
- 做动图/视频(成本高,不够灵活)
在 Flipbook 里,如果最有效的表达方式是一个词,你会看到一个词;如果是一幅插图,你会看到一幅插图;如果是一个数据可视化,你会看到一个数据可视化——AI 会自动选择最适合当前语境的形式。
这不是在”展示信息”,而是在”选择最佳的信息传达方式”。
5.3 灵感来自 HyperCard
Flipbook 被描述为 “AI 完全实现的 HyperCard”。
HyperCard 是 Apple 在 1987 年推出的一个软件,允许用户以卡片式的方式组织知识和导航。它的核心理念是:知识应该以空间方式探索,而不是线性搜索。
这个理念在当时太超前了,最终被万维网(WWW)取代。但 37 年后,AI 让”空间化知识探索”重新有了可能——而且这次不再需要用户手动制作卡片。
六、未来的惊艳方向
官方明确表示,Flipbook 目前是一个实验。但它规划的演进方向,每一条都足够让人兴奋。
6.1 一站式交易闭环
官方原话举例:
“现在你用 Flipbook 研究旅行计划,但预订要去别的地方。未来整个过程都可以在 Flipbook 内完成。”
想象一下:
- 搜索”巴厘岛数字游民生活” → 生成精美信息图(签证、成本、社区)
- 点击”Co-working Space” → 生成实时价格表,包含可预订的空间
- 点击”预订” → 在图内完成支付和确认
- 不需要跳转到 Airbnb、Agoda 或任何第三方 App
从”信息探索”到”行动执行”的闭环。
6.2 实时数据流嵌入
当前页面是”快照式”的图片。但未来可能实现:
- 股票价格、汇率、天气 实时渲染在图中,每帧都在更新
- 航班状态、快递追踪、赛事比分无需刷新,实时流动
- Flipbook 从”信息探索工具”变成 “实时动态仪表盘”
6.3 真正的交互能力
官方提到了 “more interactive” 和 “take actions and store their own data”:
- 表单输入:直接在生成的图片上打字、选择、拖拽
- 状态存储:Flipbook 拥有自己的”记忆”——购物车、收藏夹、项目草稿
- 复杂操作:在图中直接编辑文档、调整设计
这意味着交互能力将内嵌到像素生成的过程中,不再是 HTML 元素的专利。
6.4 跨 App 的统一入口(操作系统的替代品)
这是最大胆的方向。官方说:
“我们想象一个世界,你使用的所有工具都像我们生活的世界一样丰富和可视化。”
翻译成大白话:Flipbook 可能成为所有 App 的”元界面”。
| 场景 | 现在 | 未来(Flipbook) |
|---|---|---|
| 打车 | 打开 Uber App → 输入地址 → 确认 | 在 Flipbook 里说”叫车去机场” → 生成选择图 → 点击确认 |
| 发邮件 | 打开 Gmail → 写邮件 → 发送 | 在 Flipbook 里说”给 Alice 发项目更新” → 生成预览图 → 点击发送 |
| 点外卖 | 打开外卖 App → 选餐厅 → 下单 | 在 Flipbook 里说”点份泰餐” → 生成推荐图 → 点击下单 |
所有功能都通过自然语言 + 视觉界面调度,不需要打开任何独立 App。
这不就是 AI 一直在说的”无 App 的未来”吗?
6.5 个性化实时生成
当前生成的是通用信息图。未来结合个人数据后:
- 你的健康数据 + 运动目标 → 专属于你的健身计划图
- 你的消费习惯 + 预算 → 为你量身定制的理财建议图
- 你的学习进度 + 知识盲区 → 针对你的薄弱点的教学图
每个人看到的内容完全不同,而且是当下即时生成的。
6.6 多人协作探索
- 你探索到一张有价值的信息图 → 生成链接 → 朋友打开后从同一节点继续探索
- 多人同时在同一个”视觉空间”中探索,各自走不同路径
- 类似”多人版维基百科”,但导航是视觉空间式的而非链接式的
七、技术挑战
当然,Flipbook 要走的路还很长。以下是当前的核心瓶颈:
| 挑战 | 当前状态 | 突破方向 |
|---|---|---|
| 算力成本 | 每页实时 AI 生成,极其昂贵 | 模型压缩、缓存热点页面、边缘计算 |
| 文字渲染精度 | 官方承认”偶尔不完美” | 下一代图像模型的文本能力 |
| 事实准确性 | 类似 ChatGPT 水平,可能有幻觉 | RAG + 实时搜索 + 引用溯源 |
| 交互延迟 | 生成需要等待时间 | 流式生成、预判意图提前生成 |
| 商业化模式 | 目前靠赞助算力 | 订阅制、按页面消耗计费、B2B |
八、个人感受
说实话,第一次看到 Flipbook 的演示时,我的第一反应是:这东西真的能用吗?
但仔细思考后,我发现它触及了一个本质问题——我们为什么需要浏览器?
浏览器的核心功能是”获取信息并交互”。传统 Web 用 HTML/CSS/JS 实现了这个功能,但这只是一种实现方式,不是唯一的方式。
Flipbook 用 AI 重新定义了”获取信息”的界面形态:不再是工程师预先写好的页面,而是根据你的意图即时生成的视觉表达。
这就像从”预先录制的电视节目”进化到”实时互动的直播”——内容不再是固定的,而是随观众需求变化的。
九、总结
Flipbook 目前可能只是一个实验性产品,但它代表了一个可能改变行业走向的信号:
界面,正在从”被构建”走向”被生成”。
如果说 HTML 定义了 Web 1.0 的界面范式,React 定义了 Web 2.0 的界面范式,那么 Flipbook 可能正在定义 Web 3.0 的界面范式——AI 生成的实时视觉界面。
这不是在取代 Web,而是在 Web 之上叠加了一层新的交互维度。
正如官方所说:
“We wanted a computing experience full of rich beautiful visuals made just for us, generated just in time.”