0%

Flipbook 深度解析:当浏览器不再需要 HTML

过去 50 年,人机交互经历了 CLI → GUI → Web 的演进。今天,一个名为 Flipbook 的实验性产品正在悄悄开启第四个时代——AI 生成界面(AGI,AI-Generated Interface)。每”页”都是一张 AI 实时生成的图片,没有 HTML,没有 CSS,没有 JavaScript。你看到的一切,都是像素。


一、什么是 Flipbook?

最近刷到 Shopify CEO Tobi Lütke 转发了一条动态,引起了我的注意。一个叫 flipbook.page 的平台,被描述为:

“An infinite visual browser generated entirely on demand in real time.”
(一个完全按需实时生成的无限视觉浏览器)

用一句话概括:

你在 Flipbook 里看到的每一”页”,都是一张 AI 实时生成的图片。点击图中的任何元素,就会生成一张新图片,带你深入探索那个方向。

听起来有点科幻?但它已经上线了。


二、它长什么样?

传统浏览器的渲染链路是这样的:

1
用户点击链接 → 服务器返回 HTML → 浏览器解析 DOM → CSS 渲染 → JS 执行 → 显示页面

Flipbook 的链路则完全不同:

1
用户点击图片某处 → AI 理解意图 → 实时生成一张新图片 → 显示为"下一页"

具体来说:

  • 你打开 flipbook.page,输入一个你想探索的主题
  • AI 生成一张精美的信息图——包含文字、图标、图表、插图
  • 所有文字都是图片像素,不是 HTML 文本覆盖层
  • 你点击图中的某个元素(比如一张图表中的某个数据点)
  • AI 理解你点击的内容,实时生成一张更深入的图
  • 如此往复,没有终点

这就像在探索一张无限展开的知识地图,而不是在浏览一个个独立的网页。


三、核心技术架构

3.1 两个模型的协同

Flipbook 背后有两套 AI 系统在协作:

系统 职责 类比
图像生成模型 根据用户意图,实时绘制每一页 “画家”
自定义视频模型 在页面之间生成平滑过渡动画 “导演”

用户开启”视频流”模式后,两系统合并为连续 1080p 视频流,页面切换不再是跳变,而是平滑的镜头运动。

3.2 知识从哪来?

这不是一个”纯幻觉”的生成器。Flipbook 的内容来源有两个:

  1. 代理式网络搜索(agentic web search)—— 实时从互联网获取真实数据
  2. 图像模型自身的知识库 —— 模型训练时学到的世界知识

官方自己也说:“事实准确性大致等同于 ChatGPT/Gemini/Claude 的水平。”

3.3 文字也是像素

有一个细节很有意思:官方专门解释了文字渲染问题。

“All text on the screen is rendered as pixels by the image model. There are no text overlays applied to the images.”

这意味着图中的每一个字、每一行标题、每一个数字标注,都是图像模型”画”出来的。偶尔会出现文字不够清晰、位置偏移的问题——但这会随着模型迭代而改善。

换句话说,文字在这个系统中不再是可复制的文本节点,而是视觉元素的一部分


四、谁在做这件事?

Flipbook 的创始团队背景很有意思:

创始人 背景
Zain Shah 前 OpenAI 研究员
Eddie Jiao 前 Humane、Slack
Drew Carr 前 Apple

算力由 Modal 赞助,投资方是 South Park Commons(这家机构还投了 Notion、Figma 等知名产品)。

一个前 OpenAI 研究员 + 两个顶尖产品设计师的组合,解释了为什么这个项目既有技术深度,又有极强的交互直觉。


五、为什么这件事值得兴奋?

5.1 它打破了一个根深蒂固的假设

过去 30 年,我们默认了一个前提:人机交互的界面是由工程师编写代码构建的

无论是早期的 HTML 页面、Flash 动画,还是现在的 React 组件,本质上都是:工程师定义结构 → 浏览器渲染 → 用户交互。

Flipbook 打破了这个假设:

界面不再是”建造”出来的,而是”生成”出来的。

就像从”手工绘制每一帧动画”进化到”实时渲染引擎”——只不过这里的渲染引擎不是 GPU,而是大模型

5.2 信息表达的维度被彻底打开

官方有一段话很打动我:

“一张图片价值千言万语,但我们的屏幕上却大多只是文字和彩色方块。”

在传统 Web 上,如果你想解释一个复杂概念,你只有几种选择:

  • 写文字(读者需要理解)
  • 放图片(需要设计师提前制作)
  • 做动图/视频(成本高,不够灵活)

在 Flipbook 里,如果最有效的表达方式是一个词,你会看到一个词;如果是一幅插图,你会看到一幅插图;如果是一个数据可视化,你会看到一个数据可视化——AI 会自动选择最适合当前语境的形式。

这不是在”展示信息”,而是在”选择最佳的信息传达方式”。

5.3 灵感来自 HyperCard

Flipbook 被描述为 “AI 完全实现的 HyperCard”

HyperCard 是 Apple 在 1987 年推出的一个软件,允许用户以卡片式的方式组织知识和导航。它的核心理念是:知识应该以空间方式探索,而不是线性搜索

这个理念在当时太超前了,最终被万维网(WWW)取代。但 37 年后,AI 让”空间化知识探索”重新有了可能——而且这次不再需要用户手动制作卡片。


六、未来的惊艳方向

官方明确表示,Flipbook 目前是一个实验。但它规划的演进方向,每一条都足够让人兴奋。

6.1 一站式交易闭环

官方原话举例:

“现在你用 Flipbook 研究旅行计划,但预订要去别的地方。未来整个过程都可以在 Flipbook 内完成。”

想象一下:

  • 搜索”巴厘岛数字游民生活” → 生成精美信息图(签证、成本、社区)
  • 点击”Co-working Space” → 生成实时价格表,包含可预订的空间
  • 点击”预订” → 在图内完成支付和确认
  • 不需要跳转到 Airbnb、Agoda 或任何第三方 App

从”信息探索”到”行动执行”的闭环。

6.2 实时数据流嵌入

当前页面是”快照式”的图片。但未来可能实现:

  • 股票价格、汇率、天气 实时渲染在图中,每帧都在更新
  • 航班状态、快递追踪、赛事比分无需刷新,实时流动
  • Flipbook 从”信息探索工具”变成 “实时动态仪表盘”

6.3 真正的交互能力

官方提到了 “more interactive”“take actions and store their own data”

  • 表单输入:直接在生成的图片上打字、选择、拖拽
  • 状态存储:Flipbook 拥有自己的”记忆”——购物车、收藏夹、项目草稿
  • 复杂操作:在图中直接编辑文档、调整设计

这意味着交互能力将内嵌到像素生成的过程中,不再是 HTML 元素的专利。

6.4 跨 App 的统一入口(操作系统的替代品)

这是最大胆的方向。官方说:

“我们想象一个世界,你使用的所有工具都像我们生活的世界一样丰富和可视化。”

翻译成大白话:Flipbook 可能成为所有 App 的”元界面”。

场景 现在 未来(Flipbook)
打车 打开 Uber App → 输入地址 → 确认 在 Flipbook 里说”叫车去机场” → 生成选择图 → 点击确认
发邮件 打开 Gmail → 写邮件 → 发送 在 Flipbook 里说”给 Alice 发项目更新” → 生成预览图 → 点击发送
点外卖 打开外卖 App → 选餐厅 → 下单 在 Flipbook 里说”点份泰餐” → 生成推荐图 → 点击下单

所有功能都通过自然语言 + 视觉界面调度,不需要打开任何独立 App。

这不就是 AI 一直在说的”无 App 的未来”吗?

6.5 个性化实时生成

当前生成的是通用信息图。未来结合个人数据后:

  • 你的健康数据 + 运动目标 → 专属于你的健身计划图
  • 你的消费习惯 + 预算 → 为你量身定制的理财建议图
  • 你的学习进度 + 知识盲区 → 针对你的薄弱点的教学图

每个人看到的内容完全不同,而且是当下即时生成的。

6.6 多人协作探索

  • 你探索到一张有价值的信息图 → 生成链接 → 朋友打开后从同一节点继续探索
  • 多人同时在同一个”视觉空间”中探索,各自走不同路径
  • 类似”多人版维基百科”,但导航是视觉空间式的而非链接式的

七、技术挑战

当然,Flipbook 要走的路还很长。以下是当前的核心瓶颈:

挑战 当前状态 突破方向
算力成本 每页实时 AI 生成,极其昂贵 模型压缩、缓存热点页面、边缘计算
文字渲染精度 官方承认”偶尔不完美” 下一代图像模型的文本能力
事实准确性 类似 ChatGPT 水平,可能有幻觉 RAG + 实时搜索 + 引用溯源
交互延迟 生成需要等待时间 流式生成、预判意图提前生成
商业化模式 目前靠赞助算力 订阅制、按页面消耗计费、B2B

八、个人感受

说实话,第一次看到 Flipbook 的演示时,我的第一反应是:这东西真的能用吗?

但仔细思考后,我发现它触及了一个本质问题——我们为什么需要浏览器?

浏览器的核心功能是”获取信息并交互”。传统 Web 用 HTML/CSS/JS 实现了这个功能,但这只是一种实现方式,不是唯一的方式

Flipbook 用 AI 重新定义了”获取信息”的界面形态:不再是工程师预先写好的页面,而是根据你的意图即时生成的视觉表达。

这就像从”预先录制的电视节目”进化到”实时互动的直播”——内容不再是固定的,而是随观众需求变化的。


九、总结

Flipbook 目前可能只是一个实验性产品,但它代表了一个可能改变行业走向的信号:

界面,正在从”被构建”走向”被生成”。

如果说 HTML 定义了 Web 1.0 的界面范式,React 定义了 Web 2.0 的界面范式,那么 Flipbook 可能正在定义 Web 3.0 的界面范式——AI 生成的实时视觉界面

这不是在取代 Web,而是在 Web 之上叠加了一层新的交互维度。

正如官方所说:

“We wanted a computing experience full of rich beautiful visuals made just for us, generated just in time.”

欢迎关注我的其它发布渠道