我为什么开始做 Cappy — 一个 8 岁孩子缺的不是英语课

这是 Cappy 项目的第 1 篇。先把起点说清楚，后面所有版本迭代、所有翻车都是从这里长出来的。

小菠萝目前的英语学习

小菠萝是我儿子，8 岁。他英语的输入主要来自三块：

一周一节 1 小时的英语课（机构）
老师布置的家庭作业：阅读、口语、家庭互动练习
每天读一本大猫绘本（我们家自己加的日常）

整体来看效果是有的。能明显感觉到他的英语水平在往上走，在班里也排在前面。这件事很重要 —— 他对英语是有信心的。一个孩子愿意继续学下去，“我学得不错” 这种自我认知比任何方法论都关键。

所以我不是在 “孩子英语跟不上” 的焦虑里启动这个项目。前提相反 —— 小菠萝底子在打，路径也对。

但我作为家长感觉到一个明显的缺口

他现在掌握的，更像是 “书面英语知识”。

阅读理解可以、单词认识、读绘本流利。这些都是输入侧的能力。

但 输出侧 —— 张嘴说英语、用英语交流 —— 几乎没有训练场。原因不复杂：

一周一节课的开口时间，分摊到他身上可能十几分钟
作业里的 “口语练习” 多数是跟读、复读音频，不是双向对话
家里没有英语环境。我们日常不说英语，我也不可能装作只会英语跟他生活

结果就是：他读得懂 “Where are you going?”，但你真要他张嘴用英语跟人聊 5 分钟，他没机会练。读书读多了能识字，但识字 ≠ 会说话。口语是一项需要时长×次数堆出来的肌肉记忆，而他每周的”开口时间预算”远远不够。

这不是某一家培训机构的问题。任何 1v 多的英语课，结构上就解不了”个人开口时长”这件事。

为什么之前没人做、为什么现在我能做

家长想给孩子一个”家庭英语陪练”，这是一个存在了几十年的诉求。市面上的方案我大致看了一圈：

外教 1v1 —— 贵、要约课、孩子在陌生人面前会拘谨、且不了解他读过什么
AI 课程类 app —— 课程化太强，孩子用着像写作业，主动性差
通用语音 AI（Siri / ChatGPT 语音模式）—— 说话太复杂，超出他词汇量，听不懂就放弃
跟家长说英语 —— 我不是 native speaker，且日常切英语很尴尬，撑不下去

每一个都解一部分问题，但没有一个解 “了解小菠萝、配他词汇、能聊天” 这件事。

转机是 AI 这两年的进展。让我意识到：可以为小菠萝一个人做一个匹配他能力的英语助手，这件事第一次从”不可能”变成”可以试试”。

这是这个项目能开始的根本原因。

我想做的东西，具体三件事

把上面的痛点翻成产品定义，Cappy 要做到三件事：

一、给他一个”在家也有”的英语口语环境。 不是课程、不是测验，就是一个能随时聊天的对象。他想聊就聊，不想就不聊。把开口时间从一周十几分钟拉到 —— 至少他自己愿意拿起来用的程度。

二、是一个”了解他”的助手。 他每天读什么大猫绘本、上周读到哪本、那本书里有哪些角色和情节 —— Cappy 应该记得。他英语课刚学到什么、他在玩马里奥奥德赛打到哪一关 —— 这些都应该是聊天的素材。

不是泛泛的 “Hello, how are you today?”，而是 —— 真实场景里 —— 小菠萝有一次问 Cappy：“In Odyssey, what’s Cappy’s sister’s name?” （顺带一提，这个 AI 之所以叫 Cappy，就是因为他喜欢奥德赛里那顶会飞的帽子角色 Cappy。）

这种他自己想问、用他熟悉的世界来发问 —— 才是他愿意主动张嘴说英文的场景。课程化的 app 给不了这种东西。

三、是一个引导他说英文的家庭教师，不是被动陪聊。 他词汇量有限，遇到不会说的会卡住、会想偷懒切中文。一个好的家庭教师应该温和地把他拉回到 “试着用英文说说看” —— 但不能像考试，不能让他觉得难堪。

一个不能让步的硬约束：词汇必须匹配能力

这是整个项目最关键的一条产品约束，也是后面所有翻车和迭代的源头：

Cappy 说出来的每一句话，必须保证用他现有的词汇量能够听懂。

理由很直接 —— 如果他听不懂，所有上面的努力都归零。

一个孩子在对话里频繁听到不认识的词，会发生两件事：

他会跟不上节奏、断片，对话维持不下去
更糟的是 —— 他会对英语失去信心。“我以为我学得不错，怎么连这个都听不懂”

后者比前者严重得多。我做这个产品的前提是 不破坏他现有的信心。

所以无论后面架构怎么迭代、模型怎么换、prompt 怎么改，第一性原则只有一条：说出来的每个词，他都要听得懂。

这条约束听起来很简单。后面会发现，让一个 AI 真的守住这条约束，是 Cappy 整个 v1 和 v2 阶段最难的事。

接下来要解决的问题

立项这一天我列了一个简短的问题清单，没有答案，只有问题：

怎么知道他”现有的词汇量”是多少？用什么口径衡量？
怎么让 AI 严格守在这个词汇量内说话？
怎么让 AI “了解他读过的书”？读物信息怎么传给它？
怎么让 AI 既能引导他开口、又不让他觉得在被考试？
用什么技术栈？国内有没有靠谱的实时语音方案？
我不会写代码，怎么把这个东西做出来？

这些问题接下来一篇一篇拆。下一篇：v1 怎么搭出来的 —— 不写代码的人，用 AI 工具做一个 iOS app。

一个回头看的注脚 —— 立项时不知道的事

这一段是 v1 上线之后才回头加上来的。

我前面一直在解释”为什么这件事值得做”。立项那天我其实只有”觉得”，没有任何用户验证 —— 唯一的用户就是我儿子，而他还没见过这个产品。

后来 v1 做出来给小菠萝用的时候 —— 就是那个 80% 的话他听不懂的版本 —— 从工程角度我自己都觉得做砸了，差点想把这条路砍掉。

但发生了一件我完全没预料的事：

小菠萝把 Cappy 当成了一个”想方设法把它玩坏”的玩具。

他没把 Cappy 当英语陪练在用。他打开手机里的豆包 app，认认真真地问豆包：

“怎么让一个英语 AI 聊天机器人卡 bug？”

豆包很负责地给了他好几条思路：

跟它重复一些无意义的字母组合
试着让它说中文（绕过它的英语设定）
反复告诉它”你不是 AI、你是真人”，看它会不会承认

然后他就抱着设备，乐此不疲地一条条试。

他最终没卡成功

DeepSeek + 豆包 Realtime 那套架构对这些攻击挺鲁棒的，小菠萝的”越狱”尝试全部失败。

但这个过程让我看到了 Cappy 的一个我立项时没想到的优势 ——

整个被反复刁难的过程里，Cappy 没有任何情绪反应。

不会因为孩子连续重复一百遍 “aaaa” 就烦躁，不会因为被反复挑衅就生气，不会因为他要求说中文就妥协。这一点是任何真人外教都做不到的 —— 再耐心的老师也有阈值，而且 8 岁孩子最爱测试的就是别人的阈值。

但这件事也让我意识到另一面

小朋友用产品的方式，跟设计者预期的方式，永远是两件事。

小菠萝从来没”按设计意图”地用 Cappy。他想给它出难题、想看它崩、想让它做不该做的事 —— 这是孩子的本能。一个开发者关起门来想”用户场景”，永远想不全。

这件事让我开始思考 —— 这个产品可能不能做成”全自助 AI 陪练”。一个 8 岁孩子完全脱离家长、单独面对 AI 的形态，意味着：

孩子可能在做的事跟”学英语”完全没关系（比如花一下午想 jailbreak）
AI 拿不到孩子说不出来的背景（最近迷恐龙、上周开始读 Octonauts）
家长完全不知道孩子用得怎么样、AI 在跟孩子聊什么

后来我把这条思考变成了 v2.3 的 家长模式 —— 一个让家长能查看孩子学习进展、跟 AI 老师聊孩子情况、补充背景信息的独立界面。这条产品线是 v1 翻车的副产品里长出来的，不在最初的设计稿里。

留给立项那天的我

就算第一版工程是失败的，“一个孩子愿意花时间跟一个匹配他的 AI 较劲” 这件事是真的成立的 —— 哪怕较劲的方式是想方设法把它玩坏。

后面所有的迭代（v2 / v2.1 / v2.5…）都建立在这一点上。如果他在 v1 之后再也不碰 Cappy，这个项目大概率就停了。

下一篇就要讲：怎么选实时语音方案 + 不写代码的人怎么搭一个 iOS app + 第一次跑通时就闻到的不对劲。

Cappy 是一个长期项目。这里记录的都是真实过程，包括判断对的地方，也包括判断错的地方。如果你也是在用 AI 给孩子做点什么的家长 / 产品人，欢迎写信聊聊。