前几天刷小红书,刷到一个帖子讨论有哪些 toC 的 AI 产品跑通了 PMF。验证市场需求,绊倒了不少创业者,而找到 PMF 的产品们,被其他人拿来反复研究。
但即便是这几个被挑出来的优等生,还是在评论区遭到了质疑。比如“声量大如 Perplexity,但根本没有破圈,真正活跃的 DAU 数量和产品声量完全不匹配”,“HeyGen 主要 toB,也不算”....其实上述产品我们大多听过、甚至写过,其中比较符合要求的可能也就是 Speak,做 AI 口语学习,不是大众产品、但起码在小众范围内赚钱(收得上来钱,不清楚利润),算是发展还不错的 toC AI 产品,可参阅我们之前的选题《估值 5 亿美元了,抓住日韩,AI 语言学习产品跻身赛道 Top3》。
但 Captions 能被提到,还是有些出乎意料的。相对于其他产品,Captions 在国内市场声量不大,也就是上个月融了 6000 万美元时,被各家公号报道刷了一回屏。而我们最早注意到它,是在过往观察图片/视频类软件的时候,总是能在美国的 App Store 摄影&录像分类畅销榜单刷到,在应用商店上线的 App 怎么也和 toC 沾点边吧。
而市场上的文章大多从成绩反推产品功能构建合理,结论多是“这个公司从一个相机 App 转型到 HeyGen 所在的 AI+Talking Video 的视频领域,赛道选的好、产品不错”,但测评较少,怀着“C 端用户到底为 Captions AI 功能买账了吗、Captions 怎么就估值 5 亿美元了”的好奇,我们去测试了产品、梳理了 Captions 的历程,得到的主观结果是,这个仅剩的 toC 苗子,可能并不那么茁壮。
从加字幕做起,怎么就估值 5 亿美元了
Captions 成立于 2021 年,但是在 2020 年 12 月,就在 iOS 上线了 App Captions,最早做的是给视频加字幕这样一件很简单的事情,这一点从 App 的名字也能看出来。
Caption,在电影里是“字幕”的意思,在书籍中,是对图片的解释说明。而名字里带有 Captions 的编辑 App,商店里一抓一大把,在海外很“刚需”。
2022 年 7 月,Captions 在 TikTok 上发布了第一条魔性视频,用 Talking Video 的形式大秀加字幕能力,收入也在同时间点逐渐开始抬升(梳理了 Ins、Twitter、YouTube、TikTok 4个社媒的内容发布,启动应该就是借助于 TikTok)。后续从 2022 年 10 月开始,Captions 陆续上线更多 AI 功能。
虽然从加字幕做起,但 Captions 很快确认了一个“利基市场”——专注服务 Talking Video 的创作者。这类视频最大的特点就是“话多”,不仅 Captions 花哨的字幕功能可以派上用场,它还围绕创作者各种潜在需求点做了很多自动化的小功能,比如视频中眼睛飘忽可以使用 Eye Contact 纠偏,说话停顿的地方可以一键识别删除,为了增加视频的丰富性支持自动添加 Emoji 和图片等等。Captions 在 Talking Video 这一类别上,已经做到非常细致,让创作者的效率极大提升。
一通操作下来,反映为移动端成绩,Captions iOS 端月流水陆续上涨至百万美元,一直在美国 iOS 摄影与录像分类畅销榜 Top30 上下。如果只算纯视频剪辑产品,移动端收入 No.1 的 Capcut(剪映海外版)接近 800 万美元;第 2 是“收购大王 Bending Spoons”的 Splice,月流水 250 万美元;Captions 的收入还可以,但并不惊艳。
那估值 5 亿美元则只能是押注未来收入增长的可能性,毕竟同样估值的 HeyGen ARR 在 3500 万美元左右,大概是 Captions 移动端收入的 3 倍。
大转身的Captions = 自己+ 60分的“HeyGen + OpusClip + Creatify”
为了理解 Captions 的估值逻辑,我又一次打开了 App。发现,两年前还主要做加字幕、辅助录制和编辑的 App,整体的大功能架构已经演化成了标题中的等式。
如前文所述,Captions 初期主要服务于用户的辅助录制和剪辑,例如提词器、协助用户眼神不飘地完成录制,加各种效果酷炫的字幕或者重点词句高亮,都是海外 Talking Video 创作者的刚需,从这个角度,Captions 早在 2022 年就已经完成了市场需求验证,只不过用了 AI,但与 AIGC 没太大关系。但从 2023 年下半年开始,Captions 大转身,经过一年来的迭代,已经演变为等式的右边。
HeyGen、OpusClip、还有 Creatify,是 AIGC 来了之后 3 个做得不错的 AI 产品,分别对应了 AI Avatar、转换视频语言并且能做到对口型(AI Dubbing),做长视频缩短视频方便切片传播分发,以及产品 url 一键生成视频广告。
从这个角度,单独一个 HeyGen 估值已经是 5 亿美元,姑且假设 Captions 的 3 部分能力都不拉垮,再加之原本已经验证的辅助录制和编辑,未来的赚钱能力不说能乘以个系数,再进一步还是很大可能的。
但我们的测评结果是,Captions 属于“60 分产品”。这里不是说 Captions 产品 60 分,而是它做出来的视频,差不多在及格线,放在社媒平台上可用,但不会出彩的那种,说实话对于很多流程化的东西,例如我有一个产品需要一个海外的面孔帮我种种草,用 Captions 的 AI Ads 生成的视频广告,不能说多出彩,但可以放到 TikTok 发一发。下面是我们对 3 个主要功能模块做的对比,读者们也可以感受一下。
AI Ads 对比(Captions VS. Creatify)—— 严格一点,就不及格
测试条件:
1、我们选择的是同一款产品( 2 个视频只是产品颜色不一样),这款产品本身面向儿童,但我们同时加选了#户外的受众标签,进行测试。
2、因为 Captions 只支持竖向视频、且所有 Ads 都有人出镜,我们最终从各自生成的广告中选择了一段我们认为质量最高的,且都是有人出镜的竖向视频广告。
测评感受:
1、AI 生成的广告脚本不相上下,都在开头提到了 Outdoor Lovers、尝试唤起目标受众注意,并在产品特点上,强调了户外场景下液体保温的功能。但 Captions 的广告在开头唤起广告观众的注意力时,弱很多。
2、生成视频阶段,思路和质量立分上下,Creatify 生成 13 个广告,分为重点阐述产品属性、强调动态场景、有动态卡片(motion cards,方便添加关键文字)、以及 Avatar 在不同位置的讲解种草类广告
而 Captions 生成 5 个广告,人都是核心,分成占据较大画面的、以及相对较小画幅的,由创作者来阐述产品卖点。
虽然两者都有文字和画面不相关的情况、或者产品展示不完整(出画面),废片不少,但都能找到差不多能用的。而挑出来的最佳质量广告,我主观感受上还是差距比较大的。因为在生成逻辑上,貌似 Captions 都是用一段录制好的视频,去换话术和口型(其他的 AI 生成视频功能也是这个设计),所以在语调上不会有变化。我让同一个 Avatar 呼吁大家去领养狗子,换了话术,但依然是差不多的语调。
另外在产品设计上,能看出来 Creatify 其实是从广告出发,而 Captions 是从创作者出发。举个例子,Creatify 有更多的纵横比选择,可有人出镜、也可没有人出镜,适配更多平台、更多营销目标,另外可添加品牌 CTA,这些都是对广告行业有洞察的相关设计。
另外,Creatify 的设计也更加低成本和用户体验友好。例如,Creatify 在用户选择脚本之后快速生成 13 个视频,大概不到 1min 吧,能做到这么快因为没有做对口型渲染(会给用户提示这不是最终效果,口型会在渲染之后对好),用户先看效果,等自己选择到相对满意的广告,还能再换 Avatar、再次细微调整脚本,让用户能够在更多细节上做完善,等用户做完所有调整后只渲染一个视频,在计算成本上节省很多。
相较之下,Captions 一下子渲染出 5 个已经对好口型的视频,成本一下拉上去了,且后期用户如果觉得自己选的这个 Avatar 录出来的视频有点不自然,也不能调整,效果差距就会很明显。(具体对比可参看 url —> 生成广告流程图)
如果满分 100,Creatify 的视频,我可能会打 80 分,但 Captions 的可能是 60、甚至 50 分。
AI Ads 其实也是 3 个对比中差距最明显的,毕竟是和行业头部对比,有点类似一个十项全能运动员和百米冠军跑百米。而另 2 个单纯说效果差距真不大,说明 Captions 的产品和技术能力是很强的。
AI 长视频切片对比(Captions VS. OpusClip)—— 粗糙,但还挺香
测试条件:
我在 YouTube 上搜索 OpusClip,结果搜到了一个核心主题是教大家怎么用 OpusClip 的产品设计漏洞来为自己的视频免费加字幕(看来加字幕是真刚需),然后就选取了这段视频,让 OpusClip 和 Captions 来做视频切片。
我们先给出产品设计的测评。OpusClip 作为专注于做长视频切片的产品,设计上是按照长视频切片分发的完整流程设计,在功能的完善和细节方面很突出。
例如定位切片之前,可以让用户选择原视频的类型、也可以给出自己想重点定位的关键词,这些都是为了方便产品定位到最值得做分发的“高光片段”。过程中,生成的数量会更多、辅助用户决策哪些切片更容易获得效果而给到的参数也更多一些,很重要的一点是,AI 有时候会切得没头脑,开头刚好是不完整的句子,OpusClip 允许切片前后延长,例如时间点往前走一点,能切到完整的一句话,Captions 则没有这个设计。另外,OpusClip 也给了用户点踩的功能方便获得用户反馈。切片完成后,设计了社媒定时发布,和发布后数据反馈分析等等。
而 Captions 设计上就粗糙了一些(如上表格),直接点选两下就开始切片,但说实话,在 Captions 定位到的 5 段视频的质量确实是不错的,OpusClip 定位到的#利用漏洞,免费给自己的视频加字幕,#免费给 90+ 段短视频加字幕,#怎么利用免费工具赚钱,等比较有价值点的短视频,Captions 也都定位到了。
结合价格来看,Captions 虽然产品设计粗糙,但还在获得结果的那一刻是真香的(下面会说到商业化)。但除了设计细节不足,Captions 的 AI Shorts 功能在 web 端和 Mac 端一直提示错误,只有 iOS 端成功,且这个问题一直持续了一周也没解决,在小屏上操作体验差很多。
AI Avatar 对比(Captions VS. HeyGen)——效果相当,甚至更便捷
说来也巧,因为中间插了好几项工作,这篇文章前前后后测试的时间就用了一周多,就在我准备空着这一部分的时候,Captions 更新了对标 HeyGen 的 AI Twin 功能,加之去梳理了产品迭代历程,不得不说,Captions 团队迭代速度堪比国内。
用户点击 AI Twin 之后,跟着提示,录制 1 分钟的视频就可以生成自己的 Avatar 了,Captions 做的比较好的就是他会准备脚本放在提词器里面,所以 HeyGen 里面对应的用户自行准备脚本、和需要看稿子录视频导致的眼神乱飘的问题就解决了。而且生成 Avatar 很快,3 min 左右。
然后我用一段 ChatGPT 写的脚本,用自己的 Avatar 录制了一段视频,排队等生成最慢 5min 也就完成了。效果方面,和 HeyGen 差不多,生成的 Avatar 可以准确无误地念出新脚本,口型都是对的,其实两者都是自己录制的视频然后做对口型渲染,我的粗浅体验来看都没有根据不同的文字内容做表情或者语气上的变化。这样来看,Captions 仅对标 HeyGen 的 AI Avatar 功能的话,是没啥问题的,甚至录制 Avatar 的过程因为产品的提词器、AI 脚本 2 个功能,更便捷一些。
整体测评下来,感受是 Captions 在几个大热场景里面,都做到了及格的水平。基于 Captions Talking Video 的创作者基本盘,为他们拓展更多功能,例如接带货广告做变现、做内容切片二次传播、以及一些相对基础的内容无需再进行录制而是直接生成。但如果想服务更专业的用户、协助他们达到商业化的目标,Captions 大概率是会被放弃的。
因而面向对于绝大多数刚入门的创作者来说,Captions 基于自己的用户基础和产品力,变现策略也与其他产品不同,主打一键全包、量大管饱,订阅 Max 档位会员,一个月 25 美元,包揽 AI 辅助录制/视频剪辑,加 3 个最热的 AIGC 功能,不限制用量。
如果我是一个想要从事视频创作的入门级选手,在了解 Captions 的功能之后,其实会更倾向于选择它低成本起步,但移动端的数据给出了相反的结论。
在流水和活跃用户层面,Captions 在移动端的日流水在2023 年 9 月到达顶峰之后,就不再上涨,DAU 也是在差不多时间段出现峰值,比较奇怪的是 2024 年 4 月份的突然上涨,不知道是否和 Web 端上线、启动 AI 创作者计划,或者融资节点有关系,但最终 DAU 又回落到 10w 左右的水平。
在用户评论方面,我们刷了 iOS 端美国市场近 30 天的 34 条评论,3 星及以下评论占了 22 条,差评主要集中在,AI 功能不如预期、以及 Pro、Max 2个订阅层级混乱上。而我在试用的过程中也体会到在移动端的不便,且 Web 端上线后,两个平台项目不同步,一些功能总是崩溃都有出现。
移动端的失败 vs. web端的胜利?
如果我们以 2023 年 9 月为分界线,发现在这之前,Captions 是以录制辅助/视频剪辑为重点,而在之后,则转向了“无中生有”,也就是 AI 生成。偏离了 App 的初期定位,辅助 Talking Video 的视频录制和剪辑。
而在增长策略上,Captions 最近几个月加大了投放。广大大显示,最近 3 个月按展示估值排序,基本上前列的还是清一水的加字幕素材在吸量,而 AI 功能的展示估值相对较低,也就是说在移动端这类素材不太能投出去,吸引力不足。
用户看到加字幕的广告点击下载,进来之后 AI 功能占据了 UI 的绝大部分,而所有功能虽然能用,但导出都必须付费,连加字幕也是,导致了用户差评的增加,以及加大的营销预算在移动端无法转化为活跃用户。
新功能与移动端用户需求的错位,表明“从相机 App 深入 AI 视频领域的转型”,在移动端来看,起码是失败的。
但在 web 端,却出现了转机。2024 年 4 月份,Captions 上线了 web 端,CEO 在 5 月 3 日又发了一条 X,表示上线前 90 天就拿下了 2.5w 订阅用户。里面的一个 bug 是,估计 2 个数字写反了。这时候距离 web 上线的 4 月 10 日不到 25 天,所以新增订阅用户应该是 9w?我们在国内的一些公号例如投资实习所上,也看到是前 25 天 9w 新增用户的表述,大概是同一个推断。(CEO Misra 也表示,如果是传统情况,大概可能需要 5 年才到 10w,而他们才花了 25 天)。
Gaurav Misra 分享了他们做 web 的几点观察:
一、桌面市场远没有预期的拥挤,他们当时觉得在桌面端,用户有非常多的选择,所以进入很谨慎,但是真正进入了发现,实际上的竞争远没有那么激烈,而且增长是相对简单的。
二、在网页端付费的用户,是“全新”的用户,并没有用过 Captions 的移动 App。
三、用户在寻找创新的 AI 功能。
很大一部分用户是企业用户或者营销团队,他们希望寻找 AI 功能,能够攻克长视频创作中的一些问题。(也侧面验证了,Captions 移动 App 用户的画像更偏向于个人创作者,Discord 社群里有一个 Introduce Yourslef 的频道,新进来的用户做自我介绍,7 月份的用户画像是 1、想用 AI 剪辑的内容创作者;2、营销人员;3、想做科普视频的护士;4、想做 KOL 的广告文案;5、想给自己做字幕的 Amazon 卖课人、想做内容分发的主播;6、刚开始起步的短视频创作者;7、以及没有表明目的的摄影师、时尚设计师。)
四、“简单”的 UI 是不够的,市场上有大量的新客户,他们对视频剪辑应该是什么样子是没有任何概念的。所以有很大的机会去重新去定义这件事情。
而转型后,移动端与 web 端数据的明显反差,释放的信息是,Captions 推出的 AIGC 相关功能在移动端跑不通 PMF,结合 CEO 分享的 web 端用户画像,可推导其推出的 AIGC 相关功能在 C 端用户那里跑不通 PMF,可能只有很少的入门创作者在移动端为 AIGC 相关功能付费。资本的站位,更多是对 Captions 团队技术能力和在 web 端成绩的认可。
这里面其实还有一个小插曲很有意思,PhotoRoom 的创始人在 Captions 4 月 10 日上线 web 的时候,发文称 Sass 的未来是 mobile first,因为在手机端工作的人,要比在桌面端工作的人要多 10 倍不止。现在的结果已经出现,被打脸。
之前对于 web 还是移动,我们也与一些 AI 创业者做过探讨,加上这次观察,有 2 个点是可以分享的:
一、重视 web 还是移动端,与使用路径更相关。PhotoRoom 的创始人的观点来自于自身的经验,PhotoRoom 的客户画像是海量的中小卖家,服务的是他们拿起手机拍产品,然后用 PhotoRoom 也能做出很好的产品图。这样的使用路径,注定了有摄像头的移动端是重点。
Captions 早期也是一样的,辅助用户去录制 Talking Video,做了提词器等很刚需的功能,然后去加字幕,移动端是重点,而且他们不提供免费版本,甚至只做 iOS 端。但 Captions 基于用户群体开始去迭代产品之后,用 AI 把门槛越降越低,从辅助录制、到不用录制,手机端最重要的“摄像头”也就变得不再是必须项。从 camera-app 转向 non-camera app,Mobile first 也就不再成立。
二、贴近用户、响应用户。
Captions 虽然在 AIGC 功能上有些减分,但在梳理团队的过程中,发现增长、商业化上都有自己的思考,而且团队很小,迭代超快,且非常注重和目标用户_创作者的连接。
Captions 移动端的早期用户大盘可能是个人创作者,但里面可能掺杂着一些用 Captions 做更复杂内容的偏向于某些特定场景的用户,而 Captions 一直在 Discord 上、X 上做调研,随着 Captions 希望将自己的天花板做高去迭代产品,用户对于 Web 端上线的呼声一直很高。
所以 Captions 并不是因为很多 AI 产品都在做 web 而去跟风,也是真的在回应部分用户的需求。背后的根本原因是新做的功能,在移动端用起来真的费劲。
例如,在 Discord 社区,有用户提问,“现在限制的视频时长是 2min59s,如果是一个比较长的视频,他们需要分别处理完再把几个视频连起来。甚至有用户说处理 1min 以上的视频,App 就会崩溃。一些旧型号的手机支撑不了。”
而 web 端显然能承接一些更复杂的功能,大屏+键鼠更容易操作。
写在最后
虽然对 Captions 是否在 C 端跑通 PMF 的讨论,并没有得出新故事。但让我们看到了一个团队探索 AIGC 应用路径上的经验与困难。
在 web 上线后 25 天就获得 9w 付费用户的 Captions,如果能维护好,两端加起来 ARR 怎么也得有 3000 万美元。但显然,转型后移动端的增长停滞,外加转型后 web 端用户与 HeyGen 等产品用户画像重叠但产品力不足,都会对 ARR 目标的达成形成挑战。
而通过变现策略(不限制用量的订阅方案)来缓解对专业场景上的深耕不足,也可能会随着技术的发展变得难以维系。在发稿前最后一次去 HeyGen 确认细节的时候,发现他们貌似刚刚更新了订阅方案。从按使用量来收费,变为订阅期间无限制生成视频。AI 正在以极快的速度迭代,即使做到比较的头部创企,也依然面临极大的不确定性。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有