隐私交给协作平台太可怕、少刷短视频已成全民共识?玉伯、汪源共论AI应用变革 | 万有引力

隐私交给协作平台太可怕、少刷短视频已成全民共识?玉伯、汪源共论AI应用变革 | 万有引力
2025年01月25日 14:17 CSDN

作者 | 《万有引力》

出品 | CSDN(ID:CSDNnews)

过去一年,AI 不仅颠覆了传统软件开发范式,更深刻地改变着每个人的工作方式。当我们习惯了 AI 帮我们写代码、生成内容、规划日程,却也开始思考产品形态、数据隐私、创作方式等根本性问题:为什么感觉被推荐算法“喂养”的时间越来越多?AI 让工作效率提升了,但创造力是否在减弱?我们需要把所有工作数据和个人数据都交给团队协作平台吗?大语言模型真的能理解复杂的业务需求吗?未来工作模式的转变已在眼前,但方向仍扑朔迷离。

2025 年 1 月 20 日,CSDN 对话直播栏目《万有引力》迎来第三期。在栏目主理人 CSDN &《新程序员》执行总编唐小引的主持下,思维天空创始人、语雀创始人玉伯,久痕科技创始人、CEO、前网易副总裁汪源围绕这些问题展开深入对话,分享了多个引发热议的观点。

欢迎收听 & 订阅《万有引力》小宇宙频道~

玉伯

  • 从农村到一线城市已形成共识:少刷抖音。人应主动创作而非被动消费,创作将成为新的消费方式,能带来更深层的满足感。年轻用户已经不再满足于被动接受内容“喂养”。这类纯消费型产品可能会逐渐被淘汰,取而代之的是能让用户既是消费者又是创作者的平台。

  • Agent 的出现会打破大家对 AGI 的执念。现在聊的 AGI 还停留在博物学家的概念,因为知识量不大,所以可以什么都懂。但在当今知识大爆炸、高度专业化的时代,这种大一统是不存在的。这就是一种祛魅——认识到所谓的 AGI 只是人类的一个执念。

  • 技术创业者要跳出技术思维。虽然容易理解 AI 边界、能快速试错,但也容易因懂技术而低估产品价值。

  • 所谓的 AIGC、AI、Agent、AI native 这些都是在造概念。这些概念背后可能有一些意义,但本质上都是基于现有的大语言模型去开发功能,叫什么名字并不重要。就像回到移动互联网时代,我们也不会去纠结微信是太极式还是武当式,这些都不重要。

  • 移动互联网时代靠人口红利才能实现“先做规模再做营收”,但 AI 时代已经不再有真实的人口红利了,所以千万不要用当年的思路去做产品。

汪源

  • 所有数据都应归属个人。把日常工作记录放在协作平台上是危险的,个人数据必须保持私密,只有经过加工的内容才适合共享。

  • 未来属于复杂脑力劳动者。简单的职能工作会被自动化取代,程序员要向全能型人才发展,产品和技术两手抓。

  • 面向个人是 AI 时代新机遇。与传统 SaaS 和云架构不同,面向个人、本地优先将成为新趋势,但成本控制是关键挑战。

  • 仅仅调用大模型 API 并不能解决所有问题,这就像游戏开发一样。即便所有游戏公司都在使用 Unity 这样的通用引擎,最终做出的游戏依然千差万别。用第三方大模型开发 AIGC 产品,真正的差异在于你如何运用这个工具。

  • AI 工具最终应该按照它给用户提供的价值和效果来收费,而不是像 SaaS 时代那样按照坐席订阅。随着 AI 应用对用户价值的增加,它可能会达到每月 100 多美元的层次。

以下是对话全文,经 CSDN 精编整理:

技术大神的程序人生

唐小引:欢迎汪源老师和玉伯,两位老师都是 CSDN 多年的老朋友,也是许多程序员成长的学习榜样,可以先分享一下自己的技术生涯、成长历程以及与 CSDN 的渊源。

玉伯:大家好,我叫玉伯,本名王保平。目前正在创业,做 YouMind 这个产品。此前在阿里巴巴做技术,最后四五年花了大量精力做语雀产品,经历了从技术到产品的转型。2024 年开始创业,到现在已有半年多。回想起来,我与 CSDN 的渊源可以追溯到十几年前,那时候经常在 CSDN 和博客园学习编程,印象很深的是有很多高质量的技术文章。

汪源:大家好,我是汪源。我于 2006 年加入网易,一直负责研究院的工作。在研究院期间,我们经历了从 Web 2.0 到移动互联网的转型,为网易集团孵化了多个重要业务。比如大家熟知的网易云音乐、网易云课堂、网易严选等项目都是我们研究院从零开始打造的。我最初是担任技术管理职务,但随着管理团队规模的扩大,已经很长时间没有直接编写代码了,而创业之后我又重新写起了代码。

说说我与 CSDN 的渊源。最早是在本科时期就经常访问 CSDN,特别是在学习 Java 的阶段,经常在 CSDN 上与其他开发者交流。我也长期订阅《程序员》杂志,并为杂志撰写过几篇文章。记得在 2010 年 - 2011 年期间,当时周筠老师推荐过我写的一篇博客文章《技术总监谈什么是好的程序员》,这篇文章还登上过 CSDN 的首页。可以说,CSDN 陪伴了我整个学生时代,从 1997 年一直到 2006 年。

唐小引:我和汪老师也认识多年了,从《程序员》杂志到《新程序员》都有合作。记得之前《新程序员》做「大模型时代的开发者」专题时,我邀请汪老师撰稿,分享自己从资深程序员和技术管理者角度对于大模型时代程序员生存之道的思考,发生了一件印象深刻的事。当时我同时约了汪老师和他团队的技术专家写稿,结果汪老师已经交稿了,团队的同学还没完成。我还同步催稿:“你看院长都交稿了,你还没交呢。”

刚才汪老师提到 CSDN 首页的事,值得一提的是,随着 AI 时代的到来,CSDN 官网首页已完成全新改版,重点聚焦 AI 领域的技术创新与实践案例,致力于为全球开发者提供高质量的 AI 技术内容,打造开发者信息获取的新型入口。

投身 AI 创业:让 AI 代替人类开会 vs 让人人成为内容创作者

唐小引:我想先请教一个问题:你们有一个共同点——都是从资深程序员成长为大厂高管,现在又都投身 AI 创业。创业以来有什么深刻感受?比如从大厂到创业这个转变,包括像汪老师提到现在可以重操编程,还有产品形态、创业目标等方面,都可以和大家分享。

汪源:创业到目前的感受非常好,回到了一个能够按照自己想法做事的环境。

唐小引:感觉很顺利?没有体会到创业“维艰”吗?

汪源:目前还没有特别大的困难。因为在网易时期,特别是后期负责 To B 的企业服务业务时,要处理很多商务和精细化运营的工作。而现在创业是做 To C 的软件,所以我可以重新回到一线去设计产品,甚至亲自编写一些核心功能的原型系统。这种感觉让我回到了 2006 年刚进网易时的状态,那时我们在开发博客、相册等产品,团队一起探讨产品方向的感觉。

我可以简单介绍一下我现在的创业项目。我们在开发一款个性化的办公助手,主要形态是桌面应用,同时配套移动 App。我们希望帮助用户更好地处理各类信息输入,比如外部资讯、工作协同文件等。我们首要任务是帮助用户高效阅读理解这些输入信息,并有选择性地记录有价值的内容。

从长远来看,我们希望能够成为真正能替用户完成部分工作的助手。比如帮助撰写工作文档、处理邮件等。我们最终的目标是希望某一天能够替用户参加会议——不是简单地旁听,而是能在会议中发言、回应需求、作出承诺。举例来说,在客户会议中如果对方要求降价,AI 助手可以根据预设的授权范围直接作出决策。这是我们的远期目标,目前我们还在较基础的阶段,已经实现了一个知识管理的 Agent,它能像用户一样阅读资料并做出笔记。

唐小引:让 AI 代替人开会是您的终极目标吗?

汪源:是的,这基本可以算作终极目标了。因为在此之前的功能,比如处理邮件、处理聊天消息、完成工作任务等,都没有开会这么具有挑战性开会是一个非常复杂的场景

唐小引:这个目标在可预期的未来能实现吗?您能分享一下阶段性的规划吗?

汪源:按照我的预期,今年我们一定能实现帮助用户阅读资料并输出工作文档。明年应该能实现处理部分邮件的功能,但具体能处理多大比例的邮件还要看技术发展情况,包括 Agent 技术能达到什么水平。再往后的发展,现在很难预测,因为技术发展的速度和方向都存在很多不确定性。

唐小引:接下来请玉伯分享一下您的创业感受和进展。

玉伯:我的感受与汪源老师有很多相似之处。首先是心态上的变化在大厂时是身体很忙很累,心也很累。创业后,身体依然很忙很累,但心里反而不那么累了。创业后做的每件事都有明确的目标和方向,所有工作都围绕一个核心目标在进行虽忙,而心里有温暖,不累

其次在产品方面,刚才汪源老师介绍了他们做个性化办公 AI 助手,而我们则专注于内容创作领域。我们主要服务的用户群是制作三分钟以上内容的创作者,包括短视频、短剧,以及写长文章、写博客的创作者。这些中长内容创作者在创作之前都会经历准备阶段,需要选题、找资料、写稿。我们现在开发的产品叫 YouMind,核心就是围绕这三个环节,为内容创作者提供一个好用的工具。

唐小引:很多人可能会很好奇,作为语雀的创始人,后来又负责飞书产品,您现在做的面向内容创作者的 YouMind 产品与之前的产品有什么区别?

玉伯:其实是换了一个赛道。语雀和飞书都在办公协同这个赛道,而且都是To B 产品,飞书更是纯企业级产品。而我现在做的是 To C 产品,用户群体和赛道都发生了很大变化。虽然我在飞书主要负责项目管理而不是文档,但现在的工作仍然与项目管理有关——只是转向了帮助内容创作者管理他们的创作项目,比如如何在几天或一两周内完成播客逐字稿、直播准备稿等工作。

唐小引:不是说把对话内容快速转成博客文章这样的功能吗?

玉伯:生成内容倒不是我们的核心目标。通过与很多播客主理人交流后发现,录音环节反而是他们最享受的部分。通常他们会录两三个小时,然后剪辑成60-90 分钟的内容。对主理人来说,录音是一个快乐的创作过程。目前在播客创作领域,对AI 转换语音或生成内容的需求并不强烈。去年比较火的 NotebookLM,它的 Audio Overview 功能更适合学习场景,而不是播客创作。深入研究用户场景后就会发现,需求往往比表面看起来要具体得多。

唐小引:和汪老师不同的是,您的产品已经对外发布了。能否谈谈发布后的情况,比如用户增长、商业化付费等方面?有哪些出乎意料的情况,哪些验证了您的想法,或者有哪些新的发现?

玉伯:我们目前还处于内测阶段,从 2024 年 12 月 6 日才在大陆地区开始内测。截至今天,大约有七千人申请内测,不过我们只开放给了部分用户。付费转化率目前表现不错,大约在 4%-5%。这个比率可能与内测阶段的用户群体特点有关,因为我们选择了特定的用户群体,所以转化率相对较高。

关于超出预期的部分,这次在 12 月份发布的 0.1 版本,很大程度上是受我之前参与开源社区经验的影响。作为一个曾经专注于开源社区的开发者,我们选择在产品还处于非常早期的阶段就开放出来,目的是希望能找到对产品愿景感兴趣的人,让他们参与到产品共创中来。

团队成员都担心产品还不够完善就发布,但从这一个多月的运营来看,整体反响还是很正面的。社区对我们这种 build to public 或开源的产品开发方式的包容度超出预期,这一点我刚开始也有担心,但事实证明不用太顾虑。

唐小引:汪老师在付费使用玉伯的 YouMind,体验怎么样?

汪源:从我使用的体验来看,虽然我现在主要用它的信息采集和收藏功能,而不是产品写作,但我觉得 YouMind 在这些功能上做得都很到位,特别是在视频、图片等各类内容的收藏方面。另外,我还跟团队分享说 YouMind 的设计美观度已经达到了 95 分,我也让我们的设计师去学习参考。

汪源的“反共识”:把日常工作放在协作平台是很可怕的事情

唐小引:接下来我想谈谈你们的创业理念。两位都有过对于“反共识”的分享——玉伯说是“反算法在 AI 时代会是小趋势”,而汪老师说是“反云架构、反协作”。你们对这些“反共识”有哪些思考可以与大家分享?

汪源:我们现在做的是面向个人的、本地优先的架构,主要是将程序安装在用户的桌面系统上。这与当前流行的云架构方向不同。我认为,行业共识往往是经过长期积累形成的。我们在做决策时会用 PEST 分析方法,也就是考虑政治(Politics)、经济(Economy)、社会(Society)和技术(Technology)环境。

我 2006 年进入网易时就开始做 Web 2.0,包括博客、相册等产品,后来是移动互联网。过去十多年,大家都在做 SaaS 和云架构,都在做协作,这是因为互联网技术发展带来的机会——互联网的核心价值就是连接。在 To C 领域,形成了大量平台型机会,连接消费者和服务提供商。在 To B 领域,从 Google Docs 开始,包括后来的 Google Wave 到 Notion,都在强调协作功能。

但我认为协作和互联网平台的机会已经很少了,因为整个互联网的连接能力已经达到极致,我们已经进入互联网下半场好几年了。我不期待在这些方面还会有特别大的机会。

我们现在面临的是 AIGC(生成式 AI)这个技术突破。从目前来看,它带来的主要机会是面向个人的。比如我们看到比较成功的产品,像 ChatGPT、编程相关的 Agent、AI 搜索、AI 笔记等工具,你会发现它们都非常有用,但主要是面向个人的,几乎看不到协作的属性。

因此我认为这一轮 AIGC 技术突破带来的巨大机会是面向个人的。如果面向个人,就不一定需要采用 SaaS 和云架构。比如我们做的个性化办公助手,因为要托管用户的所有原始信息,包括浏览记录、会议记录等,从用户隐私和服务商成本各方面考虑,采用本地优先的架构是最佳选择。

而且我认为,绝对不能把我们的平台做成协作平台。因为协作平台是典型的 To B 产品,它的权限管理与公司组织架构挂钩,这意味着你的主管可能会看到你的所有信息。我认为个人助理涉及的信息应该属于个人隐私,即便是为了工作需要产生的信息也是如此。需要协作的部分应该是你加工过的、专门用于协作的输出,比如你发出的邮件或在协作文档平台上写的文档。但你日常活动产生的原始记录应该都属于个人,不能托管在协作平台上。换位思考,我自己也不愿意让老板看到我一天八小时的每一秒都在做什么,那太可怕了

唐小引:玉伯,汪老师刚才讲了他对云架构和协作的观点,您认同吗?

玉伯:我觉得这确实是个趋势。最近关注个人笔记或个人生产力工具时发现,像 ObsidianAFFiNE 这些做AI 笔记文档的新型工具,都非常注重Local First(本地优先)和隐私保护。在这点上我非常认同汪老师的观点。

目前隐私安全和本地优先正在成为个人用户选择工具的一个前提条件。如果工具做不到这一点,用户就会有顾虑。从这个角度来看,这可能是从云化回归到本地的一个螺旋式演进过程,这个趋势确实在发生。我认同这个趋势,但很难判断它与云服务、小团队协作或社会化协作之间的关系。未来可能在这种本地优先的工具中,还是会保留一些社会化协作的能力,关键是如何把握这个平衡。

汪源:我认为面向协作的功能肯定还是要基于云和 SaaS 架构。面向个人的产品和面向协作的产品之间需要有衔接,但具体会怎么发展还要看实际情况。

玉伯:对,应该是一种融合关系,或者说是如何在产品层面巧妙设计的问题,我也很期待看到这个问题如何解决。

应用背后的模型选择:第三方为什么都选 OpenAI?

唐小引:汪老师您现在创业做的个性化办公助手会持续收集用户的行为动作和数据。当前很多人在使用模型时会担心安全问题,比如很多人会选择私有化部署。您的个性化办公助手背后是否有直接的模型支撑?在安全保护方面是否采用类似当前模型的安全方案?

汪源:我们现在的方案是所有数据都存储在用户本地电脑上,也可以同步到手机上,总之数据都在本地。目前阶段,我们在调用大模型时会使用 OpenAI 的 API。所以前提是用户需要信任 OpenAI 这样的大模型供应商在 API 安全方面的保障。

我觉得用户其实不会特别担心像 OpenAI 这样的公司去窥探隐私。用户更担心的是公司内部托管的 API,因为这样公司就能掌控信息。不过从另一个角度看,公司可能希望自己去托管一个私有化部署的套件,所以在这里可能会出现公司诉求和员工诉求的矛盾

唐小引:您为什么选择 ChatGPT?像 Anthropic 家的 Claude,为什么没有选择它们?因为在 AI 编程这块,很多人说 AI 编程神器 Cursor 很火热,还有 Windsurf 这些,其实是因为背后调用了 Claude 3.5 Sonnet 为主力模型。我想知道在模型选择上,大家是怎么考虑的?

汪源:我们是针对具体场景进行测试,发现目前 GPT-4o mini 这个模型相对最合适。Claude 的效果确实也很好,但是成本是 GPT-4o mini 的 25 倍,太贵了。等会儿我可以详细讲讲成本这个问题,我觉得现在做一个 Agent 的成本其实很高

玉伯:我们做 YouMind 也是选择 GPT-4o。对于 GPT-4o 和 GPT-4 mini 的选择是这样的:一些对推理或效果要求不那么高的场景就用 GPT-4o mini,因为性价比最高。其他一些场景用 GPT-4o,极少部分场景会用 Claude。目前是一个混合使用的策略,根据具体场景选择性价比最高的模型。

唐小引:汪老师的选择逻辑是不是和玉伯一样?

汪源:我们的策略类似,但在一些要求不高的场景会用 Gemini Flash 1.5,这样比 GPT-4o mini 更便宜。我们没有使用比 GPT-4o mini 更高端的模型。我们现在的 Agent,因为要代替用户阅读工作相关的文章,如果用 Claude 来读的话,平均每读一篇文章的成本接近一美元,这是完全无法接受的。

玉伯的“反共识”:少刷抖音是 AI 时代的小趋势

唐小引:再回到话题,请玉伯讲讲您对于“反算法”的思考。

玉伯:我澄清一下,对算法本身我当然不反对,我反对的是抖音这类短视频平台的使用方式。目前很多短视频平台主要是做内容和人的匹配,根据用户行为来“喂养”用户当人很累的时候看看这些内容当然可以,因为人都有需要有纯消费的时刻

但随着 AI 的兴起,它可以帮我们处理很多枯燥的重复工作,如果人剩下的时间都用来刷抖音,总觉得不太对。我发现无论在一线城市还是在我老家这样的四五线小县城,社会都在逐步形成一个共识:少刷一点抖音。无论是和 BAT 的朋友聊天,还是和家乡的七大姑八大姨聊天,基本都认为应该少刷抖音。

这是一个很有趣的现象,它已经成为了一个从农村到一线城市的普遍共识。这有点像香烟——虽然很多人喜欢抽烟,但当有人建议少抽点烟时,他们内心也会认同。但问题是,少刷抖音、少抽烟之后,人的时间应该用来做什么呢?

我反对的是这种“喂养”式的算法,我认为人应该有更多时间去做一些主动创作,比如更新小红书、做播客、制作视频。当你从纯粹的消费者转变为创作者时,能获得更深层次的快乐,对社会的价值贡献也会更大,这对整个社会都是有益的。

所以我觉得消费趋势正在发生变化。虽然目前短视频平台在内容匹配方面做得很极致,但这可能已经到了一个转折点。这些小趋势也许就是未来五到十年的大趋势。

唐小引:我原本以为这是一个技术问题,听下来发现格局更高,是一个社会学的问题。

玉伯:或者说这是产品的基本假设。做创业项目时我们都需要观察趋势。如果能看到一些趋势,就像汪源老师说的,在当下这个时代,云和协作在过去十几年很流行,但现在可能转向本地优先、隐私保护和个人工具这些方向。我觉得我们都看到了一些我们内心很笃定的小趋势,而这些小趋势往往孕育着大机会。

唐小引:您看到了哪些小趋势?让我们一起探讨这些潜在的大机会。

玉伯:少刷抖音就是个小趋势,虽然很多人不愿承认。另一个趋势是创作可能会成为一种新的消费方式。比如我的孩子玩《我的世界》(Minecraft),他玩游戏更多是在享受创造的过程,而不是单纯消磨时间。年轻用户已经不再满足于被动接受内容“喂养”。

我觉得这类纯消费型产品可能会逐渐被淘汰,取而代之的是能让用户既是消费者又是创作者的平台。比如在《我的世界》里搭建场景、建造房子,虽然也是在玩游戏,但当他在游戏中建完一个场景后,可以邀请朋友来参观,这种创作带来的满足感、获得感和成就感是很不一样的。

我认识一些做小红书、做 B 站的朋友,他们粉丝并不多,但他们享受每周或每两周更新一篇内容、制作一个视频的过程。这种快乐已经与获取粉丝或谋生无关,而是一种更有意义的时间投入方式。

唐小引:汪老师,您看到了哪些代表着大机会的小趋势吗?

汪源:我觉得这可能不算小趋势,但我认为从事脑力劳动的人群一定会越来越多。同时,因为 AI 的出现,那些比较单一的脑力劳动,比如客服或者单一职能的工作,会逐渐被自动化取代,这类工作的社会需求会减少。最终,更多人会从事我称之为“复杂脑力劳动”的工作,这不是像客服那样每天接打固定数量电话的模式化工作,而是需要处理各种复杂的脑力任务。我认为这是一个重要趋势,尽管目前还不是普遍现象。

唐小引:这和程序员的发展轨迹很像,初级程序员可能会被 AI 取代,但中高级程序员、35 岁以上的资深程序员因为要做更复杂的程序设计和架构设计,反而不会被取代。

汪源:我之前在给《新程序员》的文章中就提到过,程序员应该向全能型方向发展。其实不需要那么多程序员在某个技术领域钻得很深,最好是能够产品和技术两手抓,既懂产品又懂技术,而且是全栈技术。未来的技术栈可能也会发生变化,不一定像现在这样前端后端分得这么清晰。回想二十多年前我们刚入行时,也没有这么细致的前后端划分。

市面上能够支持多模态搜索的产品还是很少

唐小引:接下来让我们总结过去一年 AIGC 产品的发展,以及一些具有代表性的观点和问题。

首先,模型选择问题涉及到 token 消耗和成本。很多人困惑的是,此前说 2024 年会是大模型应用落地的一年。在过去一年里,我们确实看到了更多行业应用的结合,但大家期待的 Killer App 似乎还没有出现。

第一个问题是,两位老师能否总结一下 2024 年 AIGC 应用的重点是什么?比如大家都在寻找产品方向,寻找 PMF(Product Market Fit)。除此之外,也请谈谈对 AIGC 产品普遍面临的困惑的思考。

玉伯:对这两个问题我可能关注得不是很多,因为自从决定创业以来,我反而较少关注资讯了。更多是专注于自己创业的重点,就是寻找 PMF 和真实需求。有些需求其实与 AI 都没有直接关系,我在考虑用传统产品设计方式去解决。

现在我主要是围绕用户场景和痛点来做运营。举个例子,我们做收藏功能时,加入了保存视频字幕的功能。这个简单的功能背后其实解决了一个重要的用户痛点:很多做播客或中长视频的创作者平时会看很多 YouTube 视频或听播客,之后创作时可能想起两三周前看过的某个观点,但很难通过现有的 YouTube 搜索、小宇宙搜索或浏览器收藏夹来找到具体内容

我们实现了视频和字幕一起保存后,用户发现 YouMind 支持了视频和音频搜索。虽然我们并没有做语义化搜索,但对用户来说这个问题已经解决了。因为用户通常记住的是某个视频片段中某人说过的话,通过字幕搜索就能定位到具体的视频和时间点,还能重新回看。这个功能本质上与 AI 的关系并不大。

但也有 AI 相关的部分,比如一些音视频没有字幕,我们会提前做转写。只要用户通过 YouMind 保存的多媒体内容,我们就会把它文本化。文本化之后就可以实现多模态检索。这些技术本身并不复杂,但这个场景很有意思——我们发现市面上能够支持多模态搜索的产品其实很少

唐小引:确实,我现在就觉得音频搜索特别不好用,文本搜索还好,但音频视频的搜索非常困难。

玉伯:是的,音频搜索涉及到音频转写质量的问题,这其实很有技术难度。要生成好的字幕,甚至要把内容分成有意义的段落,按发言人划分,这些都很有挑战。目前国内可能就飞书妙记、通义听悟、讯飞听见做得还不错。海外也有一些产品对英文支持得很好,但对中文的支持都比较弱。

汪源:核心问题是在关键时刻它经常会出错,比如你想搜索的关键词可能是一个非常特殊的专业名词,这类词反而最容易被错误识别。

玉伯:对,这确实是个痛点。特别是一些播客里面中英文混杂的内容,英文单词的识别准确度往往不高。所以回到 2024 年 AIGC 产品的重点,我的感受是要深入挖掘用户的痛点,越具体越明确,反而会发现更多痛点。更多是从深入用户场景的角度去看问题。

唐小引:玉伯谈到的音频和视频中英文混合识别的问题,我在 2024 年也做过一些尝试。比如说像我们现在进行的这场对话,如何处理中英文夹杂的内容?之前我因为 CSDN 在国际上联合发起的 GOSIM 开源大会需要对演讲视频进行英文字幕转写,当时用的是 OpenAI 的 Whisper 模型。它对英文的转写准确率非常高,但遇到中英混杂的场景就表现不佳。后来我们开始研究在这种场景下哪种模型对中英文专业术语的识别效果更好。这其实是我们 CSDN 编辑部在实际工作中遇到的痛点,听起来也是大家共同面临的问题。

AIGC 产品怎么绕开 OpenAI 这座“大山”?

唐小引:玉伯是在 AIGC 快速发展的背景下,选择从用户需求出发,也就是您之前提到的“闭门造车”的逻辑,对吗?

玉伯:对,现在是处于“恨铁不成钢”的状态,这个“铁”指的就是大语言模型还太差了

唐小引:这也带来一个问题。之前有一些创业公司基于 OpenAI 的模型创业,当 OpenAI 升级时,有一批 AI 创业公司就倒闭了。这是真实发生的事情,我想知道您对未来模型演进的看法,以及作为调用 API 的创业公司,您是如何考虑这个风险的?

玉伯:我考虑过这个问题,我的感觉是目前大语言模型的能力其实离真正的AGI 还很远。甚至说如果真的实现了AGI,反而更有机会做 Killer App(超级应用)。

我觉得所谓的超级应用很多时候依旧要看具体场景,要能够把某个具体场景做深做透。这就像当时移动互联网时代,微信的出现如果没有移动运营商的基础设施支持,再好的产品也是没用的。现在的大语言模型就像当时的水电煤这样的基础设施,只有这些基建真正稳定好用了,上层的超级应用才有基础。

至于说基础设施做好了是否会吞掉上层应用,这个逻辑我一直不认同。比如目前 OpenAI ChatGPT 几个月前推出了 Canvas,但实际上你仔细看它做得很浅。从这个角度来说,创业公司是有机会的。大厂在某个点上可能只投入三五个人或者十个人,因为它的战线太长了。但创业公司可以在这个点上投入更多,比如投入二三十个人。

创业公司只要足够聚焦,在资源投入上反而比大厂更有优势,更容易在聚焦点上形成大力出奇迹。大厂现在很多产品,比如说豆包就是大杂烩什么都有,而且是以数据驱动的。如果短期看不到数据变化,某个子功能可能就会被砍掉。这恰恰是创业者的机会,因为创业者不会太受数据影响,会更有定力。做了半年发现不对,或者数据起不来,还可以在同一个大方向上换个小方向或者换种做法,可以持续去做,持久力可能会更强。而大厂,往往看见数据不对,就放弃了。

唐小引:玉伯提到了几个关键问题,请汪老师也分享一下对 AIGC 产品的思考。

汪源:我先说说 2024 年 AIGC 产品的重点。我认为这一年给大家对 AI 的发展带来了新的信心。2024 年第一季度时,ChatGPT 作为唯一的 Killer App 代表,增长曾经停滞过一段时间。但到下半年 ChatGPT 又恢复了增长,接近年底时他们提出了下一年要达到月活 10 亿的目标。所以从 To C 领域来看,ChatGPT 确实重新获得了增长动力。

在 AI 搜索产品方面,Perplexity AI 在 2020 年平稳发展,没有受到 Google 的打压。我还看到在很多领域,因为技术突破,一些我们之前认为不可能的事情正在发生。比如在 Coding 的 Agent 方面,我试用了 bolt.new 这样的产品,一年多前我觉得这事很难做好,但三个月前再试用时,效果已经非常好了。类似的还有 Cursor 这样的编程产品,最开始的体验很差,但两个月前我重新用它编程时,体验已经很好了。所以在 2024 年,我们看到了很多垂直领域的增长。

关于 Killer App 的问题,我认为现在至少已经有一个 Killer App 出现了,就是 ChatGPT。即便用同样的逻辑对标,它比同期的任何移动互联网产品增长都要快。但我理解可能我们现在不能再用移动互联网时代看 MAU、DAU 的逻辑来判断一个产品是否是 Killer App。

我认为在 AI 时代,我们应该更多地直接看营收。从营收角度看,现在已经有很多 AIGC 应用做到了几千万美元的年度经常性收入(ARR)。据我所知,移动互联网前两三年几乎没有哪个 App 能做到几千万美元的 ARR。从营收角度来说,现在 AIGC 的发展速度已经超越了早期的移动互联网。

所以我的理解是,我们现在应该更多地关注 AI 对用户的价值,以及这个价值带来的营收规模增长。我觉得移动互联网的产品对人们的工作生活带来的价值可能并不是特别大。打个比方,移动互联网给大家提供的是一个比较基础的工具,就像提供一个搓衣板。搓衣板可能很快就能普及到每个家庭。

但现在的 AIGC 是一个产品价值比较大的产品,有点像洗衣机,它可以完全代替你做洗衣服这件事,而不是仅仅提供一点辅助功能。这样的产品,客单价会比较高,相应的日活和普及速度就不会那么快。就像我们国家从开始有洗衣机到现在家家户户都有洗衣机,经历了很长时间的渗透过程。但它最终带来的营收规模会很大,而且在这个过程中不会像移动互联网那样发展——前面可能花了十年八年时间不断投入培养用户量,但最后发现商业模式未必可行,这种风险其实非常大。

唐小引:汪老师把 ChatGPT 定义为 AIGC 产品吗?

汪源:对,因为它确实展现了大模型的很多核心能力。比如说最近它发布了一个叫 Tasks 的功能,用户可以让 ChatGPT 设置一个任务,比如“每天早上九点给我梳理某些领域的新闻资讯”。这些功能相当于做了一个新闻早报应用,但用 ChatGPT 的 Tasks 功能就能完成。所以我认为它会把那些与大模型直接相关的能力都实现,这使它成为了一个典型的 AIGC 应用。

唐小引:它的产品形态与之前每一轮技术革新时期的产品完全不同,比如移动互联网时代的衣食住行 App,或者像抖音、小红书这些。所以关于 AIGC 产品的定义,其实还存在一些争议。不知道玉伯对这个观点是怎么看的?

玉伯:我可能首先是不太关注新闻资讯,其次对这种分类都有点反感。我觉得所谓的AIGC、AI、Agent、AI Native 这些都是在造概念。这些概念背后可能有一些意义,但本质上都是基于现有的大语言模型去开发功能,叫什么名字并不重要。就像回到移动互联网时代,我们也不会去纠结微信是Java 还是 C 开发的,这些都不重要。

唐小引:主要是从需求角度来定义的,比如聊天对话用微信,需要吃饭用美团饿了么,对吧?

玉伯:但实际上很多应用最后都发展成了什么都能做的综合平台。我觉得可能更应该这么看:我们是基于技术的变化,有了 AI 之前只有 CPU,现在有了 GPU,之前是算力现在有了脑力。这是一个我称之为 AI 应用的新形态,是应用的 2.0 或 3.0 版本。

我们之前做软件开发,比如 PC 上的 Office 或 WPS,这是传统的单机应用,这是第一代。到了第二代,有了互联网和移动互联网,出现了各种基于手机端的应用,这是软件的 2.0。AI 应用则是在 1.0、2.0 之后的 3.0,它的底层技术发生了变化。

这些分类对于研究可能有用,但对创业来说我个人不太想研究这些。包括之前有媒体可能会把 AI 划分成 AI 教育、AI 陪伴、AI 泛娱乐等类别,但我发现按这种方式分类,很多应用都难以归类。这种分类可能更多是从媒体或其他角度出发,对创业实践意义不大。

唐小引:玉伯老师的建议是,不要被太多信息干扰。

汪源:是的,因为我们能做的事情本身就很有限,你只能认准一个方向深入做下去。行业里有很多信息,但理论上讲可能与你的具体工作关系不大

AIGC 产品的指标有哪些?

唐小引:汪老师讲过大模型厂商最容易把产品做成大模型套壳,现在都在追求用户量和 DAU。这还是首次听说应该直接把营收作为关键指标,不知道还有哪些指标是做大模型产品时应该考虑的?

汪源:我认为在关注营收之前,还需要考虑产品的留存率、活跃度和 NPS(净推荐值)等指标,这些是早期阶段的核心指标。日活这个指标其实意义不大,因为只要增加投放就能提高日活。现在的大模型产品还没有形成任何网络效应,所以如果你把大量用户拉来,但留存率不行,这必然是一个亏本生意,最终无法获得商业收益。

唐小引:现在看到很多大模型产品确实在强推,追求日活增长。玉伯您怎么看?

玉伯:这要回到产品本身的商业模式,商业模式决定了要关注什么指标。比如移动互联网时代很多是广告模式或电商模式,“羊毛出在猪身上”,这种情况下如果没有规模、没有日活月活,它的商业模式就会崩塌,所以必须看规模指标。

而现在 AI 领域,特别是在海外和国内的生产力工具这个类型,因为商业模式不是广告,更多是回到工具的付费订阅模式,所以要关注 ARR 这些指标。这个逻辑本质上与 AI 无关,比如在移动互联网时期,在 AI 出现之前,钉钉和飞书虽然也想通过规模获取收入,但后来发现在办公协作领域,可能直接的收入更重要。我去了飞书后,里面甚至有个指标是看付费 DAU 除以总 DAU 的占比,尽量提升这个指标,因为对 To B 工具来说,任何免费 DAU 都是成本。

“订阅制”到头了吗?

唐小引:关于商业模式,Sam Altman 说过,最初 ChatGPT 采用订阅模式其实是团队的一个尝试,他也不确定这一定会成功。但近期他又说 o1 Pro 采用订阅制导致了疯狂亏损。目前我们看到业内基本上都以订阅为主要商业模式了。在商业模式这块,大家有什么样的思考可以分享?

汪源:我认为 AI 工具最终应该按照它给用户提供的价值和效果来收费,而不是像 SaaS 时代那样按照坐席订阅。其实 OpenAI 现在已经在往这个方向走了,他们有不同档次的订阅,可能 20 美元、200 美元,未来可能会有更高的档次。

但他们没想到即使 200 美元的订阅也会亏钱。我觉得这主要是因为很多人在共享账号,通过所谓的“互助群”在薅羊毛,导致亏损。如果是真实的使用场景,200 美元应该是不会亏损的。

我理解不是说一个人就固定付 20 美元。我们这些 AI 产品给用户提供的价值会越来越大,因为模型能力在未来两到三年还会快速进步。最近也看到消息说 GPT-5 和 o1 这条技术路线会合并,这应该会给应用开发带来更大的支持。

现在我们可能停留在每月收 20 美元这个价位,用户觉得可以接受。但我认为未来可能会达到每月 40-50 美元,接近典型 SaaS 软件每个坐席一年 500 美元的水平。我们看到一些垂直领域的软件,每个坐席每月可能要 100 多美元,一年可能 2000 美元。

我认为随着 AI 应用对用户价值的增加,它可能会达到每月 100 多美元的层次。所以对于收费模式,我觉得同一个产品应该有免费版、十几美元的版本、40-50 美元的版本和 100 多美元的版本,这取决于用户对产品的依赖程度。比如像玉伯的产品,如果用户要写十个项目,可能要付 50 美元,写三个项目付 20 美元,写 30 篇稿子可能要付 100 美元。

唐小引:玉伯有什么补充吗?

玉伯:补充两点。第一,按传统SaaS 的付费订阅目前确实是主流。第二,我们确实可以看到一些新趋势,现在在探索按服务效果付费,比如一个写作软件就按写一篇文章收费。 Cursor 或许可以尝试按合并代码MR收费的模式。

但这种模式对人性是个挑战,就是究竟怎么收费?很难确定。如果按效果付费,谁来判定是否有效果?平台方和用户之间可能会有分歧,这是现实中的困境。

还有第三种可能的模式,就像 Devin 这样的。Devin 提出了一个新的收费思路——把自己当作一个人来定价。比如你买一个 Devin 账号,每月 500 美元,相当于雇了一个实习生,这 500 美元是基础月薪。这是 credit 制,500 美元用完后,如果你还想让 Devin 加班,就得付加班费。

这个思路很有创意,也许真的是一种可行的模式。但如何判断 credit 的消耗量是个难题。目前 Devin 也被社区吐槽,说交给它一个任务,虽然没完成但已经花掉了很多 credit。它的逻辑是:“我是个实习生,帮你干活了,不管干得好不好都得付工资。”

所以目前如何评估这种 AI Agent 的工作量,以及如何在用户之间达成收费标准的共识,这是个难题。这中间可能会出现一些新模式,包括 YouMind 团队也在往这个方向思考,难点在于如何衡量,以及如何就 credit 的消耗与用户达成共识。

唐小引:有什么初步的思考或尝试吗?

玉伯:目前 Devin 在尝试的方式确实不错,就像我们的电话卡一样。每月充值 500 美元,你都要用,即使没用完也会扣掉。但如果用量超出了本月的额度,你还需要额外付费。也就是说那 500 美元一个月,如果你用得多可能要花 700 美元、800 美元。

汪源:Devin 的模式也没问题,这有点像招聘实习生的情况。你先面试,面试完决定招进来。即便第二天发现他不行,这个月的工资你还是得给,你不能今天招进来明天就开除不给工资。

移动互联网时代的经验能套用多少?

唐小引:汪老师和玉伯经常会用移动互联网做类比。我们在探索基于大模型的应用时,经常会用 iPhone 发布到应用爆发的逻辑来类比,包括一些关键指标也是参考移动互联网时代的。

但前段时间 MiniMax 的闫俊杰表示,千万不要套用移动互联网产品的方法论来做 AI 产品。两位老师的观点是怎样的,应不应该用移动互联网的逻辑?你们是怎么思考的?

玉伯:这个说法确实听了很久了,我觉得要看怎么理解这句话。如果是指移动互联网那种先做规模、规模起来后再通过其他方式变现的逻辑,那确实在 AI 时代不能这样做,这样做会死得很惨

主要是因为移动互联网能先做规模再做营收的前提是有人口红利。当时从 PC 互联网到移动互联网,网民数量差了一个数量级。现在全球有六十多亿网民,就是因为移动设备让更多人接入了互联网。PC 互联网到移动互联网之间有这么大的人口红利,这才使得当时可以先做规模再做营收。

但 AI 时代目前为止可能真实的人口红利已经没有了。可能要看后续 AI Agent 这种数字人口是否会带来红利。但对于这八十亿人口来说,真正能干活的数字人口是多少,这个还需要探索。如果存在数字人口红利,我们也很难说先把数字的 AI Agent 做得很多、规模很大,后续就能盈利。因为 agents 都是成本,收不到钱的,所以基本假设就有很大问题。由于现在已经没有物理世界的人口红利了,所以千万不要用当年的思路去做产品,这是第一点。

但是闫俊杰说的好像是不要用移动互联网时代的产品体验方式,不要过分关注用户体验和界面设计,而是要专注于 AI 的能力和技术模型。如果是指这一点,我是持反对意见的。因为我觉得无论在 PC 互联网、移动互联网还是 AI 时代,软件的核心始终是人机交互

人机交互方面,如何设计一个对人更友好的交互界面,这一点到现在仍在探索。比如说 ChatGPT 的伟大之处在于,它让命令行界面(CLI)的方式在问答搜索对话场景中,比谷歌或传统图形界面(GUI)的交互性强得多。所以在 UI 层面上,我认为还是应该用移动互联网的产品方式去研究用户,研究产品设计,甚至不断创新出新的交互形态。

汪源:我理解移动互联网的很多逻辑现在依然重要。比如你还是要关注用户体验,要提供高频且刚需的功能。满足用户这些需求,以及移动互联网的增长方法,比如关注用户留存、产品口碑、用户推荐等,这些方面我认为跟现在没什么区别,这些经验都是通用的。

但我认为有一个词在现在跟移动互联网时代有很大不同。移动互联网和 PC 互联网可能在很多时候做相同的事情,比如说卖产品、听音乐,这些 PC 互联网时代都有。但在移动互联网时代,大家都把它升级到了个性化体验。但是个性化的实现方式,我认为是完全不一样的。

在移动互联网时代,个性化主要是基于协同过滤算法实现的。所以在给用户 A 做推荐时,其实大量利用了其他用户的数据。这是移动互联网平台模式下实现个性化体验的路径。

我认为现在 AIGC 的产品中,更关键的是要好好利用用户自己的数据,因为这时候别人的数据对这个用户来说可能就不那么有用了。所以我觉得现在做这个时代的产品,做平台型产品的价值不是说不存在,但会大幅降低,而且做平台型产品的成本会很高,在某个时间点就不具备性价比。

比如说,一个产品如果只有一个用户和一百个用户相比,再到一万个用户,体验各方面可能是越来越好的。但是当这个产品有十万个用户和一千万个用户时,在 AIGC 产品里面提供的体验可能已经差不多了,它的边际效应衰减会非常严重。

我理解闫俊杰提到,很多人都在说可以用用户数据来训练更好的模型。但他举了个例子,像 Claude 获得的用户数据大概只有 ChatGPT 的 1%,但他们的模型并没有差这么多,甚至可以说现在 Claude 的模型能力跟 OpenAI 的模型几乎没有差距。所以 ChatGPT 有 100 倍的用户数据并没有带来可能 30%、50%的模型优势,这方面的逻辑确实有很大不同。

做 AGI 产品需要自己的模型吗?

唐小引:之前我会问一些国内做模型的厂商,他们会说在模型上做应用时,一定要有自己的模型。基于第三方模型去做应用,很容易受制于人。同时还有一个关键问题是,对于做应用而言,怎么在使用第三方模型的同时构建自己的护城河和核心竞争力。我理解玉伯和汪老师现在都是基于 OpenAI 来做 AI 产品,两位对这方面有什么思考?

汪源:我不认为必须要拥有自己的模型。当然,如果只需要两个人就能做出一个很棒的模型,我也乐意。但问题是至少需要两千人才能做出行业顶级的模型,这个性价比完全不划算。

我看到的一个趋势是,做应用的公司可能会去训练一些小规模的专用模型,可能参数在 1-2 B 的规模。这种模型的训练成本不高,可以用在产品的某些环节来优化用户体验或降低成本。

比如说 Cursor 的体验很好,在开发过程中也训练了很多定制模型,但它的大模型还是用的 Claude 3.5 Sonnet。我觉得这需要结合使用,不是说做应用的公司永远不需要训练自己的小模型。比如我们产品还在考虑,会给每个用户用他自己的数据去训练(微调)专属的小模型,这个过程中只需要用这个用户的数据,因为不同用户的数据你不可能交叉使用。

玉伯:我的观点也差不多,因为我觉得做应用在早期更重要的是用户侧,把功能做出来,把用户价值实现出来。至于要不要做模型,我觉得是个幸福的烦恼。就像现在 Perplexity AI,他们也有一些基于开源方案的小模型研究,在特定场景下可以去做,因为有资金支持。所以我个人觉得创业公司要不要做模型,如果是做 AGI 的当然需要,不做 AGI 的可能在 IPO 之前都不用太考虑这个问题。

唐小引:对于用户来说,因为大家都在使用同样的第三方模型,比如 OpenAI 的 GPT 或 Anthropic 的 Claude。那么当同类产品都用同一个模型时,它的差异化核心体现在哪里?是依赖于底层模型,还是说从产品层面能带来更好的体验?就像现在在 AI 编程方面,Cursor 和 Windsurf 带来的体验是不一样的。

玉伯:这个问题我想先回到更本质的地方看——用户真正在意的是最终体验,他们不在乎用的是什么模型。比如你去问豆包的用户,随便问问非程序员群体,他们只知道这是豆包,根本不关心背后用的什么模型,豆包好用就行。所以从用户角度完全不关注底层是什么模型

唐小引:所以从程序员到更广泛的大众用户来看,未来大模型会成为底层基础设施,人们更关注的是产品层面的使用体验?

玉伯:对,我持这个观点。就像我们在小区里用电冰箱,谁会关心电是从哪个水电站来的?没人关心这个。

汪源:总的来说我也认为,你一定要把竞争力放在对特定行业的深入理解、独特的产品架构设计,以及在大模型之上做的核心技术创新上。因为仅仅套用大模型并不能解决所有问题

实话说,我平时不会花太多时间去纠结这个问题。这让我想到一个很好的类比——我之前在网易,网易做了很多游戏,这些游戏都是用第三方的游戏引擎。用第三方的游戏引擎做游戏,和用 OpenAI 的大模型做 AIGC 产品,本质上没什么区别。大家都用 Unity,为什么做出来的游戏千差万别?我觉得这个问题不需要太担心。

唐小引:您这个游戏引擎的类比很形象,类似于从 Cocos、Unity、UE 等游戏引擎的选型,用户玩游戏时并不会关注到底使用什么引擎。

玉伯:我也很认同,道理是一样的。

2025 AGI 产品的关键词有哪些?

唐小引:以上是 2024 年到现在大家关注的一些重点。接下来谈谈 2025 年,即未来几个方向的重点。两位老师觉得,在 2025 年或未来两年,在基于大模型的产品上,会有哪些关键性的里程碑或重点可以跟大家分享?

汪源:我长话短说,我最期待的是推理模型在广泛场景中的应用。我觉得推理模型现在的宣传有点偏门,经常在宣传说它做数学题很厉害、编程很厉害,但这其实不是大多数人的日常工作。比如推理模型能解决的那些数学题,我可能一道都做不出来,但这并不影响我创业。

但我们在做产品时发现,推理模型其实非常有用。比如在做知识库问答时,如果不是推理模型,出现幻觉的概率比较高,而且你不清楚它是怎么产生幻觉的。但我们的实验证明,用推理模型做问答会靠谱得多。

现在的问题是推理模型成本太高,但我觉得这不是大问题。根据统计,我认为推理模型两年后可能会降到现在的五分之一,如果每年降到五分之一,那就是现在的二十五分之一。那时推理模型的成本就不高了。我认为推理模型在更多非数学类的通用场景中的应用,会带来新的更大的可能性,这是我最大的期待。

唐小引:还有第二个期待吗?

汪源:还有一个期待是多模态模型。现在已经看到不管是文本、语音还是视觉,都能实现多模态输入。这对做很多应用来说非常有价值,但现在主要的问题也是成本比较高。比如你一不小心用 OpenAI 的新 API 处理视频,费用就会快速增长。但这些都是成本问题,我觉得成本是能看到明确的下降曲线的。

玉伯:我也是这两点期待。第一点也是期待 2025 年推理这块的发展。目前从 API 调用层面它还是太贵了,应该要更加廉价化,而且在 API 的友好度各方面都需要提升。推理对于做任务、做事实性检查、做严肃性工作来说,是一个非常基础的能力。

我觉得这真的很关键,因为 AI 推理和生成式有很大不同。它像是一个可以持续交互的对象,能够有逻辑地思考、反思,能够拆解问题、采取行动。所以这块我也特别期待,希望推理的 API 费用能降到 GPT-4o mini 这个水平,虽然这还挺难的。

第二块我关注的是视频和图形领域。目前虽然有很多关于多模态的尝试,无论是理解还是生成多模态内容,但在视频方面,除了李飞飞的研究,我没有体验过其他令人印象深刻的成果。现有的很多视频生成都很单调,文生视频都在追求高清电影级的效果。

实际上很多场景可能需要生成一些语义化的插图配图。在这方面,语言模型是否能够发展出新的能力,不要总是追求生成几秒或几秒的高清视频,而是能够生成 30 分钟的、非高清但有语义化的插画式或配图式视频。在这个领域,我咨询过很多人,发现都觉得很难实现。

这个方向与我们 YouMind 的业务相关,因为我们也想在后续做多模态输出。就是在帮助用户找资料写稿的基础上,如果还能生成非高清但有意思的视频,这将是一个很有趣的方向。虽然在 2024 年已经看到微软和谷歌在尝试,在图像领域已经有所突破。但如何将图像生成、图形生成与故事叙事结合,去生成更有趣的视频,这是我个人一直在关注的方向,甚至可能会投入一部分人去研究。

唐小引:您刚才说实现起来很难,是技术难题还是成本难题?

玉伯:主要是技术难题。我在找技术方案时发现,大量文生视频都在追求电影级效果,这我觉得视野太窄了,因为视频远不止电影级视频,视频的其他可能性非常大。

唐小引:这确实是个新思路。之前看到大家都在追求电影级的视频效果,想要更长的时长,但这带来的问题就是算力成本消耗非常大。

Agent 对 AGI 产品意味着什么?

唐小引:在 AI 圈子里,很多人认为 2025 年是 Agent 元年。玉伯和汪老师对 Agent 有什么思考,它对 AGI 应用会有什么影响?对 AGI 的应用来说,它是否是一个突破口?请两位分享一下这方面的思考。

汪源:我不认为 Agent 是 AGI 的突破口,逻辑很简单:我觉得所有的 Agent 都是垂直的 Agent,至少短期内不会出现一个通用的 Agent。我认为大家都在做垂直的 Agent,把垂直的 Agent 做好已经非常不容易了。所以我们可能将来会看到 100 个各种领域的垂直 Agent,但它们加在一起也不是 AGI,因为每个都是垂直的。可能懂法律的特别懂法律,懂医疗的特别懂医疗,比如我们在做的可能特别懂知识管理或工作文档。我写工作文档和玉伯写的三分钟博客或视频又是完全不一样的东西,都是很垂直的领域。

玉伯:我觉得 Agent 出现后会带来两个影响。第一,它们确实是分行业或分领域的,和汪源老师说的一样。Agent 的出现可能会打破大家对 AGI 的执念,或者说让人们对 AGI 的理解更深入。可能目前大家谈的 AGI 还停留在历史上博物学家的概念,那时候是因为人类知识量不大,所以可以什么都懂。

但在现在这个知识大爆炸、各行各业高度专业化的时代,这种大一统可能不存在了。可能会继续细分,只是过分细分的领域可能会被整合。就像编程领域,之前分前端后端,但可能会出现编程领域的小 AGI,它不需要区分前端还是后端,而是通过 AI 能够掌握各种编程语言。但是让这个擅长编程的 AI 去做陪聊,它可能就做得很差。

所以我觉得 Agent 的出现会让大家重新理解 AGI 这个概念。所谓祛魅,就是认识到这只是人类的一个执念,最终的结果可能并不是找到一个大一统的 AGI。

AGI 会不会改变人在社会的地位?

唐小引:你们相信 AGI 吗?相信的是什么样的 AGI?

玉伯:我相信 AI 在造人,就像汪老师在造办公领域的可复制 AI 智能体,或者说一个数字生命体。我在造的是做博客、做中长视频、找资料写稿的数字生命体。这些数字生命体都是这个世界的一部分,并不存在一个万能的上帝。我心中的 AGI 很明确,就是数字世界里各行各领域的专家,这点我非常笃定,但我不相信数字世界会出现一个耶稣基督式的存在。

汪源:我认为 AGI 这件事情是没有需求的。比如我家里可能需要一个家务机器人,但我完全不需要这个家务机器人既是家庭医生又是专业的法律顾问。历史上那些没有需求的东西最终都不会出现,即便技术上有可能,但因为没有需求谁会去做它呢?但我相信在 360 行中,每个行业都会有比较好的 AI 技术和产品,能给你提供较大帮助。

比如说家里,我预期在八年到十年左右,我们就可以看到真正能做家务的机器人进入家庭。但那时候成本可能还比较高,没法普及,可能再过十几二十年才能普及。我觉得等我七八十岁的时候应该就可以有家务机器人来照顾我了。

AI 程序员也可以获得一个很好的辅助工具,可能就像一个合格的实习生。但我不认为在大多数行业,AI 技术会达到完全取代人的程度。我认为整个世界的运行还是要靠人来进行。如果说大家都是机器人,那这个经济系统我就想不通了——你给机器人发工资吗?机器人会产生消费吗?这不只是技术问题,还涉及整个社会经济系统。

新时代程序员,还剩下哪些重要性?

唐小引:最后我们回归到人的角度。对于程序员来说,而且我们现在讨论的是技术和产品的结合,也就是程序员和产品经理都涉及的话题。我之前跟国内专家交流,还有吴恩达最近分享都说到在未来产品经理比程序员更重要。我在 CSDN 上发布这个观点后,很多程序员表示不认同。两位老师对这些工种的重要性怎么看?

汪源:我理解在过往移动互联网时代,优秀的产品经理确实比优秀的程序员更难找,这是很难的。优秀的程序员还比较多,但优秀的产品经理真的非常稀少。

但是今天,仅仅具备互联网时代产品经理的能力可能已经不够了。因为我们在做 AI 产品时,产品经理要很好地理解 AI 技术的各种边界,而且 AI 技术的边界是非常模糊的,很难预测某件事情 AI 是否可行。

所以我认为现在最理想的是既是产品经理又懂技术,可以在内部形成一个小闭环。这个闭环能快速迭代、试错,做出很多产品创新,能把原型走通。走通之后再让专职的产品、程序员去细化。但在前期创新阶段,因为传统的产品经理创新完全不依赖技术,技术通常不会成为瓶颈。但今天如果产品经理想得太开放,技术跟不上,那就完了。

唐小引:听起来是说大家要往全栈方向发展?

汪源:对,都应该要像我和玉伯这样。

玉伯:这要看阶段。我觉得是因为目前 AI 有很多不确定性,它的能力边界要通过不断编程才能探索出来。在这种情况下,现阶段程序员对 AI 边界的理解可能会比产品经理更好。这时如果产品经理没有一点程序员的功底,很容易提出一些不切实际或超出边界的想法,导致产品根本做不出来,或者耗费很多精力却发现不可行。

所以现在最理想的是一个人同时具备产品设计能力、产品设计的品味,又对编程或 AI 技术边界有把握。只要具备这些能力,无论是程序员还是产品经理出身都能有很好的发展。

技术创业者最大的优点是能更准确地预测趋势?

唐小引:两位老师现在都在创业,且都作为程序员出身,所以算是技术创业者。你们在创业时觉得,对技术创业者来说,比如说同样是做 AI 创业,有哪些机会和优劣势?

玉伯:第一个优势是因为我们有技术背景,所以比较容易通过编程方式去理解 AI 的能力边界。对于没有程序员背景的人来说这点会比较难。

第二个优势是现在有大量 AI 工具可用,比如 Cursor、Devin 等 AI 编程工具。有了这些工具后,技术创业者有了想法,只要有基本的产品思路,就可以快速试错,可能几天就能做出产品原型开始测试。这也是很多一人公司或独立开发者擅长的。在这方面试错成本比之前低了很多,真的可以在一两周内就做出一个产品,这与移动互联网时代很不一样。

第三个优势是,技术创业者现在还有一个很大的机会是做科普。我觉得 AI 时代不缺理论家,但非常缺少与大众衔接的科普家。很多技术创业者如果愿意去做内容、做小红书,用技术背景去讲解 AI 编程或 AI 相关的知识点,比如如何从零开始用 Cursor 写应用,做这些内容和科普工作,我觉得这是个很大的机会。而且我看到身边已经有朋友通过这个方式创业成功,这可能是最大的一个创业群体,就是直接做内容创业。

唐小引:呼吁大家从内容消费者变成内容创作者?

玉伯:对,过程中可以用 YouMind。再谈下技术人的缺点,第一个就是因为懂技术,所以有时候会低估产品的价值。就觉得有了 Cursor 加持、AI Coding 加持,写完代码直接上线就行,但实际上产品设计可能很糟糕。很容易因为在某方面有优势而被局限住。这时候如何保持开放心态?甚至如何找到合适的搭档就很重要。

汪源:我先说技术创业者的缺点,再说优点。我觉得技术创业者可能在做出一个非常吸引人、新鲜度很高的产品形态这方面会比较困难

但反过来看优点是,技术创业者擅长在一个相对明确的赛道上,认准一个长期目标持续优化和提升。比如说我们认准了 AI,我们一直在思考如何帮助那些脑力劳动者更好地工作,关注他们一天 8 小时工作时间都花在了哪里,然后思考怎样提升他们的工作效率。不管做什么功能,我们都会计算这个功能平均能帮每个用户每天节省多少分钟多少小时,我们都是有个长远目标的。

技术创业者首先对 AI 技术发展趋势的把握会比较准确,既不会过于乐观也不会过于悲观。非技术背景的人有时会想得特别乐观,觉得 AGI 马上就要到来了;而大部分人只看到目前的技术能力,就说这个技术都不行,很难做出外推式的预测。

我觉得技术创业者至少对未来一到两年的 AI 技术可能性会有更合理的预期。基于这个预期,我们会思考这样的技术能力在哪个赛道能带来比较大的优化。我们不会去找一个非常全新的赛道,也就是说不会去做一种以前从来没见过的产品形态,觉得大家一定会用,那就很难。所以我们可能会在一个相对成熟的赛道里面,凭借我们对技术的预期和坚定信念,在这个赛道的优化道路上跑得比较快。我觉得这是技术创业者典型的特点。

唐小引:最后还有哪些寄语或建议,想对开发者朋友们说吗?

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部