这场百亿美元估值的盛宴,到底是透支未来,还是预支下一个时代?
围绕高质量数据的争夺,正成为AI产业链中最激烈的赛道之一。一家由19岁华裔女孩创立的美国初创公司 Datacurve 完成了 1500万美元A轮融资,由 Chemistry VC 领投,Y Combinator、Afore Capital、Homebrew 等知名机构跟投,多位来自 DeepMind、OpenAI、Anthropic、Vercel、Coinbase 的高管个人参与其中。更早之前,该公司已经融资270万美元。Datacurve 的崛起并非偶然。在大模型爆发的背景下,AI企业普遍陷入“算力、算法、数据”三要素的博弈之中——算力的竞争被巨头垄断,算法的突破门槛极高,而数据,尤其是高质量人工标注数据,成了创业公司能切入的少数机会之一。海外,数据标注公司成为这波AI热潮中资本布局的重要类目。今年6月,Meta斥资 14.3 亿美元入股 Scale AI,使其估值攀升至 290 亿美元。一个月后,Surge AI 被曝正计划以 250 亿美元估值融资 10 亿美元,而这家公司去年营收刚刚突破 10 亿美元。这场百亿美元估值的盛宴,到底是透支未来,还是预支下一个时代?19岁女孩融资1.26亿,当起“赏金猎人”“这是我们投资过增长最快的初创公司之一。”Chemistry VC合伙人Mark Goldberg如是评价Datacurve。 这家由19岁华裔女孩 Serena Ge 于2024年创立的公司,仅用一年时间便从Y Combinator孵化器走出,拿下了包括 Chemistry VC、Afore Capital、Homebrew 在内的多家知名机构的支持,累计融资额高达 1770万美元(约合人民币1.26亿元)。参与投资的名单里,既有 Coinbase前CTO Balaji Srinivasan,也不乏来自 DeepMind、OpenAI、Anthropic、Vercel 等AI巨头的高管。对于一家成立不到两年的数据标注公司而言,这样的融资速度可谓惊人。Datacurve的灵感源于Serena在AI独角兽 Cohere 实习的经历。期间她发现受限于成本等原因,AI标注公司不会招聘高素质的软件工程师来做最基础的数据标注工作,因此AI公司很难获得专家级的标注数据。“大模型之所以存在瓶颈,就是因为缺乏丰富的、精心挑选的高质量标注数据。”于是,Datacurve尝试重构数据服务这门“苦活累活”的生意。区别于依赖大量外包工人的传统数据标注模式,Datacurve采用了一种更“赏金猎人”系统——通过平台 Shipd,吸引全球熟练的软件工程师参与数据生成与验证任务。工程师可以选择算法、测试、UI/UX等不同类型的挑战,每完成一个任务即可获得5至50美元的奖励。公司目前拥有超过 1400名注册工程师,累计发放赏金已超 100万美元。但金钱激励并非核心,数据标注的报酬永远低于软件开发等服务。因此,Serena认为Datacurve更像是在运营一款用户社区型产品,而非传统的数据标注流水线。通过游戏化机制与绩效排名提升数据质量,让贡献者在“玩中做数据”。这种模式的高效已在市场端得到验证——公司成立两个月即实现营收破百万美元,如今已为全球超过一半的基础模型实验室以及 Facebook、苹果、亚马逊、谷歌等企业提供高质量代码数据,用以训练下一代大型语言模型。“garbage in,garbage out”在AI训练中,数据质量的重要性不言而喻。通俗来讲,“garbage in,garbage out”(垃圾进,垃圾出),这也意味着,模型智能提升显然离不开高质量数据供给。除了Datacurve,美国今年还出现了两家估值超过百亿美元的数据标注公司。今年6月,Meta以143亿美金收购Scale AI 49%股权,公司估值接近290亿美元。尽管两周后,Scale AI内部出现人员协作困难,导致客户流失,但AI数据服务领域已经成为全球关注焦点。与此同时,竞争对手Surge AI传出计划在公司历史上首次融资,筹集高达 10 亿美元,目标估值高达250 亿美元。Surge AI的创始人Edwin Chen 同为华裔,此前担任过谷歌和 Meta 工程师。值得一提的是,在融资消息传出前,Surge AI去年营收超过 10 亿美元,超过了 Scale AI,后者同期营收为 8.7 亿美元。数据标注本质上是要把大量机器无法理解的非结构化数据翻译成机器能理解的结构化数据。随着强化学习(RLHF)在人工智能系统的训练中变得越来越重要,对精细标记、细致入微的数据集的需求也日益增长,围绕着数据标注和处理的预算也在飙升。Edwin Chen 认为人工智能有能力“创作出获得诺贝尔奖的诗歌,解决黎曼猜想,并发现宇宙的秘密”——但前提是它接受的数据训练能够捕捉人类的专业知识、创造力和价值观。他告诉《时代》杂志:“真正高质量的数据对人工智能和通用人工智能的未来至关重要。” 因此,Surge AI没有采用传统的人力外包模式,而是搭建高技能承包商网络,通过复杂的技术和算法体系,进行质量控制、反作弊以及优化工作流程,最终交付高质量的数据产品,而非仅仅是人力资源。据悉,Surge AI已经与超过100万名承包商合作,创建并向谷歌、Anthropic 和 OpenAI 等公司出售高质量的数据集。随着后训练数据需求变得越来越复杂,更轻盈的组织结构和更具参与感的平台生态显得越来越重要。Surge AI、Datacurve等公司的崛起恰恰在于,它将这一低附加值行业“产品化”,让专业人群以兴趣和挑战感参与数据生产。某种意义上,把“人力数据”做成一项可扩展的数字经济服务。作为一家早期公司,Datacurve目前专注于软件工程领域,但Ge表示,他们的模式同样适用于金融、市场营销甚至医疗等其他领域。Ge总结道:“我们正在做的是,创建一个能够吸引并留住各个领域高水平专业人士的后训练数据收集基础架构。”百亿美金估值,虚高还是先行?百亿美元的估值,放在任何时代,都是一场豪赌。截至目前,Surge AI的巨额融资还没落地,原因或与投资者对数据标注领域的考验有关。一些投资者认为数据标注是人工智能发展的持续必需品,并预测领先的人工智能实验室将持续提供这一需求。另一些人则担心,随着人工智能技术的进步和对人工标注需求的减少,该行业的低利润率和对人力的依赖可能会使其容易受到自动化的影响。据《The Information》与 Sacra 的公开数据,Scale AI 在 2024 年营收约 8.7 亿美元,最新估值约 290 亿美元,对应的市销率约 33 倍;而Innodata 在同年营收 1.7 亿美元、市值 12 亿美元左右,市销率约 7 倍。 相比之下,Surge AI 虽然尚未完成新一轮融资,但市场传出的目标估值在 150 亿至 250 亿美元之间,而公司2024 年的营收被多家媒体报道“超过 10 亿美元”。若按此区间估算,其市销率大致在 15 至 25 倍之间。这样的倍数虽然处于硅谷高成长企业的常见区间,但在传统数据服务行业中已属极端高估。市场普遍认为,这反映的是投资人对 Surge AI “数据基础设施化”潜力的押注,而非当下盈利能力的真实映射。Surge AI 被视为能持续生产“专家级训练数据”的关键基础设施,其客户名单中包括 OpenAI、Anthropic 等核心实验室,这一绑定关系让资本愿意提前支付未来数年的增长溢价。然而,这一逻辑的前提是“稀缺性”能够持续。如果AI自监督学习、自动标注、合成数据技术继续提速,那么对人工标注的依赖将不可避免地被削弱。所以,高质量数据的确是AI的刚需,但这是一个既永恒又脆弱的生意。利润率则是另一个现实考验。根据 The Information 报道,Scale AI 在 2024 年的营收约 8.7 亿美元,但净利润不足 1 亿美元。Surge AI 虽然宣称已实现盈利,其利润率同样受制于人力与审核成本。而在太平洋的另一侧,中国的数据标注产业却显得格外冷静。与美国平台化、SaaS化的高估值模式不同,国内企业仍以项目制服务为主。在可复制性与利润空间上均受限。究其根本,卖数据库这个商业模式在国内并不容易获得资本的青睐。尽管如此,高质量数据仍被视为AI时代最核心的资产。独特、垂直、难以复制的数据资源,是未来AI企业构建护城河的关键。公众担忧的“数据枯竭”其实是一个伪命题——真正未被开发的金矿,存在于企业内部长期沉淀的非公开数据中。未来AI训练的竞争,将不仅在于谁拥有更多数据,而在于谁能更快地把数据转化为模型可理解的知识。如果说 Surge AI 和 Scale AI 的估值反映了硅谷对“数据即服务(Data as a Service)”的未来信念,那么这种信念也面临最严峻的检验。在AI的金矿里,卖铲子的人从不缺市场。真正的问题是,谁能制造下一代的铲子?