前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI数据标注:热门新技术

NEXTECH
Last updated: 2025年8月2日 上午6:56
By NEXTECH
Share
11 Min Read
SHARE

“`html
工程师手持托盘的图画

巨额投资背后的秘密:Meta押注AI数据标注的战略考量

Meta斥资143亿美元收购Scale AI,这家鲜为人知的公司一夜之间成为焦点。这笔交易让Meta持有Scale AI 49%的股份,也让OpenAI和Google等竞争对手如坐针毡,纷纷终止与Scale AI的合作,生怕泄露AI模型训练和微调的秘密。究竟是什么原因,让Meta如此大手笔押注?

答案在于:AI数据标注。这看似简单的任务,随着AI模型规模和普及程度的提升,已演变为一个庞然大物,成为所有AI训练机构必须面对的挑战。Cohere Labs研究副总裁Sara Hooker指出,目前大部分计算资源都浪费在质量低劣的预训练数据上。提升数据质量,如同为AI模型注入“黄金粉尘”,至关重要。

传统观点认为“垃圾进,垃圾出”,但现代AI模型的训练却打破了这一定律。大型语言模型依赖从互联网上抓取的原始文本数据进行训练,而这些数据良莠不齐。虽然清理和排序训练数据在理论上可行,但在实际操作中,面对海量数据,这几乎是不可能完成的任务。更棘手的是,流行的AI训练数据集往往包含种族歧视、性别歧视和犯罪相关内容,甚至还可能包含一些更隐蔽的问题,例如讽刺的建议或故意误导性的信息。

数据标注应运而生。它并非试图清除训练数据中的所有问题元素,而是由人工专家在模型训练后,对模型输出结果进行人工反馈,从而塑造模型,减少不良回复,改变模型的“性格”。Perle公司创始人兼AI科学家Sajjad Abdoli将其称为创建“黄金基准”来微调AI模型。这个基准的内容取决于模型的目的。例如,对于聊天机器人,数据标注者会以“有用、准确、简洁”为目标进行反馈。

然而,Meta的巨额投资并非仅仅因为数据标注的重要性,更在于其对“自主AI”的战略意义。OpenAI CEO Sam Altman认为,AI将使个人也能创建市值数十亿美元的公司。而实现这一目标的关键在于自主AI模型,它能够完成复杂的多步骤工作流程。数据标注正是自主AI的关键环节。SuperAnnotate高级副总裁Jason Liang指出,需要人工审核AI代理是否调用了正确的工具,以及是否正确地调用了下一个代理,甚至需要评估AI代理的整体计划。

You Might Also Like

Agent从0到1落地实施:以「小智伴」为例,产品需求与技术实现(一)
大型语言模型如何革新科研方法
索尼本田Afeela电动车开启预订
人工智能监管未来何去何从?

在高风险领域,例如医疗领域,自主AI模型的应用将对数据标注提出更高的要求。高质量的数据标注需要专业人士参与,这无疑会增加成本。但正如Abdoli所言,对于医疗等领域,数据的精确性和质量至关重要。

为了解决人工标注的局限性,合成数据应运而生。数据标注公司通常利用AI模型生成其他AI模型的训练数据,让机器教机器。Cohere的Hooker解释道,这就像一个“老师”(另一个深度神经网络)输出示例,学生模型则以此进行训练。关键在于使用高质量的“老师”和多个不同的AI“老师”,避免模型崩溃。

DeepSeek R1就是一个成功的案例,它在无需传统人工反馈的情况下,实现了与OpenAI、Anthropic和Google顶级模型相当的推理性能。然而,SuperAnnotate的Liang提醒道,合成数据并非万能药。在实际应用中,仍然需要人工参与,以应对复杂场景中的边缘情况。

数据标注公司正迎来黄金时代。无论是人工反馈、合成数据还是其他新技术,如何最佳地微调自主AI模型,仍然是一个开放性问题。Meta的143亿美元投资,预示着答案的获得绝非易事。

“`

Share This Article
Email Copy Link Print
Previous Article 20250801174439446.png Counterpoint:2025年第二季度全球智能手机出货量同比增长2%
Next Article 从Z世代到银发族:为何微短剧这么火?
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

20241031141732544.jpg
AI

ChatGPT 开放聊天记录搜索功能,查找更轻松

2024年10月31日
AI

Cognita.ai获1500万美元融资,解决企业AI部署难题

2025年5月6日
VentureBeat/Ideogram
AI

AI 幻觉:葛兰素史克如何应对药物研发中的关键问题

2025年3月21日
Cursor 2.0 Agents模式下编码速度演示
Agent生态

Cursor 2.0新特性:自研Composer模型、多任务与Agents模式深度解析

2025年10月31日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up