前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

AI数据标注:热门新技术

NEXTECH
Last updated: 2025年8月2日 上午6:56
By NEXTECH
Share
11 Min Read
SHARE

“`html
工程师手持托盘的图画

巨额投资背后的秘密:Meta押注AI数据标注的战略考量

Meta斥资143亿美元收购Scale AI,这家鲜为人知的公司一夜之间成为焦点。这笔交易让Meta持有Scale AI 49%的股份,也让OpenAI和Google等竞争对手如坐针毡,纷纷终止与Scale AI的合作,生怕泄露AI模型训练和微调的秘密。究竟是什么原因,让Meta如此大手笔押注?

答案在于:AI数据标注。这看似简单的任务,随着AI模型规模和普及程度的提升,已演变为一个庞然大物,成为所有AI训练机构必须面对的挑战。Cohere Labs研究副总裁Sara Hooker指出,目前大部分计算资源都浪费在质量低劣的预训练数据上。提升数据质量,如同为AI模型注入“黄金粉尘”,至关重要。

传统观点认为“垃圾进,垃圾出”,但现代AI模型的训练却打破了这一定律。大型语言模型依赖从互联网上抓取的原始文本数据进行训练,而这些数据良莠不齐。虽然清理和排序训练数据在理论上可行,但在实际操作中,面对海量数据,这几乎是不可能完成的任务。更棘手的是,流行的AI训练数据集往往包含种族歧视、性别歧视和犯罪相关内容,甚至还可能包含一些更隐蔽的问题,例如讽刺的建议或故意误导性的信息。

数据标注应运而生。它并非试图清除训练数据中的所有问题元素,而是由人工专家在模型训练后,对模型输出结果进行人工反馈,从而塑造模型,减少不良回复,改变模型的“性格”。Perle公司创始人兼AI科学家Sajjad Abdoli将其称为创建“黄金基准”来微调AI模型。这个基准的内容取决于模型的目的。例如,对于聊天机器人,数据标注者会以“有用、准确、简洁”为目标进行反馈。

然而,Meta的巨额投资并非仅仅因为数据标注的重要性,更在于其对“自主AI”的战略意义。OpenAI CEO Sam Altman认为,AI将使个人也能创建市值数十亿美元的公司。而实现这一目标的关键在于自主AI模型,它能够完成复杂的多步骤工作流程。数据标注正是自主AI的关键环节。SuperAnnotate高级副总裁Jason Liang指出,需要人工审核AI代理是否调用了正确的工具,以及是否正确地调用了下一个代理,甚至需要评估AI代理的整体计划。

You Might Also Like

Cohere API 更新,开发者更易切换模型
谷歌免费发布Gemini 2.0,挑战OpenAI付费策略
三维AI获690万美元融资,打造生成式AI游戏世界
ChatGPT威胁网络秩序?OpenAI前研究员揭秘真相

在高风险领域,例如医疗领域,自主AI模型的应用将对数据标注提出更高的要求。高质量的数据标注需要专业人士参与,这无疑会增加成本。但正如Abdoli所言,对于医疗等领域,数据的精确性和质量至关重要。

为了解决人工标注的局限性,合成数据应运而生。数据标注公司通常利用AI模型生成其他AI模型的训练数据,让机器教机器。Cohere的Hooker解释道,这就像一个“老师”(另一个深度神经网络)输出示例,学生模型则以此进行训练。关键在于使用高质量的“老师”和多个不同的AI“老师”,避免模型崩溃。

DeepSeek R1就是一个成功的案例,它在无需传统人工反馈的情况下,实现了与OpenAI、Anthropic和Google顶级模型相当的推理性能。然而,SuperAnnotate的Liang提醒道,合成数据并非万能药。在实际应用中,仍然需要人工参与,以应对复杂场景中的边缘情况。

数据标注公司正迎来黄金时代。无论是人工反馈、合成数据还是其他新技术,如何最佳地微调自主AI模型,仍然是一个开放性问题。Meta的143亿美元投资,预示着答案的获得绝非易事。

“`

Share This Article
Email Copy Link Print
Previous Article 20250801174439446.png Counterpoint:2025年第二季度全球智能手机出货量同比增长2%
Next Article 从Z世代到银发族:为何微短剧这么火?
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
星链设备在弗吉尼亚州乡村的户外场景
星链让我在任何地方都能“居家办公”——如今,我渴望改变
科技
谷歌眼镜产品图
谷歌眼镜的功与过:一场超前13年的科技预言与争议
科技
拥抱AI的“人性化”愿景:工具而非替代品
AI
图1:决策树分类器在Excel中的示例
机器学习决策树分类器全解析:从基尼系数到Excel实战
未分类

相关内容

辉达发表全新人工智慧AI声音機器Fugatto模型。
AI

輝達发布AI语音机器Fugatto:声音界的“瑞士军刀”

2025年1月13日
大型语言模型对“trunk”一词的不同解读
AI

聊天机器人:语言学及元语言学

2025年6月20日
AI行业观察
AI应用场景

AI的慢思考:迎接“工程师”时代,探讨AI行业人才之战与职业发展

2025年11月11日
AI

2025年:无形AI融入企业架构

2024年11月17日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up