加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
Mostly AI 正致力于解决企业面临的 AI 训练瓶颈。这家奥地利公司以提供合成数据生成平台而闻名,今天宣布推出合成文本功能。这项新功能使企业能够从其专有数据集中释放价值,而无需担心隐私风险。
从今天开始,该功能将生成组织专有信息的合成版本,不包含个人身份信息 (PII) 或多样性差距。这为团队提供了一种方法来训练和微调可靠的大型语言模型 (LLM),从而实现更快的创新和更明智的决策。
这一功能的推出正值 AI 训练达到瓶颈之际,企业正在寻求超越公共数据源,寻找能够提供比剩余公共数据更大价值和潜力的数据源。
合成文本如何运作?
合成数据,或人工生成的数据,通常被视为真实数据过于昂贵、不可用、不平衡或不可用时的首选替代方案。企业已经生产和使用合成信息(主要是图像)相当长一段时间了,但生成式 AI 的兴起预计将推动其应用进入一个全新的水平,涵盖更广泛的数据类型。根据 Gartner 的预测,到 2026 年,75% 的公司将使用生成式 AI 来创建合成数据,而 2023 年这一比例还不到 5%。
然而,即使 AI 正在生成合成数据,它也可能缺乏特定于组织的上下文和见解。这可能会导致下游模型无法学习和达到预期水平的性能。
为了解决这个问题,Mostly AI 为企业提供了一个平台,让他们可以训练自己的 AI 生成器,这些生成器可以即时生成合成数据。该公司最初通过启用结构化表格数据集的生成开始,捕捉交易记录、患者旅程和客户关系管理 (CRM) 数据库的细微差别。现在,作为下一步,它正在扩展到文本数据。
虽然专有文本数据集(如电子邮件、聊天机器人对话和支持转录)的收集规模很大,但由于包含 PII(如客户信息)、多样性差距和一定程度的结构化数据,它们难以使用。
借助 Mostly AI 平台上的新合成文本功能,用户可以使用他们拥有的任何专有文本训练 AI 生成器,然后部署它来生成原始数据的净化合成版本,其中不包含 PII 或多样性差距。与表格数据生成器一样,它还捕捉文本中的细微差别和见解(以及伴随的结构化数据的上下文)。此外,用户可以获得各种语言模型选项(包括 Mistral-7B 和 Viking-7B)来训练生成器。
“所选的 LLM 在 Mostly AI 平台上使用原始文本数据进行微调。这将在提供与文本一起的附加结构化数据(例如特定客户信息)的上下文中进行,以提高创建的合成文本的质量。使用微调后的 LLM,Mostly AI 平台将创建合成文本,可以将其下载或存储在数据库中以供进一步处理,”该公司首席执行官托比亚斯·汉恩告诉 VentureBeat。
借助从平台生成器生成的合成文本,企业可以为各种分析和生成式 AI 用例提供动力。汉恩表示,由于该产品刚刚发布,因此还没有实际应用,但该公司正在将生成提示-响应对(如问答对)视为初始应用,因为这些对被广泛用于微调像针对客户服务的 LLM。
这项新功能及其在不影响隐私的情况下从专有文本中释放价值的能力,使其成为希望加强 AI 训练工作的企业的诱人产品。该公司声称,在平台的合成文本上训练文本分类器,与使用 GPT-4o-mini 提示生成的数据相比,性能提高了 35%。
然而,需要注意的是,这仍然是一个苹果与橘子的比较,目前还没有基准测试来比较 Mostly AI 的合成文本生成器与其他合成生成器(如 Gretel)的性能。
“Mostly AI 平台过去曾与其他公司和解决方案进行过基准测试,并且在创建的合成数据的质量(准确性、保真度)和隐私方面始终表现出优异的性能,”汉恩补充道。