“`html
Midjourney 突破视觉边界:赋能更具创造力的文本AI
Midjourney,凭借其近两千万Discord用户和庞大的网站流量,早已成为领先的AI图像生成器代名词。然而,这家初创公司野心勃勃,正将触角伸向更广阔的领域。
继2024年夏末宣布自主研发AI计算硬件后,Midjourney本周携手纽约大学机器学习专家,发布了一篇重磅研究论文。论文聚焦于提升大型语言模型(LLM)的创意写作能力,例如Meta的开源Llama模型和Mistral的同名模型。
研究成果已发表于Hugging Face,核心在于两种全新技术:多样化直接偏好优化 (DDPO) 和多样化优势比偏好优化 (DORPO)。它们旨在拓展LLM输出的多样性,同时保持文本连贯性和可读性。
对于以扩散模型图像生成闻名的Midjourney而言,这项研究标志着其雄心壮志已不再局限于视觉领域。“一图胜千言”的时代,或许正在被改写。
Midjourney是否会推出自研或微调的LLM?虽然我已联系创始人David Holz,但尚未得到回应。然而,这项研究的意义已远超学术范畴,它将为企业AI团队、产品开发者和内容创作者提供强大的工具,推动新一轮LLM训练热潮。
研究也表明,尽管多模态和推理型LLM备受关注,但经典的Transformer架构文本LLM仍蕴藏着巨大的潜力,等待挖掘。
在事实问答或代码辅助等领域,LLM通常只需生成最佳答案。但创意写作却截然不同,一个提示可能对应无数种有效的回应。
例如,“写一个关于月球上的狗的故事”,LLM可以展开多种叙事路径:宇航员遗落的宠物狗、未来犬类太空殖民地、与外星物种相遇的流浪狗……
然而,现有LLM往往陷入同质化叙事,缺乏惊喜和深度。究其原因:后训练技术更重视用户偏好而非原创性;指令微调抹平了差异性;现有的多样性提升技术(如温度调整)只作用于推理阶段。
解决方案:改进后训练方法,优先考虑多样性
研究人员提出的DDPO和DORPO,正是对现有偏好优化方法的改进。核心在于引入“偏差”这一指标,衡量响应与其他响应的差异,引导训练过程。
具体而言:模型接受提示和多种可能的回应;计算每种回应的偏差分数;赋予罕见但高质量的回应更高的权重。
通过将偏差融入DPO和ORPO,模型学习生成高质量且更具多样性的回应,避免千篇一律的叙事结构。
实验使用了来自Reddit r/writingPrompts子版块的数据集,训练了Llama-3.1-8B和Mistral-7B-v0.3两个基准模型。结果显示,DDPO显著优于DPO,Llama-3.1-8B结合DDPO在质量和多样性方面取得最佳平衡,其输出多样性甚至超过GPT-4o。
这项研究对企业AI团队至关重要,它为对话式AI、内容营销、游戏开发等领域提供了新的可能性,让AI生成的文本更具创意和吸引力。
未来,将偏差学习融入企业级AI模型,探索其在诗歌、剧本创作等领域的应用,以及开发兼顾多样性和指令遵循能力的混合训练方法,都将是值得深入研究的方向。
研究人员计划在GitHub上公开代码。无论您是微调LLM用于商业应用,还是优化大型AI系统,这项研究都将为您提供宝贵的参考,帮助您构建更具想象力的AI系统。
“`
