当视频平台不再满足于给内容打上“喜剧”或“动作”的标签,真正的竞争才拉开序幕。Netflix的新模型揭示了下一代内容理解的核心:不再是识别画面,而是读懂叙事。这套逻辑,抖音早已心领神会,而长视频平台的牌桌上,好戏还在后头。
给一部电影打上“科幻”、“悬疑”的标签,或者识别出画面里有汤姆·克鲁斯,这是上一代内容理解技术的工作。但这种方式极其粗糙,它无法回答更深层的问题:这个片段是紧张的还是舒缓的?这个镜头是推动情节的关键转折,还是一个无关紧要的过场?
长久以来,视频平台的内容推荐和商业化,都建立在这些浅层的元数据之上。然而,真正的用户体验和商业价值,隐藏在对内容“叙事”和“情绪”的深度理解中。
流媒体巨头Netflix最近公布的其内部多模态基础模型MediaFM,就清晰地指向了这个未来。其核心思想,是从理解单个“镜头”(shot)的上下文入手,让AI不再是看图识物,而是真正读懂故事的起承转合。
一个镜头的意义,往往由它前后的镜头序列所决定。一个微笑,在婚礼上是喜悦,在葬礼上则可能意味深长。MediaFM的关键突破,正是引入了这种“语境化”(Contextualization)能力,通过分析镜头序列,模型能够捕捉到超越画面本身的情绪流、叙事节奏和戏剧张力。

要让AI具备这种近乎导演和剪辑师的“直觉”,需要一套全新的方法论。
MediaFM的构建思路颇具启发性。它首先将影片拆解成最小的叙事单元——镜头。然后,对每个镜头进行多维度“扫描”,抽取三大核心信息:
模型通过融合这三种模态的信息,为每个镜头生成一个独特的数字“指纹”,即嵌入(Embedding)。
接下来的步骤是关键。模型采用了类似BERT在自然语言处理中使用的“完形填空”训练法,即“蒙版镜头建模”(Masked Shot Modeling)。在一段镜头序列中,随机遮盖(Mask)掉20%的镜头,然后让模型去预测被遮盖镜头的内容。通过海量的自我监督训练,模型被迫学习镜头之间的内在逻辑和关联,从而掌握了叙事和语境。
实验数据显示,这种经过特殊训练的“内行”模型,在多项任务上显著优于Google VertexAI等多模态模型。无论是在广告相关性匹配、预告片精彩度预测,还是片段情绪风格(如“恐怖”、“幽默”)分类等任务上,MediaFM都表现出压倒性优势。这证明,对于媒体理解这类专业领域,通用大模型远不如一个深度定制的垂直模型来得有效。

更有趣的是,消融实验发现,仅仅融合多个模态信息带来的提升有限,真正让模型性能飞跃的,正是“语境化”这一步。在某些任务上,未经语境化的多模态信息甚至会起到反作用。这说明,信息的堆砌毫无意义,理解信息之间的关系才是关键。
Netflix的这套逻辑,对中国市场而言并不陌生,甚至可以说,某种程度上是被验证过的成功路径。
字节跳动旗下的抖音和TikTok,其推荐算法之所以令人着迷,核心就在于对短视频内容极度精准的上下文理解。它不仅知道你喜欢看什么类型的视频,更能理解在一个视频消费序列中,下一个视频应该呈现怎样的情绪转折或内容衔接,才能最大限度地延长你的停留时间。这本质上就是一种短平快的“叙事”理解。
如今,同样的挑战摆在了长视频平台面前。爱奇艺、腾讯视频、B站等平台坐拥海量影视剧、综艺和UGC内容,如何盘活这些存量资产,实现更高效的推荐、更精准的广告植入、更自动化的精彩片段剪辑,是它们共同的课题。
一个类似MediaFM的模型,能带来的想象空间是巨大的:
尤其对于B站这样的社区,其独特的“弹幕”文化,构成了全球范围内都罕见的第四模态数据——实时用户情绪流。如果将弹幕数据与视、听、文三模态结合,训练出的模型对内容的理解深度,或许能超越全球任何一个平台。
视频平台的竞争,正在从版权和自制内容的“军备竞赛”,悄然转向AI基础设施的“技术竞赛”。
MediaFM这样的模型,代表着平台的核心竞争力正从“拥有内容”转变为“理解内容”。当平台能以近乎创作者的视角去解构和重组内容时,它就不再是一个单纯的分发渠道。
下一步,是将这种理解能力与大型语言模型(LLM)结合。届时,用户与平台的交互方式将发生根本性改变。搜索将不再是关键词匹配,而是自然语言对话。你可以直接问平台:“找一下《老友记》里钱德勒讲冷笑话但没人笑的片段”,平台将精准地为你呈现。这不再是分发,而是一场围绕内容的深度对话。
对于所有内容平台而言,战争的下半场,才刚刚开始。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断