我们习惯于用五星评价万物,但绝对分数往往充满偏见。科技公司早已转向一种更简单、更强大的方法:成对比较。从大模型排名到外卖推荐,这种“二选一”的机制,正在成为理解用户真实偏好、驱动产品决策的核心引擎。它不仅能从看似杂乱的选择中算出精确排名,还能识别上下文、剔除水军。
给一部电影打分,7.8还是7.9?给一家餐厅评级,四星半还是五星?我们常常陷入这种“绝对度量”的困境。人的判断天生是相对的,我们很难给出一个精确的绝对分数,但判断两个选项中哪个更好,却毫不费力。
这个看似微不足道的认知偏差,正在深刻改变科技公司收集用户反馈和构建排名系统的方式。无论是电商平台的商品排序、内容流的推荐,还是大模型的能力比拼,一种更底层的逻辑正在取代传统的打分制——成对比较(Pairwise Comparison)。
简单来说,就是放弃让用户做复杂的“裁判”,只让他们做简单的“选择”。这种“A优于B”的海量、琐碎的判断,通过一个名为布拉德利-特里(Bradley-Terry)的统计模型,就能被转化为一个全局的、带有概率性质的精确排名。它就像一个聪明的锦标赛系统,不需要让每个选手都彼此交手,就能通过有限的比赛结果,推断出整个赛场的实力座次。
成对比较最引人注目的应用,莫过于大语言模型(LLM)的评估。斯坦福大学等机构推出的知名项目LMSYS Chatbot Arena,就是一个典型的例子。它不要求用户给模型的回答打分,而是匿名展示两个模型的答案,让用户选出更好的那一个。通过汇集全球数十万次这样的“二选一”,它为瞬息万变的LLM行业提供了一个动态的“Elo排行榜”。

但如果仅仅是这样,还不足以让它成为巨头们的秘密武器。基础模型的局限在于,它假定每个选项的“实力”是固定不变的。然而现实世界远比这复杂。
一个模型可能擅长写代码,却不擅长写诗。一家餐厅可能适合“情侣约会”,却不适合“家庭聚餐”。单纯的全局排名,正在失去指导意义。真正的突破在于引入上下文(Context)。
现代排名系统已经不再为项目估算一个单一的“实力分”,而是通过特征向量来描述它。对于LLM,这些特征可能是问题的主题(数学、历史、创意写作)、难度、长度等。对于美团上的餐厅,特征可能是菜系、人均消费、地理位置、适合场景等。
当用户进行比较时,系统不仅记录了“谁赢了”,更记录了“在什么场景下赢了”。这让模型从回答“谁更强?”升级为回答“在什么条件下,谁更强?”。这本质上已经转化为一个经典的机器学习问题:逻辑回归。通过分析特征差异,系统可以预测在特定上下文下,哪个选项胜出的概率更大。这正是淘宝、抖音等平台实现“千人千面”个性化推荐的技术基石之一。
无论是打分还是“二选一”,只要有人参与,就必然存在噪音。在众包和UGC(用户生成内容)的世界里,并非每个人的判断都同样可靠。有些人是领域专家,判断精准;有些人敷衍了事,随机选择;更有些人是“水军”或“刷单者”,意图操纵排名。
如果系统对所有反馈一视同仁,那么结果必然会被这些“劣质裁判”污染。如何解决这个问题?
一个名为CrowdBT的扩展模型给出了巧妙的答案:在为选项排名的同时,也为“裁判”(即用户)的可靠度排名。
这个模型引入了一个“可靠度”参数。它假定,一个用户在做判断时,有一定的概率是基于真实偏好(即模型的核心部分),还有一定概率是纯粹随机选择。一个可靠度为1的用户是完美的专家,而可靠度为0的用户则相当于在抛硬币。
通过EM(期望最大化)算法,系统可以同时迭代估算出两个核心数据:
这套机制在中国的互联网环境中尤为重要。它为电商平台识别刷单行为、为点评网站过滤恶意差评和无脑好评,提供了一套数学武器。它不再需要依赖人工规则去封禁“水军”,而是让数据自己说话,在系统内部自动降低噪音的权重。
从简单的成对比较,到融入上下文,再到评估反馈者本身,我们看到的是一套从“收集评分”到“深度理解”的进化路径。
微软为Xbox游戏设计的TrueSkill系统,也是这一思想的延伸。它用贝叶斯方法来估计玩家的技能,每个玩家的实力不再是一个点,而是一个包含均值和方差的正态分布。这使得系统不仅知道你有多强,还知道这种判断的“确定性”有多高,从而能更智能地为你匹配对手。
未来,决定用户体验和商业效率的,不再是用户留下了多少“五星好评”。真正的护城河在于,企业能否从用户每一个微小的、不经意的选择中,捕捉到其相对偏好,并结合丰富的上下文,构建一个动态、精准、且能自我净化噪音的决策系统。这套源于统计学、壮大于机器学习的“二选一”哲学,将继续成为数字世界的底层操作系统。
免费获取企业 AI 成熟度诊断报告,发现转型机会