前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
数据科学与工程

超越预测:数据科学家如何利用搜索理论模型驾驭平台经济复杂性

NEXTECH
Last updated: 2025年10月3日 上午5:40
By NEXTECH
Share
61 Min Read
SHARE

作为数据科学家,人们往往极度专注于构建各种算法、因果/预测模型、推荐系统(以及现在流行的生成式AI)。工作重心通常是优化准确性、微调超参数,并寻找下一个要在生产环境中部署的“炫酷”模型。然而,在追求最前沿技术实现的过程中,业界可能忽视了一类能够重塑对业务问题思考方式的模型——搜索理论模型。

Contents
经济学文献背景一个实际案例:借贷平台总结与展望

以亚马逊、Spotify、Netflix、优步(Uber)和Upstart等平台公司的崛起为例。尽管它们所处的行业千差万别,但其核心运作模式都是作为需求方和供应方之间的中介,在搜索与匹配市场中发挥作用。这些公司的价值主张在于,通过提供一个平台和匹配算法,在不确定性和异质性偏好下将参与者连接起来,从而显著降低客户的搜索成本。

核心挑战

在这些市场中,根本性问题不仅仅是孤立的机器学习问题,例如“如何预测需求?”或“广告如何影响客户流失率?”。相反,其关键挑战在于:

  • 给定预期需求模式,应入驻多少供应商?
  • 如何设计匹配机制以生成最优分配?
  • 怎样的定价策略能在平衡平台增长和客户满意度的同时,实现平台收入最大化?
  • 当一个模型基本要素的变化引发连锁效应时,如何处理其下游影响?

传统数据科学方法通常将这些问题视为独立的优化任务,并分配给不同的工作流程。然而,经济学家自20世纪80年代以来一直在研究这些问题,并开发了一个统一的理论框架来捕捉这些平台动态的相互依赖性,即搜索理论模型。值得关注的是,尽管这些模型具有深厚的理论基础和实际应用潜力,但其在行业实践中的应用尚未得到充分重视。

为何这对数据科学家至关重要

数据科学领域擅长衡量和算法设计,但在问题表述方面却相对滞后(这部分工作通常留给了产品经理和高管)。理解这些理论基础有助于指导如何思考要衡量哪些指标以及要构建哪些算法。通过运用搜索理论模型,可以设计出协同工作的系统,而非孤立的预测模型,以考虑到均衡效应、战略行为和反馈循环。这种理论视角有助于识别正确的实验方案,理解模型何时会因参与者偏好变化(例如群组漂移)而失效,并设计出对均衡结果产生一阶影响的干预措施。

本文将介绍搜索模型背后的理论,并通过一个连接借款人和银行的借贷平台(如Upstart、LendingClub、Prosper)作为具体案例,展示其实际应用。文章将探讨该框架如何指导合作伙伴获取策略、定价和收费机制,以及应利用哪些杠杆来推动增长。有兴趣的读者可以继续阅读下一节,了解这些模型是如何诞生的简要背景,或者直接跳到实际案例部分,理解如何设计这些模型。

You Might Also Like

数据可视化进阶(二):解锁数据叙事的视觉编码通道与变量
机器学习赋能项目管理:提前预测41%的延误,实现高效交付
困惑度解析:AI与自然语言处理的核心指标
巧用ChatGPT:数据科学求职、面试与薪资谈判全攻略

经济学文献背景

这一建模框架源自20世纪80年代的经济学研究,当时戴尔·莫滕森(Dale Mortensen)、克里斯托弗·皮萨里德斯(Christopher Pissarides)和彼得·戴蒙德(Peter Diamond)试图理解为何即使存在职位空缺,失业现象依然存在。这一系列问题促使他们在2010年因其工作获得了诺贝尔奖。他们的戴蒙德-莫滕森-皮萨里德斯(DMP)模型改变了人们对市场的思考方式。核心洞见在于,寻找工作(或招聘员工)需要时间(并耗费金钱),这在原本竞争激烈的市场中造成了摩擦。戴蒙德在1982年指出,当搜索成本高昂时,工资并非由总供给和总需求决定,而是在双边谈判过程中由特定工人和企业进行协商。这种谈判采用纳什议价(Nash bargaining),工资取决于双方的议价能力和外部选择。如果任何一方拥有更好的外部选择,他们就能在匹配创造的价值中获得更大的份额。

莫滕森在此基础上进行了扩展,指出即使在健康的经济体中,搜索成本也会导致大量失业工人。工人会形成一个“保留工资”——他们基于预期如果继续搜索能找到什么样的工作,而愿意接受的最低工资。企业也同样权衡维持职位空缺的成本与预期工人能带来的价值。皮萨里德斯随后将这些个体谈判与经济范围内的模式联系起来,揭示了失业和就业创造如何与商业周期相关联。

2005年,达菲(Duffie)、加莱努(Gârleanu)和佩德森(Pedersen)将同样的思想应用于金融市场。在场外交易(over-the-counter)市场中,买卖双方必须相互寻找,就像工人和企业一样。这种搜索过程产生了买卖价差(bid-ask spreads),并解释了为何同一种资产在同一时间可以以不同价格进行交易。急需现金的卖方(高流动性需求)可能会接受较低的价格,而有足够时间的卖方则可以等待更好的报价。拉各斯(Lagos)和罗什托(Rocheteau)后来放宽了二元资产持有量的限制,为每个代理人引入了可变资产组合,并展示了货币政策如何影响这些去中心化市场。

第三个关键点来自平台经济学。平台创造了一个需要买家和卖家的市场。网约车平台需要司机和乘客。借贷平台需要借款人和银行。关于双边市场(two-sided markets)的文献表明,平台如何通过定价和共同控制需求方和供应方代理人的规模来最大化其收入。这些平台必须设定一个价格,以确保参与者留在市场中(激励相容约束),并确保接受交易对这些代理人有利(个体理性约束)。平台还可以处理多个市场(如亚马逊的图书/电子产品)的情况,其中一个细分市场的需求/供给可能会对另一个细分市场产生溢出效应。

这三个相关的研究流派可以结合起来,为理解现代数字平台公司提供工具。下文将展示一个实际案例,说明这些概念如何在理论模型中结合起来,以理解借贷平台的最佳行为。


一个实际案例:借贷平台

可以将此框架应用于Upstart、LendingClub和Prosper等借贷平台。这些公司利用人工智能进行贷款审批,将拥有可用资金的银行与需要贷款的消费者连接起来。它们充当市场平台,合作银行提供各种贷款类型(个人贷款、汽车贷款、抵押贷款),而消费者则申请信用。平台通过收取发起费、服务费和滞纳金来盈利,同时降低了双方的搜索成本,因为银行无需自行寻找和评估借款人,消费者也无需向多家银行反复咨询。从平台的角度来看,这些公司面临着以下关键的经济挑战:

  1. 需求预测:下一季度将有多少贷款需求?
  2. 供应管理:需要多少合作银行来满足这些需求?
  3. 竞争设计:如何保持银行之间对借款人的竞争,同时又避免银行流失?
  4. 匹配机制:应该采用拍卖、公布价格还是算法匹配来撮合借款人和贷方?
  5. 风险评估:如何同时建模银行的风险偏好和借款人的违约概率?
  6. 市场细分:在不同的市场细分领域之间是否存在任何溢出效应?

这些问题都没有简单的答案,并且每个问题都包含许多动态部分。例如,可能使用时间序列模型预测贷款总需求,但这个总数需要根据贷款类型、金额和期限进行细分,因为银行在这些维度上可能有不同的偏好。资金有限的小银行可能只希望向高信用借款人发放短期贷款,而大银行如果资金充裕,可能会向风险较高的借款人提供长期贷款。匹配算法需要考虑这些偏好,同时确保双方都能获得足够的价值(交易盈余)以接受报价。

在此框架下,每笔贷款都代表着借款人、银行和平台之间的三方谈判。借款人有权拒绝任何报价,银行有能力设定一个保留利率,而平台则有权决定总交易盈余的分配。平台控制着关键参数,如利率和费用,因为改变这些参数会影响双方的参与度。利率过高会导致借款人流失,降低采用率并增加流失。利率过低则会降低合作伙伴满意度,减少合作伙伴数量。每一个决策都会改变均衡状态,理解这些动态对于平台的增长至关重要。

模型环境设定

为了理解这些动态,可以构建一个最简单的模型。首先,设定一些使数学易于处理的假设,这些假设构成了模型的环境。这个环境将只包含一种持续一个周期的贷款类型、相同的借款人和相同的银行。

模型环境存在于离散时间t∈T中,没有跨期折现。存在一笔大小为S的贷款,其利率为r,其中r是一个内生变量(其结果由系统内部决定,而非模型原始设定)。

借款人以无条件泊松率Λ抵达平台。借款人进入平台时需要一笔大小为S的贷款,他们对此的估值为V(S)。他们的线性效用函数为U L=V(S)–(1+r)S,即他们从贷款中获得的估值减去下一期必须支付的款项。每个时间段内未匹配借款人的存量表示为L t。每个借款人都有一个还款概率p。当他们收到贷款报价时,可以选择接受或拒绝。如果拒绝,他们将离开市场并退出平台。借款人总是认为自己会偿还贷款。

在银行方面,存在一组银行i∈J,它们具有最大资本容量K和发放成本c。每笔大小为S的贷款的到期日为T=1(一笔成功发放的贷款会使该银行的可用资本在1个周期内减少S)。它们的目标是通过设定平台上可接受的最低利率来最大化利润,如果无法盈利,则会离开平台。

在这个环境中,存在一个拥有匹配技术M(B,L)的平台,用于匹配银行和借款人。该平台可以观察每个代理人的所有参数,并确定向借款人收取的利率r和向银行收取的发起费f,从而最大化平台的收入。平台还有能力根据需要入驻任意数量的银行B。当发生匹配时,平台会从愿意的银行存量中随机选择一家银行,并提供一个报价:{S,r,f},该报价必须对银行和借款人均具有激励相容性。

对于本应用,将使用一种标准的匹配技术,即科布-道格拉斯(Cobb-Douglas)函数(在文献中也用作生产函数),它给出该市场的总匹配率。此匹配函数以银行数量和借款人数量作为输入,并将其映射到每个时间段的匹配数量:

M(B,L)=α B β L 1−β

在每个时间段内,每个银行的预期匹配率定义为总匹配数除以银行存量:ϕ≡M(B,L)B=α B β−1 L 1−β。如果银行和借款人是随机匹配的,则每个银行单位时间的匹配数是相同的,表示为ϕ。

至此,模型所处环境的设定工作完成。该环境应包含足够的信息来找到模型中所有感兴趣参数的均衡(结果)。

寻找均衡

本节的目标是找到所有感兴趣的模型结果的解决方案。为了求解均衡,必须求解所有尚未通过环境预定义的内生(自由)变量。对于本例,这意味着需要求解利率r、发起费f和银行数量B。求解这些统计量没有固定的顺序,但理解代理人的参与决策,然后求解匹配率,最后求解议价问题也很重要。

在此完全信息框架下,借款人和银行的最佳决策都是接受。对于每笔贷款的发放,银行的预期利润由下式给出:

π=p(1+r)S–(1+c)S–f

第一项代表还款概率乘以借款人还款时的利润。第二项是发放成本(因为银行必须从自己的资产负债表/存款人那里借入资金并支付成本c)。第三项是银行因发放贷款而支付给平台的费用。在现实中,预期利润计算会考虑长期贷款(T>1)、违约情况下的催收成本以及其他因素。

在求解了每笔贷款的预期利润后,必须计算单位时间内发放的贷款数量。为了使未匹配借款人数量处于稳态,借款人的到达率在长期内必须等于匹配数量(因为所有借款人在匹配后都会接受贷款条件)。这意味着借款人流入系统的流速Λ必须等于借款人离开系统M(B,L)的流速:

Λ=M(B,L)=α B β L 1−β

通过求解L,得到L=[Λ α B β]1 1−β。如有必要,也可以通过将匹配函数除以借款人总量来找到借款人贷款的预期到达率。由于通过构建定义了匹配率M=Λ,银行贷款的到达率由ϕ=Λ B给出。

由于银行资助的每笔贷款都会占用其部分准备金容量K,因此也可以求解银行一次可以资助的最大贷款数量l。银行的预算约束由S⋅ϕ≤K给出。由于已经求解了贷款的流速,因此银行每个时间段的贷款数量由l∗=min{Λ B,K S}给出。如果绑定约束K S成立,这意味着平台应增加合作银行的数量,因为贷款供应受到限制。鉴于贷方没有自由进入条件,平台可以直接控制银行数量B,从而可以保持在非约束均衡状态,使得l∗=Λ B。

既然已知贷款数量,就可以确定银行单位时间的利润:

Π B=π Λ B=Λ(p(1+r)S–(1+c)S–f)B。

可以看出,增加与平台合作的银行数量会通过减少每家银行可以发放的贷款数量来降低每家银行的预期利润。由于平台可以设定费用f和银行数量B,平台需要决定是希望少数银行获得高额单银行利润(但存在诱发容量限制的风险),还是希望通过增加银行数量或降低费率r来最大化借款人的盈余。这还允许设定平台可收取最高费用的绑定约束,因为如果利润为负,银行将不愿意承担贷款。这意味着费用的上限由f¯=p(1+r)S–(1+c)S给出。

如果平台通过提高r来增加对银行的交易盈余分配,他们可以收取更高的费用并产生更多收入。然而,这在现实中也可能降低借款人进入平台的增长率。在本例中,借款人的到达率被设定为外生变量,因此不会受到费用和利率的影响,但可以设想一个Λ=f(f,r,B)的环境,这将把问题变为一个具有条件进入率的问题。由于允许银行发布保留利率r _,该利率设定了他们对任何贷款发放的最低要求利率,可以建模利率下限r _为:

r _=f+(1+c)S p S–1

如果平台降低收取的费用,银行可以设定较低的保留利率,从而增加借款人盈余。如果还款概率增加,或者发放成本(无风险利率)降低,这也可能实现。

议价过程

在充分描述了总体匹配和利润统计数据后,需要确定各方在谈判中的行为以及平台利润最大化的参数。

当借款人与银行匹配后,平台会提出一个“不接受就离开”的报价,借款人可以选择接受或拒绝。如果借款人拒绝,他们将退出市场(没有外部选择)。因此,平台必须选择一组参数{r,f}以满足借款人和银行的参与约束,受制于{r _,f¯}。根据线性效用规范,借款人只有在获得正效用时才会接受贷款(因为他们可以拒绝并获得U L=0)。这使得我们能够定义利率参数的最高限额:

r¯=V(S)S−1

现在已知自由参数r和f的边界,可以构建平台的收益最大化问题。平台选择满足各参与代理人激励但最大化自身净收益的利率和费用参数。在此假设下,平台最大化:

Π p=max r,f,B f M(B,L)s.t.Π B≥0 U L≥0

平台选择一组利率r、费用f和合作银行数量B,以最大化其费用率和匹配数量。此问题具有解析解,可以通过闭式形式求解以找到最优参数,也可以通过网格搜索或约束优化进行数值求解,以找到最大化Π p的参数集。模型的均衡对象被定义为我们所建立的稳态解。

这对业务意味着什么

该模型揭示了平台战略的几个关键洞见:

  1. B的选择:增加合作贷方数量可以提高借款人的盈余。一种方式是通过更快的匹配速度,这会减少未匹配借款人的稳态数量。由于模型中假设借款人在拒绝贷款后退出市场,这并不会对贷款利率产生下行压力。然而,如果假设借款人在拒绝贷款后可以重新进入市场,那么他们将拥有更高的外部选择,这会降低银行的议价能力,并降低借款人愿意支付的最高利率r¯。但另一方面,增加合作银行数量也会降低每家银行单位时间的利润(因为单银行利润随着银行数量的增加而下降),这降低了平台每笔交易可收取的最高费用f¯,从而减少了平台利润。

  2. r的选择:选择正确的r涉及确定平台是希望银行还是借款人获利。在这个简单模型中,平台会选择r=r¯,因为它只需要满足借款人的参与约束,而无需担心进入条件。r的任何增加都将允许平台通过提高费用从交易中提取更多盈余。在一个更复杂的模型中,如果借款人的进入率与他们的盈余正相关(即Λ=f(f,r,B)),那么最优决策将是分配部分盈余给借款人,以提高每期匹配速度,这可能会增加平台的总收入。最后,在信息有限的模型中(平台不知道借款人的真实收益),最优利率依赖于估值E[V(S)]在估计的借款人分布上的期望。如果借款人之间存在以θ表示的差异,期望将变为对预期借款人画像E[V(S)|θ]的条件期望。如果借款人画像未知(在冷启动情况下很常见),可以用机器学习估计的版本θ^来替换θ。

  3. f的选择:在这个模型中,f决定了银行和平台之间的交易盈余分配。更高的费用会增加平台的收入,并按比例减少银行的收入。在现实中,银行可以在不同的竞争平台之间选择参与,其参与取决于他们预期获得的收入。这意味着平台将部分交易盈余分配给银行,以增加在后期吸引新合作伙伴的机会,这可能是最优选择。


总结与展望

尚未考虑的方面

这个基本模型只是触及了平台动态的表面。真实的平台会处理许多为了数学简化而刻意忽略的复杂性。例如,模型假设借款人在拒绝后退出(使外部选择为0),但实际上他们可以选择留在市场中,或访问竞争对手平台。模型还假设银行和借款人是相同的,但银行在风险偏好、资本金和到期偏好方面可能存在差异。借款人在其观察到的和潜在的特征上也可能不同,影响其还款概率、贷款估值和贷款规模。这种异质性将匹配问题从随机分配变为分类匹配,平台需要决定哪种类型的参与者应该与谁匹配,这又回到了平台自身的价值主张。

模型也忽略了信息不对称。银行无法完美观察违约风险,借款人不知道其真实信用状况,平台对双方的外部选择了解有限。这为信号传递(借款人试图表现出良好信用)、筛选(银行针对不同贷款类型设计不同的保留利率)以及平台的机制设计选择创造了机会。借贷平台应该向借款人展示所有可用利率还是只展示最佳匹配?是应该向银行披露借款人的信用评分还是只披露其专有风险评估?披露过多信息是否会对匹配质量产生负面影响?

可深化理解的扩展

为了使这个框架更具操作性,可以自然地想到以下几个扩展:

  1. 动态进入和退出:模拟市场条件如何影响参与。当利率上升时,一些借款人会退出,而另一些则变得更急迫。银行会根据监管变化和资产负债表约束调整其风险偏好和资本比率。机器学习在这里扮演重要角色,因为平台需要预测这些流量并相应调整费用/利率。
  2. 平台间的竞争:当借款人可以同时在Upstart、LendingClub和Prosper上搜索时会发生什么?多平台动态改变了议价能力,迫使平台深入思考其决策如何影响流量到达率和增长前景。这可以解释为什么一些平台专注于速度(即时审批),而另一些则强调更优惠的利率。了解每个平台捕捉了什么利基市场以及哪个利基市场存在未满足的需求对于占据更大的市场份额至关重要。
  3. 声誉与学习:随着时间的推移,双方都会建立声誉,但这只有在他们留在平台上建立历史记录时才有可能。持续提供有竞争力的利率的银行可能会吸引更多借款人,并获得更高的匹配率。按时还款的借款人在平台上建立档案,提高了其档案的准确性。随着时间的推移和更多数据的捕获,由于更高信号的可用性,平台的分类匹配效率得到提高。对这些动态进行建模将有助于理解客户生命周期价值,并决定平台应主要关注获客还是留存。
  4. 机制设计:平台可以运行拍卖让银行竞标借款人,而不是“不接受就离开”的报价和随机分配借款人到匹配银行。或者,平台可以要求公布价格,即银行承诺利率时间表。每种机制对效率、收入和市场厚度都有不同的影响。正确的选择取决于监管约束以及借款人和银行的分布情况。

从构建模型到建模问题

这个框架提供了一个战略优势,因为它迫使人们思考一阶和二阶效应。大多数数据科学家孤立地优化指标,例如降低违约率、提高转化率和降低流失率。但在这些类型的市场中,每一次模型优化都会影响所有的均衡对象。较低的违约率可能意味着银行的保留利率降低,从而允许平台通过费用捕获更多的交易盈余。如果存在借款人异质性,较高的匹配概率可能会吸引资质较差的借款人,导致平均匹配质量下降。

该框架还有助于识别哪些指标真正重要。借贷平台可能会接受某些贷款的负利润(亏损领导者),如果这能维持一个高价值银行的参与,或者对不同细分市场产生正向溢出效应。即使合作银行的资本利用率很高,平台也可能限制借款人进入(或降低匹配率)。这种思维方式应有助于行业数据科学家摆脱为衡量而衡量,退一步从更宏观的视角审视其所服务的公司。

TAGGED:匹配市场平台经济搜索理论数据科学
Share This Article
Email Copy Link Print
Previous Article 20251002081213362.jpg 蓝色起源:舰队扩容冲刺每周发射,月球资源开发描绘太空未来
Next Article AI工程与评估:解锁未来软件开发的新范式与核心挑战
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

利用API函数调用进行生产计划的n8n工作流 – (图片由Samir Saci提供)
数据科学与工程

n8n数据分析:从Python到JavaScript的实战攻略与性能优化

2025年9月22日
图片1:微笑表情
数据科学与工程

经验模态分解:解析复杂信号与时间序列最直观的方法

2025年11月23日
数据科学与工程

数据讲故事:赋能商业决策与数据分析师的关键技能

2025年11月11日
图2:懒惰数据科学家的时间序列预测指南
编程与工具

懒惰数据科学家的时间序列预测指南:Python与自动化工具的高效实践

2025年9月21日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up