算法如何推高价格的博弈论

原创 Kurt Pan XPTY

2025年10月23日 13:36

最近的研究表明，即使是简单的定价算法也会使商品变得更加昂贵。

原文：https://www.quantamagazine.org/the-game-theory-of-how-algorithms-can-drive-up-prices-20251022/
作者：Ben Brubaker
译者：Kurt Pan

想象一下，一个小镇上有两个小玩意儿商人。顾客喜欢便宜的小玩意儿，所以他们必须竞争给出最低定价。由于对微薄的利润感到不满，他们在一个烟雾缭绕的酒馆里商量了一个秘密计划：如果他们一起涨价而不是竞争，就能同时赚更多的钱。但这种故意操纵价格的行为，被称为"合谋"，长期以来一直是非法的。小玩意儿商人决定不冒这个险，于是其他人就可以享受廉价的小玩意儿了。

一个多世纪以来，美国法律一直遵循着这样一个基本模式：禁止幕后交易，公平价格就应该得到维护。如今，事情变得没那么简单了。在经济的广泛领域，卖家越来越依赖被称为学习算法的计算机程序，这些程序会根据市场状况的新数据反复调整价格。这些算法通常比驱动现代人工智能的"深度学习"算法简单得多，但它们仍然容易出现意外行为。

那么，监管机构如何确保这个算法设定了公平价格？传统方法行不通，因为它依赖于发现明显的合谋行为。宾夕法尼亚大学计算机科学家 Aaron Roth 说："算法之间肯定不会一起去喝酒。"

然而，一篇被广泛引用的 2019 年论文表明，即使算法并非被设计成这样，它们也能学会默契地合谋。一个研究小组让两个简单的学习算法副本在模拟市场中相互竞争，然后让它们探索不同的策略来提高利润。随着时间的推移，每个算法都通过反复试验学会了在其他算法降价时进行反击——将自己的价格大幅、不成比例地降低。最终的结果是价格高企，并相互威胁发动价格战。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3304991

类似这样的隐性威胁也构成了许多人为合谋的根源。所以，如果你想保证公平价格，为什么不直接要求卖家使用本质上无法表达威胁的算法呢？

在最近的一篇论文中，Roth和其他四位计算机科学家解释了为什么这可能还不够。他们证明，即使是看似良性的算法，如果只是为了自身利益而进行优化，有时也会给买家带来不利的后果。"你仍然可以通过表面上看起来合理的方式获得高价，"与Roth合作的研究生、这项新研究的共同作者Natalie Collina说。

https://arxiv.org/abs/2409.03956

研究人员对这一发现的含义并非意见一致——很大程度上取决于如何定义"合理"。但它揭示了算法定价相关的问题有多么微妙，以及监管的难度有多大。

莱斯大学经济学家Mallesh Pai表示："如果没有某种威胁或协议，监管机构很难介入并指出'这些价格感觉不对'。这就是我认为这篇论文很重要的原因之一。"

不后悔

这篇最近的论文从博弈论的视角研究了算法定价。博弈论是经济学和计算机科学交叉学科，用于分析战略竞争的数学原理。这是在受控环境下探索定价算法失效的一种方法。

"我们试图在实验室里制造合谋，"宾夕法尼亚大学经济学家 Joseph Harrington 说。他撰写了一篇关于监管算法合谋的颇具影响力的评论论文，但并未参与这项新研究。"一旦我们做到了这一点，我们就想弄清楚如何摧毁合谋。"

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3037818

为了理解其中的关键思想，不妨从简单的石头剪刀布游戏开始。在这里，学习算法可以是玩家根据前几轮的数据，在每一轮中选择走法的任何策略。玩家可能会在游戏过程中尝试不同的策略。但如果他们玩得好，最终会收敛到博弈论研究者称之为均衡的状态。在均衡状态下，每个玩家的策略都是对其他玩家策略的最佳应对，因此双方都没有改变的动力。

在石头剪刀布游戏中，理想的策略很简单：你应该每轮随机行动一步，并平等地选择所有三种可能性。如果一方采取不同的策略，学习算法就会大放异彩。在这种情况下，根据前几轮的策略选择行动方式，可以帮助另一方玩家比单纯随机移动时赢得更多胜利。

比如，假设你玩了很多轮之后才意识到你的对手，一位地质学家，选择石头的概率超过50%。如果你每轮都出布，你赢的次数会更多。博弈论研究者把这种痛苦的领悟称为"后悔"。

研究人员设计了一些简单的学习算法，保证让你绝对不会后悔。一种稍微复杂一点的学习算法，称为"无互换后悔"算法，它也能保证无论对手做了什么，你都不可能通过将任何一步的所有实例与其他一步互换（比如，每次出剪刀后都出布）做得更好。2000 年，博弈论学家证明，如果在任何游戏中让两个无互换后悔算法相互对抗，它们最终都会达到一种特定的均衡——如果它们只玩一轮，这种均衡就是最优均衡。这是一个很有吸引力的特性，因为单轮游戏比多轮游戏简单得多。特别是，威胁不起作用，因为玩家无法坚持到底。

https://www.jstor.org/stable/2999445

在2024年的一篇论文中，西北大学计算机科学家 Jason Hartline 和两名研究生将2000年论文中的经典结果转化为一个竞争性市场模型，其中参与者可以在每一轮中设定新的价格。在这种背景下，研究结果暗示，当达到均衡时，相互竞争的"无互换后悔"算法最终总会得出竞争性价格。合谋是不可能的。

https://dl.acm.org/doi/10.1145/3614407.3643706

然而，在在线市场中，无互换后悔算法并非唯一的定价博弈策略。那么，当无互换后悔算法遇到另一个看似良性的对手时，会发生什么呢？

价格错误

根据博弈论专家的说法，对抗"无互换后悔"算法的最佳策略很简单：首先为每种可能的走法设定一个特定的概率，然后每轮随机选择一个走法，无论对手怎么做。这种"无响应"方法的理想概率分配取决于你玩的具体游戏。

2024 年夏天，Collina和她的同事Eshwar Arunachaleswaran着手寻找双人定价博弈的最优概率。他们发现，最佳策略会为极高的价格分配极高的概率，同时为较低价格分配较低概率。如果你的对手是一个"无互换后悔"算法，那么这种奇特的策略将使你的利润最大化。"对我来说，这完全出乎意料，"Arunachaleswaran说道。

非响应策略表面上看起来无害。它们无法传达威胁，因为它们根本不会对对手的举动做出反应。但它们可以诱导学习算法提高价格，然后偶尔通过削弱竞争对手来获取利润。

起初，Collina和Arunachaleswaran认为这种人为设定的场景与现实世界无关。使用"无互换后悔"算法的玩家在意识到竞争对手以牺牲自己利益为代价获利后，肯定会切换到其他算法。

但随着他们进一步研究这个问题，并与Roth和其他两位同事讨论，他们意识到自己的直觉是错误的。在他们的场景中，两个参与者已经处于均衡状态。他们的利润几乎相等，只要双方都不切换到其他算法，利润就会尽可能高。双方都没有改变策略的动机，因此买家只能承受高价。更重要的是，确切的概率并不那么重要。与"无互换后悔"算法相比，许多不同的选择都会导致高价。这是合谋的预期结果，但目前还看不到任何合谋行为。

愚蠢是有代价的

那么，监管机构能做什么呢？Roth承认他没有答案。禁止"无互换后悔"算法毫无意义：如果每个人都使用这种算法，价格就会下降。但对于像亚马逊这样的在线市场上的卖家来说，简单的"不响应"策略或许是一个自然的选择，即使它存在后悔的风险。

"后悔的一种方式就是装傻，"Roth说。"从历史上看，这并不违法。"

在Hartline看来，算法合谋问题有一个简单的解决方案：禁止所有定价算法，除了博弈论研究者长期以来青睐的无互换后悔算法。或许有一些切实可行的方法可以做到这一点：在2024年的研究中，Hartline和他的同事设计了一种无需查看代码即可检查算法是否具有无互换后悔特性的方法。

Hartline承认，他所偏爱的解决方案并不能杜绝"无互换后悔"算法与人类竞争时出现的所有不良后果。但他辩称，像Roth论文中提到的那种情况并非算法合谋的情况。

"合谋是双向的，"他说。"从根本上来说，单个参与者必须采取一些行动来避免合谋。"

无论如何，这项新研究仍然留下了许多悬而未决的问题，即算法定价在现实世界中如何出错。

"我们仍然没有理解到我们想要了解的那么多，"Pai说。"这对我们这个时代来说是一个重要的问题。"