世界经济论坛：ChatGPT将带来经济学的方法论革命

像其他人一样，经济学家也在享受着大型语言模型（LLMs），感受到了它们的优势和限制。像ChatGPT这样的大型语言模型确实是令人着迷的艺术。但其中一个关键问题是，我们能不能从这些模型中学到一些我们目前还不知道的经济学知识？

我相信经济学家能够从大型语言模型中学到很多东西，不是通过与它们聊天，而是通过解构它们的工作方式。毕竟，大型语言模型中构建在强大到足以帮助我们模拟人类语言的数学概念之上。也许了解这些模型的工作原理能够能够成为经济学家的新灵感来源。

要了解大型语言模型的工作原理，我们需要从最原始的语言生成模型开始。假设我们要选用一个大型的文本语料库来统计每个单词后面跟着不同单词的次数，如“棕”后面跟着“狗”的次数。像“棕狗”这样两个词的序列被称为“二元语法”（2-grams），这些词语组成的词语矩阵就是一个原始的语言生成模型。它在结构上非常简单，无法在文本生成上取得良好效果，但仍然足够“聪明”，能够“学会”形容词倾向于在名词前面出现的规律。也就是说，“棕狗”要比“狗棕”更常见。

大型语言模型将这一思想扩展到n元语法矩阵。作为数学模型，大型语言模型能够推测一个词在一连串预先给定的词组中出现的概率。当然，n元矩阵的大小能够爆炸式增长。有了1万个词，我们就有1亿个二元语法、1万亿个三元语法。当我们考虑18元语法时，可能的组合（10的72次方种组合）比我们用地球上的全部原子所能储存的信息量还要多（大约10的56次方比特的信息量）。

因此，设计大型语言模型的工程师足够聪明，选择将神经网络的几个参数拟合成一个能够描述所有这些词序列的函数。大型语言模型有近一万亿个参数，这数量看起来很多，但与博尔赫斯笔下的巴别图书馆所涉及的n元语法相比仍是很小的。

借助神经网络，这些模型开始模仿现有知识。大型语言模型“知道”茶和咖啡是相似的，因为这两个词经常出现在“热”、“饮料”和“早餐”等词周围。借助神经网络中的节点而不是孤立的单词实体来表示单词，这些模型创设建立了生成语言所需的数学表示。

这与经济学有什么关系？

如同文本涉及许多文字之间复杂的互动一样，经济也涉及各种各样的人和事物相互间的复杂互动。当然，我们也能够将这些互动分为预先定义的类别（如资本和劳动力）或不同的经济活动（如农业、服务业和制造业）。但是，就像一个语言模型如果仅有名词、动词和语法等概念是不完整的一样，根据经济活动粗略分类的经济学模型也不完整。规模较大的语言模型告诉我们的是，通过采用预定义类别和演绎逻辑捕捉全世界细微差别的能力是有限的。如果我们想了解系统的细节，我们就需要一个数学工具箱来帮助我们以更精细的分辨率捕捉系统的动态和规律。

这个想法并不新鲜。事实上，一些经济学家已经在应用其中的一些技巧。在著名的词嵌入算法Word2vec发表的前六年，我和其他三位同事发表了一种国际贸易网络表示方法。我们试图借助二元语法矩阵，根据产品之间的关系来创建数学表示。如同规模较大的语言模型学习到咖啡和茶是相似的一样，我们创设建立的网络“知道”钻孔机和切割刀片是有所关联关系的，因为它们大多数情况与其他类似产品一起出口。网络也“知道”热带农业和温带农业的区别，以及制作T恤和液晶屏的区别。

在过去的15年里，这些方法在年轻经济学家和经验丰富的从业者中得到了越来越多的受众。一方面，它们提供了将政策预测概念应用于经济发展研究的必要工具，例如预测一个经济体在不同产品和市场中的进入和退出概率。他们还为经济带来了“嵌入”的研究工具。“嵌入”是一种矢量表示，可用于描述深度学习模型中的单词。“嵌入”应用的一个例子是经济复杂性指数，该指标源自经济体之间的相似性矩阵，能够解释长期经济增长、收入不平等和碳排放方面的区域和全球差异。

机器学习收集、构建和表示数据的能力正在为许多领域的研究人员创造机会。从想要了解和预测蛋白质行为的计算生物学家，到想要了解和预测经济演变的经济学和全球发展专家，都是如此。经济学家和计算机科学家都应该要欢迎这场新的方法论革命，这将成为创新和实验的全新前沿。

本文作者

César A. Hidalgo

图卢兹大学人工和自然智能研究所集体学习中心主任

菜单Menu

更多阅读：

菜单Menu

更多阅读：

分享这篇文章