博士驿站：连接全球智慧，共创博士人才生态圈 › 驿站总站 ›知识库 › 查看内容

前世今生：探寻ChatGPT的底层逻辑

2023-7-30 10:59| 发布者: admin| 查看: 3921| 评论: 0|来自: 人人都是产品经理

摘要: 我们活着只为了去发现美，其他一切都是等待的种种形式。

五在微软的报告里，研究者用GPT-4模拟了一段对话：

苏格拉底：我的朋友，我对最近这些所谓自回归语言模型的兴起感到不安。
亚里士多德：你是什么意思，苏格拉底？
苏格拉底：我的意思是，这些模型被用来生成看起来是人类写的文本，但实际上是由机器产生的。
亚里士多德：那有什么问题呢？
苏格拉底：问题是，这些模型被用来欺骗人们，操纵他们，控制他们。
亚里士多德：但这些模式肯定也有一些积极的应用？
苏格拉底：可能是这样，但我仍然对滥用的可能性感到不安。毕竟，一个能够生成与人类所写的文字无法区分的模型可以被用来传播假新闻，冒充他人，并制造宣传。
亚里士多德：但这不只是一个如何使用这些模型的问题，而不是模型本身的问题吗？
苏格拉底：我不同意。我认为这些模型本身就有问题。它们是一种伪装的形式，一种创造幻觉的方式，是人类思想和互动的一部分。因此，它们可以被用来以难以察觉的方式进行欺骗和操纵。
亚里士多德：但这不正是你反对修辞和演说的理由吗？
苏格拉底：是的，我也坚持这个观点。我相信，任何旨在欺骗或操纵的艺术或交流形式都是内在的危险。
亚里士多德：我明白了。谢谢你分享你的想法，苏格拉底。

乔布斯曾经设想过如上的对话，他预测有一天可以用计算机捕捉亚里士多德的底层世界观，如此一来人们就可以和他亲自对话了。

反对修辞和演说的苏格拉底认为：感觉是不可靠的，感性认识是不确定的，只有理性才能够认识事物本身。‍‍

而在亚里士多德的方法里，他将修辞确定为哲学的三个关键要素之一。另外两个则是逻辑和辩证法。

亚里士多德认为，逻辑关注的是用推理达到科学确定性，而辩证法和修辞则关注概率。后者适用于人类事务。

上面两段文字我摘自网络百科，虽无法确认其原文与出处（尤其是概率那部分），却令人叫好。

然而，在随后的年代里，亚里士多德的逻辑和确定性知识体系更大程度地影响了人类。

人们信奉因果论和决定论，在牛顿的推动下，世界仿佛是一个由无数个精密齿轮构成的机器，在上帝的首次推动下，持续有条不紊地运转着。

而另外一条线索亦在孕育之中。休谟的怀疑论和经验主义彻底改变了人们的思想世界，他认为感性知觉是认识的唯一对象，人不可能超出知觉去解决知觉的来源问题。

在休谟看来，客观因果并不存在。‍‍‍‍‍‍‍‍

随后康德试图对理性主义和经验主义进行调和，他否认客观因果联系，但主张用先天的理智范畴对杂乱的经验进行整理。‍‍

马赫则开创了经验批判主义，他强调直接讨论观测数据，科学定律只是被视为以最经济的方式对数据进行描述的手段而已。

《科学推断》一书认为，他开启了现代方法论的主要进展。

曾经深受马赫影响的爱因斯坦，无法接受这种对科学信仰的破坏性，以及对法则、公式、定律的轻视，后来与其分道扬镳。

爱因斯坦用探索性的演绎法建构了逻辑严谨的原理，他相信宇宙有解，不相信鬼魅之力。

某种意义上，爱因斯坦是最后的牛顿（除了用斯宾诺莎的“神”替代了上帝），是科学因果决定论的捍卫者。‍‍

1967年，波普尔对如上交织而漫长的哲学历程做了一个了结，他提出了三元世界的观点，布尔金将其绘制如下：

这似乎是柏拉图洞穴理论的现代版。

看看，人是多么无知，又是多么分裂啊！

基于这样的结构，波普尔提出：我们无法证实这个世界，无法证实规律和定理，只能去证伪。

六也许你还记得上一代的老实人工智能–深蓝。

庞大的机器，手工制作无尽的代码，多名参与其中的职业棋手，以及暴力算法，虽然打败了卡斯帕罗夫，却如流星般闪过。

《麻省理工科技评论》将深蓝形容为恐龙，而这一代的神经网络（尤其是深度学习）则是生存且改变地球的小哺乳动物。

上世纪50年代，香农曾经乐观地预测AI将很快出现，事实并非如此。失败的主要原因是：

人工智能的创造者们试图用纯粹的逻辑来处理日常生活中的混乱，他们会耐心地为人工智能需要做的每一个决定都制定一条规则。但是，由于现实世界过于模糊和微妙，无法以刻板的方式进行管理。

我们无法像是依照牛顿的原理造车般，用发条思维和专家系统来打造智能系统。那一类AI不仅狭窄，而且脆弱。

ChatGPT是经验主义的进化论的“胜利产物”。

经验主义亦称“经验论”。作为一种认识论学说，与“理性主义”相对。经验主义认为感性经验是知识的来源，一切知识都通过经验而获得，并在经验中得到验证。

这正是ChatGPT的思考和学习路径。

而虚拟进化又指数级放大了基于经验的学习速度。在波普尔看来，科学发展本身就是一种进化。

ChatGPT不仅从时间的角度加速模拟了进化，还通过大模型从空间的角度拓展了可能性之广度，以至于令人们禁不住又惊又喜地探讨起涌现。

那么，人工智能是如何思考的？又是如何决策的？‍‍

有别于齿轮般的演绎推理，我们需要借助概率在证据和结论之间建立起联系。‍‍‍‍

AI的任务是做决策，在不确定性下结合信念与愿望，选择动作。

《人工智能：现代方法》如此描述：

由于部分可观测性、非确定性和对抗者的存在，真实世界中的智能体需要处理不确定性(uncertainty)。智能体可能永远都无法确切地知道它现在所处的状态，也无法知道一系列动作之后结束的位置。

此外，智能体的正确的动作——理性决策，既依赖各种目标的相对重要性，也依赖它们实现的可能性和程度。

为了进行不确定推理，我们需要引入信念度，例如牙痛患者有80%的概率存在蛀牙。

‍‍‍概率论提供了一种概括因我们的惰性与无知而产生的不确定性的方式。

除了概率，智能体在做决策时还需要一个概念：效用理论。‍

例如，你要去机场，假如提前90分钟出发，赶上飞机的概率是95%；提早120分钟出发，概率提升至97%。‍‍‍‍‍‍

那么，是不是应该越早越高，追求赶上飞机的最大概率呢？如此一来，你可能要提前一天或者更早住在机场了。‍‍‍‍‍‍

大多数时候不必如此，但假如你有一个无法错过的会议，或者要赶国际航班，提早一天住到机场，可能是最佳决策。万豪酒店最早就是靠洞察到商务人士的这一需求而崛起的。‍‍‍‍

由此，我们得出决策论的通用理论：‍‍

决策论=概率论+效用理论

以上的现代方法，离不开两个未曾谋面的古代敌手。

七在诸多反对休谟的人当中，贝叶斯也许是最重要的一位。

当休谟斩断了因果之间的必然联系时，最恼火的莫过于教会，因为上帝一直被视为因果的第一推动力。‍‍‍‍‍‍

一个人往往要到了一定岁数，才能够理解休谟的哲学。尤其是我们这些从小接受确定性训练的人。

逻辑推理的基本形式是：如果A，则B。

休谟则说，如上这类推理要么是幻觉，要么是胡说八道，要么是自圆其说。

据说虔诚且又擅长数学的牧师贝叶斯是为了反驳休谟，而研究出了贝叶斯公式。‍‍‍

一个神奇的结局出现了：贝叶斯公式反而成为了休谟哲学的现实解药，将其大刀斩断的因果，用逆概率的悬桥连接了起来。‍‍‍‍‍‍‍‍‍

概率，将逻辑推理的形式修正为：如果A，则有x%的可能性导致B。‍‍

而贝叶斯公式，则完成了一个小小的（却产生了无法估量的巨大影响）由果推因的颠倒：

如果观察到B，则有x%的可能性是因为A导致。

如此一来，被休谟怀疑的世界，继续晃晃悠悠地构建出更为庞大繁复的、以概率关联的因果网络。

假如贝叶斯试图反击休谟的动机是真的，就为“要爱惜你的对手”添加了有力论据。‍‍‍

让我们用一个简单的贝叶斯计算，来看看智能体如何学习经验。‍‍‍‍

题目：黑盒子里有两个骰子，一个是正常骰子，扔出数字6的概率是1/6；一个是作弊骰子，扔出数字6的概率是1/2。‍‍‍‍‍‍‍‍

这时，你从中摸出一个骰子，扔了一次，得到一个6。‍‍

请问：你再扔一次这个未知的骰子，得到6的概率是多大？

计算的第一步，是计算这个骰子是正常骰子和作弊骰子的概率分别是多大。

请允许我跳过贝叶斯公式快速计算如下。‍‍‍‍‍‍‍‍

是正常骰子的概率为：1/6÷（1/6+1/2）=1/4‍‍‍‍‍‍

是作弊骰子的概率为：1/2÷（1/6+1/2）=3/4

计算的第二步，更新这个骰子的信息。原来的概率是各1/2，但现在分别是1/4和3/4。‍‍

那么，再扔一次，得到6的概率就是：1/4×1/6+3/4×1/2=5/12。‍

从本质层面理解如上这个简单的计算并不是容易的事情：

两次扔骰子都是独立事件，为什么第一次扔骰子得到6的概率和第二次的概率不一样？

贝叶斯概率的解释是，第一次扔骰子得到6的这一结果，作为信息，更新了我们对第二次扔骰子得到6的概率的判断。

疑惑的人会继续问：骰子没有记忆，为什么第一次的结果会“改变”第二次结果呢？‍

答案是：没有改变结果，只是改变了“信念”。

即使扔了两次骰子，我们依然不知道这个骰子是正常的还是作弊的，但我们可以带着这种不确定性向前走，为此需要“猜”这个骰子是正常还是作弊的概率。这个概率，就是信念。‍‍‍‍‍‍‍

根据信息的变化，快速更新，体现了某种达尔文式的进化。‍‍‍‍

从这个角度看，AI推理起初或许弱小含混，却有主动适应性，从经验中不断学习，并快速演化。

以本题为例：第二次扔骰子，从第一次骰子的结果中学习了经验，从而令预测更加精确。

这个过程还可以不断重复，如同发动机般，从而产生了决策和智能的杠杆效应。

如前所述，亚里士多德曾经认为，修辞和概率等不确定性元素，应该应用于人类社会。而在自然科学和数学领域，则是逻辑推理（尤其是数学逻辑）的阵地。‍‍

而如今，确定世界已经成为不确定世界，绝对真理也被或然真理替代。‍‍

于是，概率不仅成为“真理”的悬梯，甚至成为真理本身。‍‍‍

《人工智能：现代方法》写道，世界就是这样，实际示范有时比证明更有说服力。基于概率论的推断系统的成功要比哲学论证更容易改变人的观点。

就像两个人就不同的观点争论，一种办法是讲道理，讲逻辑；还有一种办法是：‍‍‍‍‍

我们先下个注，然后试着跑跑看呗。‍‍

OpenAI早期投资人里德·霍夫曼在尝试将 GPT-4 应用于工作中时，发现了以下三个关键原则。

原则1：将GPT-4视为本科生水平的研究助手，而非无所不知的预言家。

原则2：把自己当作导演，而非木匠。

原则3：勇敢尝试！

多么有趣的建议啊，我们从中看见了《园丁与木匠》与《自下而上》的智慧：

在大部分工作中，我们习惯于提前计划，力求避免失误。这是因为执行计划在时间和其他资源上都耗费巨大，“三思而后行”的说法指的就是这种情况。

但如果实施计划比思考它更加省时省力呢？

霍夫曼认为这正是GPT-4及大语言模型令人费解的悖论所在。

既然如此，正确的做法是：

在比讨论制订计划更短的时间里，GPT-4能为你生成一个完整的回应供你审阅。
如果你对回应不满意，可以直接丢弃并尝试生成另一个。‍
或者一次性生成多个版本，获得更多选择。

我们已经来到了一个“三行而后思”的“强化学习”时代。

‍‍‍‍‍‍八在《人工通用智能的火花：GPT-4的早期实验》的报告里，微软实验室如此表述：‍‍

“我们过去几年，人工智能研究中最显著的突破是大型语言模型（LLMs）在自然语言处理方面取得的进展。

这些神经网络模型基于Transformer架构，并在大规模的网络文本数据体上进行训练，其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。”

ChatGPT，是位“语言游戏”的高手，用的是神经网络和深度学习。

这与传统的语言，以及逻辑语言，都不一样。

罗素曾经试图构建一套逻辑语言，想从少数的逻辑公理中，推演出数学。

他提出了自己逻辑原子主义，试图消除那些形而上语言的混乱，以逻辑语言和我们的现实世界一一对应。

在与罗素的相互影响下，维特根斯坦认为哲学的所有问题其实就是语言问题，从而推动了哲学的语言转向。

一种西方哲学史观点认为：古代哲学关注本体论，近代哲学关注认识论，20世纪哲学关注语言学问题。

那么，作为“系统地从语言来思考世界的第一人”，维特根斯坦与罗素有何不同？

陈嘉映的论断是：罗素从本体论来思考语言的本质，维特根斯坦则一直从语言的本质来构想本体论。

也许我们能从罗素给情人奥托林·莫雷尔夫人一封信里，发现维特根斯坦哲学上的某些经验主义线索：

“我们这位德国工程师啊，我认为他是个傻瓜。他认为没有什么经验性的东西是可知的——我让他承认房间里没有一头犀牛，但他不肯。”

和每个天才一样，维特根斯坦卓绝，但也疑惑。

再说回ChatGPT，它懂语言吗？如同《天才与算法》一书的设问：

机器可以在不理解语言或不接触周围物理世界的情况下，生成有意义的句子，甚至是美的句子吗？

老派的AI，试图采用罗素的方法。这类模型认为：

“理性和智能是深度的、多步骤的推理，由一个串行过程指挥，并由一个或几个线程组成，使用少量的信息，由少量的强相关变量来表达信息。”

对比而言，“现代的机器学习模式由浅（少步）推理组成，使用大量信息的大规模并行处理，并涉及大量弱相关变量。”

一个有趣的来描述二者对比的例子是，电影《模仿游戏》里的图灵，炒掉了自己的密码破解小组里的语言学专家。

《人工智能：现代方法》认为，纯粹的数据驱动的模型，对比基于“文法、句法分析和语义解释”的手工构建方法，更容易开发和维护，并且在标准的基准测试中得分更高。

该书作者还提及：

可能是Transformer及其相关模型学习到了潜在的表征，这些表征捕捉到与语法和语义信息相同的基本思想，也可能是在这些大规模模型中发生了完全不同的事情，但我们根本不知道。

未必那么精确的类比是：AI如孩子般学习语言。这正是当年图灵所所设想的：

有一个孩子般的大脑，然后去学习。而非一开始就设计一个成年人的大脑。‍‍‍‍

孩子不懂语法构建，也没有成熟的逻辑，也远没有成年人那样有主动的刻意练习。可是想想看，成年人学习语言的效率，与孩子对比，是不是烂到渣？

我不禁联想起一个对教育的嘲讽：天生就是语言学习天才的孩子，却要在一辈子都学不好一门语言的成年人的指导下学习语言。

让我们来看看，AI如何像一个孩子般，天才般地学习。

九神经网络和深度学习经历了并不算短暂的黑暗期。

从上世纪80年代开始的整整30年间，只有很少一部分相关研究者义无反顾地投身其间，他们饱受怀疑，也几乎拿不到科研经费。

也许是由于这个原因，深度学习三巨头辛顿（Hinton）、本吉奥（Bengio）、杨立昆（LeCun）似乎都和加拿大有些关系，他们退守在那里研究、教学、读书。这倒是很符合那个“傻国家”的气质。

一个让人“心酸”的细节是，2012年辛顿带着学生在ImageNet 图像识别比赛上拿了冠军，商业公司蜂拥而至。辛顿教授开出的商业报价，只是区区一百万美元。

（后来谷歌以4400万美元“中标”。）

“老派”AI，使用明确的一步步指令指引计算机，而深度学习则使用学习算法从数据中提取输入数据与期望输出的关联模式，正如上一节的演示。

众所周知，漫漫长夜之后，随着人类计算机算力和数据的指数级增长，深度学习一飞冲天，从阿尔法狗一战封神，再到ChatGPT征服全球。‍‍‍‍

为什么是Open AI，而不是DeepMInd？我对此略有好奇。

OpenAI的联合创始人兼首席科学家伊利亚·萨特斯基弗，是辛顿在多伦多大学带的学生。

他似乎延续了辛顿对深度学习的信仰，并且勇于全力下注。‍‍‍‍

辛顿认为“深度学习足以复制人类所有的智力”，将无所不能，只要有更多概念上的突破。例如“transformers”利用向量来表示词义的概念性突破。

此外，还要大幅度增加规模，包括神经网络规模和数据规模。例如，人脑大约有100万亿个参数，是真正的巨大模型。而GPT-3有1750亿个参数，约比大脑小一千倍。

神经网络模仿了人类的优势：处理有大量参数的少量数据。但人类在这方面做得更好，而且节能许多倍。

先行一步的DeepMInd，其发展方向和速度，除了陷入与谷歌的“商业VS科研”的两难纠缠，还不可避免地受到哈萨比斯的AI哲学观的影响。

哈萨比斯认为不管是ChatGPT，还是自家的Gopher，尽管可以帮你写作，为你绘画，“有一些令人印象深刻的模仿”，但AI“仍然不能真正理解它在说什么”。

所以，他说：“（这些）不是真正的意义上的（智能）。”

哈萨比斯的老师，MIT的Poggio教授更尖锐地指出：深度学习有点像这个时代的“炼金术”，但是需要从“炼金术”转化为真正的化学。

杨立昆反对炼金术的提法，但他也认为要探究智能与学习的本质。人工神经元受到脑神经元的直接启发，不能仅仅复制大自然。

他的观点大概是，工程学实现了的东西，也只有通过科学打开黑盒子，才能走得更远。

“我认为，我们必须探究智能和学习的基础原理，不管这些原理是以生物学的形式还是以电子的形式存在。正如空气动力学解释了飞机、鸟类、蝙蝠和昆虫的飞行原理，热力学解释了热机和生化过程中的能量转换一样，智能理论也必须考虑到各种形式的智能。”

几年前，巅峰时刻的哈萨比斯就表达过，仅靠神经网络和强化学习，无法令人工智能走得更远。

类似的反思，也发生于贝叶斯网络之父 Judea Pearl。

他说，机器学习不过是在拟合数据和概率分布曲线。变量的内在因果关系不仅没有被重视，反而被刻意忽略和简化。

简单来说，就是：重视相关，忽视因果。‍‍‍‍‍

在Pearl看来，如果要真正解决科学问题，甚至开发具有真正意义智能的机器，因果关系是必然要迈过的一道坎。‍‍‍‍‍‍‍‍

不少科学家有类似的观点，认为应该给人工智能加上常识，加上因果推理的能力，加上了解世界事实的能力。所以，解决方案也许是“混合模式”–用神经网络结合老式的手工编码逻辑。‍‍‍‍‍‍‍‍‍

辛顿对此颇为不屑，一方面他坚信神经网络完全可以有推理能力，毕竟大脑就是类似的神经网络。另一方面，他认为加入手工编码的逻辑很蠢：

它会遇到所有专家系统的问题，那就是你永远无法预测你想要给机器的所有常识。

AI真的需要那些人类概念吗？阿尔法狗早已证明，所谓棋理和定式只是多余的夹层解释而已。‍‍‍‍‍‍‍‍

关于AI是否真正“理解”，真正“懂得”，真正有“判断力”，辛顿以“昆虫识别花朵”为例：

“昆虫可以看到紫外线，而人类不能，所以在人类看来一模一样的两朵花，在昆虫眼中却可能截然不同。那么能不能说昆虫判断错误了呢？昆虫通过不同的紫外线信号识别出这是两朵不同的花，显然昆虫没有错，只是人类看不到紫外线，所以不知道有区别而已。”

我们说AI“不懂”什么，会不会是过于以人类为中心了？

假如我们认为AI没有可解释性，算不上智能，可会不会是即使AI解释了，我们也不懂？就像“人类只有借助机器检测，看到两朵花的颜色信号在电磁波谱上分属不同区域，才能确信两朵花确有不同。”

从十几岁开始，就相信“模仿大脑神经网络”的辛顿，仿佛有某种宗教式的坚定。

于是，在某个路口，哈萨比斯略有迟疑，而伊利亚·萨特斯基弗则和辛顿一路向前，豪赌到底。

辛顿的人生哲学是“基于信仰的差异化”，他的确也是如此实践的。

如今，尽管哈萨比斯认为ChatGPT仅仅是更多的计算能力和数据的蛮力，但他也不得不承认，这是目前获得最佳结果的有效方式。

1 2 345 / 5 页下一页

路过

雷人

握手

鲜花

鸡蛋

本文导航

收藏分享邀请

上一篇：ChatGPT 应用合集下一篇：博士就业方向有哪些呢？

		自动登录	找回密码
密码			立即注册

前世今生：探寻ChatGPT的底层逻辑

五在微软的报告里，研究者用GPT-4模拟了一段对话：

六也许你还记得上一代的老实人工智能–深蓝。

庞大的机器，手工制作无尽的代码，多名参与其中的职业棋手，以及暴力算法，虽然打败了卡斯帕罗夫，却如流星般闪过。

七在诸多反对休谟的人当中，贝叶斯也许是最重要的一位。

‍‍‍‍‍‍八在《人工通用智能的火花：GPT-4的早期实验》的报告里，微软实验室如此表述：‍‍

九神经网络和深度学习经历了并不算短暂的黑暗期。

本文导航

最新评论

相关分类

前世今生：探寻ChatGPT的底层逻辑

五 在微软的报告里，研究者用GPT-4模拟了一段对话：

六 也许你还记得上一代的老实人工智能–深蓝。

庞大的机器，手工制作无尽的代码，多名参与其中的职业棋手，以及暴力算法，虽然打败了卡斯帕罗夫，却如流星般闪过。

七 在诸多反对休谟的人当中，贝叶斯也许是最重要的一位。

‍‍‍‍‍‍八 在《人工通用智能的火花：GPT-4的早期实验》的报告里，微软实验室如此表述：‍‍

九 神经网络和深度学习经历了并不算短暂的黑暗期。

本文导航

最新评论

相关分类

五在微软的报告里，研究者用GPT-4模拟了一段对话：

六也许你还记得上一代的老实人工智能–深蓝。

七在诸多反对休谟的人当中，贝叶斯也许是最重要的一位。

‍‍‍‍‍‍八在《人工通用智能的火花：GPT-4的早期实验》的报告里，微软实验室如此表述：‍‍

九神经网络和深度学习经历了并不算短暂的黑暗期。