本文内容来自《墨子沙龙》
文字由林梅编译。
今天我想从“大语言模型的教育”和“大语言模型的产业”两个维度来分享大语言模型的今天和明天。
什么是大语言模型?
事实上,大语言模型有很多种。 现在大家比较关心的类型可能就是这种——我们可以通过某种方式跟它进行交流,比如输入一个提示词,一个句子,或者一段对话。 大语言模型依赖于深度学习系统根据用户输入的文本来预测下一个单词将是什么。 这个过程一遍又一遍地开始,最终完成更长的文本序列的生成,就像ChatGPT现在所做的那样。
自GPT-3推出以来,大型语言模型已经展现了一些非常强大的功能。 其中,一个非常重要的能力就是所谓的“情境学习能力”,或者说“情境学习能力”。
那么,什么是“情境学习能力”呢? 例如,如果我们想向它解释一个任务——翻译,我们可以告诉它一些将英语翻译成法语或中文的例子。 此时,与以前的神经网络或深度学习人工智能系统不同,今天的大型语言模型在面对新任务时非常强调泛化学习能力。 我们只需要告诉大语言模型一些简单的翻译例子。 其实这个新任务定义好了,然后用几个简单的例子告诉大语言模型要做什么,它就能对你提出的新词给出正确的翻译。
因此,所谓的“上下文学习能力”实际上意味着大语言模型本身的泛化学习能力非常强。 我们可能只需要告诉它几个例子,它就可以学习并完成一个新的任务。 大语言模型的发展在过去三四年里变化很快。 从2018年的GPT系列到2020年的GPT-3系列,再到现在的GPT-4,我们可以发现这个过程的发展速度是极其快的,而且很多语言模型的参数数量都会变得更大并且更大。
图1:语言模型的发展历史
举个最简单的例子。 从GPT-1到GPT-2,短短一年时间,参数数量从1亿扩大到15亿,再到GPT-3,参数数量达到1750亿。 参数数量的飞跃带来了各方面的能力。 有新的改进,比如上下文学习能力、涌现能力等,这些都是参数量,是由神经网络深度学习系统的复杂度决定的。 虽然我们不知道GPT-4的训练细节和参数,但我们相信它和同时期的其他系统应该有很大的参数规模。
还有第二个能力也很重要,那就是“大模型的应急能力”。 图2来自实验结果。 图中的每个子图代表了大模型在某项任务上的表现,比如准确率。 该值越大,性能越好。
图2:主要语言模型的涌现能力
图中的横轴代表了关于模型规模的一些指标。 当然,模型的规模不仅仅体现在参数的大小上,还与其他因素有关。 但无论如何,横轴代表的是参数的数量或者尺度。 从这张图我们知道,随着模型的参数数量越来越多,或者整个模型的规模越来越复杂,就会超过某个临界点。 当你点击时,会发现一些能力的突变。 反映在纵轴上,可以看出性能会迅速上升。 这种能力被定义为所谓的“大语言模型的涌现能力”。
事实上,“涌现能力”一词并非人工智能领域独有。 几十年前,一位获得诺贝尔物理学奖的科学家就提到了这个术语。 其实用我们中国古代哲学来理解ip形象,能力的涌现就是从量变到质变的能力。
到目前为止,我认为这仍然是整个人工智能领域,尤其是大模型研究方面需要突破的能力。 距离2022年年底仅有半年时间。 ChatGPT的诞生完成了这样的突破,掀起了整个人工智能领域新的进步浪潮。
事实上,ChatGPT 所做的事情主要分为三步:第一步,如果已经有一个训练好的大模型的基础模型,就可以进行“指令的监督学习”。 事实上,指令的监督学习并不困难,需要一些合理的人工标注或者一些合理的监督数据集; 然后进行第二步——自动评分模型。 为了训练这样的评分模型,现在有各种更自动化的方法; 这三个步骤都是强化学习优化策略,可以帮助整个系统实现进一步的性能提升。 因此,ChatGPT 的三个步骤中的每一个都实现了非常有趣的性能改进。 这三个步骤叠加,最终带来整个系统的飞跃。
大语言模型的现状
我想从工业角度提一些有趣的新现象。
根据最新的行业研究报告,ChatGPT 的月活跃用户在 2023 年 1 月已达到 1 亿,这意味着 1 月份平均每天有超过 1300 万独立访问者使用 ChatGPT。 这是去年12月刚发布的时候。 用户数量增加了一倍多人工智能语言模型是什么,它实际上已经成为历史上增长最快的消费者应用程序。 ChatGPT 仅用了两个月的时间就实现了用户指数级增长。 相比之下,我们熟悉的许多非常强大的消费类应用程序需要更长的时间才能实现。
ChatGPT推出后,第四代GPT大语言模型GPT-4也很快推出。 与前几代大型语言模型相比,GPT-4 具有更强大的推理能力。
举个具体的例子,如果你需要设置一个会议的时间,以满足很多参与者共同的时间要求,这是一个很常见的应用。 GPT-4或者其他同量级的大型模型已经具备完成这种稍微复杂的推理任务的能力。 那么,一些更复杂的推理任务呢? 下面是一个表格,展示了以 GPT-4 为代表的这一代大型语言模型,它在各种人类考试中表现都非常出色。 其中,绿色最高代表GPT-4模型的性能。
图3 GPT-4在各种人类测试中表现良好
例如,纵轴上的 90% 意味着该模型超过了人类 90% 的理想测试水平。 图中许多绿色纵轴的出现表明,在许多人类测试水平上,GPT-4的能力超过了大多数人类的平均表现水平。
值得注意的是,这不仅体现了GPT-4非常强大的知识理解甚至推理能力,也给我们的教育带来了新的思维。
在开始谈论大语言模型如何影响我们的行业之前,我想简单讨论一下我们如何评估大语言模型的能力,这现在变得越来越关键。 正如我们刚才所看到的,大型语言模型在许多人类考试中表现非常出色。 这个时候,我们就需要一个更加全面的评价体系。 举个最简单的例子,我们知道汉语博大精深,同一个表达在不同的场景下会有不同的含义。 我们告诉大语言模型一段带有言外含义的对话,看看大语言模型是否能够理解这个言外含义。 事实上,在一些例子中,大语言模型的表现能力确实非常好。
大语言模型的突破带来了各种应用场景的突破。 从行业产品应用的角度来看,它能为目前几乎所有的B端或C端应用升级带来新的驱动。 比如,积极针对B端企业用户进行产品升级,可以和孩子一起创作故事、小说,可以在智能车舱中升级对话。
大语言模型的未来
接下来我想畅想一下大语言模型的未来,以及面对大语言模型教育应该如何转型升级。
大语言模型会对教育产生什么影响? 它会改变教育的内容和方法,增加培养学生综合素质的需要人工智能语言模型是什么,促进教育模式的一些改革,也影响教师本身的作用。 这些都需要全方位的思考。 教育机构需要积极适应这一现实,更好地满足学生和社会的要求。
我亲自在香港中文大学任教。 对于本科生,我会在教学过程中告诉他们ChatGPT的强大,同时我也会思考两个问题。 一、人工智能时代,我们需要培养学生哪些能力? 我认为我们需要在某种程度上重新思考和改变以前的填鸭式教育。 其次,人工智能时代,学校应如何规范学生合理使用智能工具? 这可能涉及到学校应该如何与老师和学生互动来解决这个问题。
从大模型的角度来看,我认为有两点非常重要。
第一点是,大模型本身肯定会具备更全面的工装能力。 这其实需要我们重新衡量大模型的能力。 虽然我们希望大型模型能够完成各种复杂的任务,但我们并不一定希望或者迫切需要大型模型本身就足以解决所有任务,因为我们人类可以通过学习或者使用工具来解决新的任务。 当然,如果有一天我们教大型模型,教自己使用新工具来解决新任务,这也是一个非常有趣的科学研究问题。
第二点是值得信赖、安全的人工智能,这对于教育行业来说非常重要。 我们希望未来孩子们能够在计算机和人工智能上快乐地互相学习。 这是我们非常期待的场景。
最后,从研究的角度,结合我领导的香港中文大学语言与视觉实验室,谈谈我们目前关注的几个前沿研究方向。 第一个是与物理世界的交互。 大语言模型本身仍然存在于软件层面,但未来基于大模型的智能系统肯定会与物理世界有更多的交互,而且这种交互一定是多模态的,比如视觉信号。 、语音信号、声音信号等。
GPT现在已经具备了一定的共同理解语言和图像的能力,但还远远不够。 因为大型语言模型需要在三维视觉场景中进行更多的感知和推理。 如果大语言模型仅针对输入图像和视频,那么它无法完全与人类通用智能齐头并进。 因此,我们更关注未来的机器人或者真正的能够从三维角度感知世界的通用智能系统。 我学到了一些新知识卡通人物,以及如何更好地将这件事与人类的一些能力结合起来。 大型模型需要更多的知识对齐,甚至与物理世界的交互。 机器人应该利用从虚拟世界中的大型模型中获得的一些先验知识和学到的新知识来解决真实场景中的一些实际新问题。
王立伟获得伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系博士学位。 现任香港中文大学计算机科学与工程系助理教授、博士生导师。 王利伟教授在人工智能语言和视觉多模态领域拥有至少十年的潜心研究积累。 他建立并领导的香港中文大学人工智能语言与视觉实验室(LaVi Lab)专注于语言和多模态大模型的前沿研究。 王利伟教授带领商汤研究院自然语言处理团队从0到1创建了商汤科技自主研发的大型中文语言模型SenseChat,并致力于带领团队探索和突破大模型的技术边界研究与应用。
同时,王利伟教授担任多个人工智能顶级学术会议(如CVPR等)的区域主席、人工智能顶级学术期刊IJCV(CCF-A类)编委。 在加入香港中文大学担任教师之前,他在业界拥有丰富的科研经验。 曾任腾讯西雅图人工智能实验室高级研究员,负责多语言、多模态研究项目。
由于微信公众号试行乱序推送,您可能无法再按时收到墨子沙龙的推送。 为了不与小墨分离,请将“墨子沙龙”设为明星账号,并随时点击文章右下角“在看”。
- 本文固定链接: https://wen.nuanque.com/aigc/21002.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。