首页 > AIGC > 人工智能的算力是什么意思-学术报告| 郑为民院士:人工智能算力基础设施设计、评估与优化
2023
10-15

人工智能的算力是什么意思-学术报告| 郑为民院士:人工智能算力基础设施设计、评估与优化

2022年10月22日,在教育部科学技术和信息化司、国家自然科学基金委信息学部、中国科学院信息与电子工程系指导下工程学会,由中国人工智能学会主办,中国人工智能学会教育工作委员会承办。 、中国科学院上海人工智能实验室、浙江大学教育战略研究院、浙江大学上海高等研究院、北京工业大学北京人工智能研究院、浙江大学人工智能协同创新中心、华为、科大讯飞作为支持单位。 “智游中国”系列论坛启动仪式暨首届“迈向教育科学研究新范式”线上论坛成功举办。

郑为民院士受邀作《人工智能算力基础设施设计、评估与优化》报告。 报告从“AI+体系”的角度,反思了AI三驾马车之一的算力研究的现状和未来发展。 报告内容分为五个主要部分,包括AI算力及其基础设施的重要性、AI算力基础设施的架构设计、AI算力评估方法与优化等,并通过超大规模预研万亿参数训练模型加速给出了实例,分享了如何培养系统人才的经验和成果。 最后指出,人工智能算力是当前人工智能领域发展的关键,需要加快人工智能基础设施建设和系统人才培养。

为深入贯彻教育、科研、人才三位一体的新理念,促进学术交流,经郑为民院士同意,现将郑为民院士报告的重点ppt内容予以公布人工智能的算力是什么意思,以便大家了解。共同思考人工智能算力基础设施如何赋能社会发展,培养相应的一流创新人才。

《智能中国》系列论坛第一期摘要视频

郑为民院士《人工智能计算基础设施的设计、评估与优化》视频报告

郑为民院士

中国工程院院士、清华大学计算机系教授。 长期从事高性能计算机体系结构、并行算法和系统研究。 在高性能存储系统领域,提出可扩展存储系统结构和轻量级并行扩展机制,发展了存储系统可扩展性理论和方法,并率先开发了国内具有自主知识产权的网络存储系统; 提出了高容错擦除的轻量级编码方法和数据快速自愈模型,拓展了存储可靠性的技术思路。 在高性能计算机架构领域,我们在国内率先研发并成功应用集群架构高性能计算机。 在大规模并行算法和应用方面,在国产神威太湖之光上开发的超大规模天气预报应用荣获ACM戈登贝尔计算可扩展性奖。 曾获国家科技进步一等奖1项、二等奖2项,国家技术发明奖二等奖1项,何梁何利科技进步奖,首届中国存储终身成就奖。

第一篇:AI计算基础设施的重要性

本章将从中美科技竞争的大背景出发,结合AI算力在现实社会中的应用,阐释AI算力基础设施的重要性。

当前,人工智能(AI)是中美科技竞争的重要领域。 2020年4月,国家发改委明确将人工智能纳入新基建范围,人工智能就是新基建之一。 2019年2月,美国发布《关于维持美国人工智能领导地位的执行令》(Execution Order On Maintenance American Leadership in Artificial Intelligence)。 该命令是美国国家人工智能战略的一个里程碑。 次年10月,美国国家人工智能安全委员会表示:“不惜一切代价,必须在人工智能领域击败中国”。 可见,人工智能对于中美未来综合国力竞争非常重要。 另外,从图1我们可以看到当前中美在人工智能领域的优势对比:

图1

我们知道,AI技术有三驾马车,算法、数据、算力。 其中,中国在大数据领域处于主导地位。 然而,在算法和智能计算能力领域,中国落后于美国。 智能计算能力的缺失严重制约了我国在人工智能领域的创新能力。 我们可以看到,智能AI算力在中美科技竞争中占据着非常重要的战略地位。

那么为什么AI算力如此重要呢? 除了前面提到的中美竞争的整体背景之外,AI算力对于我国的经济建设和科技建设都具有非常积极的意义。

首先,算力就是生产力,算力可以推动经济发展方式的变革。 据埃森哲和Economics Frontier分析,预计到2035年,人工智能将带动我国GDP增长21%,如图2所示。由此可见,算力将成为智能经济的引擎。

图2

其次,人工智能算力正在改变基础科学和智能领域的创新模式。 例如,AlphaFold2 解决了结构生物学中一个已有 50 年历史的问题。 AI+HPC将高能物理计算加速数百倍。 如图3所示。

图3

人工智能在各种实际场景中都有相关应用。 例如,以卷积网络为核心的图像检测和视频检索技术可应用于下游安防、医疗诊断、自动驾驶等场景; 基于强化学习的博弈决策技术可应用于交通规划等领域; 以 Transformer 为核心的自然语言处理技术可以应用于搜索推荐、智能人机界面等场景。 其中,最典型的自然语言处理模型,如GPT-1、GPT-2、GPT-3、BERT等,发展非常迅速,模型规模从亿级到千亿级到万亿级参数不等。 以上技术都需要AI算力提供支持。

综上所述,人工智能算力影响着我们社会的方方面面。 因此,构建AI算力基础设施非常重要。

第二部分:AI计算基础架构架构与平衡设计

AI的算力非常重要。 设计AI算力基础设施的架构是提升AI算力的第一步。 本章将首先介绍现有HPC算力系统与AI算力需求的区别,从而讨论构建AI算力系统的必要性。 然后本章将分析设计和构建AI算力系统所需的技术要素,最后提出设计AI算力系统时应遵循的系统平衡原则。

现有的算力系统如超级计算系统主要针对HPC应用,但AI和HPC之间存在一些差异。 例如,HPC主要用于科学和工程计算,如天气预报、核聚变模拟、飞机设计等,而AI主要用于分类、回归和自然语言处理。 下游任务主要是安全、互联网搜索推荐、金融风控、情报。 制造业; 从计算精度来看,HPC主要是双精度浮点运算,而AI主要是半精度浮点运算或低精度整数运算; 从编程角度来看,HPC主要基于MPI进行并行计算,AI则基于Pytorch、TensorFlow、MindSpore、Oneflow、DeepSpeed等机器学习框架; 最后,HPC的性能指标主要是HPL、HPCG,而AI的性能指标是MLPerf、AIPerf。 传统的超级计算系统对人工智能系统的支持较差。

因此,有必要根据人工智能的特点设计新型的超级计算系统。

目前,具有代表性的HPC和AI系统主要包括:

表格1

图4

其中,鹏城云脑2号是新一代AIHPC系统,如图4所示。

该系统包括4套华为Atlas900系统,4套系统的节点通过200Gbps网络互连。 鹏程云脑总的半精度计算性能可达1Eflops,双精度计算性能可达1Pflops。

那么设计AI系统的系统结构要素有哪些呢? 我们先来看看在一般的大型计算机系统中是什么样子的:

图5

具体来说,AI计算系统与传统HPC系统在各个要素上存在一些联系和区别,总结如下表:

基于上述分析,在设计新的人工智能系统时,郑为民院士团队提出了系统平衡原则。

1.计算平衡设计

• 鹏程云脑II最初设计主要考虑半精度计算性能,但双精度计算能力太低。 双精度与半精度计算性能之比为1:1000。

•根据科学计算和大模型训练的发展趋势,提出了变精度平衡设计的思想

•建议提升通用算力,确保云大脑能够适应科学计算以及更广泛的人工智能算法和应用。

2. 网络平衡设计

•云脑II原有的网络设计主要针对CNN等算法,没有考虑超大规模预训练模型的系统需求。

•原始数据平面网络顶层网络裁剪比例为1:4,缺乏对训练数据读取和大规模科学计算的支持。

• 建议将数据平面的顶层网络切割比例提高至1:1。 华为相应修改了网络连接方式,增加了顶层交换机,为IO500测试中多项世界第一奠定了基础。

3、IO子系统的均衡设计

•云脑II原系统本地NVME SSD只能通过本地文件系统访问,限制了其应用范围。

•提出将每台服务器上的快速本地NVME集成为应用程序可见的全局分布式文件系统,并开发了高性能MADFS并行文件系统,在多项IO500测试中排名全球第一

如今,已有20多个城市陆续启动人工智能计算中心建设,让算力无处不在、触手可及!

图6

第三部分:AI算力评估方法

前面介绍了AI算力基础设施的设计。 此外,AI算力的评估(AIPerf)也非常重要。 本章将介绍AIPerf的重要性并分析现有AIPerf的缺点。 然后提出需要实现的目标以解决现有问题。 为了实现这一目标,本章介绍了如何设计一个完善的AIPerf机制的过程。 最后介绍了AIPerf在ChinaSC所做的工作。

为什么需要AI算力评估? 首先,公众需要一个评价指标来回答:哪个系统的人工智能算力更强? 其次我们要知道,整个领域的发展怎么样? 显然,一个好的指标可以带动该领域的健康发展。

然而,传统高性能计算机的测试结果与人工智能所要求的性能并不完全一致。 如前所述,HPC 和 AI 主要使用不同的数据精度。 那么我们需要设计一个AI的基准评估方案。

现有的AI基准评测面临以下问题:DeepBench测试底层人工智能芯片的计算效率,无法反映超大规模系统的性能。 针对单芯片,不适合整机评估; Mobile AI Bench 针对的是移动硬件。 模型训练和评估无法反映超级计算机在大规模人工智能应用中的性能; MLPerf采用单一的人工智能网络模型,在超过百张加速卡的规模测试下,可扩展性大幅下降,难以支持1000张卡及以上级别的系统评估。

为了克服人工智能基准测试的问题,我们需要实现以下四个目标:

1、统一评分。 AIPerf需要能够报告统一的分数作为正在评估的集群系统的评估指标。 AIPerf目前的评估指标是AIops,即每秒处理的混合精度AI运算的平均数量。使用一个分数而不是多个分数,有利于不同机器的并排比较,也有利于宣传。

2. 问题大小可变。 人工智能计算集群往往具有不同的系统规模,其差异体现在节点数量、加速器数量、加速器类型、内存大小等指标上。 因此,为了适应各种规模的高性能计算集群,AIPerf可以利用AutoML改变问题规模来适应集群规模的变化,从而充分利用人工智能计算集群的计算资源,体现其计算能力。

3、具有人工智能实用意义。 神经网络运算等具有人工智能意义的计算,是人工智能基准测试程序与传统高性能计算机基准测试程序的重要区别,也是能否检测集群人工智能算力的核心。 目前,AIPerf 在 ImageNet 数据集上训练神经网络来运行计算机视觉应用程序。 未来,AIPerf计划将自然语言处理等其他人工智能任务纳入评估范围。

4、评估程序包含必要的多机通讯。 网络通信是人工智能计算集群设计中的主要指标之一,也是其巨大计算能力的重要组成部分。 AIPerf作为高性能计算集群的人工智能基准测试程序,包含了必要的多机通信,如任务分发、结果收集和多机训练,从而将网络通信性能视为影响最终性能的因素之一。

为了实现上述目标,我们需要设计一套完整的AIPerf机制。

目前AIPerf的主要流程分为5步,如图7所示:

1、主节点不断分配计算任务(包括历史信息)

2、计算节点根据历史信息生成新的神经网络训练模型。

3、计算节点调用后端深度学习框架(MindSpore、Keras、Tensorflow)训练神经网络

4、新模型训练完成后,工作节点返回新模型及其准确率; 主节点更新历史信息

5、计算任务异步执行

图7

2020年11月15日,以“新算力、新基建、新经济”为主题的第二届中国超级算力大会ChinaSC在北京隆重举行。 会上,首次发布了基于AIPerf大规模人工智能算力基准评估计划的国际人工智能性能算力排名。 深圳鹏程实验室研发的基于ARM架构和华为加速处理器的鹏城云脑II主机以194,527 Tops的AIPerf算力位居榜首。 其性能是排名第二的联泰集群Nvidia系统的12倍以上。

图8

图9

表3

第四部分:千亿参数超大型预训练模型的训练

本章以千亿参数的超大型预训练模型的训练为例,具体讲述如何设计、构建、测试和优化AI算力基础设施。

目前,学术界有一个共识:模型规模与模型效果之间存在正相关关系。

图10

如图10所示,模型参数达到千亿级的大模型在美国SAT考试中已经可以达到60%左右的准确率。

表4

如表4所示,现有的大型语言模型已经达到万亿甚至万亿规模。

因此,探索参数量较大的模型效果具有重要的科学意义!

预训练模型计算结构的核心是Transformer模型。 模型的计算主要集中在:嵌入层(Embedding)、注意力层(Attention)、前馈网络(FFN)。 如图11所示:

图11

Transformer的计算核心是矩阵乘法,因此我们可以利用并行训练技术来加速训练。 随着模型规模的扩大和训练数据的增加,单机训练无法满足参数规模和数据吞吐量的需求。 并行训练已经成为训练大型模型的“标准”。 如图12所示。

图12

例如,新一代国产神威高性能计算机拥有9.6万个节点、3744万个核心和互联网络。 神威采用新一代架构芯片——神威26010pro,以及支持MPI通信的国内自主高速网络,如图13所示。神威超级计算机满足大规模预训练模型的需求,如表所示。

图13

表5

郑为民院士团队在国产E级高性能计算机上训练了170万亿参数的超大规模预训练模型。 模型参数与人脑中突触的数量相当。

训练这种超大规模预训练模型有四个关键的系统挑战:1.如何选择高效的并行策略,2.如何进行高效的数据存储,3.如何选择合适的数据精度,4.如何实现动态负载均衡。

挑战一:如何选择高效的并行策略

不同的并行策略有不同的通信要求和计算模式,如数据并行、模型并行、管道并行、MoE并行等。 不同的底层网络拓扑会对性能产生重大影响。 如何选择正确的并行策略组合是非常具有挑战性的。

图14

挑战二:如何进行高效的数据存储

以万亿参数的模型为例,如果模型精度为32位,则模型的参数为4T,模型的梯度也为4T,优化器的更新参数为8T,计算出的中间值也是8T。 如果使用 V100 来训练该模型并存储数据,则将需要 768 个 V100 块。 那么这些数据是如何划分的呢? 不同的划分方式也会对底层的计算和通信产生不同的影响。 也就是说,高效存储相关数据以支持高效训练是非常具有挑战性的。

挑战三:如何选择合适的数据精度

选择合适的数据精度可以有效提高计算性能并减少内存占用。

精度选择越低,性能越好,但模型精度越差。 如何选择最优的混合精度策略是非常具有挑战性的。

图15

挑战四:如何实现动态负载均衡

在MoE培训中卡通形象,样本是通过网关选择合适的专家来计算的。 存在负载不平衡问题,影响计算性能。 受欢迎的专家将收到数百甚至数千倍的输入数据。

图16

针对上述挑战,郑为民院士团队提出了相应的解决方案,在国产系统中实现高效并行训练——八卦路:百万级预训练模型系统。

表6

在此基础上,郑为民院士团队还完善了神威高性能计算机的基础软件库:

实现高效算子库:改进swTensor并支持混合精度算子

优化深度学习框架:深度优化swPyTorch、优化内存分配器等。

支持复杂模型:实现分层混合精度策略,支持负载均衡方法

郑为民院士团队训练了阿里巴巴的图文数据集M6-Corpus。 数据集总规模约为2TB,包括科学、体育、政治、经济等多个方面,如表7所示。

表7

性能结果:

图17

郑为民院士团队将该工作开源到相应的分布式系统FASTMOE中。

图18

第五部分:如何培养系统人才

算力很重要,能利用算力的人才也很重要。 那么如何培养系统人才呢? 对此,本章介绍四点建议:1.学好课程,2.阅读优秀的开源代码和相关论文,3.参加系统竞赛实践,4.参加科研项目。

1、好好吸取教训

1)两门基础课程,了解计算机系统的基本原理

1.CMU (15-213):计算机系统概论

教科书:计算机系统简介,程序员的视角

中文版:深入了解计算机系统(其实只是简单的了解)

介绍了程序表示、编译和链接、内存层次结构、内存分配等基础知识,实验非常必要。

2.麻省理工学院(6.003):计算机系统工程

教材:计算机系统设计原理

介绍了计算机系统设计的复杂性、抽象、模块化等基本原理,主要侧重于概念人工智能的算力是什么意思,实验也比较简单。

2)两门构建操作系统和分布式系统模块的高级课程

1.MIT(6.828):操作系统工程

学习类 Unix 代码 (xv6)

实验:搭建一个小型操作系统(JOS),包括启动、内存管理、用户环境、抢占式多任务、文件系统、网络驱动等。

2.麻省理工学院(6.824):分布式系统

RPC、分布式一致性协议(Raft/Paxos)、分布式事务、并发控制

实验:实现MapReduce系统、分布式、容错KV存储系统等。

3)根据自己感兴趣的方向学习相关课程

2.阅读优秀的开源代码和相关论文

1).学习新的系统构建语言

现代 C++、Rust、Go、Scala 等

2).阅读优秀的开源代码

能够为一些开源项目贡献代码

重新发明一些轮子

3)。 阅读相关论文以确定兴趣方向

阅读相关论文(SOSP、OSDI、Usenix ATC、EuroSys、SoCC 等)

确定要构建的系统

3. 动手实例-系统竞赛

1.国际大学生超级计算大赛

形式:5-6人团队参赛

任务:自行设计和构建计算集群(或使用云计算集群),并测试和优化给定应用程序

还包括采访、海报、论文复制品、口头报告等,以英语为工作语言

三大赛事:ASC、ISC、SC

图19

2.“英特尔杯”全国并行应用挑战赛

3.CCF CCSP大学生计算机系统与编程竞赛

形式:个人参赛,通过CCF CSP能力认证入围

任务:算法题和系统题

特点:12小时5题; 系统题的得分与参赛者程序的运行时间有关ip形象,表现最高者得满分。

4、参与科研项目

《MadFS分布式文件系统》

“一千万个核心,用于全球大气动力学的可扩展全隐式模拟”

《非线性大地震模拟》

“神图”图计算框架

概括

人工智能算力是当前人工智能领域发展的关键。 近年来,郑为民院士团队在AI算力基础设施平衡架构设计、AI算力评估方法、万亿参数超大型预训练模型并行加速等方面做出了巨大贡献。 最后,郑为民院士提出,要加快人工智能计算基础设施建设,加快系统人才培养。

附录:清华大学相关领域成果

如果您正在阅读这篇文章,

别忘了点击“观看+点赞”哦!

最后编辑:
作者:nuanquewen
吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计