简介:人工智能基础软件作为大规模人工智能模型的基础,承载着顶级大模型的构建,也是大规模模型应用落地的关键。 为了更好地支持大型模型的训练和进化,基础软件的设计和开发显得尤为重要。 本文共九章分享了云迹DataCanvas如何独立构建大+小模型的经验和见解。 将分以下四个部分来分享:
▌公司介绍
九章云集DataCanvas以打造智能探索平台为使命,以帮助全球企业智能化升级为愿景,是国内人工智能基础软件领域的领导者。 公司专注于自主研发的人工智能基础软件产品系列和解决方案,为用户提供全面的人工智能基础服务,旨在帮助用户在数字化转型过程中,以低成本轻松实现模型和数据的双向赋能。 。 高效提升企业决策能力,实现企业级人工智能规模化应用。
▌AIFS(人工智能基础软件)
在大模型时代,我们需要更高效的计算基础设施以及对其他基础设施和资源的管理。 为了应对这些挑战,九章云集DataCanvas构建了完整的软件系统AIFS(AI Foundation Software),包括模型工具、大模型能力、人工智能基础平台、算力管理四层。
第一层是算力层。 目前,国产GPU也在快速崛起,华为等厂商在大机型、GPU领域都取得了长足的进步。 在计算基础设施之上,我们构建了GPU Cloud,可以统一管理异构GPU资源,包括NVIDIA和国产GPU。 这样既降低了工程成本,又提高了资源利用率。
第二层主要基于公司自主研发的DingoDB多模式向量数据库和人工智能开发工具。 DingoDB是大模型时代必备的软件。 作为分布式向量数据库,它存储任意规模的多模态数据,具有高并发、低延迟的实时分析能力,处理多模态数据,通过SQL实现结构化和非结构化数据。 结构化数据的 ETL。 在DingoDB之上,该产品提供了APS Fast Label、APS LMB、APS Lab和APS Inference人工智能开发工具。
通过这个完整的人工智能技术平台,用户可以高效应对大模型时代的挑战,快速实现AI应用。
第三层包括九丈云迹DataCanvas发布的DataCanvas阿赖耶九丈元氏大模型,支持视频、图片、文本等多种数据格式。 此外,它还具备构建小型模型的能力,并提供算法库、场景库、特征库、指标库“四大库”。
最后,为了构建大型模型,我们提供了一套完整的模型构建工具——LMOPS,包括Prompt Manager(提示管理器)、Large Model Training(大型模型训练)和Large Model Serving(大型模型服务)。
AIFS是业界领先的人工智能应用构建基础设施平台,可以支持大大小小的模型的构建。 AIFS涵盖了大模型的训练、微调、压缩、部署、推理和监控,以及小模型的全生命周期过程。 它支持多种建模模式,可以满足数据科学家、开发人员和业务专家的不同建模需求。 例如,数据科学家可以根据自己的建模习惯进行建模,开发人员可以从工程角度构建大型模型,业务专家可以从业务角度在平台上构建自己的大大小小的模型。
此外,AIFS平台上不同角色的人员可以相互协作,轻松处理数据并使用它来开发、训练和部署任何规模的模型。 这意味着无论您是数据科学家、应用程序开发人员还是业务专家,您都可以在 AIFS 平台上找到适合您的建模方法,并与其他角色协作构建人工智能应用程序。
▌模型构建工具链
AIFS 中有一个完整的工具链,旨在支持大型和小型模型的构建。 首先,从数据准备的角度来看,数据可能包括通用数据、行业数据、私域数据、指令数据等,数据被访问后,需要进行数据处理,如数据清洗、数据变换和数据处理等。增强人工智能小模型是什么意思,针对不同类型的数据采用不同类型的处理方法。 数据处理完成后,可以进行数据标注,包括手动标注和智能标注。
数据准备完成后,进入模型开发阶段。 在模型开发时,首先需要选择一个模型,比如常见的LLAMA模型、最近开源的LLAMA2、Falcon和Bloom等。选择模型后,就可以使用之前准备的数据进行训练,并使用预先准备好的数据进行训练。训练重量以继续训练等
训练完成后,可以进行模型微调,例如对齐操作。 对于中小企业来说,可能会面临CPU资源有限的问题。 这种情况下,可以利用开源的PEFT工具进行高效的微调。 模型微调和对齐完成后,需要对模型进行评估,可以使用LMS评估工具进行评估。 常见的评价指标有Ceval和MMLU。
如果现有的benchmark无法覆盖模型的能力,您可以基于AIFS构建自己的任务或benchmark进行定制评估。 评估完成后,将模型部署到LMS进行模型部署和推理。 首先,模型可能需要进行压缩人工智能小模型是什么意思,比如量化剪枝、蒸馏转换等操作。 模型压缩后,进行部署。 支持单机单卡和单机多卡部署方式。
模型上线后,需要将模型服务上线,并使用Prompt Manager应用模型。
LMB(Large Model Builder)是专门为AI工程师打造的大规模预训练模型训练工具。 旨在帮助他们快速搭建训练流程,实现高效稳定的大模型训练。 该工具包括几个主要模块:数据准备、分布式训练、断点再训练、任务监控和模型评估。
通过这些模块,LMB可以有效帮助AI工程师在大规模预训练时快速构建训练流程,实现高效稳定的大模型训练。
LMB的功能架构从下到上分为几个层次。 首先是GPU Cloud,它是AIFS人工智能平台的最后一层,也是平滑基础设施的关键组成部分。 在GPU Cloud之上,实现了一层分布式任务调度,包括异构算力统一管理与调度、资源编排、环境分发、任务分发、任务监控等功能。 再往上,还有一键分布式训练环境,支持DeepSpeed、Megatron、FSDP等多种流行的分布式训练环境预设。
此外,LMB还提供了多种并行方法、梯度累加、混合精度等高效策略表情包设计,涵盖了断点、重启等功能。 可视化的 FromScratch 界面允许用户轻松构建自己的大型模型。 无论是业务人员还是工程开发人员,都可以通过该界面选择所需的模型、数据、参数等高级模式或简单模式进行训练。 训练成功后,用户还可以通过视觉评价功能对模型进行评价。
LMT,Large Model Tuning,是一款大模型微调工具,主要帮助AI工程师在预训练模型的基础上持续训练、微调和评估模型。 通过可视化界面,用户可以设置私有域数据、预训练模型和相应的训练参数进行记忆训练,并可以选择性地扩展词汇量以避免灾难性遗忘并提高模型推理精度。
在模型微调方面,LMT支持专家模式进行设计,也提供简单模式。 通过专家模式,用户可以实现PEF指令的一键高效微调,包括LoRA、视觉RLHF训练等多种PEFF方法。
对于模型评估,LMT支持开源Benchmark自动评估,用户也可以进行定制评估。 用户可以根据平台规范构建数据集,设定评估方法,然后进行一些定制化的评估。 同时,用户还可以手动进行专家评审。 最后,LMT可以将自定义模型与开源模型进行比较卡通人物,并生成LeaderBoard来评估效果。
总之,LMT可以为整个大模型调整过程提供支持,从数据准备到继续训练,到指令微调,到手动对齐,RLHF,最后生成最终模型。
LMT和LMB具有相似的底层架构,例如GPU Cloud。 与LMB相比,PEFT对指令微调的资源要求并没有那么高,但仍然需要一些强大的硬件设施。 因此,还需要底层有GPU Cloud这样的算力支撑,来平衡技术设施的投资成本。 。
上面的架构与LMB类似,提供一键式分布式训练环境,包括DeepSpeed、Megatron、MosaicML等分布式训练环境,以及图优化、梯度累积等关键要素。
在这个架构中,入口是数据管理,包括数据标注和SFT数据增强。 例如,企业客户安装LMT后,可以管理私域数据,并基于该数据进行SFT数据增强。 增强 SFT 数据的方法有很多,例如使用我们的自指导工具进行数据蒸馏以获得更好的模型。
现在很多开源的大型模型都是基于英文的,有的可能支持多种语言,但是中文支持比较少,所以这些模型需要扩大词汇量。 扩大我们的词汇量有两种方法:一是改变embedding层后进行PFT训练,二是使用中英文平衡数据进行充分微调。
完成训练后就可以进行SFT,可以通过全微调或者PEFT微调来实现。 在进行手动对齐(如RLHF)之前,需要先训练奖励模型,然后通过奖励模型训练SFT模型,得到最终模型。 整个训练过程中,会输出一个train revert报告,帮助大家了解训练SFT时奖励模型的表现。
最后,LMT架构还包括一个任务管理系统,可以监控和调度所有任务,包括评估任务和三阶段训练任务。
LMS(Large Model Serving),大型模型运行工具。 所谓运行工具,是指模型训练和对齐(比如手动对齐)完成后,需要通过Prompt Manager来消费模型。 因此,模型需要作为服务提供并通过HTTP API或SDK访问。 LMS主要针对工程技术人员,旨在帮助他们快速、高质量地交付大型模型,同时降低运维和运营成本。
在LMS的运作过程中,首先涉及到模型管理。 启动后,用户可以导入模型,导入可以通过界面操作和命令操作完成。 模型导入成功后,可以进行模型压缩,如量化、剪枝等操作。 然后进行模型评估。 评估完成后,部署模型并将其作为服务上线。
服务上线后,您可以对服务进行监控,包括服务呼叫次数、呼叫成功率、呼叫总时长和平均时长等。 同时还需要监控资源消耗情况,比如CPU资源、GPU资源(特别是GPU资源利用率、显存占用)、内存占用等资源指标。 通过这些监控,保证了大模型服务的稳定性和性能。
接下来,我们将深入研究LMS的架构。 见上图,左侧是模型管理Model Store模块。 在模型商店中,您可以对导入的模型进行全面管理,如编辑元信息、评估模型性能等。模型评估涵盖自动评估、定制评估等多个方面。 模型压缩后即可部署上线。 当然,您也可以导入模型后直接在模型服务中上线,跳过评估过程。
在模型服务中,构建复杂完整的外部模型服务架构,包括REST API、gRPC等API。 这些API可以被Prompt Manager调用,也支持客户第三方业务系统直接访问。 在Model Service中,第一层是Server的Gateway,主要负责不同模型的路由。 当模型实例面临高压力或高延迟时,实例将根据业务需求进行伸缩。
每个模型实例内都有两个关键要素:交互式推理内存和内核级加速。 交互式推理内存用于处理与大型模型的多轮交互。 例如,要向大型模型询问推荐食谱,用户可能需要与模型进行多轮对话,并且大型模型需要保存历史会话以维护上下文。 交互式推理内存用于缓存历史问题,以减少第二次对话时的GPU推理延迟并提高模型服务速度。
另一个关键要素是内核级加速。 熟悉底层开发的人都应该知道,调用模型底层API时,可能会多次调用内核。 通过内核级加速,可以实现内核合并(将多个请求合并为一个张量)和操作合并(两个内核操作合并为一个操作),从而提高性能。
使用模型时,您可以使用Prompt Manager访问知识库,获取相关上下文信息,然后访问大模型。
Prompt Manager是一款提示词设计和构建工具,旨在帮助用户创建更好的提示词,并指导大型模型生成更准确、可靠和预期的输出内容。 该工具可供技术人员和非技术人员使用,为技术人员提供了开发工具包,为非技术人员提供了直观易用的人机交互操作模式。
提示管理器包括几个核心要素:场景管理、模板管理、提示词开发和提示词应用。 这些元素共同构成了Prompt Manager的功能体系,为用户提供全面的支持,使他们能够更好地利用大型模型生成所需的输出内容。
上图展示了Prompt Manager的功能架构。 我们从下往上介绍一下。 首先,在底层,Prompt Manager可以管理大型模型服务。 通过 LMS 部署的模型提供的接口可以在 Prompt Manager 中进行配置,以供提示项目使用。 此外,它还可以与其他工具(如DingoDB、搜索引擎等)集成。
在提示工程方面,包括单提示、多提示、提示流等开发方式。 假设企业内部有一个业务需要多次访问大模型,有两种方法:第一种是将整个流程串到业务系统中,每次交互后再进行业务处理。大模型; 方法就是将整个流程封装成一个提示流程,这样第一次访问大模型并得到结果后,就可以进行相应的处理,然后将结果传递给第二次访问大模型以流程的形式显示整个过程。
此外,提示管理器还提供模板场景、角色定义(如协作写手、程序员等)、提示开发(包括单一提示和多提示开发方式)等功能。
最终可以提供提示(无论是提示流、单个提示还是多个提示)作为模型消费的提示服务。 这样用户就可以通过对外开放接口或者SDK直接访问提示服务。
▌DataCanvas APS 机器学习平台
DataCanvas APS机器学习平台为数据科学家、应用程序开发人员和业务专家提供了一整套工具,可以自主轻松地处理多源异构数据,并快速高效地开发、训练和部署任何规模的机器学习模型。 打通企业级大模型、小模型应用的最后一公里。
此外,DataCanvas APS机器学习平台还具备模型管理功能,并构建了智能应用工具包,更好地为企业提供模型服务。
DataCanvas APS机器学习平台的主要特点包括:异构多引擎融合架构; 支持大数据分析; 完全开放; 高性能分布式训练解决方案; 模型的全生命周期管理; 领先的自动化机器学习(AutoML)技术。
该平台为数据科学家、开发人员和业务专家实现了三位一体的集成建模方法,为数据科学家提供了友好的编码建模环境,为数据工程师提供了可视化的拖放建模工具,而对于业务分析师来说,即使他们不对代码不太了解,可以通过自动建模工具构建模型。 这三个角色可以跨团队和项目协作,以实现高效的模型开发。
- 本文固定链接: https://wen.nuanque.com/aigc/20094.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。