- Amazon EC2 Trn1实例由Amazon Trainium芯片提供支持,在对亚马逊云科技上流行的机器学习模型进行深度学习训练方面具备超高性能,比基于GPU的同类实例节省高达50%的训练成本
- PyTorch、Helixon和Money Forward等客户与合作伙伴已在使用Trn1实例
日前,亚马逊云科技宣布,由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud(Amazon EC2)Trn1实例正式可用。Trn1 实例专为在云中进行高性能机器学习模型训练而构建,与基于 GPU 的同类实例相比,可节省高达 50% 的训练成本。Trn1实例能够以超快的速度在亚马逊云科技上训练机器学习模型,助力客户缩短训练时间,快速迭代模型以提升准确性,提高自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等工作负载的运行效率。使用Trn1实例无需最低消费承诺或预付费用,客户只需为使用的计算量付费。欲开始使用Trn1实例,请访问:aws.amazon.com/cn/ec2/instance-types/trn1/。
越来越多客户正在构建、训练和部署机器学习模型,以支撑有望重塑其业务和客户体验的应用程序。这些机器学习模型变得越来越复杂,需要越来越多的训练数据提高准确性。因此,客户必须将其模型扩展到数千个加速器上,致使训练成本越来越高。这会直接影响研发团队试验和训练不同模型的能力,限制客户将创新推向市场的速度。亚马逊云科技此前已经为机器学习提供了广泛且深入的硬件加速器计算产品选择,包括由亚马逊云科技自研芯片Amazon Inferentia支持的Inf1实例、G5实例、P4d实例和DL1实例。但是,即便使用当前最快的加速实例,训练日益复杂的机器学习模型仍然非常昂贵和耗时。
由Amazon Trainium芯片支持的全新Trn1实例为在亚马逊云科技上运行的机器学习模型训练提供超高性价比和超快速度。与最新的、基于GPU的P4d实例相比,针对深度学习模型训练的成本可降低多达50%。借助针对Trn1实例的软件开发工具包(SDK)Amazon Neuron,客户几乎不需要更改代码。并且,Amazon Neuron与PyTorch和TensorFlow等流行的机器学习框架集成。Trn1实例配有多达16颗专为部署深度学习模型而构建的Amazon Trainium加速器。Trn1是首个提供高达800 Gbps的网络带宽的实例,延迟更低,比最新的基于GPU的EC2实例快2倍。它采用了亚马逊云科技第二代Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1实例还使用高速的实例内联技术NeuronLink加速训练。客户可以在Amazon EC2 UltraClusters超大规模集群中部署包含数以万计Trainium加速器的Trn1实例,快速训练包含数万亿个参数的超复杂深度学习模型。凭借EC2 UltraClusters,客户能够使多达3万个Trainium加速器与EFA PB级网络实现互连,扩展机器学习模型训练,按需获取超算级性能,将训练时间从数月缩短至数日。每个Trn1实例支持高达8TB的本地NVMe SSD存储,可快速访问大型数据集。Amazon Trainium支持多种数据类型(FP32、TF32、BF16、FP16 和可配置的 FP8)和随机舍入。随机舍入是一种概率舍入的方法,与深度学习训练中经常使用的传统舍入模式相比,性能更强,准确度更高。Amazon Trainium还支持动态张量形状和自定义运算符,交付灵活的基础设施,旨在随客户的训练需求而演进。
亚马逊云科技Amazon EC2副总裁David Brown表示:“近年来,我们见证了机器学习从大型企业使用的小众技术发展成为许多客户的业务核心。我们预计机器学习训练将迅速占据其大量的计算需求。在高性能机器学习芯片Amazon Inferentia成功的基础上,我们推出专为高性能训练而构建的第二代机器学习芯片Amazon Trainium。由Amazon Trainium支持的Trn1实例可帮助客户将训练时间从数月缩短至数日,同时更具成本效益。”
Trn1实例基于Amazon Nitro系统构建,该系统是亚马逊云科技自研硬件和软件创新的集大成者,可简化隔离式多租户、专用网络和快速本地存储的交付。Amazon Nitro系统将CPU虚拟化、存储和网络功能卸载至专用硬件和软件,交付近乎裸机的性能。Trn1实例将通过其他亚马逊云科技服务提供,包括Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon Batch。Trn1实例可以作为按需实例购买,支持节省计划(Saving Plans),也可以按预留实例或Spot实例购买。Trn1实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域可用,其他区域也将很快推出。欲了解更多Trn1实例相关信息,请访问:aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available。
亚马逊的产品搜索引擎索引了数十亿种产品,每天提供数以十亿计的客户查询,是全球频繁使用的服务之一。Amazon Search高级首席科学家Trishul Chilimbi表示:“我们正在训练大型语言模型,这些模型是多模式、多语言、多地区、基于多任务预训练的,跨多个维度(产品、查询、品牌、评论等)改善客户的购物体验。与其他加速机器学习解决方案相比,Amazon EC2 Trn1实例可提供更高的性能功耗比,为训练大型语言模型提供了一种更可持续的方式,并以超低成本提供了高性能。我们计划探索新的、可配置的FP8数据类型和硬件加速随机舍入,进一步提高训练效率和开发速度。”
PyTorch是一个开源机器学习框架,可加速从研究原型设计到生产部署的过程。“PyTorch希望加速将机器学习从研究原型设计到实际生产就绪、可供客户使用的进程。我们与亚马逊云科技进行了广泛的合作,为由Amazon Trainium支持的全新Trn1实例提供原生PyTorch支持。构建PyTorch模型的开发人员只需少量代码更改,即可在Trn1实例上开启训练。” PyTorch应用人工智能工程经理Geeta Chauhan表示,“此外,我们还与OpenXLA社区合作,启用PyTorch分布式库,以便轻松地将模型从基于GPU的实例迁移至Trn1实例。Trn1实例为PyTorch社区带来的创新包括更高效的数据类型、动态形状、自定义运算符、硬件优化的随机舍入和快速调试模式,我们对此倍感兴奋。所有这些功能让Trn1实例非常适合PyTorch开发人员广泛采用。未来,我们期待共同为PyTorch做出贡献,进一步优化训练性能。”
Helixon为蛋白质疗法构建下一代人工智能(AI)解决方案,开发AI工具,帮助科学家破译蛋白质功能和交互方式,查询大规模基因组数据集以进行靶标鉴别,设计抗体和细胞疗法等治疗方法。“当前,我们使用像全分片数据并行(Fully Sharded Data Parallel)等方式训练分布式库,即通过许多基于GPU的服务器并行训练模型。但即便如此,训练单个模型仍需花费数周时间。” Helixon首席执行官Jian Peng表示,“我们很高兴能够利用Amazon EC2 Trn1实例,它拥有亚马逊云科技上超高的可用网络带宽,可以提高分布式训练作业性能,缩短模型训练时间,同时也降低成本。”
Money Forward公司为企业和个人提供开放和公平的金融平台。Money Forward首席技术官Takuya Nakade表示:“我们基于Amazon EC2 Inf1实例推出了大规模AI聊天机器人服务,与基于GPU的同类实例相比,推理延迟降低了97%,同时还降低了成本。我们会定期微调定制的自然语言处理模型,因此减少模型训练时间和成本很重要。根据我们在Inf1实例上成功迁移推理工作负载的经验,以及采用基于Amazon Trainium的EC2 Trn1实例所开展的初始工作,我们预计Trn1实例将在提高端到端机器学习性能和降低成本方面提供额外价值。”
Magic是一家集生产和研究于一体的公司,它开发的人工智能就像身边的同事一样,能够帮助你提高生产效率。“训练基于大型自回归变换器(large autoregressive transformer)的模型是我们工作的重要组成部分。由Amazon Trainium支持的Trn1实例专为此类工作负载设计,提供近乎无限的可扩展性、快速的节点互联以及对 16 位和 8 位数据类型的高级支持。”Magic联合创始人兼首席执行官Eric Steinberger表示,“Trn1实例将帮助我们以更低成本更快速地训练大型模型。Trainium对BF16随机舍入的原生支持功能特别令人兴奋,不仅提高了性能,同时让数值准确性与全精度几乎无异。”
更多阅读: