思腾推出支持大规模深度学习训练的高性能AI服务器，高性能AI服务器支持大规模深度学习训练，思腾新品发布

温馨提示：这篇文章已超过468天没有更新，请注意相关的内容是否还可用！

思腾推出高性能AI服务器，支持大规模深度学习训练。该服务器具备卓越的计算能力和高效的资源利用率，可大幅提升人工智能应用的性能和效率。这一创新产品的推出，将极大促进人工智能领域的发展，为深度学习领域的科研工作者和企业提供更强大的计算支持，推动人工智能技术的不断进步。

近日人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4，可10秒钟做出一个网站，60秒做出一个游戏，参加了多种基准考试测试，它的得分高于88%的应试者；随后百度CEO李彦宏宣布正式推出大语言模型“文心一言”，作为百度全新一代知识增强大语言模型，其能够与人对话互动、回答问题、协助创作、高效便捷地帮助人们获取信息、知识和灵感。

随着这些应用AIGC应用的发布，人工智能变成了街头巷尾人们热议的话题，英伟达CEO黄仁勋在2023年GTC开发者大会上发表了主题演讲时表示：“我们正处于AI的iPhone时刻。”可见AIGC技术对社会的变革性影响，同时也引爆了AI行业对训练和推理的大模型需求。

思腾推出支持大规模深度学习训练的高性能AI服务器，高性能AI服务器支持大规模深度学习训练，思腾新品发布第1张

思腾推出支持大规模深度学习训练的高性能AI服务器，高性能AI服务器支持大规模深度学习训练，思腾新品发布第2张

思腾合力是一家人工智能基础架构解决方案供应商，公司成立于 2009年，在成立之初就一直致力于AI 行业，是英伟达的精英级合作伙伴，拥有自主品牌AI服务器及通用服务器，适用于深度学习训练及推理等场景，尤其是思腾合力自有产品IW4221-8GRs，一款专为AI大模型计算打造的新型GPU集群，接下来给大家介绍一下这款服务器的那些让人不可抗拒的优点：

第一天花板级的算力配置

英伟达是行业翘楚，而A800又是英伟达的明星产品，其算力更是行业望其项背的存在，思腾合力IW4221-8GRs这款产品，单台服务就搭载了8个拥有第三代NVIDIA Tensor Core的A800 GPU，单机可提供 5PFLOPS 的 AI 计算性能，比传统的双路 CPU 服务器提高 300 倍。

任意两个 GPU 之间可以直接进行数据 P2P 交互，GPU 间 P2P 通信速率为 400GB/s；具备更高的带宽和更低的延迟，可以依据不同需求完成GPU-GPU节点内部的高速互联，同时还能在GPU-CPU甚至CPU-CPU之间形成高速互联，特别是GPU与CPU之间的直接互连，提高了系统整体的性能和可扩展性。

搭载2颗Intel 高性能CPU原本，在CPU与GPU的极致配合下原本要花费10小时的双精度模拟过程缩短到4小时之内，多任务处理不卡顿，高效完成训练/推理任务，支持大规模的深度学习模型、高性能计算任务和机器学习工作负载。

第二算力资源高效利用合理分配

运用英伟达的MIG技术可扩展 GPU 的应用范围，单张A800卡最多可被划分为7个实例，每个实例均完全独立于各自的高带宽显存、缓存和计算核心；且能为每项工作负载提供适当规模的 GPU 实例，最终优化利用率并使数据中心投资充分发挥成效。

凭借 MIG能确定性延迟和吞吐量，在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载；每个 MIG 实例借助专用于计算、内存和缓存的硬件资源，从而能够提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。

思腾推出支持大规模深度学习训练的高性能AI服务器，高性能AI服务器支持大规模深度学习训练，思腾新品发布第3张

第三极致的扩展性

单台服务器集成8通道内存控制器，32个内存插槽，速率最高支持3200，内存容量可扩展至4TB，最大支持 8 个热插拔 NVMe SSD 和 2 个 SATA 总线 M.2 SSD，10个PCIe 4.0 x16插槽，2个PCIe 4.0 x16插槽(PCIe 4.0 x8速率)，1个OCP3.0插槽，最大支持 10 个 100G/200G 可远程直接内存访问（RDMA）高速网卡；用户可根据实际需求进行扩展，极大的提高的机器适用性。

第四超强兼容性

X86 CPU 市场占有率超过90%，NVIDIA目前占据整个独立显卡市场的多达88％，上层软硬件应用基本与他们兼容为基础而进行开发，所以国内外主流软硬件及AI框架、工具、应用程序等都兼容。

第五全方位的安全呵护

整机 6U 标准尺寸，3+3 冗余供电设计，使其适用于更广泛的数据中心部署环境，为客户提供极高的可靠性和稳定性；支持可信平台模块（TPM 2.0）和可信密码模块（TCM），可提供高级加密功能。

支持Intel可信执行技术（Trusted Execution Technology），可基于硬件抵御恶意软件攻击；支持 Intel SGX 技术（Software Guard Extensions），允许应用运行在自己的独立空间中，避免关键代码和数据被恶意窃取或修改；支持基于数字签名的固件更新机制，防止非授权固件的更新；支持 UEFI 安全引导，保护系统免受恶意启动加载程序的侵害；支持 BIOS 分级密码保护，保证系统启动及管理安全；支持BIOS Secure Flash及Lock Enable（BLE）功能，消减恶意软件对 BIOS Flash 区域的攻击；支持 BMC、BIOS 双镜像机制，在检测到固件被破坏后进行恢复；支持 BMC 安全启动，防止 BMC 被恶意篡改；支持灵活的 BMC 访问控制策略，提高 BMC 管理安全性。

第六简约不简单的运维管理

技术人员可以通过 BMC Web 管理界面、故障诊断 LED 等指引设备进行整机管理，并可通过前面板上的 UID 指示灯标记有故障的机器，快速找到已经发生故障（或者即将发生故障）的组件，从而简化维护工作、加快解决问题的速度，并且提高系统可用性；通过 BMC 监控系统参数，提前发出告警信息，使技术人员能够采取相应措施，保证机器稳定运行；配备 ISPIM 智能管理软件，实现服务器的集中管理，支持设备部件级资产管理、智能监控告警、自动巡检、故障诊断与报修、能耗管理、固件升级/配置等功能，实现服务器全生命周期管理。