深度揭秘NVIDIA 第三代计算机Jetson Thor

现在，我将为大家简要介绍我们的第三代计算机——Thor。

在开始深入细节之前，我想先谈谈我们的观察。我们开发Jetsen和边缘AI已有超过10年的时间，在机器人领域发现了许多共性。

从历史上看，大多数应用都是专用型的，正如UK和Jim提到的那样——它们执行单一固定功能，无论是工厂里的AMR（自主移动机器人）专注于感知和搬运，还是最后一公里配送中的导航。但过去12-18个月，随着生成式AI的崛起，我们也看到了人形机器人的兴起。这正是我们在开发第三代计算机时重点考虑的方向。

在开发这台计算机时，我们思考了构建人形机器人所需的核心要素。

通过研究发现，不同人形机器人存在通用架构，包含四个层级：

1.基础层：集成多种传感器

-摄像头（用于环境感知）

-IMU（惯性测量单元）和致动器（控制机器人运动）

-音频/麦克风（实现人机交互）

-位置传感器（编码动作并反馈响应）

2.计算平台层：作为硬件支撑

3.双脑架构层：

-实时控制脑：专注于低延迟控制框架（如速度、位置、扭矩控制），需100Hz-1kHz控制频率，确保机器人稳定不摔倒

-感知规划脑：处理混合关键性任务（如物体识别、动态抓取、场景理解），频率范围1-30Hz

4.应用部署层：考虑客户如何在我们的计算平台上部署这些应用

以上是我们对机器人技术发展路径的深度思考。"

现在我将分享更多关于NVIDIA Thor的信息。

它被设计为人形机器人的终极平台，专为通过边缘Transformer模型加速的安全下一代机器人打造。Thor包含四大核心支柱：

1. 超级计算机级算力

-性能飞跃

算力从800 FP8 TFLOPS提升至2 PetaFLOPS FP4（推测为优化后的低精度浮点运算），支持边缘端部署超大型Transformer模型。

兼容NVIDIA Omniverse仿真开发环境，实现「仿真-部署」无缝衔接。

-架构优势

专为复杂人形机器人设计，支持多模态AI模型并行计算（如视觉、语音、运动规划）。

2. 高速传感器融合系统

-I/O能力

支持425Gb以太网，带宽较前代提升10倍，满足多传感器（激光雷达、摄像头等）数据流实时传输需求。

-Holoscan Sensor Bridge

功能：通用传感器数据接入层，自动转换协议并优化至GPU内存。

延迟优化：通过硬件卸载引擎（Offload Engine）实现传感器数据到GPU的纳秒级响应，支持实时决策。

3. 三层安全体系

-平台级安全

功能安全岛：4核锁步R50 CPU独立运行，实时监测系统错误，符合ISO 26262等车规标准。

硬件隔离：独立安全区域（Safety Island）确保关键任务不受主系统干扰。

-端到端安全（SIL 2认证）

传感器-计算链路：通过Holoscan框架加密传输，防止数据篡改。

冗余设计：关键传感器数据多路径传输，确保故障时系统可用性。

-AI增强安全

本地感知：机器人通过自身传感器构建环境模型（如动态障碍物检测）。

外部协同：支持工厂级传感器网络数据融合（如预警盲区人员接近）。

4. 全栈安全防护

-平台层

安全启动（Secure Boot）、内存加密、防物理攻击设计。

-模型层

IP保护：支持自定义AI模型加密，防止逆向工程。

运行时监控：检测模型异常行为，防止对抗攻击。

-边缘-云协同

固件TPM：基于硬件的安全芯片实现边缘设备与云端通信的身份认证。

端到端加密：保障云边协同时的数据完整性。

以下是针对NVIDIA Jetson及Thor平台性能跃升关键点的结构化整理与分析：

一、核心性能突破：Blackwell架构的革新

1.Transformer引擎原生支持低精度计算

FP4/FP8精度优化：新架构内置Transformer引擎，直接支持FP4（4位浮点）和FP8（8位浮点）运算，显著降低大规模Transformer模型（如GPT、BERT）的推理功耗与延迟。

应用场景适配：低精度计算对生成式AI、自然语言处理（NLP）等任务至关重要，可在保证模型精度的前提下提升吞吐量。

2.多实例GPU（MIG）技术下沉至边缘端

硬件级任务隔离：首次在嵌入式平台支持MIG，允许将单个GPU物理划分为多个独立实例（如2个虚拟GPU），分别处理高优先级（低延迟）和低优先级任务。

混合关键性场景优化：例如机器人控制中，实时传感器数据处理与后台导航算法可并行运行，避免资源争抢。

二、系统级整合与硬件升级

1.模块化设计：187mm高度集成

全栈融合：集成GPU、CPU、加速器（如NVDLA）、内存及电源管理单元，体积缩小至187mm，适用于空间受限的嵌入式设备（如人形机器人、无人机）。

2.CPU与内存性能翻倍

CPU算力提升：Jetson AGX Thor配备14核CPU（含AE扩展核心），性能达前代2.6倍，强化实时控制（如电机驱动、传感器融合）。

内存带宽突破：容量翻倍至128GB，带宽达273GB/s，支持超大规模模型本地加载与高速数据吞吐。

3.I/O效率革命性提升

10倍I/O增速：通过PCIe Gen5、NVLink等高速接口，加速传感器数据输入与模型输出，减少系统延迟瓶颈。

三、技术协同与场景价值

AI与实时控制的平衡：Transformer引擎+MIG的组合，既满足AI大模型推理需求，又通过硬件隔离保障实时控制（如工业质检中的缺陷检测与机械臂响应）。

边缘部署成本优势：模块化设计降低功耗与散热需求，支持更多场景（如自动驾驶舱、智能零售）的本地化AI部署。

Jetson Thor会在今年6月份上市

以下是针对NVIDIA Jetson SoC架构的详细技术解析与升级亮点总结：

一、异构计算架构：GPU与CUDA性能突破

1.GPU模块化设计

三集群架构：GPU分为3个独立集群，支持通过MIG技术灵活划分计算资源（如1/3或2/3 GPC分配），实现多任务并行与资源隔离。

算力跃升：CUDA FP32性能达8 TFLOPS，较上一代显著提升，满足复杂AI模型与高吞吐计算需求。

2.计算资源动态调配

MIG应用场景：例如将1个GPC用于低延迟传感器数据处理（如SLAM），另2个GPC用于大模型推理，避免任务间干扰。

二、CPU与安全增强设计

1.Poseidon AE核心集群

ARM V9架构：多核CPU支持最新指令集，提升单线程性能与能效比，适配边缘端实时控制任务。

异构计算协同：CPU与GPU/加速器通过共享内存架构实现无缝数据交换，简化传感器预处理/后处理流程。

2.安全子系统升级

平台安全控制器：提供硬件级安全启动与加密功能，保护AI模型与数据隐私。

功能安全岛：支持ASIL-D等级功能安全认证，满足汽车与工业场景的严苛安全要求。

三、专用加速器矩阵与软件生态

1.多样化加速器集群

视觉计算引擎（PVA）：可编程硬件加速CV算法（如特征提取、目标检测），降低CPU/GPU负载。

光流加速器（OFA）：实时计算像素运动矢量，优化SLAM与动态跟踪性能。

传统加速器：集成ISP（图像处理）、视频编解码器（数量翻倍，支持8K多流），提升多媒体处理能力。

2.统一编程接口

Vision Programming Interface：提供跨加速器（PVA/OFA）的统一开发框架，兼容前代Orin平台，缩短开发周期。

四、I/O与内存子系统革新

1.高速接口扩展

网络：425Gb以太网支持车载以太网与数据中心级吞吐。

扩展性：12通道PCIe Gen5（双向24GT/s）、16通道CSI-2（适配高分辨率摄像头阵列）。

传感器支持：丰富I/O接口覆盖工业协议（如CAN FD）、GPS等，满足多模态传感器融合需求。

2.内存带宽突破

LPDDR5X支持：带宽较LPDDR4X提升50%，适配超大规模模型本地加载与高频内存访问场景。

五、代际对比与场景价值

1.性能代差：相比Orin，Thor在编解码能力（翻倍）、内存带宽（LPDDR5X）、I/O扩展性（PCIe Gen5）上全面升级，支持更复杂的机器人控制、多传感器融合与AI工作流。

2.开发兼容性：Vision Interface的前向兼容性允许开发者在Orin平台预研PVA/OFA算法，平滑过渡到Thor。

以下是关于NVIDIA Jetson平台软件的详细技术解析与升级亮点总结：

平台软件架构分层解析

1.应用层加速开发框架

核心目标：提供预集成算法库（如计算机视觉、语音处理）与开发者工具链（SDK），缩短AI模型部署周期。

典型场景：开发者可直接调用优化后的ResNet、YOLO模型，或通过Transfer Learning工具微调模型。

2.基础层软件栈

关键组件：

CUDA/cuDNN：加速深度学习推理与训练。

TensorRT：优化模型部署，支持INT8量化与层融合。

多媒体框架：GStreamer插件支持多摄像头流同步处理。

操作系统与内核升级

1.长期支持版本

Ubuntu 20.04 LTS：提供5年安全更新，确保工业与车载场景的稳定性。

内核升级至6.8：支持最新硬件特性（如PCIe Gen5、CXL协议），并优化调度器降低延迟。

2.Jetpack 7工具套件

新功能：

多实例GPU（MIG）增强：支持动态划分GPU资源为多个虚拟机或容器。

Thor平台启用：提供新一代SoC的底层驱动与电源管理优化。

实时计算关键升级

1.PREEMPT_RT补丁支持

技术原理：通过可抢占内核设计，将最坏情况延迟从毫秒级降低至微秒级。

应用场景：满足工业机器人运动控制、自动驾驶刹车系统等硬实时需求。

2.实时性优化措施

内核隔离：为实时任务保留专用CPU核心，避免非关键进程干扰。

内存锁页：防止关键数据被交换至磁盘，保障实时任务内存访问速度。

开发者体验提升

1.容器化部署：通过Docker集成，实现算法跨Jetson平台（如Orin/Thor）的无缝迁移。

2.OTA升级：支持通过DNF/APT工具直接更新Jetpack组件，无需完整镜像烧录。

代际对比与场景价值

1.性能代差：相比前代Jetpack 5，Jetpack 7的TensorRT 8.6支持稀疏性优化，INT8推理吞吐提升40%。

2.实时性突破：PREEMPT_RT补丁使99%任务在100μs内完成响应，满足ISO 26262 ASIL-B要求。

以下是关于NVIDIA Jetson开发者套件的深度技术解析与升级亮点总结：

开发者套件硬件架构

1.核心模块与载板设计

模块化设计：采用SoM（System on Module）+ 载板分离架构，支持快速原型验证与定制化载板开发。

散热优化：集成液态金属导热+双风扇散热方案，确保高负载AI推理（如Transformer模型）下的稳定运行。

I/O接口布局革新

1.单侧集中化设计

设计逻辑：将所有I/O接口集中于载板单侧，简化与现有机器人系统的线束连接，降低部署复杂度。

关键接口：

-25Gbps QSFP+：支持高速网络扩展，适用于多机器人协同或边缘服务器场景。

-多屏显示：提供HDMI 2.1 + DP 1.4双接口，支持8K@60fps输出，适用于AR/VR头显开发。

-USB增强：配置USB4.0 Type-C接口，支持PD供电与高速数据传输。

传感器扩展能力

-自动化接口：提供CAN FD、RS-485等工业协议接口，适配伺服电机与工业传感器。

-电源扩展：通过Micro-Fit连接器支持外部电源输入，满足多外设供电需求。

存储与无线升级

1.1TB NVMe集成

性能提升：相比前代eMMC存储，顺序读取速度提升6倍，支持大型数据集本地缓存。

扩展性：预留M.2 2280插槽，可组建RAID阵列或扩展至4TB存储。

2.无线模块扩展

双模支持：默认集成Wi-Fi 6E + 蓝牙5.2模块，可选配5G Sub-6模块实现广域网连接。

天线设计：采用多频段MIMO天线，优化复杂环境下的无线信号稳定性。

开发者体验优化

1.快速启动工具链

-SDK集成：预装Jetpack 7开发环境，支持一键部署ROS 2、Isaac ROS等机器人框架。

-容器化支持：通过NVIDIA L4T容器运行时，实现算法跨Jetson平台无缝迁移。

2.诊断与调试工具

硬件监控：集成INA3221功率监测芯片，实时跟踪核心模块功耗与温度。

GPIO扩展：提供40-pin Raspberry Pi兼容接口，支持自定义外设开发。

代际对比与场景价值

性能代差：相比前代Jetson AGX Xavier套件，Thor平台算力提升3倍，支持复杂SLAM算法实时运行。

部署效率：模块化设计使原型开发周期缩短40%，线束简化降低系统集成成本30%。

以下是关于NVIDIA Holoscan Sensor Bridge的技术架构与核心价值总结：

Holoscan Sensor Bridge设计哲学

开发效率革命

核心目标：通过传感器抽象层与硬件解耦，使开发者无需处理底层驱动适配，专注于算法开发。

支持传感器类型：覆盖摄像头、IMU、麦克风、编码器、电机控制器等主流机器人传感器。

数据传输架构创新

1.统一流平台

自定义UDP协议：采用轻量级包头压缩与数据分片技术，支持多传感器数据混合传输，带宽利用率提升40%。

硬件加速卸载：Thor架构的Offload Engine实现数据零拷贝直送GPU显存，端到端延迟低于1ms（相比传统方案降低5倍）。

2.模块化设计原则

即插即用支持：传感器接口标准化，更换同类型传感器无需修改上层代码，支持热插拔配置。

动态配置工具：提供Web界面与Python API，可实时调整采样率、数据格式等参数。

安全与合规保障

1.功能安全认证

SIL 2合规：满足IEC 61508标准，通过冗余校验与故障注入测试，确保关键传感器数据可靠性。

网络安全：支持TLS 1.3数据加密与硬件级防火墙，防御中间人攻击与数据篡改。

性能与扩展性优势

1.算力匹配

Thor架构协同：利用GPU的CUDA流与DLA加速器，支持4K@120fps视频流与10kHz IMU数据的并行处理。

多节点扩展：支持菊花链拓扑，单台设备可管理超过200个传感器节点。

开发者价值体现

开发周期压缩：传感器集成时间从数周缩短至数小时，典型ROS2节点开发效率提升60%。

维护成本降低：模块化设计减少70%以上因传感器升级导致的系统重构工作。

典型应用场景

工业人机协作：通过低延迟力觉传感器反馈，实现机械臂的亚毫秒级碰撞响应。

自动驾驶：融合LiDAR与摄像头数据，构建冗余感知系统，满足ASIL-B功能安全要求。

服务机器人：多麦克风阵列与视觉SLAM数据融合，提升动态避障精度。

在快速启动开发方面，我们发现客户在集成过程中有时需要额外时间。因此，我们不希望您必须等到完全集成后才能开始开发。通过我们的Thor平台，我们从I/O接口和接线设计两个维度优化了开发者套件，使您能轻松将其绑定到现有系统中。您也可以将传感器桥接模块（Sensor Bridge）加入系统，连接新传感器，从而立即开始开发。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-15，如有侵权请联系 cloudcommunity@tencent 删除机器人nvidia计算机模型设计

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

深度揭秘NVIDIA 第三代计算机Jetson Thor

深度揭秘NVIDIA 第三代计算机Jetson Thor

与本文相关的文章

评论列表(0)