深度揭秘NVIDIA 第三代计算机Jetson Thor
现在,我将为大家简要介绍我们的第三代计算机——Thor。
在开始深入细节之前,我想先谈谈我们的观察。我们开发Jetsen和边缘AI已有超过10年的时间,在机器人领域发现了许多共性。
从历史上看,大多数应用都是专用型的,正如UK和Jim提到的那样——它们执行单一固定功能,无论是工厂里的AMR(自主移动机器人)专注于感知和搬运,还是最后一公里配送中的导航。但过去12-18个月,随着生成式AI的崛起,我们也看到了人形机器人的兴起。这正是我们在开发第三代计算机时重点考虑的方向。
在开发这台计算机时,我们思考了构建人形机器人所需的核心要素。
通过研究发现,不同人形机器人存在通用架构,包含四个层级:
1.基础层:集成多种传感器
-摄像头(用于环境感知)
-IMU(惯性测量单元)和致动器(控制机器人运动)
-音频/麦克风(实现人机交互)
-位置传感器(编码动作并反馈响应)
2.计算平台层:作为硬件支撑
3.双脑架构层:
-实时控制脑:专注于低延迟控制框架(如速度、位置、扭矩控制),需100Hz-1kHz控制频率,确保机器人稳定不摔倒
-感知规划脑:处理混合关键性任务(如物体识别、动态抓取、场景理解),频率范围1-30Hz
4.应用部署层:考虑客户如何在我们的计算平台上部署这些应用
以上是我们对机器人技术发展路径的深度思考。"
现在我将分享更多关于NVIDIA Thor的信息。
它被设计为人形机器人的终极平台,专为通过边缘Transformer模型加速的安全下一代机器人打造。Thor包含四大核心支柱:
1. 超级计算机级算力
-性能飞跃
算力从800 FP8 TFLOPS提升至2 PetaFLOPS FP4(推测为优化后的低精度浮点运算),支持边缘端部署超大型Transformer模型。
兼容NVIDIA Omniverse仿真开发环境,实现「仿真-部署」无缝衔接。
-架构优势
专为复杂人形机器人设计,支持多模态AI模型并行计算(如视觉、语音、运动规划)。
2. 高速传感器融合系统
-I/O能力
支持425Gb以太网,带宽较前代提升10倍,满足多传感器(激光雷达、摄像头等)数据流实时传输需求。
-Holoscan Sensor Bridge
功能:通用传感器数据接入层,自动转换协议并优化至GPU内存。
延迟优化:通过硬件卸载引擎(Offload Engine)实现传感器数据到GPU的纳秒级响应,支持实时决策。
3. 三层安全体系
-平台级安全
功能安全岛:4核锁步R50 CPU独立运行,实时监测系统错误,符合ISO 26262等车规标准。
硬件隔离:独立安全区域(Safety Island)确保关键任务不受主系统干扰。
-端到端安全(SIL 2认证)
传感器-计算链路:通过Holoscan框架加密传输,防止数据篡改。
冗余设计:关键传感器数据多路径传输,确保故障时系统可用性。
-AI增强安全
本地感知:机器人通过自身传感器构建环境模型(如动态障碍物检测)。
外部协同:支持工厂级传感器网络数据融合(如预警盲区人员接近)。
4. 全栈安全防护
-平台层
安全启动(Secure Boot)、内存加密、防物理攻击设计。
-模型层
IP保护:支持自定义AI模型加密,防止逆向工程。
运行时监控:检测模型异常行为,防止对抗攻击。
-边缘-云协同
固件TPM:基于硬件的安全芯片实现边缘设备与云端通信的身份认证。
端到端加密:保障云边协同时的数据完整性。
以下是针对NVIDIA Jetson及Thor平台性能跃升关键点的结构化整理与分析:
一、核心性能突破:Blackwell架构的革新
1.Transformer引擎原生支持低精度计算
FP4/FP8精度优化:新架构内置Transformer引擎,直接支持FP4(4位浮点)和FP8(8位浮点)运算,显著降低大规模Transformer模型(如GPT、BERT)的推理功耗与延迟。
应用场景适配:低精度计算对生成式AI、自然语言处理(NLP)等任务至关重要,可在保证模型精度的前提下提升吞吐量。
2.多实例GPU(MIG)技术下沉至边缘端
硬件级任务隔离:首次在嵌入式平台支持MIG,允许将单个GPU物理划分为多个独立实例(如2个虚拟GPU),分别处理高优先级(低延迟)和低优先级任务。
混合关键性场景优化:例如机器人控制中,实时传感器数据处理与后台导航算法可并行运行,避免资源争抢。
二、系统级整合与硬件升级
1.模块化设计:187mm高度集成
全栈融合:集成GPU、CPU、加速器(如NVDLA)、内存及电源管理单元,体积缩小至187mm,适用于空间受限的嵌入式设备(如人形机器人、无人机)。
2.CPU与内存性能翻倍
CPU算力提升:Jetson AGX Thor配备14核CPU(含AE扩展核心),性能达前代2.6倍,强化实时控制(如电机驱动、传感器融合)。
内存带宽突破:容量翻倍至128GB,带宽达273GB/s,支持超大规模模型本地加载与高速数据吞吐。
3.I/O效率革命性提升
10倍I/O增速:通过PCIe Gen5、NVLink等高速接口,加速传感器数据输入与模型输出,减少系统延迟瓶颈。
三、技术协同与场景价值
AI与实时控制的平衡:Transformer引擎+MIG的组合,既满足AI大模型推理需求,又通过硬件隔离保障实时控制(如工业质检中的缺陷检测与机械臂响应)。
边缘部署成本优势:模块化设计降低功耗与散热需求,支持更多场景(如自动驾驶舱、智能零售)的本地化AI部署。
Jetson Thor会在今年6月份上市
以下是针对NVIDIA Jetson SoC架构的详细技术解析与升级亮点总结:
一、异构计算架构:GPU与CUDA性能突破
1.GPU模块化设计
三集群架构:GPU分为3个独立集群,支持通过MIG技术灵活划分计算资源(如1/3或2/3 GPC分配),实现多任务并行与资源隔离。
算力跃升:CUDA FP32性能达8 TFLOPS,较上一代显著提升,满足复杂AI模型与高吞吐计算需求。
2.计算资源动态调配
MIG应用场景:例如将1个GPC用于低延迟传感器数据处理(如SLAM),另2个GPC用于大模型推理,避免任务间干扰。
二、CPU与安全增强设计
1.Poseidon AE核心集群
ARM V9架构:多核CPU支持最新指令集,提升单线程性能与能效比,适配边缘端实时控制任务。
异构计算协同:CPU与GPU/加速器通过共享内存架构实现无缝数据交换,简化传感器预处理/后处理流程。
2.安全子系统升级
平台安全控制器:提供硬件级安全启动与加密功能,保护AI模型与数据隐私。
功能安全岛:支持ASIL-D等级功能安全认证,满足汽车与工业场景的严苛安全要求。
三、专用加速器矩阵与软件生态
1.多样化加速器集群
视觉计算引擎(PVA):可编程硬件加速CV算法(如特征提取、目标检测),降低CPU/GPU负载。
光流加速器(OFA):实时计算像素运动矢量,优化SLAM与动态跟踪性能。
传统加速器:集成ISP(图像处理)、视频编解码器(数量翻倍,支持8K多流),提升多媒体处理能力。
2.统一编程接口
Vision Programming Interface:提供跨加速器(PVA/OFA)的统一开发框架,兼容前代Orin平台,缩短开发周期。
四、I/O与内存子系统革新
1.高速接口扩展
网络:425Gb以太网支持车载以太网与数据中心级吞吐。
扩展性:12通道PCIe Gen5(双向24GT/s)、16通道CSI-2(适配高分辨率摄像头阵列)。
传感器支持:丰富I/O接口覆盖工业协议(如CAN FD)、GPS等,满足多模态传感器融合需求。
2.内存带宽突破
LPDDR5X支持:带宽较LPDDR4X提升50%,适配超大规模模型本地加载与高频内存访问场景。
五、代际对比与场景价值
1.性能代差:相比Orin,Thor在编解码能力(翻倍)、内存带宽(LPDDR5X)、I/O扩展性(PCIe Gen5)上全面升级,支持更复杂的机器人控制、多传感器融合与AI工作流。
2.开发兼容性:Vision Interface的前向兼容性允许开发者在Orin平台预研PVA/OFA算法,平滑过渡到Thor。
以下是关于NVIDIA Jetson平台软件的详细技术解析与升级亮点总结:
平台软件架构分层解析
1.应用层加速开发框架
核心目标:提供预集成算法库(如计算机视觉、语音处理)与开发者工具链(SDK),缩短AI模型部署周期。
典型场景:开发者可直接调用优化后的ResNet、YOLO模型,或通过Transfer Learning工具微调模型。
2.基础层软件栈
关键组件:
CUDA/cuDNN:加速深度学习推理与训练。
TensorRT:优化模型部署,支持INT8量化与层融合。
多媒体框架:GStreamer插件支持多摄像头流同步处理。
操作系统与内核升级
1.长期支持版本
Ubuntu 20.04 LTS:提供5年安全更新,确保工业与车载场景的稳定性。
内核升级至6.8:支持最新硬件特性(如PCIe Gen5、CXL协议),并优化调度器降低延迟。
2.Jetpack 7工具套件
新功能:
多实例GPU(MIG)增强:支持动态划分GPU资源为多个虚拟机或容器。
Thor平台启用:提供新一代SoC的底层驱动与电源管理优化。
实时计算关键升级
1.PREEMPT_RT补丁支持
技术原理:通过可抢占内核设计,将最坏情况延迟从毫秒级降低至微秒级。
应用场景:满足工业机器人运动控制、自动驾驶刹车系统等硬实时需求。
2.实时性优化措施
内核隔离:为实时任务保留专用CPU核心,避免非关键进程干扰。
内存锁页:防止关键数据被交换至磁盘,保障实时任务内存访问速度。
开发者体验提升
1.容器化部署:通过Docker集成,实现算法跨Jetson平台(如Orin/Thor)的无缝迁移。
2.OTA升级:支持通过DNF/APT工具直接更新Jetpack组件,无需完整镜像烧录。
代际对比与场景价值
1.性能代差:相比前代Jetpack 5,Jetpack 7的TensorRT 8.6支持稀疏性优化,INT8推理吞吐提升40%。
2.实时性突破:PREEMPT_RT补丁使99%任务在100μs内完成响应,满足ISO 26262 ASIL-B要求。
以下是关于NVIDIA Jetson开发者套件的深度技术解析与升级亮点总结:
开发者套件硬件架构
1.核心模块与载板设计
模块化设计:采用SoM(System on Module)+ 载板分离架构,支持快速原型验证与定制化载板开发。
散热优化:集成液态金属导热+双风扇散热方案,确保高负载AI推理(如Transformer模型)下的稳定运行。
I/O接口布局革新
1.单侧集中化设计
设计逻辑:将所有I/O接口集中于载板单侧,简化与现有机器人系统的线束连接,降低部署复杂度。
关键接口:
-25Gbps QSFP+:支持高速网络扩展,适用于多机器人协同或边缘服务器场景。
-多屏显示:提供HDMI 2.1 + DP 1.4双接口,支持8K@60fps输出,适用于AR/VR头显开发。
-USB增强:配置USB4.0 Type-C接口,支持PD供电与高速数据传输。
传感器扩展能力
-自动化接口:提供CAN FD、RS-485等工业协议接口,适配伺服电机与工业传感器。
-电源扩展:通过Micro-Fit连接器支持外部电源输入,满足多外设供电需求。
存储与无线升级
1.1TB NVMe集成
性能提升:相比前代eMMC存储,顺序读取速度提升6倍,支持大型数据集本地缓存。
扩展性:预留M.2 2280插槽,可组建RAID阵列或扩展至4TB存储。
2.无线模块扩展
双模支持:默认集成Wi-Fi 6E + 蓝牙5.2模块,可选配5G Sub-6模块实现广域网连接。
天线设计:采用多频段MIMO天线,优化复杂环境下的无线信号稳定性。
开发者体验优化
1.快速启动工具链
-SDK集成:预装Jetpack 7开发环境,支持一键部署ROS 2、Isaac ROS等机器人框架。
-容器化支持:通过NVIDIA L4T容器运行时,实现算法跨Jetson平台无缝迁移。
2.诊断与调试工具
硬件监控:集成INA3221功率监测芯片,实时跟踪核心模块功耗与温度。
GPIO扩展:提供40-pin Raspberry Pi兼容接口,支持自定义外设开发。
代际对比与场景价值
性能代差:相比前代Jetson AGX Xavier套件,Thor平台算力提升3倍,支持复杂SLAM算法实时运行。
部署效率:模块化设计使原型开发周期缩短40%,线束简化降低系统集成成本30%。
以下是关于NVIDIA Holoscan Sensor Bridge的技术架构与核心价值总结:
Holoscan Sensor Bridge设计哲学
开发效率革命
核心目标:通过传感器抽象层与硬件解耦,使开发者无需处理底层驱动适配,专注于算法开发。
支持传感器类型:覆盖摄像头、IMU、麦克风、编码器、电机控制器等主流机器人传感器。
数据传输架构创新
1.统一流平台
自定义UDP协议:采用轻量级包头压缩与数据分片技术,支持多传感器数据混合传输,带宽利用率提升40%。
硬件加速卸载:Thor架构的Offload Engine实现数据零拷贝直送GPU显存,端到端延迟低于1ms(相比传统方案降低5倍)。
2.模块化设计原则
即插即用支持:传感器接口标准化,更换同类型传感器无需修改上层代码,支持热插拔配置。
动态配置工具:提供Web界面与Python API,可实时调整采样率、数据格式等参数。
安全与合规保障
1.功能安全认证
SIL 2合规:满足IEC 61508标准,通过冗余校验与故障注入测试,确保关键传感器数据可靠性。
网络安全:支持TLS 1.3数据加密与硬件级防火墙,防御中间人攻击与数据篡改。
性能与扩展性优势
1.算力匹配
Thor架构协同:利用GPU的CUDA流与DLA加速器,支持4K@120fps视频流与10kHz IMU数据的并行处理。
多节点扩展:支持菊花链拓扑,单台设备可管理超过200个传感器节点。
开发者价值体现
开发周期压缩:传感器集成时间从数周缩短至数小时,典型ROS2节点开发效率提升60%。
维护成本降低:模块化设计减少70%以上因传感器升级导致的系统重构工作。
典型应用场景
工业人机协作:通过低延迟力觉传感器反馈,实现机械臂的亚毫秒级碰撞响应。
自动驾驶:融合LiDAR与摄像头数据,构建冗余感知系统,满足ASIL-B功能安全要求。
服务机器人:多麦克风阵列与视觉SLAM数据融合,提升动态避障精度。
在快速启动开发方面,我们发现客户在集成过程中有时需要额外时间。因此,我们不希望您必须等到完全集成后才能开始开发。通过我们的Thor平台,我们从I/O接口和接线设计两个维度优化了开发者套件,使您能轻松将其绑定到现有系统中。您也可以将传感器桥接模块(Sensor Bridge)加入系统,连接新传感器,从而立即开始开发。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-15,如有侵权请联系 cloudcommunity@tencent 删除机器人nvidia计算机模型设计