最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

深度揭秘NVIDIA 第三代计算机Jetson Thor

网站源码admin1浏览0评论

深度揭秘NVIDIA 第三代计算机Jetson Thor

现在,我将为大家简要介绍我们的第三代计算机——Thor。

在开始深入细节之前,我想先谈谈我们的观察。我们开发Jetsen和边缘AI已有超过10年的时间,在机器人领域发现了许多共性。

从历史上看,大多数应用都是专用型的,正如UK和Jim提到的那样——它们执行单一固定功能,无论是工厂里的AMR(自主移动机器人)专注于感知和搬运,还是最后一公里配送中的导航。但过去12-18个月,随着生成式AI的崛起,我们也看到了人形机器人的兴起。这正是我们在开发第三代计算机时重点考虑的方向。

在开发这台计算机时,我们思考了构建人形机器人所需的核心要素。

通过研究发现,不同人形机器人存在通用架构,包含四个层级:

1.基础层:集成多种传感器

-摄像头(用于环境感知)

-IMU(惯性测量单元)和致动器(控制机器人运动)

-音频/麦克风(实现人机交互)

-位置传感器(编码动作并反馈响应)

2.计算平台层:作为硬件支撑

3.双脑架构层:

-实时控制脑:专注于低延迟控制框架(如速度、位置、扭矩控制),需100Hz-1kHz控制频率,确保机器人稳定不摔倒

-感知规划脑:处理混合关键性任务(如物体识别、动态抓取、场景理解),频率范围1-30Hz

4.应用部署层:考虑客户如何在我们的计算平台上部署这些应用

以上是我们对机器人技术发展路径的深度思考。"

现在我将分享更多关于NVIDIA Thor的信息。

它被设计为人形机器人的终极平台,专为通过边缘Transformer模型加速的安全下一代机器人打造。Thor包含四大核心支柱:

1. 超级计算机级算力

-性能飞跃

算力从800 FP8 TFLOPS提升至2 PetaFLOPS FP4(推测为优化后的低精度浮点运算),支持边缘端部署超大型Transformer模型。

兼容NVIDIA Omniverse仿真开发环境,实现「仿真-部署」无缝衔接。

-架构优势

专为复杂人形机器人设计,支持多模态AI模型并行计算(如视觉、语音、运动规划)。

2. 高速传感器融合系统

-I/O能力

支持425Gb以太网,带宽较前代提升10倍,满足多传感器(激光雷达、摄像头等)数据流实时传输需求。

-Holoscan Sensor Bridge

功能:通用传感器数据接入层,自动转换协议并优化至GPU内存。

延迟优化:通过硬件卸载引擎(Offload Engine)实现传感器数据到GPU的纳秒级响应,支持实时决策。

3. 三层安全体系

-平台级安全

功能安全岛:4核锁步R50 CPU独立运行,实时监测系统错误,符合ISO 26262等车规标准。

硬件隔离:独立安全区域(Safety Island)确保关键任务不受主系统干扰。

-端到端安全(SIL 2认证)

传感器-计算链路:通过Holoscan框架加密传输,防止数据篡改。

冗余设计:关键传感器数据多路径传输,确保故障时系统可用性。

-AI增强安全

本地感知:机器人通过自身传感器构建环境模型(如动态障碍物检测)。

外部协同:支持工厂级传感器网络数据融合(如预警盲区人员接近)。

4. 全栈安全防护

-平台层

安全启动(Secure Boot)、内存加密、防物理攻击设计。

-模型层

IP保护:支持自定义AI模型加密,防止逆向工程。

运行时监控:检测模型异常行为,防止对抗攻击。

-边缘-云协同

固件TPM:基于硬件的安全芯片实现边缘设备与云端通信的身份认证。

端到端加密:保障云边协同时的数据完整性。

以下是针对NVIDIA Jetson及Thor平台性能跃升关键点的结构化整理与分析:

一、核心性能突破:Blackwell架构的革新

1.Transformer引擎原生支持低精度计算

FP4/FP8精度优化:新架构内置Transformer引擎,直接支持FP4(4位浮点)和FP8(8位浮点)运算,显著降低大规模Transformer模型(如GPT、BERT)的推理功耗与延迟。

应用场景适配:低精度计算对生成式AI、自然语言处理(NLP)等任务至关重要,可在保证模型精度的前提下提升吞吐量。

2.多实例GPU(MIG)技术下沉至边缘端

硬件级任务隔离:首次在嵌入式平台支持MIG,允许将单个GPU物理划分为多个独立实例(如2个虚拟GPU),分别处理高优先级(低延迟)和低优先级任务。

混合关键性场景优化:例如机器人控制中,实时传感器数据处理与后台导航算法可并行运行,避免资源争抢。

二、系统级整合与硬件升级

1.模块化设计:187mm高度集成

全栈融合:集成GPU、CPU、加速器(如NVDLA)、内存及电源管理单元,体积缩小至187mm,适用于空间受限的嵌入式设备(如人形机器人、无人机)。

2.CPU与内存性能翻倍

CPU算力提升:Jetson AGX Thor配备14核CPU(含AE扩展核心),性能达前代2.6倍,强化实时控制(如电机驱动、传感器融合)。

内存带宽突破:容量翻倍至128GB,带宽达273GB/s,支持超大规模模型本地加载与高速数据吞吐。

3.I/O效率革命性提升

10倍I/O增速:通过PCIe Gen5、NVLink等高速接口,加速传感器数据输入与模型输出,减少系统延迟瓶颈。

三、技术协同与场景价值

AI与实时控制的平衡:Transformer引擎+MIG的组合,既满足AI大模型推理需求,又通过硬件隔离保障实时控制(如工业质检中的缺陷检测与机械臂响应)。

边缘部署成本优势:模块化设计降低功耗与散热需求,支持更多场景(如自动驾驶舱、智能零售)的本地化AI部署。

Jetson Thor会在今年6月份上市

以下是针对NVIDIA Jetson SoC架构的详细技术解析与升级亮点总结:

一、异构计算架构:GPU与CUDA性能突破

1.GPU模块化设计

三集群架构:GPU分为3个独立集群,支持通过MIG技术灵活划分计算资源(如1/3或2/3 GPC分配),实现多任务并行与资源隔离。

算力跃升:CUDA FP32性能达8 TFLOPS,较上一代显著提升,满足复杂AI模型与高吞吐计算需求。

2.计算资源动态调配

MIG应用场景:例如将1个GPC用于低延迟传感器数据处理(如SLAM),另2个GPC用于大模型推理,避免任务间干扰。

二、CPU与安全增强设计

1.Poseidon AE核心集群

ARM V9架构:多核CPU支持最新指令集,提升单线程性能与能效比,适配边缘端实时控制任务。

异构计算协同:CPU与GPU/加速器通过共享内存架构实现无缝数据交换,简化传感器预处理/后处理流程。

2.安全子系统升级

平台安全控制器:提供硬件级安全启动与加密功能,保护AI模型与数据隐私。

功能安全岛:支持ASIL-D等级功能安全认证,满足汽车与工业场景的严苛安全要求。

三、专用加速器矩阵与软件生态

1.多样化加速器集群

视觉计算引擎(PVA):可编程硬件加速CV算法(如特征提取、目标检测),降低CPU/GPU负载。

光流加速器(OFA):实时计算像素运动矢量,优化SLAM与动态跟踪性能。

传统加速器:集成ISP(图像处理)、视频编解码器(数量翻倍,支持8K多流),提升多媒体处理能力。

2.统一编程接口

Vision Programming Interface:提供跨加速器(PVA/OFA)的统一开发框架,兼容前代Orin平台,缩短开发周期。

四、I/O与内存子系统革新

1.高速接口扩展

网络:425Gb以太网支持车载以太网与数据中心级吞吐。

扩展性:12通道PCIe Gen5(双向24GT/s)、16通道CSI-2(适配高分辨率摄像头阵列)。

传感器支持:丰富I/O接口覆盖工业协议(如CAN FD)、GPS等,满足多模态传感器融合需求。

2.内存带宽突破

LPDDR5X支持:带宽较LPDDR4X提升50%,适配超大规模模型本地加载与高频内存访问场景。

五、代际对比与场景价值

1.性能代差:相比Orin,Thor在编解码能力(翻倍)、内存带宽(LPDDR5X)、I/O扩展性(PCIe Gen5)上全面升级,支持更复杂的机器人控制、多传感器融合与AI工作流。

2.开发兼容性:Vision Interface的前向兼容性允许开发者在Orin平台预研PVA/OFA算法,平滑过渡到Thor。

以下是关于NVIDIA Jetson平台软件的详细技术解析与升级亮点总结:

平台软件架构分层解析

1.应用层加速开发框架

核心目标:提供预集成算法库(如计算机视觉、语音处理)与开发者工具链(SDK),缩短AI模型部署周期。

典型场景:开发者可直接调用优化后的ResNet、YOLO模型,或通过Transfer Learning工具微调模型。

2.基础层软件栈

关键组件:

CUDA/cuDNN:加速深度学习推理与训练。

TensorRT:优化模型部署,支持INT8量化与层融合。

多媒体框架:GStreamer插件支持多摄像头流同步处理。

操作系统与内核升级

1.长期支持版本

Ubuntu 20.04 LTS:提供5年安全更新,确保工业与车载场景的稳定性。

内核升级至6.8:支持最新硬件特性(如PCIe Gen5、CXL协议),并优化调度器降低延迟。

2.Jetpack 7工具套件

新功能:

多实例GPU(MIG)增强:支持动态划分GPU资源为多个虚拟机或容器。

Thor平台启用:提供新一代SoC的底层驱动与电源管理优化。

实时计算关键升级

1.PREEMPT_RT补丁支持

技术原理:通过可抢占内核设计,将最坏情况延迟从毫秒级降低至微秒级。

应用场景:满足工业机器人运动控制、自动驾驶刹车系统等硬实时需求。

2.实时性优化措施

内核隔离:为实时任务保留专用CPU核心,避免非关键进程干扰。

内存锁页:防止关键数据被交换至磁盘,保障实时任务内存访问速度。

开发者体验提升

1.容器化部署:通过Docker集成,实现算法跨Jetson平台(如Orin/Thor)的无缝迁移。

2.OTA升级:支持通过DNF/APT工具直接更新Jetpack组件,无需完整镜像烧录。

代际对比与场景价值

1.性能代差:相比前代Jetpack 5,Jetpack 7的TensorRT 8.6支持稀疏性优化,INT8推理吞吐提升40%。

2.实时性突破:PREEMPT_RT补丁使99%任务在100μs内完成响应,满足ISO 26262 ASIL-B要求。

以下是关于NVIDIA Jetson开发者套件的深度技术解析与升级亮点总结:

开发者套件硬件架构

1.核心模块与载板设计

模块化设计:采用SoM(System on Module)+ 载板分离架构,支持快速原型验证与定制化载板开发。

散热优化:集成液态金属导热+双风扇散热方案,确保高负载AI推理(如Transformer模型)下的稳定运行。

I/O接口布局革新

1.单侧集中化设计

设计逻辑:将所有I/O接口集中于载板单侧,简化与现有机器人系统的线束连接,降低部署复杂度。

关键接口:

-25Gbps QSFP+:支持高速网络扩展,适用于多机器人协同或边缘服务器场景。

-多屏显示:提供HDMI 2.1 + DP 1.4双接口,支持8K@60fps输出,适用于AR/VR头显开发。

-USB增强:配置USB4.0 Type-C接口,支持PD供电与高速数据传输。

传感器扩展能力

-自动化接口:提供CAN FD、RS-485等工业协议接口,适配伺服电机与工业传感器。

-电源扩展:通过Micro-Fit连接器支持外部电源输入,满足多外设供电需求。

存储与无线升级

1.1TB NVMe集成

性能提升:相比前代eMMC存储,顺序读取速度提升6倍,支持大型数据集本地缓存。

扩展性:预留M.2 2280插槽,可组建RAID阵列或扩展至4TB存储。

2.无线模块扩展

双模支持:默认集成Wi-Fi 6E + 蓝牙5.2模块,可选配5G Sub-6模块实现广域网连接。

天线设计:采用多频段MIMO天线,优化复杂环境下的无线信号稳定性。

开发者体验优化

1.快速启动工具链

-SDK集成:预装Jetpack 7开发环境,支持一键部署ROS 2、Isaac ROS等机器人框架。

-容器化支持:通过NVIDIA L4T容器运行时,实现算法跨Jetson平台无缝迁移。

2.诊断与调试工具

硬件监控:集成INA3221功率监测芯片,实时跟踪核心模块功耗与温度。

GPIO扩展:提供40-pin Raspberry Pi兼容接口,支持自定义外设开发。

代际对比与场景价值

性能代差:相比前代Jetson AGX Xavier套件,Thor平台算力提升3倍,支持复杂SLAM算法实时运行。

部署效率:模块化设计使原型开发周期缩短40%,线束简化降低系统集成成本30%。

以下是关于NVIDIA Holoscan Sensor Bridge的技术架构与核心价值总结:

Holoscan Sensor Bridge设计哲学

开发效率革命

核心目标:通过传感器抽象层与硬件解耦,使开发者无需处理底层驱动适配,专注于算法开发。

支持传感器类型:覆盖摄像头、IMU、麦克风、编码器、电机控制器等主流机器人传感器。

数据传输架构创新

1.统一流平台

自定义UDP协议:采用轻量级包头压缩与数据分片技术,支持多传感器数据混合传输,带宽利用率提升40%。

硬件加速卸载:Thor架构的Offload Engine实现数据零拷贝直送GPU显存,端到端延迟低于1ms(相比传统方案降低5倍)。

2.模块化设计原则

即插即用支持:传感器接口标准化,更换同类型传感器无需修改上层代码,支持热插拔配置。

动态配置工具:提供Web界面与Python API,可实时调整采样率、数据格式等参数。

安全与合规保障

1.功能安全认证

SIL 2合规:满足IEC 61508标准,通过冗余校验与故障注入测试,确保关键传感器数据可靠性。

网络安全:支持TLS 1.3数据加密与硬件级防火墙,防御中间人攻击与数据篡改。

性能与扩展性优势

1.算力匹配

Thor架构协同:利用GPU的CUDA流与DLA加速器,支持4K@120fps视频流与10kHz IMU数据的并行处理。

多节点扩展:支持菊花链拓扑,单台设备可管理超过200个传感器节点。

开发者价值体现

开发周期压缩:传感器集成时间从数周缩短至数小时,典型ROS2节点开发效率提升60%。

维护成本降低:模块化设计减少70%以上因传感器升级导致的系统重构工作。

典型应用场景

工业人机协作:通过低延迟力觉传感器反馈,实现机械臂的亚毫秒级碰撞响应。

自动驾驶:融合LiDAR与摄像头数据,构建冗余感知系统,满足ASIL-B功能安全要求。

服务机器人:多麦克风阵列与视觉SLAM数据融合,提升动态避障精度。

在快速启动开发方面,我们发现客户在集成过程中有时需要额外时间。因此,我们不希望您必须等到完全集成后才能开始开发。通过我们的Thor平台,我们从I/O接口和接线设计两个维度优化了开发者套件,使您能轻松将其绑定到现有系统中。您也可以将传感器桥接模块(Sensor Bridge)加入系统,连接新传感器,从而立即开始开发。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-15,如有侵权请联系 cloudcommunity@tencent 删除机器人nvidia计算机模型设计
发布评论

评论列表(0)

  1. 暂无评论