CloudStudio 公开课

Cloud Studio既是面向广大代码创作者的云端集成开发环境（WebIDE）、也是人工智能与编程教学所用的“AI编码数字教室”。

CloudStudio “ AI 编码数字教室”为编程实训教师提供如下能力，符合教改核心方针，降低人工智能实训、编码教学的普及门槛，使规模化教学没有卡点。

开箱即用的 CPU/GPU 算力空间， IDE 环境连接云上算力，可基于项目情况调整配置、开发并查看运行效果
提供全功能云端 IDE ，预置 30 多种语言与 AI 模版，无需下载安装，随时随地进行编码，拥有流畅的编码体验
具备持久化快速加载能力，云上文件存储保障开发文件随开随写，随时保存

教学管理支持，包括：云资源分配与管理、课程制作管理与分享；学生一键加入、作业行为数据上传分析

图片

内置腾讯云 AI 代码助手，支持技术对话、 AI 内容生成，免登陆免费使用，实现 AI 助教、助学
可标准化轻量集成至校方已有教学平台

CloudStudio 公开课

Cloud Studio 逐步推出有代表性优质课程，今天向大家分享《DeepSeek R1 模型训练与优化实战》，这套教程系统解析了DeepSeek R1推理模型的多阶段强化学习与监督微调技术框架，适合AI开发者和研究者掌握前沿大模型训练范式，实现复杂任务场景下的模型性能突破与低成本高效部署。

第一章：环境设置与数据准备

1.1 课程介绍

1.2 环境配置

1.3 训练数据集选择

第二章：模型架构与训练框架

2.1 DeepSeek R1 训练快速概述

2.2 选择基本模型

2.3 RL 策略模型（R）

第三章：GRPO 算法与训练流程

3.1 R1 Zero 的 GRPO 算法

3.2 提示模板

3.3 预处理训练数据

3.4 R1 Zero 训练配置

3.5 GRPO 训练循环

第四章：奖励函数设计

4.1 准确度奖励

4.2 赛制奖励

4.3 推理步骤奖励

4.4 余弦缩放奖励

4.5 重复惩罚奖励

4.6 保存 Tiny R1 Zero LLM

4.7 R1 Zero 的两个主要问题

第五章：监督微调（SFT）阶段1学习

5.1 Long CoT Few-shot

5.2 直接提示

5.3 后处理优化

5.4 SFT 阶段1（冷启动）

5.5 SFT Trainer 配置

5.6 阶段1训练循环

5.7 保存我们的小小R1模型

第六章：SFT 阶段2与后续优化

6.1 以推理为导向的强化学习

6.2 拒绝采样

6.3 SFT 阶段2后续训练

6.4 模型蒸馏

如何使用 CloudStudio 公开课

第一步

进入 cloudstudio ——【学习中心】——【DeepSeek R1 模型训练与优化实战】

图片

第二步

点击章节进入学习

图片

第三步

进入具体章节，例如【1.3 训练数据集选择】章节。如下图所示，学习者可以：

在【教案区域】观看教学内容

使用 AI 代码助手进行代码解读

图片

加入 Cloud Studio 自媒体特权计划

我们推出针对为 Cloud Studio 宣传的自媒体特权计划，招募长期合作的内容创作者，创作者将永久被授予 20000 分钟/月的基础版 GPU 使用配额。

20000分钟（333小时） 8+TFlops 算力、16GB+显存的使用配额！什么概念！

可以系统化地利用 DeepSeek R1 模型实现从模型优化到实际落地的完整闭环。可生成数十万 10 万条营销文案、可提供稳定的高并发实时 API 服务。

心动吗？

还等啥呢？！

快来体验吧！！

参与方式

可至「CloudStudio」官方公众号联系参与

入选标准

● 拥有自媒体账号，且输出稳定

● 过往具备 Cloud Studio 相关分享经验，且具备干货内容

● 长期使用 Cloud Studio 进行工作、学习

希望创作者

1. 在 ide.cloud.tencent 平台上使用 DeepSeek 相关模板

2. 将实践经验以视频或文章的方式发布到任意媒体渠道（包括但不限于B站、抖音、小红书、个人博客等）。实践内容包含但不限于模型推理、创建知识库、构建个人应用等。每月至少分享两次。

注意：我们鼓励原创和真实，请不要抄袭、搬运他人内容。

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

CloudStudio 公开课

CloudStudio 公开课

与本文相关的文章

评论列表(0)