❤️博哥万T资源库,连续7年运营,全站囊括21大品类,资源天花板就在这里,一次投入永久更新
❤️由于资源容量太大,本站仅支持部分资源搜索,部分精选区和书库仅供展示,请点到具体分类中再进行搜索
❤️VIP会员搭载专属目录,可实现全网搜索,无需登陆网盘,专享资源在线下载权益。
❤️开通VIP会员,同时送百万书库+领袖商学员名家课程+2025年最新知识付费平台课程+2025年最新抖音大V课程+500T阿里夸克迅雷资源
❤️无论是否加入会员,都可以添加微信:bogesxy,备注888,免费邀请进入最新的阿里夸克迅雷资源分享群,每天分享各类最新资源
2025启航二区
2025启航一区
2025领袖商学院
2024领袖商学院
2024更新十区
2024更新九区
2024更新八区
2024更新七区
2024更新六区
2024更新五区
2024更新四区
2024更新三区
2024更新二区
2024更新一区
精选七区
精选六区
精选五区
精选四区
精选三区
精选二区
精选一区
书库四区
书库三区
书库二区
书库一区
稀缺二区
稀缺一区
精选素材
知识学院二区
知识学院一区
当前目录
全盘
查全部
文件夹
文件
主页
/
2025 B站专区
/
【2024年新增】
/
a312.梗直哥–强化学习必修课:引领智能新时代
/
1_1-1-课程内容和理念.mp4
1_10-1-基于模型的强化学习核心思想和原理.mp4
1_11-1模仿学习.mp4
1_12-1-项目实战:Gym游戏.mp4
1_2-1-线性代数.mp4
1_3-1-CUDA+Anaconda深度学习环境配置.mp4
1_4-1-序列建模与概率图模型.mp4
1_5-1-动态回归核心思想和原理.mp4
1_6-1-蒙特卡洛方法.mp4
1_7-1-深度Q网络核心思想和原理.mp4
1_8-1-策略梯度核心思想和原理.mp4
1_9-1-演员评论家算法核心思想和原理.mp4
2_1-2-认识强化学习.mp4
2_10-2-Dyna-Q算法.mp4
2_11-2-博弈论与强化学习.mp4
2_12-2-项目实战:大模型RLHF.mp4
2_2-2-微积分.mp4
2_3-2-conda使用命令.mp4
2_4-2-马尔可夫观测过程:学会“看”.mp4
2_5-2-策略迭代.mp4
2_6-2-时序差分方法.mp4
2_7-2-DQN-代码实现.mp4
2_8-2-蒙特卡洛策略梯度.mp4
2_9-2-改进型演员评论家算法.mp4
3_1-3-课程使用的技术栈.mp4
3_10-3-Dyna-Q算法代码实现.mp4
3_11-3-多智能体强化学习.mp4
3_12-3-强化学习最新发展趋势.mp4
3_2-3-概率.mp4
3_3-3-Jupyter-Notebook快速上手.mp4
3_4-3-马尔可夫决策过程:试着-“干”.mp4
3_5-3-价值迭代.mp4
3_6-3-蒙特卡洛方法和时序差分代码实现.mp4
3_7-3-常见问题改进和扩展.mp4
3_8-3-策略梯度方法代码实现.mp4
3_9-3-演员评论家算法代码实现.mp4
4_10-4-基于模型的策略优化.mp4
4_11-4-MADDP的代码实现.mp4
4_12-4-下一步的学习建议.mp4
4_3-4-仿真环境Gym安装.mp4
4_4-4-马尔可夫奖励过程:懂得“想”.mp4
4_5-4-动态规划代码实现.mp4
4_6-4-广义策略迭代.mp4
4_7-4-DQN改进算法代码实现.mp4
4_8-4-近端策略优化算法.mp4
4_9-4-深度确定性策略梯度.mp4
5_10-5-MBPO的代码实现.mp4
5_11-5-AlphaStar系统.mp4
5_3-5-深度学习库PyTorch的安装.mp4
5_4-5-贝尔曼方程:迭代求解价值函数.mp4
5_6-5-Q-Learning算法.mp4
5_8-5-近端策略优化(PPO)代码实现.mp4
5_9-5-DDPG算法代码实现.mp4
6_11-6-基于人类反馈大强化学习.mp4
6_4-6-模型分类与选择.mp4
6_6-6-SARSA算法.mp4
6_9-6-软性演员评论家算法.mp4
7_4-7-常见问题解析.mp4
7_6-7-Q-Learning&SARSA代码实现.mp4
7_9-7-SAC代码实现.mp4
8_4-8-马尔可夫过程代码实现.mp4
Copyright © All rights reserved.
信息加载中,请等待...