信息加载中,请等待...

  • 001.1-1 课程内容和理念.mp4
  • 002.1-2 认识强化学习.mp4
  • 003.1-3 课程使用的技术栈.mp4
  • 004.2-1 线性代数.mp4
  • 005.2-2 微积分.mp4
  • 006.2-3 概率.mp4
  • 007.3-1 CUDA+Anaconda深度学习环境配置.mp4
  • 008.3-2 conda使用命令.mp4
  • 009.3-3 Jupyter Notebook快速上手.mp4
  • 010.3-4 仿真环境Gym安装.mp4
  • 011.3-5 深度学习库PyTorch的安装.mp4
  • 012.4-1 序列建模与概率图模型.mp4
  • 013.4-2 马尔可夫观测过程:学会“看”.mp4
  • 014.4-3 马尔可夫决策过程:试着 “干”.mp4
  • 015.4-4 马尔可夫奖励过程:懂得“想”.mp4
  • 016.4-5 贝尔曼方程:迭代求解价值函数.mp4
  • 017.4-6 模型分类与选择.mp4
  • 018.4-7 常见问题解析.mp4
  • 019.4-8 马尔可夫过程代码实现.mp4
  • 020.5-1 动态回归核心思想和原理.mp4
  • 021.5-2 策略迭代.mp4
  • 022.5-3 价值迭代.mp4
  • 023.5-4 动态规划代码实现.mp4
  • 024.6-1 蒙特卡洛方法.mp4
  • 025.6-2 时序差分方法.mp4
  • 026.6-3 蒙特卡洛方法和时序差分代码实现.mp4
  • 027.6-4 广义策略迭代.mp4
  • 028.6-5 Q-Learning算法.mp4
  • 029.6-6 SARSA算法.mp4
  • 030.6-7 Q-Learning&SARSA代码实现.mp4
  • 031.7-1 深度Q网络核心思想和原理.mp4
  • 032.7-2 DQN 代码实现.mp4
  • 033.7-3 常见问题改进和扩展.mp4
  • 034.7-4 DQN改进算法代码实现.mp4
  • 035.8-1 策略梯度核心思想和原理.mp4
  • 036.8-2 蒙特卡洛策略梯度.mp4
  • 037.8-3 策略梯度方法代码实现.mp4
  • 038.8-4 近端策略优化算法.mp4
  • 039.8-5 近端策略优化(PPO)代码实现.mp4
  • 040.9-1 演员评论家算法核心思想和原理.mp4
  • 041.9-2 改进型演员评论家算法.mp4
  • 042.9-3 演员评论家算法代码实现.mp4
  • 043.9-4 深度确定性策略梯度.mp4
  • 044.9-5 DDPG算法代码实现.mp4
  • 045.9-6 软性演员评论家算法.mp4
  • 046.9-7 SAC代码实现.mp4
  • 047.10-1 基于模型的强化学习核心思想和原理.mp4
  • 048.10-2 Dyna-Q算法.mp4
  • 049.10-3 Dyna-Q算法代码实现.mp4
  • 050.10-4 基于模型的策略优化.mp4
  • 051.10-5 MBPO的代码实现.mp4
  • 052.11-1模仿学习.mp4
  • 053.11-2 博弈论与强化学习.mp4
  • 054.11-3 多智能体强化学习.mp4
  • 055.11-4 MADDP的代码实现.mp4
  • 056.11-5 AlphaStar系统.mp4
  • 057.11-6 基于人类反馈大强化学习.mp4
  • 058.12-1 项目实战:Gym游戏.mp4
  • 059.12-2 项目实战:大模型RLHF.mp4
  • 060.12-3 强化学习最新发展趋势.mp4
  • 061.12-4 下一步的学习建议.mp4
1.本站不存储真实文件,仅展示文件信息。
2.用户自主配置内容,包括但不限于文件夹、链接、关联网盘等,不代表本站立场。
3.本站以文本、图片展示内容,无法及时审核其合法性。发现侵权内容,请提供资质及链接给客服,将立即移除。
官网:pan.tpym.cn QQ:851232718