当前目录
全盘
查全部
文件夹
文件
主页
/
2022年
/
11月
/
007.百战程序员-AI算法工程师就业班2022年价值18980元重磅首发冲击百万年薪完结无秘
/
31--【加课】 强化学习【新增】
/
5--DDPG、PPO、DPPO算法
/
1-DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic【萌萌家】.mp4
10-代码实战_PPO与环境整体交互_Actor与Critic网络构建【萌萌家】.mp4
11-代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑【萌萌家】.mp4
12-代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示【萌萌家】.mp4
13-DPPO分布式PPO【萌萌家】.mp4
14-代码实战_DPPO_创建一个PPO和多个Worker_创建多线程【萌萌家】.mp4
15-代码实战_DPPO_GlobalPPO和Workers交替执行【萌萌家】.mp4
2-代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑【萌萌家】.mp4
3-代码实战_DDPG_Critic网络构建_Actor网络链式求导【萌萌家】.mp4
4-代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示【萌萌家】.mp4
5-TD3_使用DoubleNetwork优化DDPG【萌萌家】.mp4
6-PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy【萌萌家】.mp4
7-PPO_通过重要性采样使得PPO可以做Off-Policy学习【萌萌家】.mp4
8-PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题【萌萌家】.mp4
9-PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题【萌萌家】.mp4
Copyright © All rights reserved.
信息加载中,请等待...