31、【加课】强化学习【新增】 - 猎人搜索轻松搜寻全网资源

file:49：代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4
file:50：代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4
file:45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4
file:40：AdvantageActorCritic_共享参数和修改reward技巧.mp4
file:44：A3C架构和训练流程.mp4
file:46：代码实战_A3C_讲解Coordinator调度多线程运算.mp4
file:47：代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4
file:43：代码实战_详解Critic网络构建及训练.mp4
file:52：代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4
file:39：ActorCritic原理_把PG和QLearning结合起来.mp4
file:48：代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4
file:5：蒙特卡洛和时序差分估算状态V值.mp4
file:1：强化学习通过智能体与环境交互进行学习.mp4
file:12：代码实战Sarsa_Agent选择行为和训练模型.mp4
file:3：详解Q值和V值以及它们之间关系.mp4
file:7：理解Q-table_创建maze交互环境.mp4
file:8：代码实战Q-Learning_Agent和Env整体交互.mp4
file:6：SARSA算法和Q-learning算法.mp4
file:10：代码实战Q-Learning智能体训练模型.mp4
file:2：引入马尔科夫链和价值评估的Q值与V值.mp4
file:53：DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic.mp4
file:66：代码实战_DPPO_创建一个PPO和多个Worker_创建多线程.mp4
file:58：PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy.mp4
file:56：代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示.mp4
file:59：PPO_通过重要性采样使得PPO可以做Off-Policy学习.mp4
file:62：代码实战_PPO与环境整体交互_Actor与Critic网络构建.mp4
file:61：PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题.mp4
file:57：TD3_使用DoubleNetwork优化DDPG.mp4
file:65：DPPO分布式PPO.mp4
file:63：代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑.mp4
file:60：PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题.mp4
file:54：代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑.mp4
file:55：代码实战_DDPG_Critic网络构建_Actor网络链式求导.mp4
file:64：代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示.mp4
file:36：代码实战_策略梯度PG选择行为和参数训练.mp4
file:32：策略梯度PG_总结整体流程_对比交叉熵损失函数求导.mp4
file:37：策略梯度PG_对TotalReward进行均值归一化.mp4
file:30：策略梯度PG_明确目标函数和导函数.mp4
file:29：策略梯度PG_对比基于值和基于策略网络的区别.mp4
file:33：策略梯度PG_讲解CartPole环境.mp4
file:38：策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战.mp4
file:16：ε-greedy_ReplayBuffer_FixedQ-targets.mp4
file:26：困难样本挖掘_Multi-step_NoiseyNet系统的探索.mp4
file:24：DoubleDQN代码实战.mp4
file:25：DuelingDQN.mp4
file:14：DQN算法思想.mp4
file:21：代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小.mp4
file:23：DoubleDQN缓解over-estimate.mp4
file:20：代码实战DQN_训练阶段得到Q网络的预测值和真实值.mp4
file:18：代码实战DQN_构建Q网络.mp4
file:27：计算Action的方差避免风险.mp4
file:19：代码实战DQN_定义损失函数_构建Target网络更新逻辑.mp4
file:28：Rainbow_DQN如何计算连续型的Actions.mp4
folder:31、【加课】强化学习【新增】
folder:章节4：ActorCritic(A3C)
folder:章节1：Q-Learning与SARSA算法
folder:章节5：DDPG、PPO、DPPO算法
folder:章节3：PolicyGradient策略梯度
folder:章节2：DeepQ-LearningNetwork

分享时间	2025-03-25
入库时间	2025-03-25
状态检测	有效
资源类型	QUARK
分享用户	荷*

资源有问题？点此举报

31、【加课】强化学习【新增】 - 猎人搜索轻松搜寻全网资源

相似推荐

用户其它资源

最新资源

31、【加课】强化学习【新增】 - 猎人搜索 轻松搜寻全网资源

相似推荐

用户其它资源

最新资源

31、【加课】强化学习【新增】 - 猎人搜索轻松搜寻全网资源