31、【加课】强化学习【新增】 - 猎人搜索 轻松搜寻全网资源

  • file:49:代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4
  • file:50:代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4
  • file:45:Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4
  • file:40:AdvantageActorCritic_共享参数和修改reward技巧.mp4
  • file:44:A3C架构和训练流程.mp4
  • file:46:代码实战_A3C_讲解Coordinator调度多线程运算.mp4
  • file:47:代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4
  • file:43:代码实战_详解Critic网络构建及训练.mp4
  • file:52:代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4
  • file:39:ActorCritic原理_把PG和QLearning结合起来.mp4
  • file:48:代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4
  • file:5:蒙特卡洛和时序差分估算状态V值.mp4
  • file:1:强化学习通过智能体与环境交互进行学习.mp4
  • file:12:代码实战Sarsa_Agent选择行为和训练模型.mp4
  • file:3:详解Q值和V值以及它们之间关系.mp4
  • file:7:理解Q-table_创建maze交互环境.mp4
  • file:8:代码实战Q-Learning_Agent和Env整体交互.mp4
  • file:6:SARSA算法和Q-learning算法.mp4
  • file:10:代码实战Q-Learning智能体训练模型.mp4
  • file:2:引入马尔科夫链和价值评估的Q值与V值.mp4
  • file:53:DDPG解决DQN不能输出连续型动作的问题_DDPG如何训练Actor和Critic.mp4
  • file:66:代码实战_DPPO_创建一个PPO和多个Worker_创建多线程.mp4
  • file:58:PPO_强调AC如何输出连续型动作_区分On-Policy与Off-Policy.mp4
  • file:56:代码实战_DDPG_与环境之间的互动_AC训练调整参数_效果展示.mp4
  • file:59:PPO_通过重要性采样使得PPO可以做Off-Policy学习.mp4
  • file:62:代码实战_PPO与环境整体交互_Actor与Critic网络构建.mp4
  • file:61:PPO_PPO1、TRPO、PPO2三种不同的方式解决两个分布不同的问题.mp4
  • file:57:TD3_使用DoubleNetwork优化DDPG.mp4
  • file:65:DPPO分布式PPO.mp4
  • file:63:代码实战_定义PPO1和PPO2不同版本Actor的Loss计算逻辑.mp4
  • file:60:PPO_重要性采样的问题_期望矫正但是方差还是不同带来的问题.mp4
  • file:54:代码实战_DDPG_构建Actor和Critic四个网络_定义Critic求loss和求梯度的逻辑.mp4
  • file:55:代码实战_DDPG_Critic网络构建_Actor网络链式求导.mp4
  • file:64:代码实战_剖析PPO代码中如何体现Off-Policy的学习方式_效果展示.mp4
  • file:36:代码实战_策略梯度PG选择行为和参数训练.mp4
  • file:32:策略梯度PG_总结整体流程_对比交叉熵损失函数求导.mp4
  • file:37:策略梯度PG_对TotalReward进行均值归一化.mp4
  • file:30:策略梯度PG_明确目标函数和导函数.mp4
  • file:29:策略梯度PG_对比基于值和基于策略网络的区别.mp4
  • file:33:策略梯度PG_讲解CartPole环境.mp4
  • file:38:策略梯度PG_同一个回合中不同的action回溯不同的TotalReward_代码实战.mp4
  • file:16:ε-greedy_ReplayBuffer_FixedQ-targets.mp4
  • file:26:困难样本挖掘_Multi-step_NoiseyNet系统的探索.mp4
  • file:24:DoubleDQN代码实战.mp4
  • file:25:DuelingDQN.mp4
  • file:14:DQN算法思想.mp4
  • file:21:代码实战DQN_训练阶段最小化损失_记录loss方便展示_随着learn的越多选择action随机性减小.mp4
  • file:23:DoubleDQN缓解over-estimate.mp4
  • file:20:代码实战DQN_训练阶段得到Q网络的预测值和真实值.mp4
  • file:18:代码实战DQN_构建Q网络.mp4
  • file:27:计算Action的方差避免风险.mp4
  • file:19:代码实战DQN_定义损失函数_构建Target网络更新逻辑.mp4
  • file:28:Rainbow_DQN如何计算连续型的Actions.mp4
  • folder:31、【加课】强化学习【新增】
  • folder:章节4:ActorCritic(A3C)
  • folder:章节1:Q-Learning与SARSA算法
  • folder:章节5:DDPG、PPO、DPPO算法
  • folder:章节3:PolicyGradient策略梯度
  • folder:章节2:DeepQ-LearningNetwork
分享时间 2025-03-25
入库时间 2025-03-25
状态检测 有效
资源类型 QUARK
分享用户 荷*
资源有问题? 点此举报

相似推荐

  • 31、【加课】强化学习【新增】
  • 游戏化趣学Web前端
  • 三国群英传
  • Deepseek课程教程大合集
  • 初二物理 郭志强
  • 25、【加课】百度飞桨PaddlePaddle实战【新增】
  • 【01】2024语文课程
  • DeepSeek
  • DeepSeek
  • 【公考】行测判断推理手写强化总结笔记合集

用户其它资源

  • 安卓手机游戏《行尸走肉3》[完整版]Steam移植
  • Top182.布达佩斯大饭店.The.Grand.Budapest.Hotel.2014.Bluray.1080p.x265.AAC(5.1).2Audios.GREENOTEA.mkv
  • 基本建设管理实施细则
  • 基本建设管理实施细则(1)
  • 安卓手机游戏《博德之门2增强版 v2.6.6.12》(支持安卓14游玩)[完整版+DLC]用mt管理器安装Steam移植
  • 安卓手机游戏《幽浮2典藏合集1.5.4RC2》(用MT管理器安装)[完整版+DLC]Steam移植
  • 【81】全新短视频表情包项目,一部手机轻松操作,单日最高收入568元(2)
  • ❤赤脚医生手册 (旧版+新版+教材)
  • 最新微信视频号无人直播课程
  • 功fu熊猫全集

最新资源

  • 黄梅戏-到底人间欢乐多.wma
  • 000826_Z《字符战场:生存之战(Glyphica Typing Survival)》最新 中文版
  • 霸天武神-风舞云合作(1).txt
  • 霸体无敌系统-爱吃蛋黄酥(1).txt
  • 霸统天下-迟到公子(1).txt
  • 霸天神尊-月冷风轻(1).txt
  • 阿媚-淡樱.txt
  • 黄梅戏-扮皇帝.wma
  • 黄梅戏&越剧-十八相送.wma
  • 813-黄梅戏 - 状元郎.wma