Previsão e controle com aproximação de função

coursera.inc

coursera.inc

Previsão e controle com aproximação de função

Descrição

Prazos flexíveis

Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Certificado compartilhável
Ganhe um certificado após a conclusão
100% online
Comece instantaneamente e aprenda em sua própria programação.
Curso 3 de 4 no
Especialização do aprendizado de reforço
Nível intermediário
Probabilidades e expectativas, álgebra linear básica, cálculo básico, Python 3.0 (pelo menos 1 ano), implementando algoritmos do pseudocódigo.
Aproximadamente. 22 horas para concluir
Inglês
Legendas: árabe, francês, português (europeu), italiano, vietnamita, alemão, russo, inglês, espanhol

Martha White
Professor assistente
Ciência da computação
Adam White
Professor assistente
Computing Sciencesyllabus – O que você aprenderá com este curso
Bem -vindo ao curso!
Bem -vindo ao terceiro curso na especialização de aprendizado de reforço: previsão e controle com aproximação de funções, trazida a você pela Universidade de Alberta, Onlea e Coursera. Neste módulo de pré-curso, você será apresentado aos seus instrutores e terá um sabor do que o curso tem reservado para você. Certifique -se de apresentar -se aos seus colegas de classe na seção “Meet and Greet”!
Previsão na política com aproximação
Nesta semana, você aprenderá como estimar uma função de valor para uma determinada política, quando o número de estados for muito maior que a memória disponível para o agente. Você aprenderá como especificar uma forma paramétrica da função de valor, como especificar uma função objetiva e como estimar a descida do gradiente pode ser usada para estimar valores da interação com o mundo.
Construindo recursos para previsão
Os recursos usados ​​para construir as estimativas de valor do agente são talvez a parte mais crucial de um sistema de aprendizado bem -sucedido. Neste módulo, discutimos duas estratégias básicas para a construção de recursos: (1) base fixa que forma uma partição exaustiva da entrada e (2) adaptar os recursos enquanto o agente interage com o mundo por meio de redes neurais e retropropagação. Na avaliação graduada desta semana, você resolverá uma tarefa de previsão do estado simples, mas infinita, com uma rede neural e aprendizado de TD.
Controle com aproximação
Nesta semana, você verá que os conceitos e ferramentas introduzidos nos módulos dois e três permitem a extensão direta dos métodos clássicos de controle TD para a configuração de aproximação da função. Em particular, você aprenderá a encontrar a política ideal em MDPs de estado infinito, simplesmente combinando métodos TD semi-graduados com iteração de políticas generalizadas, produzindo métodos de controle clássico como Q-Learning e SARSA. Concluímos com uma discussão de uma nova formulação de problemas para RL — Recompensa média-que, sem dúvida, será usada em muitas aplicações de RL no futuro.
Gradiente de políticas
Todo algoritmo que você aprendeu até agora estima uma função de valor como uma etapa intermediária em direção ao objetivo de encontrar uma política ideal. Uma estratégia alternativa é aprender diretamente os parâmetros da política. Nesta semana, você aprenderá sobre esses métodos de gradiente de políticas e suas vantagens sobre os métodos baseados em função de valor. Você também aprenderá como os métodos de gradiente de políticas podem ser usados ​​para encontrar a política ideal em tarefas com espaços contínuos de estado e ação.

Módulos e Conteúdo

Pré-requisitos

Avaliações

Avaliações

Não há avaliações ainda.

Seja o primeiro a avaliar “Previsão e controle com aproximação de função”

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Institucional

PHP Code Snippets Powered By : XYZScripts.com