Métodos de aprendizado baseados em amostras

coursera.inc

coursera.inc

Métodos de aprendizado baseados em amostras

Descrição

Prazos flexíveis

Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Certificado compartilhável
Ganhe um certificado após a conclusão
100% online
Comece instantaneamente e aprenda em sua própria programação.
Curso 2 de 4 no
Especialização do aprendizado de reforço
Nível intermediário
Probabilidades e expectativas, álgebra linear básica, cálculo básico, Python 3.0 (pelo menos 1 ano), implementando algoritmos de pseudocode
Aproximadamente. 22 horas para concluir
Inglês
Legendas: árabe, francês, português (europeu), italiano, vietnamita, alemão, russo, inglês, espanhol

Martha White
Professor assistente
Ciência da computação
Adam White
Professor assistente
Computing Sciencesyllabus – O que você aprenderá com este curso
Bem -vindo ao curso!
Bem-vindo ao segundo curso da Especialização de Aprendizagem de Reforço: métodos de aprendizado baseados em amostras, trazidos a você pela Universidade de Alberta, Onlea e Coursera. Neste módulo de pré-curso, você será apresentado aos seus instrutores e terá um sabor do que o curso tem reservado para você. Certifique -se de apresentar -se aos seus colegas de classe na seção “Meet and Greet”!
Métodos Monte Carlo para Previsão e Controle
Nesta semana, você aprenderá como estimar funções de valor e políticas ideais, usando apenas experiência amostrada no meio ambiente. Este módulo representa nosso primeiro passo em direção a métodos de aprendizado incremental que aprendem com a interação do próprio agente com o mundo, em vez de um modelo do mundo. Você aprenderá sobre os métodos de política e fora da política para previsão e controle, usando métodos de Monte Carlo — métodos que usam retornos amostrados. Você também será reintroduzido para o problema de exploração, mas geralmente em RL, além dos bandidos.
Métodos de aprendizado de diferença temporal para previsão
Nesta semana, você aprenderá sobre um dos conceitos mais fundamentais na aprendizagem de reforço: o aprendizado da diferença temporal (TD). O TD Learning combina algumas das características dos métodos Monte Carlo e de programação dinâmica (DP). Os métodos TD são semelhantes aos métodos de Monte Carlo, pois podem aprender com a interação do agente com o mundo e não exigem conhecimento do modelo. Os métodos TD são semelhantes aos métodos DP, pois eles bootstra e, portanto, podem aprender on-line-sem esperar até o final de um episódio. Você verá como o TD pode aprender com mais eficiência que Monte Carlo, devido ao bootstrapping. Para este módulo, primeiro focamos no TD para previsão e discutimos o TD para controle no próximo módulo. Nesta semana, você implementará TD para estimar a função de valor para uma política fixa, em um domínio simulado.
Métodos de aprendizado de diferença temporal para controle
Nesta semana, você aprenderá sobre o uso da diferença temporal de aprendizado para controle, como uma estratégia de iteração de políticas generalizadas. Você verá três algoritmos diferentes com base em equações de bootstrapping e Bellman para controle: SARSA, Q-Learning e Sarsa esperada. Você verá algumas das diferenças entre os métodos para controle na política e fora da política, e que o SARSA esperado é um algoritmo unificado para ambos. Você implementará SARSA e Q-Learning esperados, no Cliff World.
Planejamento, aprendizado e atuação
Até agora, você pode pensar que aprender com e sem um modelo é dois distintos e, de certa forma, estratégias concorrentes: planejar com programação dinâmica versículos aprendizado baseado em amostras por meio de métodos de TD. Nesta semana, unificamos essas duas estratégias com a arquitetura Dyna. Você aprenderá como estimar o modelo dos dados e, em seguida, usará esse modelo para gerar experiência hipotética (um pouco como sonhar) para melhorar drasticamente a eficiência da amostra em comparação com métodos baseados em amostra, como o Q-Learning. Além disso, você aprenderá a projetar sistemas de aprendizagem robustos para modelos imprecisos.

Módulos e Conteúdo

Pré-requisitos

Avaliações

Avaliações

Não há avaliações ainda.

Seja o primeiro a avaliar “Métodos de aprendizado baseados em amostras”

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Institucional

PHP Code Snippets Powered By : XYZScripts.com