Aprendizado de máquina: Clustering & amp; Recuperação

coursera.inc

coursera.inc

Aprendizado de máquina: Clustering & amp; Recuperação

Descrição

Prazos flexíveis

Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Certificado compartilhável
Ganhe um certificado após a conclusão
100% online
Comece instantaneamente e aprenda em sua própria programação.
Curso 4 de 4 no
Especialização do aprendizado de máquina
Aproximadamente. 17 horas para concluir
Inglês
Legendas: árabe, francês, português (europeu), italiano, vietnamita, coreano, alemão, russo, inglês, espanhol

Emily Fox
Professor do SALGENO DE MACHINE APRENDIZAGEM
Estatisticas
Carlos Guestrin
Professor do SALGENO DE MACHINE APRENDIZAGEM
Ciência da Computação e Engenharia do Sablabus – O que você aprenderá com este curso
Receber
O agrupamento e a recuperação são algumas das ferramentas de aprendizado de máquina de alto impacto por aí. A recuperação é usada em quase todos os aplicativos e dispositivos com os quais interagimos, como em fornecer um conjunto de produtos relacionados a um que um comprador está considerando atualmente ou uma lista de pessoas com as quais você pode querer se conectar em uma plataforma de mídia social. O agrupamento pode ser usado para ajudar na recuperação, mas é uma ferramenta mais útil para descobrir automaticamente a estrutura nos dados, como descobrir grupos de pacientes semelhantes. Esta introdução ao curso fornece uma visão geral dos tópicos que abordaremos e o conhecimento de fundo e Recursos que assumimos que você tem.
Pesquisa vizinha mais próxima
Começamos o curso considerando uma tarefa de recuperação de buscar um documento semelhante a um que alguém está lendo atualmente. Exibimos esse problema como uma das pesquisas mais próximas dos vizinhos, que é um conceito que vimos nos cursos de fundações e regressão. No entanto, aqui, você mergulhará profundamente em dois componentes críticos dos algoritmos: a representação de dados e a métrica para medir a semelhança entre pares de pontos de dados. Você examinará a carga computacional do algoritmo ingênuo de busca vizinha mais próximo e implementará alternativas escaláveis ​​usando árvores KD para lidar com grandes conjuntos de dados e hash sensíveis à localidade (LSH) para fornecer vizinhos aproximados mais próximos, mesmo em espaços de alta dimensão. Você explorará todas essas idéias em um conjunto de dados da Wikipedia, comparando e contrastando o impacto das várias opções que você pode fazer nos resultados mais próximos dos vizinhos produzidos.
Agrupamento com k-means
No clustering, nosso objetivo é agrupar os pontos de dados em nosso conjunto de dados em conjuntos disjuntos. Motivado por nosso estudo de caso de análise de documentos, você usará o cluster para descobrir grupos temáticos de artigos por “tópico”. Esses tópicos não são fornecidos nesta tarefa de aprendizado não supervisionada; Em vez disso, a idéia é produzir rótulos de cluster que podem ser pós-fatos associados a tópicos conhecidos como “Science”, “World News” etc. Mesmo sem tais rótulos pós-fatos, você examinará como a saída de agrupamento pode fornecer informações nas relações entre os pontos de dados no conjunto de dados. O primeiro algoritmo de cluster que você implementará é o K-Means, que é o algoritmo de cluster mais amplamente usado por aí. Para ampliar o K-Means, você aprenderá sobre a estrutura geral do MapReduce para paralelização e distribuição de cálculos e, em seguida, como os iterados do K-Means podem utilizar essa estrutura. Você mostrará que o K-Means pode fornecer um agrupamento interpretável de artigos da Wikipedia quando ajustado adequadamente.
Modelos de mistura
Em K-means, as observações são atingidas com força em um único cluster, e essas atribuições são baseadas apenas nos centros de cluster, em vez de também incorporar informações de forma. Em nosso segundo módulo em clustering, você realizará clusters probabilísticos baseados em modelo que fornece (1) uma noção mais descritiva de um “cluster” e (2) é responsável pela incerteza nas atribuições de pontos de dados aos clusters por meio de “atribuições suaves”. Você explorará e implementará um algoritmo amplamente útil chamado de maximização de expectativa (EM) para inferir essas atribuições suaves, bem como os parâmetros do modelo. Para obter intuição, você primeiro considerará uma tarefa visualmente atraente de cluster de imagem. Você agrupará os artigos da Wikipedia, lidando com a alta dimensionalidade da representação do documento TF-IDF considerada.
Modelagem de associação mista por meio de alocação latente de Dirichlet
O modelo de agrupamento assume inerentemente que os dados se dividem em conjuntos disjuntos, por exemplo, documentos por tópico. Mas, muitas vezes, nossos objetos de dados são melhor descritos através de associações em uma coleção de conjuntos, por exemplo, vários tópicos. Em nosso quarto módulo, você explorará a Alocação Latente de Dirichlet (LDA) como um exemplo desse modelo de associação misto particularmente útil na análise de documentos. Você interpretará a saída do LDA e várias maneiras pelas quais a saída pode ser utilizada, como um conjunto de recursos aprendidos do documento. As idéias de modelagem de associação mista que você aprende através do LDA para análise de documentos é transferido para muitos outros modelos e aplicações interessantes, como modelos de redes sociais em que as pessoas têm várias afiliações. Através deste módulo, introduzimos aspectos da modelagem bayesiana e um algoritmo de inferência bayesiana chamado Gibbs amostragem. Você poderá implementar um amostrador Gibbs para LDA até o final do módulo.
Comentários hierárquicos de agrupamento e fechamento
Na conclusão do curso, recapitamos o que abordamos. Isso representa ambas as técnicas específicas para o agrupamento e a recuperação, bem como os conceitos de aprendizado de máquina fundamentais que são mais amplamente úteis. Fornecemos um passeio rápido em uma abordagem alternativa de agrupamento chamada cluster hierárquico, com a qual você experimentará o conjunto de dados da Wikipedia. Após essa exploração, discutimos como as idéias do tipo cluster podem ser aplicadas em outras áreas, como segmentar séries temporais. Em seguida, descrevemos brevemente algumas idéias importantes de agrupamento e recuperação que não cobrimos neste curso. Concluímos com uma visão geral do que está reservado para você no restante da especialização.

Módulos e Conteúdo

Pré-requisitos

Avaliações

Avaliações

Não há avaliações ainda.

Seja o primeiro a avaliar “Aprendizado de máquina: Clustering & amp; Recuperação”

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Institucional

PHP Code Snippets Powered By : XYZScripts.com