Aprendizagem por Reforço

Contente

Definição - O que significa Aprendizado por Reforço?
Uma introdução ao Microsoft Azure e Microsoft Cloud | Neste guia, você aprenderá sobre o que é a computação em nuvem e como o Microsoft Azure pode ajudá-lo a migrar e administrar seus negócios a partir da nuvem.
Techopedia explica Aprendizado por Reforço

Definição - O que significa Aprendizado por Reforço?

O aprendizado por reforço, no contexto da inteligência artificial, é um tipo de programação dinâmica que treina algoritmos usando um sistema de recompensa e punição.

Um algoritmo de aprendizado por reforço, ou agente, aprende interagindo com seu ambiente. O agente recebe recompensas por executar corretamente e multas por executar incorretamente. O agente aprende sem intervenção de um ser humano maximizando sua recompensa e minimizando sua penalidade.

Uma introdução ao Microsoft Azure e Microsoft Cloud | Neste guia, você aprenderá sobre o que é a computação em nuvem e como o Microsoft Azure pode ajudá-lo a migrar e administrar seus negócios a partir da nuvem.

Techopedia explica Aprendizado por Reforço

O aprendizado por reforço é uma abordagem do aprendizado de máquina inspirada na psicologia behaviorista. É semelhante a como uma criança aprende a executar uma nova tarefa. O aprendizado por reforço contrasta com outras abordagens de aprendizado de máquina, pois o algoritmo não é explicitamente informado sobre como executar uma tarefa, mas resolve o problema por si próprio.

Como um agente, que pode ser um carro autônomo ou um programa que joga xadrez, interage com seu ambiente, recebe um estado de recompensa dependendo de seu desempenho, como dirigir para o destino com segurança ou ganhar um jogo. Por outro lado, o agente recebe uma penalidade por execução incorreta, como sair da estrada ou ser xingado.

Com o tempo, o agente toma decisões para maximizar sua recompensa e minimizar sua penalidade usando a programação dinâmica. A vantagem dessa abordagem da inteligência artificial é que ela permite que um programa de IA aprenda sem que um programador especifique como um agente deve executar a tarefa.