Identificar áreas em robótica onde o Aprendizado por Reforço pode ser aplicado.
Enquadrar problemas em robótica como problemas de Aprendizagem por Reforço.
Aplicando o algoritmo Multi-Armed Bandit para ajudar os robôs a aprender automaticamente os comportamentos esperados.
Desenvolvendo funções de recompensa para Aprendizagem por Reforço em contextos robóticos.
Usando Python para controlar sensores e atuadores em robôs EV3 Mindstorms.
Programação de robôs simples que podem aprender automaticamente as melhores ações a serem executadas em seus ambientes.
Compreendendo o algoritmo do bandido multi-armado.
Equilibrar exploração e exploração usando várias estratégias.