O deepracer é uma competicação e uma plataforma de ensino de inteligencia artificial criada pela Amazon AWS, como o objetivo de permitir que qual quer um com um conhecimento minimo de logica de programação consiga entender como uma inteligencia artificial do tipo aprendizado por reforço funciona.

Basico

O deepracer não é um serviço gratuito, porem é possivel criar uma conta de estudante que contem um numero de creditos sufuciente para aprender e testar os serviços de cloud deles (foi com essa conta que eu cheguei a liga proficional do deepracer 😆).

A Amazon oferece uma documentação inicial muito detalhada inclusive em portugues então, não ha descupa para não colocar o seu carrinho na pista, se tiver alguma duvida leia o guia deepracer

O meu objetivo não é passar o basico, isso ja esta descrito na documentação, eu quero trazer para o portugues o lado um pouco mais avançado, como programar e avaliar o seu modelo, como utilizar ferramentas para indentificar problemas da inteligencia artificial.

O Carrinho

No deepracer é possível modificar o carrinho escolhendo skins diferentes, mais o mais importante escolhendo o método de direção a velocidade máxima e o angulo máximo.

Esses fatores podem mudar em muito as características do modelo final, carrinhos muito rápidos tendem a escapar da pista muito facilmente, pois o modelo tem um intervalo para reação menor, em meus modelos eu nunca fui à velocidade máxima (talvez ainda tenha espaço para melhorar hehehe), modelos muito velozes são difíceis de controlar e demandam muito tempo de treino com os créditos limitados a conta de estudante recomendo utilizar velocidades medias e diminuir um pouco o angulo máximo de curva.

Programação

O deperecer é programado em python, na verdade, você não estará programando a inteligência, mas definindo as regras de ensino, dizendo oque ela deve ou não fazer. O objetivo da IA é apenas obter a maior pontuação possível nas regras que você definiu.

Nesse momento temos que definir quais os objetivos que iremos buscar com o nosso modelo, existem duas estrategias bem diferentes, ha quem treine o modelo para seguir um caminho pre definido, mais otimizado, com velocidades bem definidas esse método e chamado pela comunidade de waypoints ele costuma ser mais rápido para atingir objetivos, porem necessita do uso de ferramentas externas a comunidade já criou notebooks jupter para esta função. Em contrapartida, existe a estratégia de inserir valores básicos no modelo, como calculo de atrito das rodas na pista, velocidade de volta e deixar a inteligência aprender sozinha qual o melhor caminho.

Com os dois modelos é possível alcançar o mesmo objetivo porem um é fixo a pista e o outro pode ser retreinado em outras pistas, isso quer dizer que o modelo é mais generalista se adaptando a mudanças de ambiente, isso pode ser critico, por exemplo, numa corrida utilizando modelos reais.

Função de recompensa