XXVII Mostra Unisinos de Iniciação Científica e Tecnológica

329 XXVII MOSTRA UNISINOS DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA De 19/10/2020 a 24/10/2020 Unisinos São Leopoldo e Porto Alegre Inscrição: 8154069 - apresentação oral CONTROLE DE SEMÁFOROS BASEADO EM APRENDIZADO POR REFORÇO COM FUNÇÃO DE RECOMPENSA ADAPTATIVA Autor(a): Fábio Müller Varisco Coautor(es): Orientador(es): Instituição: Unisinos (PRATIC - Unisinos) Área de conhecimento: Ciências Exatas e da Terra PPG em Computação Aplicada O congestionamento no tráfego rodoviário tem impactos na econo- mia (que pode chegar a 2-5% do PIB), na sustentabilidade das cida- des e no bem-estar dos cidadãos. Uma alternativa para diminuir este problema é através de estratégias de controle de tráfego que levem ao uso mais eficiente dos recursos existentes. Uma das principais ma- neiras de controle de tráfego em redes urbanas é através do contro- le dos semáforos. Inicialmente, estes sistemas de controle analisavam dados históricos de uso para definir as programações ótimas para troca de sinal. Com o passar do tempo, as pesquisas evoluíram para controladores que conseguem se adaptar em tempo real às condi- ções de tráfego, e que podem contar com sistemas de observação que proveem perfis mais detalhados do tráfego. Nos últimos anos, uma grande parte da pesquisa nesse tema tenta otimizar o controle de se- máforos através de técnicas de aprendizado por reforço (RL - Rein- forcement Learning), por conta dos seus benefícios, que são desejá- veis para um ambiente volátil e inerentemente baseados em agentes, como o trânsito. A pesquisa relacionada aponta que a definição do objetivo (que se liga diretamente à função de recompensa, no con- texto de RL) pode ser usada para customizar o tipo de solução que é esperada do modelo. Grande parte dos métodos pesquisados utili- za indicadores mais focados na conveniência dos motoristas, como a minimização do tamanho das filas ou do tempo de espera dos veí- culos. Porém, em situações de supersaturação da rede, pode ser mais importante adotar objetivos que levem os níveis de tráfego de volta aos limites da rede o mais rápido possível, como, por exemplo, a ma-