Семинары

12.11.2024 Очередное заседание семинара "Математическая экономика"

Очередное заседание семинара "Математическая экономика" (руководители - д.ф.-м.н. В.И.Данилов и академик В.М.Полтерович) состоится в очном и дистанционном режиме:

во вторник, 12 ноября 2024 г., в 11 часов 30 минут, в комн. 522 (бывшая 518)

Ссылка для входа в видео-конференцию (заработает за 10-15 минут до начала семинара):

https://us02web.zoom.us/j/87685525576?pwd=dmM5VmF1Zi9xbWtaVnhncklJRDhRZz09
Meeting ID: 876 8552 5576, Passcode: 542542


Программа заседания:

Е.Е. Васильева (ФИАН,МФТИ), А.В. Леонидов (ФИАН,МФТИ), А.С. Титов (ФИАН,МФТИ)
Ловушка обучения в больцмановском Q-обучении в дилемме заключенных


Аннотация к докладу


В работе исследуется применение методов обучения с подкреплением, в частности, больцмановского Q-обучения, к матричным играм. Основная проблема в многоагентном обучении заключается в том, что каждый агент обучается в среде, изменения во времени которой связаны с динамикой обучения других агентов. В таких условиях многоагентное обучение с подкреплением не имеет формальных гарантий сходимости, хотя в ряде исследований была продемонстрирована сходимость в частных примерах на практике. Однако в соответствующей литературе остается без внимания анализ ряда важных аспектов обучения. Так, не изучена зависимость результатов обучения от слагаемого, описывающего ожидания агента о будущих состояниях игры, а также от неравновероятности выбора действий агентами. В данной работе мы рассматриваем, как аналитически, так и численно, оптимальные Q-значения и соответствующие им оптимальные стратегии при условии фиксированной стратегии оппонента. Показано, что данные стратегии совпадают со стратегиями в равновесии дискретного отклика соответствующей игры. Описывается ряд новых свойств дискретной динамики обучения, демонстрируется эффект больцмановского Q-обучения, связанный с полученными свойствами динамики и оптимальных Q-значений, при котором агенты при определенных параметрах на значительное время застревают в неоптимальных стратегиях. В работе это явление названо ловушкой обучения.



Приглашаем Вас принять участие в заседании семинара! 

В связи с тем, что доступ к Youtube может быть затруднён, появилась копия канала (https://www.youtube.com/playlist?list=PLCz88q2rdEwA-HJa6ZLz4DdLqMIhPfFKQ) на Rutube, ссылка: https://rutube.ru/plst/648988/. Видео-записи семинаров будут доступны на обоих каналах.

Возврат к списку

  • О ЦЭМИ
  • Организационная структура ЦЭМИ
  • Деятельность института
  • Научные исследования
  • Подготовка научных кадров
  • Публикации
  • Диссертационные советы
  • Новости
  • Точка зрения
  • Архив
Последние новости: