Система обучает автомобили без водителя в симуляции, прежде чем они отправляются в путь
Система моделирования, изобретенная в Массачусетском технологическом институте для обучения автомобилей без водителя, создает фотореалистичный мир с бесконечными возможностями рулевого управления, помогая автомобилям научиться ориентироваться в множестве худших сценариев, прежде чем отправиться в путешествие по реальным улицам.
Системы управления, или «контроллеры», для автономных транспортных средств в значительной степени основаны на реальных наборах данных о траекториях движения от людей-водителей. Из этих данных они узнают, как эмулировать безопасное управление рулем в различных ситуациях. Но реальные данные об опасных «крайних случаях», таких как почти крушение или вытеснение с дороги или в другие полосы, к счастью, редки.
Некоторые компьютерные программы, называемые «движками симуляции», стремятся имитировать эти ситуации, создавая подробные виртуальные дороги, помогающие обучить контроллеров восстановлению. Но научный контроль от симуляции никогда не показывался для передачи в реальность на полномасштабном транспортном средстве.
Исследователи Массачусетского технологического института решают эту проблему с помощью своего фотореалистичного симулятора, называемого Синтез и преобразование виртуальных изображений для автономии (VISTA). Он использует только небольшой набор данных, захваченный людьми, едущими по дороге, чтобы синтезировать практически бесконечное число новых точек обзора с траекторий, которые транспортное средство может взять в реальном мире. Контроллер получает вознаграждение за пройденное расстояние без сбоев, поэтому он должен сам научиться безопасно добираться до пункта назначения. При этом транспортное средство учится безопасно ориентироваться в любой ситуации, с которой оно сталкивается, включая восстановление контроля после поворота между полосами движения или восстановление после аварий.
В ходе испытаний диспетчер, обученный на симуляторе VISTA, смог безопасно развернуться на полномасштабной машине без водителя и перемещаться по ранее невидимым улицам. При расположении автомобиля в условиях бездорожья, имитирующих различные ситуации, близкие к аварии, диспетчер также смог в течение нескольких секунд успешно вернуть автомобиль на безопасную траекторию движения. Документ, описывающий систему, был опубликован в IEEE Robotics and Automation Letters и будет представлен на предстоящей конференции ICRA в мае.
«Трудно собирать данные в этих крайних случаях, с которыми люди не сталкиваются в дороге», — говорит первый автор Александр Амини, аспирант Лаборатории информатики и искусственного интеллекта (CSAIL). «Однако в нашей симуляции системы управления могут испытывать такие ситуации, учиться самостоятельно восстанавливаться после них и оставаться устойчивыми при развертывании на транспортных средствах в реальном мире».
Работа выполнена в сотрудничестве с исследовательским институтом Toyota. К работе с Амини присоединились Игорь Гиличенский, постдок из CSAIL; Джейкоб Филлипс, Юлия Мосейко и Рохан Банерджи, все магистранты CSAIL и факультета электротехники и компьютерных наук; Сертак Караман, доцент кафедры аэронавтики и космонавтики; и Даниэла Рус, директор CSAIL и профессор электротехники и компьютерных наук Эндрю и Эрна Витерби.
Управляемое данными моделирование
Исторически, создание двигателей моделирования для обучения и тестирования автономных транспортных средств было в значительной степени ручной задачей. Компании и университеты часто нанимают команды художников и инженеров для создания эскизов виртуальной среды с точными дорожными разметками, полосами движения и даже подробными листьями на деревьях. Некоторые двигатели могут также включать физику взаимодействия автомобиля с окружающей средой на основе сложных математических моделей.
Но поскольку в сложных реальных условиях необходимо учитывать множество разных вещей, практически невозможно встроить все в симулятор. По этой причине обычно существует несоответствие между тем, что контроллеры учат в симуляции, и тем, как они работают в реальном мире.
Вместо этого исследователи Массачусетского технологического института создали то, что они называют «управляемым данными» механизмом моделирования, который синтезирует из реальных данных новые траектории, соответствующие внешнему виду дороги, а также расстоянию и движению всех объектов в сцене.
Сначала они собирают видеоданные от человека, проезжающего по нескольким дорогам, и подают его в двигатель. Для каждого кадра движок проецирует каждый пиксель в тип трехмерного облака точек. Затем они помещают виртуальный автомобиль в этот мир. Когда транспортное средство дает команду рулевого управления, двигатель синтезирует новую траекторию через облако точек на основе кривой рулевого управления, а также ориентации и скорости транспортного средства.
Затем движок использует эту новую траекторию для рендеринга фотореалистичной сцены. Для этого он использует сверточную нейронную сеть — обычно используемую для задач обработки изображений — для оценки карты глубины, которая содержит информацию, касающуюся расстояния объектов от точки обзора контроллера. Затем он комбинирует карту глубины с техникой, которая оценивает ориентацию камеры в 3D-сцене. Все это помогает точно определить местоположение автомобиля и относительное расстояние от всего, что находится в виртуальном симуляторе.
Основываясь на этой информации, он переориентирует исходные пиксели, чтобы воссоздать трехмерное представление мира с новой точки зрения транспортного средства. Он также отслеживает движение пикселей, чтобы запечатлеть движение автомобилей, людей и других движущихся объектов на сцене. «Это эквивалентно предоставлению транспортному средству бесконечного числа возможных траекторий», — говорит Рус. «Потому что, когда мы собираем физические данные, мы получаем данные с определенной траектории, по которой будет следовать автомобиль. Но мы можем изменить эту траекторию, чтобы охватить все возможные способы и условия вождения. Это действительно мощно».
Усиление обучения с нуля
Традиционно исследователи обучали автономные транспортные средства либо следуя определенным человеком правилам вождения, либо пытаясь подражать водителям-людям. Но исследователи заставляют свой контроллер учиться полностью с нуля в рамках сквозной структуры, то есть он принимает в качестве входных данных только необработанные данные датчиков — например, визуальные наблюдения за дорогой — и на основе этих данных прогнозирует команды управления на выходах.
«Мы в основном говорим: «Вот среда. Вы можете делать все, что захотите. Только не врезайтесь в транспортные средства и оставайтесь в полосе движения », — говорит Амини.
Для этого требуется «обучение с подкреплением» (RL), метод машинного обучения методом проб и ошибок, который выдает сигналы обратной связи всякий раз, когда автомобиль совершает ошибку. В движке симуляции исследователей контроллер начинает с того, что ничего не знает о том, как вести машину, каков маркер полосы движения или как выглядят другие транспортные средства, поэтому он начинает выполнять случайные углы поворота рулевого колеса. Он получает сигнал обратной связи только в случае сбоя. В этот момент он телепортируется в новое моделируемое место и должен выполнить лучший набор углов поворота, чтобы избежать повторного сбоя. После 10-15 часов обучения он использует эти редкие сигналы обратной связи, чтобы научиться преодолевать большие и большие расстояния без сбоев.
После успешного прохождения 10 000 километров в симуляции, авторы применяют этот изученный контроллер на своем полномасштабном автономном транспортном средстве в реальном мире. Исследователи говорят, что это первый раз, когда контроллер, обученный с использованием сквозного обучения усилению в симуляции, был успешно развернут на полномасштабной автономной машине. «Это было удивительно для нас. Мало того, что контроллер никогда не был на реальной машине раньше, но он также никогда не видел дорог раньше и не имеет никаких предварительных знаний о том, как люди ездят», — говорит Амини.
Принудительный запуск контроллера по всем типам сценариев вождения позволил ему восстановить управление из дезориентирующих положений — например, оказаться наполовину с дороги или в другую полосу движения — и в течение нескольких секунд повернуть обратно в нужную полосу. «И другие современные контроллеры все трагически потерпели неудачу в этом, потому что они никогда не видели таких данных в процессе обучения», — говорит Амини.
Далее, исследователи надеются смоделировать все типы дорожных условий с одной траектории движения, такие как день и ночь, солнечная и дождливая погода. Они также надеются смоделировать более сложные взаимодействия с другими транспортными средствами на дороге. «Что, если другие машины начнут двигаться и прыгать перед автомобилем?» Русь говорит. «Это сложные, реальные взаимодействия, которые мы хотим начать тестировать».