Detailergebnis zu DOK-Nr. 80816
Lernen von Fahrermodellen zur Prognose urbaner Verkehrssituationen (Orig. engl.: Learning driver behavior models for predicting urban traffic situations)
Autoren |
M. Sackmann |
---|---|
Sachgebiete |
0.11 Daten (EDV, IT, Internetanwendungen und Verkehrsdaten) 5.15 Verkehrsablauf (Verkehrsfluss, Leistungsfähigkeit, Bemessung) 6.2 Verkehrsberechnungen, Verkehrsmodelle |
Erlangen: Universität Erlangen-Nürnberg, Dissertation, 2024, XVIII, 238 S., zahlr. B, T, Q, Anhang. − Online-Ressource: verfügbar unter: https://10.25593/open-fau-633
Das Trainingsziel bei Reinforcement Learning (RL) ist die Maximierung einer händisch definierten Belohnungsfunktion. So können explizite Ziele vorgegeben werden, zum Beispiel, dass Fahrzeuge Kollisionen vermeiden, auf der Fahrbahn bleiben und Sicherheitsabstände einhalten. Die Methode wird erweitert, um mit einem Verhaltensmodell unterschiedliche Fahrverhalten zu repräsentieren, zum Beispiel sportlichere oder vorsichtigere Fahrer. Um menschliches Fahrverhalten mit RL nachzubilden, muss die Belohnungsfunktion so lange angepasst werden, bis die resultierenden Trajektorien ähnlich wie echte Trajektorien aussehen. Dieser aufwändige Prozess wird von Methoden des Inverse Reinforcement Learning (IRL) automatisiert. Hierfür wird unter anderem Adversarial Inverse Reinforcement Learning (AIRL) verwendet. Mit der rekonstruierten Belohnungsfunktion wird das Verhaltensmodell außerdem in fiktiven kritischen Situationen trainiert, um eine höhere Robustheit des Modells zu erreichen. Abschließend werden alle trainierten Modelle unter gleichen Bedingungen in einem untrainierten Kreisverkehr verglichen. Hierbei schneiden die IRL-Algorithmen bei 10 s-Vorhersagen mit Kollisionsraten unter 1 % und Vorhersagefehlern (RMSE) unter 22 m am besten ab. RL und IRL verringern die Kollisionsrate im Vergleich zu Behavior Cloning, weil neben dem Ziel der Imitation des Verhaltens auch Kollisionen direkt bestraft werden.