Detailergebnis zu DOK-Nr. 81996
Verstärkendes Lernen für die dynamische Preisgestaltung von autonomen Mobilitätssystemen mit gemeinsamer Nutzung unter Berücksichtigung heterogener Nutzung: Modellentwicklung und Szenariotests (Orig. engl.: Reinforcement learning for dynamic pricing of shared-use autonomous mobility systems considering heterogeneous users: Model development and scenario testing)
| Autoren |
H. Abkarian H. Mahmassani |
|---|---|
| Sachgebiete |
0.11 Daten (EDV, IT, Internetanwendungen und Verkehrsdaten) 5.3.4 Öffentlicher Personennahverkehr 6.2 Verkehrsberechnungen, Verkehrsmodelle 6.7.3 Automatisiertes und Autonomes Fahren |
Transportation Research Record (TRR): Journal of the Transportation Research Board Vol. 2678, H. 5, 2024, S. 758-770, 9 B, 2 T, 14 Q. - Online-Ressource: verfügbar unter: https://journals.sagepub.com/home/trr
Ein wesentlicher Aspekt für den Erfolg von autonomen Mobilitätssystemen mit gemeinsamer Nutzung wird die Möglichkeit sein, Fahrten in Echtzeit zu berechnen. Mit zunehmender Verbreitung dieser Dienste wird es immer wichtiger, Verhaltensänderungen zu erkennen, um das System schnell zu optimieren und seine Effizienz und Wirtschaftlichkeit sicherzustellen. Daher sollten Preisalgorithmen in der Lage sein, Fahrten anhand komplexer zugrunde liegender Nachfragefunktionen mit heterogenen Kunden zu bepreisen. Auch sollte der Algorithmus in der Lage sein, nichtstationäres Verhalten (z. B. sich ändernde Zahlungsbereitschaft der Kundinnen und Kunden) anhand zuvor gelernter Entscheidungen zu erkennen und seinen Preismechanismus entsprechend anzupassen. Die Autoren formulieren ein dynamisches Preisbildungs- und Lernproblem als Markov-Entscheidungsprozess und lösen es anschließend mithilfe eines Reinforcement-Learning-Algorithmus (RL), wobei eine heterogene Kundschaft die Fahrtmerkmale (Preis, erwartete Wartezeit) probabilistisch akzeptiert. Unter RL wird ein maschinelles Lernverfahren verstanden, bei dem ein Agent durch Interaktion mit einer Umgebung lernt, optimale Entscheidungen zu treffen, um eine bestimmte Aufgabe zu erfüllen. Es werden Erkenntnisse aus dem Betrieb einer autonomen privaten Mitfahrzentrale mit fester Flotte in Chicago vorgestellt. Aufgrund der Formulierung des Nachfragemodells lernt der Algorithmus innerhalb von 25 Tagen und steigert den Umsatz um 90 % bei einer Verringerung der Wartezeiten für Kunden um 90 % im Vergleich zu Tag 5. Nach der Gewinnung von Erkenntnissen aus dem RL-Algorithmus und der Anwendung einer optimalen statischen Preisgestaltung (d. h. einem konstanten spezifischen Surge-Multiplikator) wird festgestellt, dass RL eine Optimalität des Umsatzes von nahezu 90 % erreichen kann. Die Optimalität beschreibt den Zustand, die bestmögliche oder am meisten zufriedenstellende Lösung oder den besten Zustand unter gegebenen Bedingungen darzustellen. Es werden zwei Szenarien getestet, in denen eine plötzliche Veränderung auftritt oder die Zahlungsbereitschaft der Kunden sich langsam ändert, was zeigt, dass RL seine Parameter schnell an die Situation anpassen kann.