Synthetische Daten: Große Hoffnung für späte Starter bei künstlicher Intelligenz

Foto: CC0 1.0, Pixabay / geralt | Ausschnitt bearbeitet
Foto: CC0 1.0, Pixabay / geralt | Ausschnitt bearbeitet
Veröffentlicht am 09.08.2018

Foto: CC0 1.0, Pixabay / geralt | Ausschnitt bearbeitet

Startups und viele traditionelle Unternehmen haben ein Problem: zu wenige Daten zum Trainieren von künstlicher Intelligenz (KI). Das ist auch ein strategischer Nachteil für Deutschland und Europa als Standorte für die KI-Entwicklung, wie die Diskussion beim jüngsten Lunch-Talk von AI Hub Europe im Telefónica BASECAMP zeigte. Und die Lösung? Synthetische Daten, die aus dem Computer kommen! Sie sind oft sogar besser als echte Daten aus der realen Welt, weil sie gleich das richtige Label tragen.

In den vergangenen zwanzig Jahren gelang es einer jungen Generation von Superstar-Firmen, mit digitalen Plattformen neue Quasi-Monopole zu errichten“, sagte der KI-Experte und Buchautor Thomas Ramge im März bei einem Interview für das Telefónica BASECAMP. „Dieser ‚The-Winner-Takes-It-All-Trend‘ wird sich in den kommenden Jahren weiter verstärken, wenn aus Daten lernende KI-Systeme der Digitalisierung und datenreichen Märkten den Turbo zuschalten.“

Feedback-Effekte: Vorteil für datenreiche Unternehmen

Firmen wie Google oder Amazon seien zu stark im Vorteil. Für sie wirken Feedback-Effekte, die Unternehmen mit großen Datenmengen systematisch bevorteilen: Wer die meisten Daten hat, der kann auch die meisten Muster darin erkennen und seine KI damit am besten trainieren. Das gilt besonders für das autonome Fahren, bei dem die künstliche Intelligenz am Steuer sitzt.

unsplash Strasse Kreuzung Autobahn Stau Verkehr Autos
Foto: Unsplash / Denys Nevozhai / Ausschnitt bearbeitet

Die Google-Schwesterfirma Waymo entwickelt bereits seit 2009 fahrerlose Autos und hat schon 9,6 Millionen Kilometer bei Testfahrten auf öffentlichen Straßen sowie acht Milliarden Kilometer im Simulator zurückgelegt. Kein anderer Konzern kann auf so viele Trainingsdaten verweisen und besonders deutsche Autohersteller haben es schwer, diesen Vorsprung aufzuholen. Denn in der Bundesrepublik sind bisher nur ein paar Kilometer auf der Autobahn 9 für solche Tests freigegeben.

Monopole vermeiden: Progressive Daten-Sharing-Pflicht?

Deshalb schlagen Viktor Mayer-Schönberger und Thomas Ramge in ihrem Buch Das Digital eine gesetzlich verankerte Pflicht zum Teilen von Daten vor, um Monopole zu vermeiden. Eine progressive Daten-Sharing-Pflicht soll den Wettbewerb immer wieder stärken, erklärten sie bei der Buchvorstellung im Telefónica BASECAMP. Datenreiche Unternehmen müssten dann einen Teil ihrer Trainingsdaten für andere Firmen und Startups bereitstellen. Das gilt selbst für die direkte Konkurrenz.

Ramge-Schoenberger--Goebel-DAS-DIGITAL-0541-1280x720
Thomas Ramge und Viktor Mayer-Schönberger (links) im Telefónica BASECAMP. | Foto: Henrik Andree

Doch es gibt noch andere Wege: Synthetische Daten entstehen künstlich. Sie wirken extrem realistisch und werden von Algorithmen erzeugt, um Lernmodelle damit zu trainieren. Auf diese Weise können auch Grenzbereiche getestet werden, die sich unter realen Bedingungen kaum überprüfen lassen. Die Technische Universität Darmstadt trainierte beispielsweise ihren Algorithmus für selbstfahrende Autos mit Grand Theft Auto, weil der Straßenverkehr in diesem Computerspiel besonders realitätsnah ist.

Synthetische Daten: Autonomes Fahren durch GTA5 lernen

Die Forscher erstellten eine Software-Schicht, die Objekte in dem Spiel automatisch erkennt und klassifiziert. Diese Labels werden einem Lernalgorithmus zugeführt, der damit Passanten, Autos oder andere Hindernisse erkennt: nicht nur im Spiel, sondern auch auf einer echten Straße. In ihrer Veröffentlichung sagen die Forscher, dass es unmöglich gewesen wäre, diese Daten und Fahrsituationen manuell zu klassifizieren. Außerdem kann man besondere Umstände wie Unwetter oder Verkehrsunfälle mit dem Computerspiel simulieren. Doch das ist nur eins von vielen Beispielen, wie synthetische Daten helfen können.

Bei TechCrunch gibt es einen langen Artikel, der unter anderem zeigt, wie Roboter in wenigen Sekunden durch Imitation lernen können: Sie erfassen Daten von einer VR-Brille, die ein Mensch trägt, um damit synthetische Objekte in der virtuellen Realität zu bewegen. Die Bewegungen seiner Hand müssen nur noch kopiert werden. In dem Artikel wird auch erklärt, wie Startups den großen Vorsprung von Amazon aufholen können – und wie der Unterschied zwischen synthetischen und echten Daten immer kleiner wird. Die fotorealistischen Simulationen sind heute schon gut genug, um neuronale Netze einigermaßen zu trainieren. Sie müssen später nur noch durch echte Bilder ergänzt werden.

Schlagworte

Empfehlung der Redaktion