Christian Herdtweck

Forschungsinteressen

Forschungsruppe: 

Ich habe meine Doktorarbeit mit dem Titel "Learning Data-Driven Representations for Robust Monocular Computer Vision Applications" ("Erlernen von datengetriebenen Repräsentationen für Anwendungen des monokularen Bildverstehens") beendet, sie kann unter heruntergeladen werden

Computer Vision ("Maschinensehen") versucht Computern das "Sehen", d.h. ein Verständnis für den Inhalt von Bildern und Videos, beizubringen. Bemerkenswerte Fortschritte auf diesem Gebiet erlauben inzwischen normalen Kameras, Gesichter zu erkennen und sogar festzustellen, ob sie lächeln. So ist es auch möglich, dass Autos fast selbständig fahren können, wenn die Umstände es erlauben. Diese Erfolgsgeschichten sind jedoch meist auf spezielle, genau definierte Problembereiche beschränkt.

Dank Fortschritten im maschinellen Lernen konnte die Anwendbarkeit von Computer Vision-Anwendungen in den letzten Jahren deutlich erweitert werden. In meiner Arbeit habe ich neue Lösungsansätze für klassische Fragestellungen der Computer Vision entworfen, implementiert und analysiert, die lernbasierte Methoden verwenden um neue Lösungen für alte Probleme zu finden. Eines davon ist die Eigenbewegungsschätzung: um selbständig fahren zu können müssen Autos und andere mobile Systeme ihre Geschwindigkeit und Bewegungsrichtung schätzen. Mein Betreuer und ich haben gezeigt, dass durch eine neue Darstellung des optischen Flusses, der die scheinbare Bewegung von Bildmerkmalen beschreibt, Bilder einer einzelnen Kamera genügen um die Eigenbewegung in alltäglichen Fahrsituationen zu schätzen

Hier eine Visualisierung eines typischen Ergebnisses:

Das aktuelle Videobild ist oben zu sehen, überlagert mit Flussvektoren. Diese sind entweder "Inlier" (grün, erzeugt durch Eigenbewegung) oder Ausreißer (rot,  erzeugt durch Bewegung anderer objekte, unerwartete Geometrie oder Flussmessfehler). Dem Bild wurde auch eine Visualisierung der aktuellen Bewegungsschätzung überlagert: in der Mitte unten ist die aktuelle Geschwindigkeit und Gierrichtung (wahrer Wert und Schätzung in schwarz), in der Mitte zeigt die Horizontlinie die aufintegrierte Nick- und Rollbewegung an. Unter dem Bild ist die geschätzte und wahre Bewegung über der Zeit abgetragen, zunächst die Vorwärtsbewegung pro Bild, dann die Änderung von Gier-, Nick- und Rollwinkel. Die (rote) Schätzung stimmt gut mit der (schwarzen) wahren Bewegung überein, obwohl es beträchtliche Änderungen in Nick- und Rollwinkel gab.

Um selbständig durch unsere Strassen fahren zu können, müssen Autos auch auf andere Autos und Fussgänger achten. Indem man deren Bewegung vorhersagt kann man kritische Situationen und Kollisionen vermeiden. Im Falle von Autos ist die Bewegung stark durch ihre Orientierung limitiert, diese wird daher normalerweise zusammen mit ihrer Position geschätzt. Wir haben eine neue Methode zur Orientierungsschätzung von Autos aus Einzelbildern  vorgestellt und gezeigt, dass solche Schätzungen die Ergebnisse beim Verfolgen von Objektposition und -orientierung verbessern. Dafür haben wir das oft unklare und mehrdeutige Wissen um die Orienteriung als multi-modale Verteilung einer kontinuierlichen zirkulären Variable dargestellt.

Am Anfang meiner Doktorarbeit habe ich mich mit der Interpretation von Einzelbildern befasst, betreut von . Wenn wir Menschen uns ein Bild -- beispielsweise aus dem letzten Urlaub eines Freundes -- anschauen, so genügt der Bruchteil einer Sekunde um dieses Bild grob zu verstehen. Unter anderem erkennen wir sofort den Szenentyp, die Position deutlich sichtbarer Objekte, die ungefähre Geometrie der Szene und können sogar sagen, wo und in welche Richtung die Kamera in der Szene positioniert war. Durch Kombination von bekannten Algorithmen zur Szenentypenklassifizierung, Objekterkennung, sowie der Schätzung von Geometrie und Ansichtswinkel haben wir versucht, eine solche Darstellung auch im Computer zu erzeugen, als Startpunkt für weitere, anwendungsabhängige visuelle Verarbeitung.

Wir haben auch einen Artikel zu Psychophysikexperimenten veröffentlicht, die zeigen sollten dass eine Ansichtswinkelschätzung tatsächlich teil dieser ersten groben Darstellung ist. Wir haben zu diesem Zweck Versuchspersonen eingeladen und gebeten, die Horizontlinie, die ein Mass für Ansichtswinkel ist, in Bildern zu schätzen, die sie zuvor nur für 153ms gesehen hatten. Sie haben diese Aufgabe mit einer Präzision gelöst, die ähnlich der ist, die wir bei längerer Ansichtszeit feststellten. Dabei nutzten sie diverse verschiedene Merkmale im Bild.

Eine ausführlichere Beschreibung meiner Arbeit können Sie im finden

Ich habe im Laufe meiner Doktorarbeit an den folgenden Themen geforscht:

Während der Zeit, in der ich von betreut wurde, habe ich neue Ideen für robuste Bildverarbeitung mit nur einer Kamera für Anwendungen in der Umgebungswahrnehmung von mobilen Systemen (z.B. Autos) erforscht. Basierend auf einer Veröffentlichung von Roberts et al. ("Learning General Optical Flow Subspaces for Egomotion Estimation and Detection of Motion Anomalies", CVPR 2009) haben wir ein probabilistisches latente-Variablen-Modell erweitert, das optische-Fluss-Felder als Linearkombination von Basisflussfeldern und einem mittleren Flussfeld darstellt. Flussverktoren, die nicht in dieses Modell passen, wie beispielsweise fehlende oder falsche Flussmessungen, Fluss von Objekten mit eigener Bewegung oder ungewöhnlicher Szenengeometrie, werden automatisch ausgesondert und von der weiteren Verarbeitung ausgeschlossen. Die Abbildung der latenten Modellvariablen zur Eigenbewegung des Fahrzeugs (Vorwärtsbewegung, Änderung von Gier-, Nick- und Rollwinkel) ist linear. Wir haben dieses Modell um eine flexiblere Varianzverteilung der Flussvektorkomponenten und die Einbettung in ein "mixture of experts"-System erweitert. Das Originalmodell, sowie unsere Erweiterungen wurden analysiert und auf einem anspruchsvollen Datensatz getestet. Die Ergebnisse zeigen, dass dieses Modell für eine genaue Schätzung der Eigenbewegung und des Fluchtpunkts (focus of expansion) genutzt werden kann.

In unserem zweiten Projekt haben wir untersucht, wie Messungen der Objektorientierung bei der Objektverfolgung helfen können. Die Orientierung ist wichtig bei der Vorhersage des Objektzustands und könnte damit helfen, Risikosituationen und Kollisionen zu vermeiden. Der Orientierungsschätzer basiert auf dem "deformable part"-Objekterkenner von Felzenszwalb et al., und nutzt Position und relative Größe des ganzen Objekts und seiner Teile im Bild als Merkmale. Ein Wald von Entscheidungsbäumen ("random regression forest") wurde trainiert um Ansichtswinkel von Autos aufgrund dieser Merkmale vorherzusagen. Dabei wird das Ergebnis als multimodale Verteilung einer kontinuierlichen zirkulären Variable repräsentiert. Wir nutzen weiter Partikelfilter um entstehende Mehrdeutigkeiten durch Nutzung des zeitlichen Kontext zu lösen. Dafür mussten die Kerndichteschätzung und das "mean-shift"-Clustering auf zirkuläre Räume übertragen werden. Durch die Kombination dieser Methode mit Eigenbewegungsschätzung wurde gezeigt, dass Orientierungsmessungen helfen können, den Zustand eines Objekts besser zu schätzen, das von einem bewegten Beobachter aus mit einem dynamischen Filteransatz verfolgt wird.

Vor der Arbeit mit Bildsequenzen habe ich mich mit der Interpretation von Einzelbildern beschäftigt, betreut von . Wir versuchten, eine generelle, anwendungsunabhängige Darstellung des groben ersten Eindrucks eines Bilds zu erzeugen. In der Wahrnehmungsforschung gibt es das Konzept der "gist" (Quintessenz, Hauptinhalt) einer Szene, die sich innerhalb weniger hundert Millisekunden bildet und die Basis für weitere Verarbeitungsschritte der visuellen Wahrnehmung ist. Wir versuchten eine ähnliche Darstellung im Computer zu bilden, indem wir Oberflächenorientierungsschätzung, Objekterkennung, Szenentypenklassifizierung und Ansichtswinkelschätzung mit gelerntem generellem Vorwissen (z.B. "Autos fliegen nicht" oder "in Stadtbildern kommen oft Personen vor") kombiniert haben. Die Ergebnisse waren vielversprechend, das Verfahren war jedoch nicht stabil genug. Um die Rolle des Ansichtswinkels in dieser "gist"-Darstellung näher zu erforschen haben wir Psychophysikexperimente zur Horizontschätzung entworfen und durchgeführt. Wir konnten zeigen dass Versuchspersonen den Horizont im Bild ziemlich genau schätzen können, selbst wenn sie dieses nur für 153ms gesehen hatten, und dass somit also der Ansichtswinkel tatsächlich Teil dieses ersten Verarbeitungsschritts visueller Information sein könnte. Wir haben auch untersucht, welche Merkmale für die Horizontschätzung genutzt werden, indem wir leicht veränderte Bilder gezeigt und die Ergebnisse der Probanden mit denen von einfachen Bildverarbeitungsalgorithmen verglichen haben.

In einem Nebenprojekt mit , und haben wir einen Algorithmus zur Bildersuche entwickelt und evaluiert, der als Eingabe eine semantische Beschreibung des Bildes nutzt. Benutzer konnten spezifizieren, wo im gesuchten Bild bestimmte semantische Klassen wie "Haus" oder "Auto" vorkommen sollen. Dies könnte die Bildersuche in vielen Fällen vereinfachen und ist möglich wenn das dafür nötige Wissen für alle Bilder eines Datensatzes verfügbar ist.


Ich wurde bei allen diesen Projekten auch von () betreut.

Vita

Ich habe an der Universität Karlsruhe (TH) Mathematik studiert und bin seit Dezember 2007 Doktorand hier am Institut

Okt 2001 - Apr 2007 Studium der Mathematik an der Universität Karlsruhe (TH)
Nov 2007 - Feb 2013 Doktoarbeit in Informatik hier am MPI
Aug 2013 - Nov 2013 Postdoc am MPI

Organisationseinheit (Abteilung, Gruppe, Einrichtung):

  • Alumni of the Department Human Perception, Cognition & Action
  • Alumni of the Group Cognitive Engineering
Zur Redakteursansicht