Das Sehen ist eines der entscheidenden Kriterien, damit Roboter den Menschen im Alltag unterstützen können. Mit unterschiedlichen Sensorsystemen erkennen sie nicht nur Objekte, sondern erfassen auch exakt Ausrichtung und Position. Die 3D Kamerasysteme gehen heute so weit, dass Roboter sogar bis auf die molekulare Ebene eines Gegenstandes blicken – und so deutlich mehr sehen können als ihr menschliches Vorbild, das Auge.
Um den Menschen möglichst flexibel und autonom zu unterstützen, muss ein Roboter Gegenstände erkennen und ihre genaue Lage erfassen. Nur so sind Befehle denkbar wie „Bring das Glas“ oder „Halte das Bauteil“. Roboterhersteller greifen dazu auf die gesamte Palette der aus der industriellen Bildverarbeitung bekannten Sensoren zurück – vom Ultraschallsensor bis hin zum Laserscanner. Vor allem aber werden verschiedene Formen von Kamerasystemen eingesetzt. Schon mit „einfachen“ 2D-Lösungen lassen sich Konturen erkennen und Objekte identifizieren. Allerdings stoßen sie an Grenzen, wenn Teile unbestimmt übereinanderliegen. Mit nur „einem Auge“ lassen sich zudem keine Höheninformationen gewinnen – die aber sind wichtig, soll der Roboter einen Gegenstand aufnehmen und die Position seines eigenen Greifers in Relation zum Objekt einschätzen.
Sehen in dritter Dimension
Daher gewinnen mit zunehmender Flexibilität und Mobilität der Roboter Systeme zum räumlichen Sehen an Bedeutung. Eine heute häufig eingesetzte Möglichkeit, dem Roboter ein räumliches Sehen zu ermöglichen, orientiert sich an der Natur: Wie der Mensch erhält die Maschine zwei Augen in Form von zwei versetzt angeordneten Kameras. Beide nehmen das gleiche Bild auf, aufgrund der versetzten Anordnung allerdings mit einem perspektivischen Unterschied. Eine Auswerteelektronik in der Stereokamera berechnet über diese Parallaxenverschiebung die Distanz zu dem betrachteten Objekt. Zurzeit nutzen Kamerasysteme entweder CCD- oder CMOS-Sensoren zur Erfassung der Lichtsignale. Der Trend geht aber eindeutig zur CMOS-Sensortechnologie: Sie bietet bei vergleichbarer Bildqualität weitgehende Blendfreiheit, hohe Temperaturfestigkeit, geringen Stromverbrauch und ist zudem kostengünstiger zu fertigen.
Messen und abbilden in einem
Die dreidimensionale Bilderfassung mit Stereokamera ist allerdings aufwändig und kostspielig. So setzt sich zunehmend die ToF-Technologie für räumliches Sehen bei Robotern durch. Hierbei erfasst ein Sensorchip nicht nur das Bild eines Objektes, sondern bestimmt auch gleichzeitig dessen Entfernung. Kern dieser Time-of-Flight-(ToF-)Technologie ist die Messung der Zeit, die das Licht von der Lichtquelle zum Objekt und zurück zur Kamera braucht. Die eingesetzten Sensoren liefern also zwei Datentypen pro Pixel: einen Intensitätswert (Graustufe) und einen Distanzwert (Tiefenwert). So entsteht in der Summe eine Punktwolke aus – je nach Chip – mehreren tausend Bildpunkten, aus denen die entsprechende Software sehr genau Art und Entfernung eines Objektes berechnen kann. Die Kameras verfügen über eine eigene aktive Beleuchtungseinheit, die Laser- oder Infrarotlicht ausstrahlt. So sind ToF-Systeme unabhängig vom Umgebungslicht. Anders als bei 3D-Stereo-Aufnahmen wird die Entfernung nicht errechnet, sondern Pixel für Pixel exakt gemessen, sodass ToF-Kameras mit sehr hoher Geschwindigkeit arbeiten. Allerdings ist die Auflösung des resultierenden Bildes niedriger als bei Stereokameras. Daher werden ToF-Systeme häufig mit Stereosystemen gekoppelt, um die Vorteile beider Systeme zu nutzen und ein möglichst dichtes und zugleich genaues Tiefenbild zu erhalten. Bei modernen Kamerasystemen ist es zudem möglich, auch Bewegungsvektoren zu erfassen. Dazu wird die Lage einer Struktur auf zwei nacheinander erfassten Bildern per Software verglichen und so eine Bewegungsinformation ermittelt.
Schneller mit Mikrospiegeln
Ein anderes Verfahren nutzt die Errungenschaften der MEMS-Technologie: Sogenannte DLP-Systeme (Digital Light Processing) bestehen aus einem Chip mit mehreren Millionen mikroskopisch kleinen Spiegeln. Jeder dieser Mikrospiegel misst weniger als ein Fünftel der Breite eines menschlichen Haars. Jeder Spiegel kann einzeln angesteuert werden und mehrere tausend Mal pro Sekunde schalten. So lässt sich aus dem Licht einer Lichtquelle ein exakt strukturiertes Lichtmuster auf ein zu erfassendes Objekt reflektieren. Indem eine ganze Serie derartiger Lichtmuster auf einen Gegenstand projiziert und die Verzerrung des Lichts durch das Objekt von Sensoren oder Kameras erfasst wird, kann eine sehr detaillierte 3D-Punktwolke erstellt werden. Dank der hohen Schaltgeschwindigkeit, der großen Zahl an Graustufen sowie der Fähigkeit, Licht im sichtbaren Bereich ebenso zu erfassen wie im UV- und Infrarotbereich, sind 3D-Lösungen zur optischen Messung mit DLP-Technologie schneller und genauer als die herkömmlichen Lösungen.
Chemische Eigenschaften sehen
Relativ neu sind auch 3D-Systeme mit einer hyperspektralen Bildverarbeitung. Dabei werden zur Analyse eines Gegenstandes mehr als 100 verschiedene Wellenlängen verwendet. Zerlegt in ihr Spektrum, werden sie von jedem Material mit seinen spezifischen chemischen und molekularen Eigenschaften anders reflektiert. So hat jedes Objekt eine spezifische spektrale Signatur, einen einzigartigen Fingerabdruck, anhand derer es identifiziert werden kann. Dadurch sind wahrhaft tiefe Einblicke bis hinunter zur Molekularebene eines Objektes möglich. Damit übertreffen Roboter dann ihr Vorbild – denn der Röntgenblick ist für Menschen immer noch Science-Fiction.