Eine der größten Herausforderungen bei Mensch-Maschine-Schnittstellen ist die natürliche Interaktion. Mit Lösungen wie einer Gesten- und Sprachsteuerung hat die Technik dabei schon große Fortschritte erzielt. In letzter Zeit richtet sich der Fokus zudem auf die Steuerung von Maschinen per Gedanken: Brain Machine Interfaces messen die elektrische Aktivität des Gehirns (Elektroenzephalographie, EEG) und leiten daraus Steuerbefehle für Computer, Maschinen oder Roboter ab. Einer der Pioniere in der Nutzung von EEG-Daten für die Interaktion mit robotischen Systemen ist das DFKI. Hier läuft aktuell das Forschungsprojekt EXPECT, dessen Hauptziel die Entwicklung einer adaptiven, selbstlernenden Plattform für Mensch-Roboter-Kollaboration ist. Sie soll nicht nur verschiedenste Arten der aktiven Interaktion ermöglichen, sondern auch in der Lage sein, aus Gestik, Sprache, Augenbewegungen und Gehirnaktivität die Intention des Menschen abzuleiten – die Maschine soll also erahnen können, was der Mensch als Nächstes vorhat. Prof. Dr. Elsa Andrea Kirchner, EXPECT-Projektleiterin für den Forschungsbereich Robotics Innovation Center, gibt Einblicke in das Projekt und in den Stand der Forschung rund um Brain Machine Interfaces (BMI).
Mit dem Chip im Gehirn Maschinen steuern – das wird bereits von Firmen wie Neuralink und Synchron getestet. Ist das tatsächlich die Zukunft von Human Machine Interfaces?
Elsa Andrea Kirchner: Das Problem bei der Interaktion mit dem Gehirn über implantierte Chips ist, dass man nur den Teil des Gehirns erreichen kann, in dem sich der Chip befindet. Man müsste viele dieser Chips implantieren, um ein gutes Bild davon zu bekommen, was das Gehirn tut. Für einige Zwecke ist das Verfahren sicherlich nützlich, zum Beispiel zur Stimulation des Gehirns bei Parkinson.
Was ist die Alternative?
E. A. K.: Man kann die Hirnaktivität auch von außen messen, über Elektroden, die am Kopf angebracht werden. Allerdings misst man dabei immer eine Summe von Aktivitäten, sodass die Auflösung geringer ist als bei einer implantierten Elektrode. Zudem hat man mehr Rauschen, weil die Gehirnströme durch Haut, Knochen und Haare hindurch gemessen werden. Deshalb sind die Daten viel schwieriger zu interpretieren. Man braucht also sehr gute Geräte, um sie aufzuzeichnen, und man braucht eine gute Signalverarbeitung und Maschinelles Lernen, um diese Daten richtig zu interpretieren.
Wie genau sieht Ihr Ansatz beim EXPECT-Projekt aus?
E. A. K.: Ziemlich oft sehen wir bei der Interaktion einer anderen Person an, was sie tun will oder was sie von mir erwartet. Ein Kollege übergibt mir zum Beispiel ein Werkzeug, weil ich darauf schaue und er gerade danebensteht. Und das ist etwas, was man auch bei der Interaktion mit Maschinen erreichen will. Man will einer Maschine nicht immer explizit jeden einzelnen Schritt sagen, sondern, dass die Maschine das von selbst versteht. Dafür kann man viele Wege nutzen. Und einer dieser Wege ist die direkte Nutzung der Gehirnaktivität.
Denkt tatsächlich jeder Mensch gleich? Zeigt also ein EEG immer das gleiche, egal welcher Mensch den Gedanken hat: „Roboter, öffne den Greifer“?
E. A. K.: Unsere Gehirne sind sehr ähnlich organisiert. Man hat also die gleichen Bereiche an ähnlichen Stellen. Aber wir wissen auch, dass es große Unterschiede zwischen den Menschen gibt. Wenn man also die über ein EEG gemessene Gehirnaktivität einer Person mithilfe von Maschinellem Lernen analysiert hat, bedeutet das nicht, dass man das trainierte Modell einfach auf eine andere Person übertragen kann. Dann sinkt die Leistung vielleicht um 20 oder 30 Prozent. Daher haben wir einige Herausforderungen, wie wir Modelle trainieren können, die auf viele Personen passen. Dies ist eines der Ziele des Projekts EXPECT.
Ihre Plattform für die Mensch-Roboter-Kollaboration setzt aber nicht nur auf Gedanken, sondern soll die verschiedensten Arten der aktiven Interaktion ermöglichen. Warum?
E. A. K.: Stellen Sie sich eine Schlaganfallpatientin vor, die zum Beispiel nicht in der Lage ist, den rechten Arm zu bewegen. Auch bei ihr gibt es eine gewisse Planung der Bewegung im Gehirn. Die können wir erkennen und den Arm mithilfe eines Exoskeletts bewegen. Allerdings haben wir dabei ein paar Probleme. Zunächst einmal sind wir beim Interpretieren nicht zu 100 Prozent korrekt. Das zweite Problem ist, dass wenn ein Mensch an eine Körperbewegung denkt, er sie nicht unbedingt ausführen will.
Die meisten Patienten haben selbst nach einem Schlaganfall noch einige winzige Muskelaktivitäten. Die kann man nutzen: Man interpretiert zunächst das EEG und erkennt, dass die Patientin an eine Bewegung denkt. Gleichzeitig überwacht man die Muskeln – wird dabei eine Aktivität erkannt, weiß man, dass sie die Bewegung wirklich ausführen will.
Diese Kombination verschiedener Signale ist sehr wichtig, denn wenn ein Exoskelett plötzlich den Arm bewegt, ohne dass man es wirklich wollte, hat man das Gefühl, seine Handlungsfähigkeit verloren zu haben und dass das Exoskelett den Willen übernommen hat.
In welchen Fällen macht es darüber hinaus Sinn, verschiedene Interaktionsmöglichkeiten zu nutzen?
E. A. K.: Nehmen Sie zum Beispiel die Spracherkennung. Oft ist die Umgebung dafür zu laut. In unseren Projekten arbeiten Kollegen an der Kombination von EEG und Sprache, um sicherzustellen, dass die gesprochene Sprache richtig erkannt wird. Gleichzeitig kann uns die Spracherkennung auch dabei helfen, das EEG besser zu interpretieren. In der Trainingsphase spricht man dann zum Beispiel aus: „Bitte hol den Hammer“. Gleichzeitig wird dabei das EEG gemessen. Und später denkt man das nur noch und der Roboter wird es anhand der Gehirnaktivität verstehen.
Hauptziel Ihres Projekts ist es, dass die Maschine die Intention des Menschen vorausahnen kann. Bei welchen Applikationen macht das Sinn?
E. A. K.: Manchmal arbeitet man mit Menschen zusammen, die schon bevor man ihnen etwas sagt, wissen, was sie tun sollen. Das empfinden wir als besonders positiv. Gleiches gilt auch bei der Zusammenarbeit mit einer Maschine – es gibt Situationen, in denen es besser wäre, wenn das System meine Absicht kennen würde.
Stellen Sie sich vor, Sie tragen ein Exoskelett und versuchen, irgendetwas über Kopf zu reparieren. Dann unterstützt das Exoskelett sie und hält den Arm aktiv hoch. Das ist erst mal gut. Aber dann ist man irgendwann fertig und will den Arm wieder senken. Die Sensoren erkennen das zwar, aber für einen Moment muss man dennoch gegen das Exoskelett arbeiten. Wenn wir dagegen die Planung der Armbewegungen im Gehirn erkennen können, kann sich das System darauf vorbereiten und schneller reagieren. Das haben wir bereits in der Praxis mit Personen getestet. Sie konnten die Unterschiede wirklich spüren.
Wie genau funktioniert das?
E. A. K.: Wir können in das Gehirn schauen und die Zeitspanne untersuchen, in der das Gehirn die Bewegung plant, bevor ein Signal an die Muskeln gesendet wird. Das kann bis zu 1,5 Sekunden dauern, manchmal sogar länger. Wir können in diese Vorbereitungsphase hineinschauen und erkennen, dass der Mensch sich bewegen will. Und das geht nur über die Gehirnsignale, nicht über Gesten, Muskelaktivität, Augenbewegungen oder Sprache.
Wie weit sind Sie dabei in Ihrem Forschungsprojekt aktuell?
E. A. K.: Im Rahmen des EXPECT-Projekts konzentrieren wir uns auf die Möglichkeiten, wie man auf multimodalen Daten trainieren kann, wie man sie nutzen kann. Zum Beispiel, um zwischen Signalen umzuschalten, wenn die Qualität eines Signals nachlässt. Es geht also nicht um den allgemeinen Ansatz, sondern eher darum, wie wir verschiedene Methoden einsetzen können, um uns an veränderte Signalqualitäten anzupassen.
So können wir mit anderen Signalen trainieren, als wir später verwenden. Wenn zum Beispiel bei einem Patienten die Muskelaktivität am Anfang nicht zuverlässig ist, dann können wir zum Trainieren das EEG nutzen und später die Muskelaktivität und das Eye-Tracking verwenden, um die Leistung zu verbessern und zu steigern.
Sie nutzen unter anderem Gestik, Sprache, Augenbewegungen und Gehirnaktivität – gibt es eine Technologie, die in Zukunft besonders dominierend sein wird?
E. A. K.: Das ist eine schwer zu beantwortende Frage. Es kommt ein bisschen darauf an, wie und was man kommunizieren möchte. Aber das BCI ist für die Zukunft besser geeignet als die anderen Systeme. Ich glaube aber vor allem, dass sich die Qualität der Schnittstellen so verändern wird, dass sie unsere Bedürfnisse viel natürlicher erfüllen. Am besten wäre es, wenn man eine Schnittstelle nicht sehen, spüren und bemerken würde. Und ich glaube an multimodale Schnittstellen, denn so kommunizieren wir auch als Menschen – mit Sprache, Mimik und Gestik.
Welche Entwicklungen in der Halbleitertechnologie sind dabei für Sie besonders spannend?
E. A. K.: An der Universität Duisburg-Essen haben wir eine Gruppe von Forschern und Ingenieuren, die sich mit der Terahertz-Technologie beschäftigen. Darüber lässt sich sehr gut die Umgebung erkennen. Man sieht eine Wand, ein Fenster und eine Ecke und kann sogar sagen, ob der Bereich aus Holz, Stein oder Kunststoff ist. Es gibt viele Ideen, wie diese Technologie genutzt werden kann, um Biosignale berührungslos zu messen. So kann man zum Beispiel über die Reflexion der Terahertz-Wellen die Bewegung der Muskeln messen. Und anhand dieser Bewegungen wissen wir, was die Hand und die Finger tun.
Interessant ist auch der Einsatz von Graphen, um eine epidermale Elektronik zu realisieren, die unter Nutzung von Terahertz-Technologie passiv ohne Chip und Kabel am Körper funktioniert und die elektrische Aktivität in den Muskeln mit einer sehr hohen Auflösung misst. Das ist nicht nur für die Interaktion sehr interessant, sondern zum Beispiel auch, um Muskelkrankheiten zu verstehen.
Fehlt Ihnen bei den heute verfügbaren Halbleiterlösungen noch etwas für Ihre Plattform?
E. A. K.: Stellen Sie sich vor, Sie wollen eine Analyse der Gehirnaktivität für sehr komplizierte Fragen durchführen. Dafür braucht man eine große Menge an Daten und mächtige Machine Learning-Modelle. Das ist vor Ort vielleicht ziemlich schwierig zu realisieren. Aber die Forschung befasst sich bereits damit, diese großen KI-Modelle in kleine Embedded-Geräte zu bringen. Das ist auch für uns sehr wichtig. Denn wenn man mit seinem Exoskelett in der freien Natur herumläuft und kein Internet hat, dann ist man wirklich in Schwierigkeiten, wenn man sich auf eine KI-Verarbeitung verlässt, die in der Cloud läuft.
Um das KI-Modell jedoch in das System zu integrieren, brauchen wir sehr energieeffiziente Rechenleistungen. Dabei muss das Modell auch im Einsatz weiterhin lernen können. Denn stellen Sie sich vor, Sie haben einen Patienten, bei dem ein Signal mit der Zeit immer besser wird. Das sollte das Modell erkennen, sodass sich das System vielleicht mehr auf die Muskeln als auf das EEG verlässt.
Was ist aus Ihrer Sicht wichtig beim Design einer optimalen Mensch-Maschine-Schnittstelle?
E. A. K.: Das Wichtigste ist, dass man offen ist. Also nicht zu sagen, ich bin BCI-Forscher, also will ich das mit der Gehirnaktivität machen. Man sollte immer überlegen, was man tun will und wie der Mensch interagieren würde.
Als Zweites sollte man immer daran denken, dass wir über eine diverse Gesellschaft sprechen. Vielleicht ist die Mimik bei verschiedenen Nationalitäten unterschiedlich? Man sollte also bei der Entwicklung eines solchen Systems nicht nur die Technologie berücksichtigen, sondern auch das soziale Umfeld.
Für mich ist es auch sehr wichtig, mit den Personen zu sprechen, die das System später benutzen.
Maschinen, die die Gedanken des Menschen lesen können – ist das der erste Schritt hin zu Hollywoods Dystopie, in der Maschinen die Macht über Menschen erlangen?
E. A. K.: Im Moment sind wir noch nicht an dem Punkt, an dem wir wirklich komplett die Gedanken lesen können. Und um ehrlich zu sein, glaube ich auch nicht, dass die Gefahr darin besteht, dass die Maschine den Menschen kontrolliert. Ich sehe das Risiko eher darin, dass ein anderer Mensch Zugang zu dem Gehirn haben könnte.
Wir hatten zum Beispiel ein Projekt, bei dem wir einen EEG-basierten Ansatz entwickeln wollten, um eine hohe Arbeitsbelastung von Personen in einem Unternehmen zu erkennen, um zum Beispiel einen Burn-out zu verhindern.
Dabei muss man natürlich zum einen verhindern, dass jemand mit krimineller Energie die Daten in der Cloud abgreift. Aber selbst wenn diese Daten nur genutzt werden, um die Umgebung der Person in der Produktion zu optimieren, zum Beispiel um einen Roboter zu verlangsamen, dann kann das auf die Person zurückfallen. Weil der Arbeitgeber dann vielleicht sagt, ich stelle lieber jemanden Jüngeren ein, bei dem der Roboter schneller arbeiten kann.
Das Verständnis einer Person kann also auch dazu benutzt werden, die Situation zu verschlimmern oder Personen zu schaden. So können wir zum Beispiel Personen diskriminieren, weil wir herausfinden, dass sie bestimmte Dinge nicht erkennen oder ihre Aufmerksamkeit sehr gering ist. Das kann schon heute passieren, wenn man Zugang zum EEG der Person hat.
Zum Schluss ein Blick in die Zukunft – sie dürfen jetzt visionär werden: Wie werden wir in 25 Jahren mit Maschinen interagieren?
E. A. K.: Ich erwarte, dass dann die Interaktion mit Maschinen sehr ähnlich ist wie die mit anderen Personen. Wir werden sehr natürlich mit Systemen interagieren und sprechen. Dazu erkennen die Systeme, was wir wollen. Dabei wird die multimodale Interaktion selbstverständlich sein. Ich glaube, dass es in Zukunft sehr schwer sein wird, von außen zu erkennen, ob wir mit einem anderen Menschen oder mit einer Maschine interagieren.