Mustererkennung, also das Auffinden von Regeln oder Mustern in Big Data, Bildern, Geräuschen und vielem mehr ist eine der großen Stärken Künstlicher Intelligenz.
Viele Funktionen intelligenter Informationssysteme basieren auf Verfahren der Mustererkennung: Die Unterstützung von Diagnosen in der Medizin, die Spracherkennung von Assistenzsystemen und Übersetzungstools, die Objekterkennung aus Kamerabildern und Videos oder auch die Vorhersage von Aktienkursen. Bei allen Anwendungen geht es darum, bestimmte Muster – oder Regeln – in großen Datenmengen zu erkennen. Ob es sich bei diesen Daten um die in einer Datenbank gespeicherten Informationen, um Pixel eines Bildes oder die Betriebsdaten einer Maschine handelt, ist dabei gleich. Mit klassischen Computersystemen war dies entweder gar nicht oder nur mit sehr langen Berechnungszeiten von bis zu mehreren Tagen möglich.
Daten in Sekundenschnelle klassifizieren
Mit der Entwicklung neuronaler Netze und maschinellem Lernen stehen heute Lösungen zur Verfügung, in der auch komplexe Eingangsdaten innerhalb von Minuten oder sogar Sekunden mit antrainierten Merkmalen abgeglichen und klassifiziert werden können. Dabei werden zwei grundsätzliche Methoden unterschieden: die überwachte und die unüberwachte Klassifikation.
Bei der überwachten Klassifikation von Eingangsdaten in der Mustererkennung wird das System mit Trainingsdaten „gefüttert“, bei denen die Daten mit dem richtigen Ergebnis entsprechend gekennzeichnet sind. Die richtige Antwort muss also während der Trainingsphase vorliegen und der Mustererkennungs-Algorithmus muss die Lücke zwischen dem Input und dem Output füllen. Diese überwachte Mustererkennung wird beispielsweise beim maschinellen Sehen für die Objekterkennung oder für die Gesichtserkennung eingesetzt.
Beim unüberwachten Lernen sind die Trainingsdaten nicht gekennzeichnet, die möglichen Ergebnisse sind also unbekannt. Der Mustererkennungs-Algorithmus kann also nicht trainiert werden, indem ihm die Ergebnisse, auf die er kommen soll, vorgegeben werden. Vielmehr werden Algorithmen genutzt, die die Struktur der Daten erkunden und sinnvolle Informationen aus ihnen bilden. Um beim Beispiel des maschinellen Sehens zu bleiben: Die Techniken der unüberwachten Mustererkennung werden unter anderem für die Objekterkennung verwendet. Grundsätzlich dienen unüberwachte Verfahren auch dem Data Mining, also der Erkennung von Inhalten in großen Datenmengen anhand von sichtbar werdenden Strukturen.
Strukturen in Big Data finden
Bei dieser Analyse von Big Data werden wiederum verschiedene Verfahren eingesetzt. So zum Beispiel die Assoziationsmuster-Analyse. Hierbei wird in einer Trainingsdatenmenge nach Kombinationen von Einzel-Tatsachen oder Ereignissen gesucht, die signifikant oft oder signifikant selten gemeinsam in den Daten vorkommen. Ein anderes Verfahren ist die Sequenzmusteranalyse. Hier wird in einer Trainingsdatenmenge nach zeitgeordneten Abfolgen gesucht, die auffällig oft oder selten nacheinander in den Daten vorkommen. Als Ergebnis der verschiedenen Analyseverfahren erhält man eine Sammlung von Mustern bzw. Regeln. Sie kann auf zukünftige Datensätze angesetzt werden, um herauszufinden, ob eine oder mehrere Regeln in diesen Datensätzen vorkommen. Die Regeln können in operative Softwareprogramme integriert werden, um zum Beispiel Frühwarnkonzepte zu realisieren oder fällige Wartungen zu prognostizieren.