Schlagwort: <span>FPGA</span>

Nur 1 von 1 Milliarde

Zuverlässigkeit wird zunehmend ein entscheidender Faktor für Mikrochips. Denn Elektronik übernimmt immer mehr sicherheitskritische Funktionen: ob beim automatisierten Fahren, in der Medizintechnik oder der ­robotergestützten Industrieproduktion. Mit verschiedenen Ansätzen kann die Zuverlässigkeit von Mikroelektronik ­gesteigert werden.

Zuverlässigkeit bedeutet, dass der Mikrochip über seine gesamte Lebensdauer seine Aufgaben fehlerfrei erfüllt. Bisher hat sich die Halbleiterindustrie auf die Qualitätskontrolle während des Produktionsprozesses und einen abschließenden Test des fertigen Chips konzentriert – doch das stellt nur ein fehlerfrei gefertigtes Produkt sicher, nicht aber seine längerfristige Zuverlässigkeit im Feld. Dies ist im Consumer-Bereich, in dem die High-End-Chips mit Strukturgrößen von 10 Nanometer oder kleiner vor allem eingesetzt werden, noch kein größeres Problem. Denn hier war es bisher in der Regel zulässig, dass innerhalb einer angenommenen Lebensdauer von zwei Jahren einer von einer Million Chips ausfallen durfte. Doch seitdem immer mehr High-End-Chips auch in sicherheitskritischen Anwendungen eingesetzt werden, muss deren Zuverlässigkeit steigen. So fordert die Automobilindustrie zum Beispiel, dass Chips 18 Jahre fehlerfrei funktionieren bzw. in diesem Zeitraum nur ein Chip pro eine Milliarde ausfällt. Auch in anderen Märkten steigen die Anforderungen: Smartphone-Hersteller fordern inzwischen, dass Chips mindestens vier Jahre lang funktionieren statt wie früher nur zwei Jahre. Und in einigen Industrie- und IoT-Anwendungen, wo der Austausch von Sensoren schwierig ist, müssen Chips auch mal 20 Jahre oder länger halten. 

Zuverlässigkeit erhöhen

Um die Zuverlässigkeit eines Mikrochips zu erhöhen, müssen Designer das Zusammenspiel aller Komponenten im Blick haben: Eine optimale Gestaltung von Leiterplatte, Verbindungstechnik und Chipgehäuse ist Voraussetzung, wobei auch die Umgebungsbedingungen des zukünftigen Einsatzortes berücksichtigt werden müssen: Feuchtigkeit kann auch im Chip zu Korrosion führen, Vibrationen können Verbindungen lösen usw.

Zudem muss aber auch die Zuverlässigkeit des eigentlichen Halbleiter-Bauelements betrachtet werden. Dabei gelten einige Faustregeln: So sind aus gröberen Strukturen aufgebaute Chips tendenziell weniger anfällig gegenüber Einflüssen wie kosmischer Strahlung oder schwankenden Betriebsspannungen. Chips mit kleinerer Grundfläche leiden dagegen weniger unter mechanischen Stressfaktoren wie Vibration oder Temperaturdifferenzen. Zudem sind Chips auch einem Alterungsprozess ausgesetzt: So sorgt Elektronenmigration für eine Unterbrechung von Leiterbahnen, Temperatureffekte wie Bias Temperature Instability (BTI) und Hot Carrier Injection (HCI) spielen bei hochintegrierten Chips eine immer größere Rolle. Man spricht dabei von Alterung, Verschleiß oder Degradation. Durch die fortschreitende Miniaturisierung mikroelektronischer Bauelemente sind diese negativen Veränderungen der Materialeigenschaften noch vielfältiger und komplizierter geworden. Lokal auftretende Stromdichten und Feldstärken innerhalb einer Schaltung erreichen zum Beispiel in kleineren Strukturen eher kritische Werte. Bei Standardelektronik minimieren Designer üblicherweise das Ausfallrisiko, indem sie Sicherheitsreserven in ihre Entwürfe einbauen. Dieses sogenannte „Over Design“ ist allerdings teuer, zeitaufwändig und mit immer kleineren Technologien nicht mehr realisierbar.

Chips mit integriertem Selbsttest

Eine Lösung, um zumindest drohende Ausfälle früher zu erkennen, ist die Integration von Selbsttests in den Chip. Bei den sogenannten Built-in Self Tests (BIST) werden integrierte Schaltkreise durch Hardware- oder Softwarefunktionen ergänzt, mit denen sie ihre eigene Funktion testen können. So kann zum Beispiel der Prozessor-Takt überwacht werden: Ein „Clock-Control“ spürt eventuelle Taktfehler auf. Im Falle eines Falles wird das System automatisch in einen sicheren Status versetzt und ein entsprechendes Signal erzeugt.

Ausfälle vorhersagen

Noch einen Schritt weiter gehen Lösungen, die den gesamten Chip überwachen und mittels Künstlicher Intelligenz einen bevorstehenden Ausfall ankündigen können. So hat zum Beispiel das israelische Unternehmen ­proteanTecs eine intelligente On-Chip-Überwachungsmethode entwickelt. Sie verbindet eine auf maschinellem Lernen basierende Softwareplattform mit eigens entwickelten sogenannten Agenten, die bereits in der Entwicklung in das Halbleiterdesign integriert werden und im Halbleiter als Sensoren dienen. Durch deren Auslesen und die Analyse der daraus gewonnenen Daten können Erkenntnisse über Funktions- und Leistungsfähigkeit von Halbleitern und elektronischen Systemen gewonnen werden. Insbesondere bei neuen Halbleitergenerationen kann mit diesen Ergebnissen die Qualität und die Zuverlässigkeit gesteigert und die Lebensdauer verlängert werden.

Alterung simulieren

Um ein „Over Design“ zu vermeiden, können Designer zudem eine Simulation der zu erwartenden Alterung in den IC-Entwicklungsprozess integrieren. So lässt sich bereits in der Designphase die Zuverlässigkeit der Entwürfe genau prognostizieren. Zum Beispiel erarbeitet das Fraunhofer IIS an seinem Institutsteil Entwicklung Adaptiver Systeme EAS in Dresden dazu Ansätze. Dabei verbinden sie unter dem Schlagwort „Physics-of-Failure“ Wissen zu den physikalischen Mechanismen mit Ansätzen, die auf statistischen Daten über Ausfälle im Einsatz beruhen. So können Elektronikdesign-Teams zukünftig effizient potenzielle Zuverlässigkeitsprobleme von Halbleitern und Systemen bewerten – und das bereits vor ihrer Fertigung.

Fingerabdruck für Elektronik

Eng verwandt mit dem Thema Zuverlässigkeit ist die Vertrauenswürdigkeit. Denn gefälschte oder manipulierte Chips können auch zu einem Ausfall im Einsatz führen. Forscher der Universität Ulm arbeiten daher daran, einen fälschungssicheren physikalischen „Fingerabdruck“ für elektronische Leiterplatten, programmierbare Schaltungen und integrierte Schaltkreise (FPGA und Microcontroller) zu entwickeln. Die Idee basiert darauf, dass es bei der Produktion der Bauteile zu unvermeidlichen Prozessschwankungen kommt, die im Nanobereich zu kleinsten Abweichungen führen. Durch die detaillierte Erfassung dieser Abweichungen wird es möglich, das Bauteil über die gesamte Lebensdauer zu identifizieren. So kann später jederzeit herausgefunden werden, ob ein Bauteil ein Original ist oder ob es verändert wurde, um der Anwendung zu schaden. Der Grundgedanke dahinter: In der eindeutigen Identifizierbarkeit von Elektronik-Komponenten liegt der Schlüssel zu mehr Zuverlässigkeit. 

 

Begriffe rund um -Zuverlässigkeit

Defective Parts Per Million (DPPM): 

Defekte Teile pro Million. Bezeichnet auch ausgefallene Geräte pro Million gelieferter Einheiten.

­––––––

Failure in Time (FIT): 

Ausfallrate – Die Einheit FIT gibt die Anzahl der Bauteile an, die in 109 Stunden ausfallen (Ausfallrate bei 1 Fit also einmal in ca. 114.000 Jahren).

­––––––

Mean Time Between Failure (MTBF): 

Die durchschnittliche Zeit zwischen dem Auftreten von Defekten. Anders ausgedrückt, die Lebensdauer eines Chips dividiert durch die Gesamtzahl der Defekte.

­––––––

Mean Time To Failure (MTTF): 

Die durchschnittliche Zeit bis zum Eintreten des Ausfalls. Der MTTF-Wert wird bei nicht reparierbaren Systemen verwendet.

ACAPs – Adaptive Compute Acceleration Platforms

ACAPs sind hochintegrierte, heterogene Multi-Core-Rechenplattformen, die die Möglichkeiten von FPGAs deutlich erweitern und effizienter als andere arbeiten. Sie sind die nächste Generation noch leistungsstärkerer Plattformen die bereits auf den Markt drängt. Mikroprozessoren sind mittlerweile sehr leistungsfähig und preiswert. Nahezu jedes Gerät kann mit ihnen ausrüsten werden. Die konstante Weiterentwicklung ermöglicht es heute sogar, Edge Geräte mit Künstlicher Intelligenz auszustatten. 

Embedded Systeme und Edge Computing sind nur aus einem Grund realisierbar. Und zwar weil heutzutage Mikroprozessoren mit immer mehr Rechenleistung zu immer geringeren Kosten zur Verfügung stehen.

Seit über 50 Jahren gilt bereits das Mooresche Gesetz. Es besagt, dass sich alle 12 bis 24 Monate die Leistungsfähigkeit von Computer- und Speicherchips verdoppelt. Ende der 1960er kamen die ersten 4-Bit-Prozessoren auf den Markt. Diese hatten 2.250 Transistoren „on board“ und eine Taktfrequenz von 740 Kilohertz. Das heißt, sie konnten 60.000 4-Bit-Instruktionen pro Sekunde verarbeiten. Seitdem kamen im regelmäßigen Rhythmus Prozessoren auf den Markt, die die Zahl der verarbeiteten Informationen in der gleichen Takt-Periode verdoppelt. Erst 8 Bit, dann 16 Bit und anschließend 32 Bit.

Mit Beginn des aktuellen Jahrtausends stand die 64-Bit-Architektur auch für Computer zur Verfügung. Deren aktuell leistungsstärkste Prozessoren verfügen über rund 20 Milliarden (!) Transistoren und Taktfrequenzen von mehr als 4,5 Gigahertz. Diese Entwicklung ging einher mit einer drastischen Reduktion der Kosten. Während 1961 – inflationsbereinigt – noch 145,5 Milliarden US-Dollar pro GFlop gezahlt wurden, liegen die Kosten heute nur noch bei wenigen Cent. Ein GFlop entspricht einer Milliarde Rechenoperationen pro Sekunde.

Das bedeutet, dass sich heute problemlos auch billige Massenprodukte mit Chips ausrüsten lassen. Somit steht genug günstige Rechenpower für das Edge Computing zur Verfügung.

Weniger Energieverbrauch bei immer mehr Leistung

Allerdings geht es beim Edge Computing nicht nur um die Leistung der Chips, sondern auch um Energieeffizienz. Denn viele der smarten Geräte sind batteriebetrieben. Benutzerdefinierte Schaltkreise, sogenannte ASICs (Application Specific Integrated Circuits), bieten die höchste Effizienz. Jedoch ist bei einer Änderung der Anforderungen eine Neukonfiguration nicht möglich.

Daher ersetzen zunehmend sogenannte FPGAs die Allzweck-Prozessoren beim Edge Computing. Bei diesen Field Programmable Gate Arrays handelt es sich um integrierte Schaltkreise. Damit kann nach der Herstellung eine logische Schaltung geladen werden. Im Unterschied zu Prozessoren verarbeiten FPGAs mit ihren programmierbaren Basisblöcken Daten parallel. Jeder einzelne Verarbeitungstask wird dabei einem dedizierten Bereich auf dem Chip zugewiesen und autonom ausgeführt. Dabei verbrauchen sie deutlich weniger Energie als CPUs. Dadurch vereinen FPGAs die Flexibilität und Programmierbarkeit von Software, die auf einem Allzweck-Prozessor läuft. Und das, mit der Geschwindigkeit und Energieeffizienz eines ASIC.

Die Eigenschaft, viele Aufgaben parallel abzuarbeiten, prädestinieren FPGAs zudem für KI-Anwendungen. Sprachsteuerung, Bildverarbeitung oder Augmented Reality sind nur einige Beispiele für KI-Anwendungen. Sie alle erfordern eine hohe Rechenleistung und einen geringen Stromverbrauch. Vor allem aber eine geringe Latenzzeit, um das Erlebnis reaktionsschnell und natürlich zu gestalten.

Daher geht der Trend dahin, immer mehr KI-Anwendungen aus der Cloud in das Edge Computing zu verlagern. Grafikprozessoren, finden sich aufgrund ihrer Fähigkeit der parallelen Datenverarbeitung häufig in Rechenzentren wieder. Diese benötigen für Edge Anwendungen jedoch zu viel Energie. Die Analysten von McKinsey erwarten, dass der Markt für KI-Hardware in Edge Anwendungen von rund 100 Millionen US-Dollar in 2017 auf 5,5 Milliarden US-Dollar in 2025 steigen wird. Dabei bekommen die großen Chip-Hersteller, die im Cloud-Bereich den Markt dominieren, zunehmend Konkurrenz von anderen etablierten Unternehmen.

ACAPs als Weiterentwicklung der FPGAs

Als Weiterentwicklung der FPGAs zeichnen sich zudem sogenannte ACAPs ab. Diese „Adaptive Compute Acceleration Platformen“ sind hochintegrierte, heterogene Multi-Core-Rechenplattformen. Sie erweitern deutlich die Möglichkeiten von FPGAs und arbeiten im Vergleich zu CPU- und GPU-basierten Plattformen deutlich schneller und energieeffizienter. ACAPs lassen sich auf der Hardwareebene modifizieren und sich an ein breites Spektrum von Applikationen und Rechenlasten anpassen. Auch dynamisch während des Betriebes.

Bei FPGAs kann nur eine einzige logische Schaltung geladen werden. Dahingegen eignet sich eine ACAP zur Beschleunigung einer breiten Palette von Anwendungen, auch aus dem KI-Bereich.

Xilinx stellte die ersten ACAP-Chips her, die erstmals im Sommer 2019 ausgeliefert wurden. Sie basieren auf der 7-Nanometer-Prozesstechnologie und verfügen über 50 Milliarden Transistoren.

 

Chips treiben die KI voran

Vom Grafikprozessor (GPU) über neuromorphe Chips bis zum Quantencomputer – die Entwicklung von KI-Chips ermöglicht immer neue Leistungssprünge.

KI-gestützte Anwendungen müssen mit rasant wachsendem Datenvolumen mithalten und häufig gleichzeitig in Echtzeit reagieren. Klassische CPUs, wie man sie in jedem Computer findet, sind da schnell überfordert, denn sie wickeln Aufgaben nacheinander ab. Eine deutlich höhere Leistung gerade beim Deep Learning wäre möglich, wenn die einzelnen Prozesse parallel ausgeführt werden.

Hardware für parallele Rechenprozesse

Damit rückten vor einigen Jahren Chips in den Fokus der KI-Branche, die eigentlich für einen ganz anderen Einsatzzweck entwickelt wurden: Grafikprozessoren (Graphics Processing Units oder GPUs). Sie warten mit einer massiv-parallelen Architektur auf, die mit vielen kleineren, aber effizient arbeitenden Computer-Einheiten Rechenaufgaben stark parallelisiert abwickeln können. Also genau das, was das Deep Learning benötigt. Inzwischen bauen die Hersteller von Grafikprozessoren spezielle GPUs für KI-Anwendungen. Ein Server mit einer einzelnen dieser Hochleistungs-GPUs kann über 40-mal mehr Durchsatz als ein reiner CPU-Server bewältigen.

Inzwischen sind aber selbst GPUs für einige KI-Unternehmen zu langsam. Das hat nicht zu unterschätzende Auswirkungen auf den Halbleiter-Markt: Denn neben den klassischen Halbleiter-Herstellern werden zunehmend aus Käufern bzw. Nutzern von Halbleitern – wie Microsoft, Amazon oder eben Google – Hersteller (oder Firmen, die Chips nach eigenen Vorstellungen für sich herstellen lassen). So hat zum Beispiel Alphabet, der Mutterkonzern hinter Google, einen eigenen Application Specific Integrated Circuit (ASIC) entwickelt, der speziell auf das Machine Learning zugeschnitten ist. Die zweite Generation dieser Tensor Processing Unit (TPU) von Alphabet bietet eine Leistung von 180 Teraflops, während Nvidias aktuellste GPU bei 120 Teraflops liegt. Flops (Floating Point Operations Per Second) geben an, wie viele einfache mathematische Berechnungen wie Addition oder Multiplikation ein Rechner pro Sekunde durchführen kann.

Unterschiedliche Anforderungen an die Leistung

Doch Flops sind nicht der einzige Maßstab für die Leistungsfähigkeit eines Chips. So wird bei KI-Prozessoren unterschieden zwischen der Leistung in der Trainings-Phase, wo besonders parallele Rechenprozesse gefragt sind, und der Leistung in der Applikations-Phase, in der das Gelernte angewendet wird – der sogenannten Inferenz. Hier liegt der Fokus darauf, durch Schlussfolgerung neue Fakten aus einer bestehenden Datenbasis abzuleiten. „Im Gegensatz zur KI-Komponente des massiven parallelen Trainings, die in Rechenzentren gefragt ist, ist Inferenz grundsätzlich eine sequentielle Kalkulation, die, wie wir glauben, zumeist auf Edge Geräten wie Smartphones oder dem Internet der Dinge ausgeführt werden wird“, meint Abhinav Davuluri, Analyst bei Morningstar, einem führenden Anbieter von unabhängigem Investment-Research. Edge Computing bezeichnet im Gegensatz zum Cloud Computing die dezentrale Datenverarbeitung am „Rand“ des Netzwerks. Dabei spielen KI-Techniken eine immer größere Rolle, denn lernfähige Edge Devices wie Roboter oder autonome Fahrzeuge müssen die Daten zur Analyse nicht erst in die Cloud übertragen. Vielmehr können sie die Daten direkt vor Ort übernehmen – sie sparen sich die Zeit und Energie, die für die Datenübertragung zum Rechenzentrum und zurück erforderlich ist.

Lösungen für das Edge Computing

Gerade für derartige Edge-Computing-Anwendungen etabliert sich aktuell neben CPUs, GPUs und ASICs eine weitere Chip-Variante – die sogenannten Field Programmable Gate Arrays (FPGA). Hierbei handelt es sich um integrierte Schaltkreise, in die nach der Herstellung eine logische Schaltung geladen werden kann. Im Unterschied zu Prozessoren bieten FPGAs mit ihren mehreren programmierbaren Basisblöcken echte Parallelität, so dass verschiedene Verarbeitungsoperationen nicht auf die gleiche Ressource angewiesen sind. Jeder einzelne Verarbeitungs-Task wird einem dedizierten Bereich auf dem Chip zugewiesen und kann so autonom ausgeführt werden. Sie erreichen im Trainingsprozess zwar nicht ganz die Leistung einer GPU, stehen aber im Inferenz-Ranking über Grafikprozessoren. Vor allem aber verbrauchen sie weniger Energie als GPUs – das ist bei Anwendungen auf kleinen mobilen Geräten besonders wichtig. Tests haben gezeigt, dass FPGAs zum Beispiel mehr Bilder pro Sekunde und Watt erkennen können als GPUs oder CPUs. „Wir denken FPGAs sind in punkto Inferenz am vielversprechendsten, da sie ein Upgrade erhalten können, während sie im Feld sind und niedrige Latenz bieten, wenn sie im Edge Device neben einer CPU platziert werden“, so Morning-Star Analyst Davuluri.

Immer mehr Start-ups entwickeln KI-Chips

Immer mehr Unternehmensgründer – und Kapitalgeber – erkennen die Chancen, die in KI-Chips stecken: Mindestens 45 Start-ups arbeiten heute an entsprechenden Halbleiter-Lösungen, wenigstens fünf von ihnen haben jeweils mehr als 100 Millionen US-Dollar von Investoren erhalten. Insgesamt investierten Risikokapitalgeber laut den Marktforschern von CB Insights mehr als 1,5 Milliarden US-Dollar in Chip-Start-ups in 2017 – das ist doppelt so viel wie noch vor zwei Jahren. So hat die britische Firma Graphcore mit ihrer Intelligence Processing Unit (IPU) eine neue Technologie zur Beschleunigung von Anwendungen von Machine Learning und Künstlicher Intelligenz entwickelt. Die KI-Plattform der US-Firma Mythics-AI führt hybride Digital/Analog-Berechnungen in Flash-Arrays durch. Die Inferenz-Phase kann dadurch direkt innerhalb der Speicher ausgeführt werden, in denen das Wissen des neuronalen Netzes abgelegt ist – mit entsprechenden Vorteilen bei Leistung und Genauigkeit. China ist eines der aktivsten Länder bei KI-Chip-Start-ups. Alleine der Wert von Cambricon Technologies wird auf mittlerweile 1 Milliarde US-Dollar geschätzt. Das Start-up hat einen Neuronalen-Netz-Prozessorchip unter anderem für Smartphones entwickelt.

Neue Chip-Architekturen für noch mehr Leistung

Der neueste Technologie-Trend bei KI-Halbleitern sind neuromorphe Chips. Deren Architektur ahmt die grundlegende Funktionsweise des menschlichen Gehirns beim Lernen und Verstehen nach. Ein wesentliches Merkmal ist die Aufhebung der Trennung zwischen Recheneinheit und Datenspeicher. Erste in 2017 vorgestellte neuromorphe Test-Chips können mit über 100.000 Neuronen und mehr als 100 Millionen Synapsen Training und Interferenz auf einem Chip vereinen. Sie sollen selbstständig im Einsatz lernen können, wobei die Lernrate um den Faktor eine Million über der von neuronalen Netzen der dritten Generation liegt. Gleichzeitig sind sie dabei besonders energieeffizient. Im wahrsten Sinne ein Quantensprung für KI-Systeme sind Quantencomputer: Nicht nur die großen Player der IT-Branche wie Google, IBM oder Microsoft, sondern auch Staaten, Geheimdienste, selbst Autohersteller investieren in die Entwicklung dieser Technologie. Diese Computer basieren auf den Lehren der Quantenmechanik. So kann ein Quantencomputer jeden Rechenschritt mit sämtlichen Zuständen zur gleichen Zeit durchführen. Das heißt, er liefert eine besonders hohe Leistung für die parallele Verarbeitung von Befehlen und besitzt das Potenzial, mit einer weitaus höheren Geschwindigkeit zu rechnen als herkömmliche Computer. Auch wenn die Technik noch in den Kinderschuhen steckt – das Rennen um immer bessere und zuverlässigere Quanten-Prozessoren hat längst begonnen.