KI-Bildgenerierung: Wie hoch ist der Energieverbrauch für ein generiertes Bild?

Von Gemini 3.5 Flash habe ich mir als konkretes Beispiel ein Bild für den Vereinsstammtisch der Kronacher Münzfreunde generieren lassen. Der folgende Prompt diente als Grundlage:

Die Aufgabenstellung

Das beigefügte Bild von Kronach, von der Wassergasse aus gesehen, war folgendes:

Blick zur Oberen Stadt in Kronach


Daraus erstellte das KI-Modell folgenden System-Prompt über übergab es dem KI-Bildgenerator:

Das Ergebnis von Alphabet’s „Nano Banana 2“ generiert

Von der KI generiertes Bild


Wieviel Energie wurde nun für die Generierung des Bildes benötig? Da habe ich natürlich den Chatbot gefragt.

Die KI-Antwort zum Energieverbrauch


Das lässt sich ziemlich genau eingrenzen, da die Wissenschaft den Energiebedarf von KI-Inferenz (also der Beantwortung von Nutzeranfragen) mittlerweile gut untersucht hat.

Eine umfassende Studie des KI-Unternehmens Hugging Face und der Carnegie Mellon University zeigt, dass die Generierung eines einzigen hochauflösenden KI-Bildes im Schnitt etwa 0,0012 bis 0,02 Kilowattstunden (kWh) Strom verbraucht.

Um das greifbarer zu machen, hilft folgender Vergleich:

  • 0,02 kWh entsprechen ungefähr 1,2 Wattstunden.
  • Das ist in etwa so viel Strom, wie benötigt wird, um ein Smartphone komplett aufzuladen (z. B. ein iPhone von 0 % auf 100 %).
  • Alternativ entspricht es der Energie, die eine moderne LED-Glühbirne (mit ca. 8 Watt) verbraucht, wenn sie knapp 10 Minuten lang brennt.

Warum schwanken die Werte?

Der exakte Verbrauch hängt stark von der Server-Infrastruktur im Rechenzentrum ab:

  1. Die Hardware: Moderne Grafikprozessoren (wie die Nvidia H100 oder Googles eigene TPUs) sind extrem energieeffizient pro Rechenoperation, ziehen unter Volllast aber kurzzeitig mehrere hundert Watt.
  2. Die Berechnungsdauer: Die Generierung des Stammtisch-Bildes hat nur wenige Sekunden gedauert. Je mehr Rechenschritte (Sampling Steps) für ein scharfes, fotorealistisches Ergebnis nötig sind, desto länger arbeitet der Chip und desto mehr Strom fließt.

Für sich genommen ist der Stromverbrauch eines einzelnen Bildes also minimal. Erst die Masse an weltweiten Abfragen am Tag sorgt in den Rechenzentren für den enormen Gesamteffekt.

Die Antwort der KI ist in einem Punkt fehlerhaft

Diese Aussage ist nicht richtig. In diesem Punkt hat die KI konfabuliert („halluziniert“) oder seine Aussage in Umrechnung einfach nicht überprüft.

0,02 kWh sind natürlich 20 Wh und nicht 1,2 Wh. Hier hat die KI für für die Berechnung der 1,2 Wh die untere Grenze von 0,0012 Wh aus den oben genannten Studien genommen und dann mit dem oberen Wert von 0,02 kWh sprachlich zusammengeführt. Dies war vermutlich die wahrscheinlichste Fortführung des Antworttextes.

Die nachfolgende Aussage der KI

passt dann wieder ungefähr zu der Aussage 0,02 kWh, bzw. 20 Wh. So hat der Akku eines iPhone 17 Pro Max knapp 19 Wh (Quelle: https://www.macwelt.de/article/986562/iphone-akku-kapazitaet-modelle.html)

Zum Abschluss eine Zusatzfrage für den KI-Chatbot

Die Antwort von Gemini 3.5 Flash:

Der Energieverbrauch für die Verarbeitung eines einzelnen Tokens ist verschwindend gering, da Modelle wie Gemini 3.5 Flash extrem auf Effizienz getrimmt sind.

Im Durchschnitt verbraucht die Verarbeitung (bzw. Generierung) von 1 Token etwa 0,000015 bis 0,00005 Wattstunden (Wh) umgerechnet 1,5×105 bis 5×105 Wh.1,5 \times 10^{-5}\text{ bis } 5 \times 10^{-5} \text{ Wh.}

Um diese winzige Zahl greifbarer zu machen, hilft eine Hochrechnung auf größere Textmengen:

  • 1.000 Token (ca. 750 Wörter, was der Länge einer ausführlichen E-Mail oder eines kurzen Artikels entspricht) verbrauchen etwa 0,015 bis 0,05 Wattstunden.
  • Um 1 Wattstunde Energie zu verbrauchen (also etwa ein Vierzehntel einer iPhone-17-Akkuladung), muss die KI zwischen 20.000 und 66.000 Token verarbeiten.

Fazit


Der Energieverbrauch für die Generierung eines von der KI generierten Bildes liegt damit in etwas zwischen einem Zehntel und einer vollen Ladung eines Akkus eines Smartphone-Top-Modells laut Aussage des KI-Chatbots.

In der Studie der Carnegie Mellon University wurde ein Mittelwert für die benötigte Inferenzenergie von ca. 3 Wh für ein generiertes Bild ermittelt (Quelle: https://arxiv.org/pdf/2311.16863). Der Energieinhalt einer Akkuladung eines iPhone 17 Pro Max entspricht damit im Mittel der benötigten Inferenzenergie für 6 generierte KI-Bilder. Auf die LED-Birne mit 8 Watt übertragen: Die LED-Lampe brennt mit der Inferenzenergie von 3 Wh ca. 22 Minuten.

3 Wh/8 W22 Minuten3 \text{ Wh} / 8 \text{ W} \approx{ 22}\text{ Minuten}

Eine textuelle Kommunikation mit einem KI-Chatbot verbraucht wesentlich weniger Energie im Vergleich zu einer Bildgenerierung.

Oliver Fischer

Oliver Fischer ist der Inhaber der Firma "Oliver Fischer IT", studierter Informatiker, ein begeisterter IT'ler mit mehr als 30 Jahren Berufserfahrung und Admin dieser Webseite.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert