Von Gemini 3.5 Flash habe ich mir als konkretes Beispiel ein Bild für den Vereinsstammtisch der Kronacher Münzfreunde generieren lassen. Der folgende Prompt diente als Grundlage:
Die Aufgabenstellung
Erstelle bitte ein Farbbild in einem fotorealistischen Stil für unseren Stammtisch der Kronacher Münzfreunde.
Nutze dazu Informationen von unserer Webseite https://muenzfreunde-kronach.de und das das beigefügte Bild mit einer Silhouette von Kronach.
Bitte keine Texte oder Zahlen im Bild.
Das beigefügte Bild von Kronach, von der Wassergasse aus gesehen, war folgendes:
Daraus erstellte das KI-Modell folgenden System-Prompt über übergab es dem KI-Bildgenerator:
A photorealistic, high-detail image for a coin collectors‘ club. In the background, a beautiful scenic view inspired by the historic town of Kronach, featuring traditional German half-timbered houses (Fachwerk) with red-tiled roofs along a small, flowing river with a stone weir, just like the Kronach lower town. In the upper background on a green hill, the subtle silhouette of a historic fortress is visible under a blue sky with soft white clouds. In the foreground, focused on a rustic wooden tavern table, there is a rich display of numismatic treasures: a collection of vintage and ancient coins, gleaming gold and silver coins, regional historical emergency money (Notgeld), and a magnifying glass next to a pair of white cotton collector’s gloves. Warm, natural sunlight illumination, vibrant colors, clear focus on the foreground items, high depth of field. Absolutely no text, no letters, and no modern numbers on the image.
Das Ergebnis von Alphabet’s „Nano Banana 2“ generiert
Wieviel Energie wurde nun für die Generierung des Bildes benötig? Da habe ich natürlich den Chatbot gefragt.
Wieviel Energie hat die Generierung des Bildes verbraucht?
Die KI-Antwort zum Energieverbrauch
Das lässt sich ziemlich genau eingrenzen, da die Wissenschaft den Energiebedarf von KI-Inferenz (also der Beantwortung von Nutzeranfragen) mittlerweile gut untersucht hat.
Eine umfassende Studie des KI-Unternehmens Hugging Face und der Carnegie Mellon University zeigt, dass die Generierung eines einzigen hochauflösenden KI-Bildes im Schnitt etwa 0,0012 bis 0,02 Kilowattstunden (kWh) Strom verbraucht.
Um das greifbarer zu machen, hilft folgender Vergleich:
- 0,02 kWh entsprechen ungefähr 1,2 Wattstunden.
- Das ist in etwa so viel Strom, wie benötigt wird, um ein Smartphone komplett aufzuladen (z. B. ein iPhone von 0 % auf 100 %).
- Alternativ entspricht es der Energie, die eine moderne LED-Glühbirne (mit ca. 8 Watt) verbraucht, wenn sie knapp 10 Minuten lang brennt.
Warum schwanken die Werte?
Der exakte Verbrauch hängt stark von der Server-Infrastruktur im Rechenzentrum ab:
- Die Hardware: Moderne Grafikprozessoren (wie die Nvidia H100 oder Googles eigene TPUs) sind extrem energieeffizient pro Rechenoperation, ziehen unter Volllast aber kurzzeitig mehrere hundert Watt.
- Die Berechnungsdauer: Die Generierung des Stammtisch-Bildes hat nur wenige Sekunden gedauert. Je mehr Rechenschritte (Sampling Steps) für ein scharfes, fotorealistisches Ergebnis nötig sind, desto länger arbeitet der Chip und desto mehr Strom fließt.
Für sich genommen ist der Stromverbrauch eines einzelnen Bildes also minimal. Erst die Masse an weltweiten Abfragen am Tag sorgt in den Rechenzentren für den enormen Gesamteffekt.
Die Antwort der KI ist in einem Punkt fehlerhaft
0,02 kWh entsprechen ungefähr 1,2 Wattstunden.
Diese Aussage ist nicht richtig. In diesem Punkt hat die KI konfabuliert („halluziniert“) oder seine Aussage in Umrechnung einfach nicht überprüft.
0,02 kWh sind natürlich 20 Wh und nicht 1,2 Wh. Hier hat die KI für für die Berechnung der 1,2 Wh die untere Grenze von 0,0012 Wh aus den oben genannten Studien genommen und dann mit dem oberen Wert von 0,02 kWh sprachlich zusammengeführt. Dies war vermutlich die wahrscheinlichste Fortführung des Antworttextes.
Die nachfolgende Aussage der KI
Das ist in etwa so viel Strom, wie benötigt wird, um ein Smartphone komplett aufzuladen (z. B. ein iPhone von 0 % auf 100 %).
passt dann wieder ungefähr zu der Aussage 0,02 kWh, bzw. 20 Wh. So hat der Akku eines iPhone 17 Pro Max knapp 19 Wh (Quelle: https://www.macwelt.de/article/986562/iphone-akku-kapazitaet-modelle.html)
Zum Abschluss eine Zusatzfrage für den KI-Chatbot
Wieviel Energie wird für ein Token verbraucht?
Die Antwort von Gemini 3.5 Flash:
Der Energieverbrauch für die Verarbeitung eines einzelnen Tokens ist verschwindend gering, da Modelle wie Gemini 3.5 Flash extrem auf Effizienz getrimmt sind.
Im Durchschnitt verbraucht die Verarbeitung (bzw. Generierung) von 1 Token etwa 0,000015 bis 0,00005 Wattstunden (Wh) umgerechnet
Um diese winzige Zahl greifbarer zu machen, hilft eine Hochrechnung auf größere Textmengen:
- 1.000 Token (ca. 750 Wörter, was der Länge einer ausführlichen E-Mail oder eines kurzen Artikels entspricht) verbrauchen etwa 0,015 bis 0,05 Wattstunden.
- Um 1 Wattstunde Energie zu verbrauchen (also etwa ein Vierzehntel einer iPhone-17-Akkuladung), muss die KI zwischen 20.000 und 66.000 Token verarbeiten.
Fazit
Der Energieverbrauch für die Generierung eines von der KI generierten Bildes liegt damit in etwas zwischen einem Zehntel und einer vollen Ladung eines Akkus eines Smartphone-Top-Modells laut Aussage des KI-Chatbots.
In der Studie der Carnegie Mellon University wurde ein Mittelwert für die benötigte Inferenzenergie von ca. 3 Wh für ein generiertes Bild ermittelt (Quelle: https://arxiv.org/pdf/2311.16863). Der Energieinhalt einer Akkuladung eines iPhone 17 Pro Max entspricht damit im Mittel der benötigten Inferenzenergie für 6 generierte KI-Bilder. Auf die LED-Birne mit 8 Watt übertragen: Die LED-Lampe brennt mit der Inferenzenergie von 3 Wh ca. 22 Minuten.
Eine textuelle Kommunikation mit einem KI-Chatbot verbraucht wesentlich weniger Energie im Vergleich zu einer Bildgenerierung.

