Informationsentropie und Nachrichtenkomplexität

Die **Informationsentropie** (nach Claude Shannon, 1948) ist ein fundamentales Konzept der Informationstheorie. Sie misst den **Informationsgehalt** oder die **Unsicherheit** einer Nachricht. Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt.

Entropie in der Informationstheorie

Die Informationsentropie (nach Claude Shannon, 1948) ist ein fundamentales Konzept der Informationstheorie. Sie misst den Informationsgehalt oder die Unsicherheit einer Nachricht. Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt.

Grundformel (Shannon-Entropie):

H(X) = -Σ p(x) · log₂(p(x))

Wobei:

  • H(X) = Entropie (in Bits)
  • p(x) = Wahrscheinlichkeit eines Ereignisses
  • log₂ = Logarithmus zur Basis 2

Anwendung auf Zeitangaben

Verschiedene Zeitangaben haben unterschiedliche Informationsgehalte, abhängig von ihrer Präzision und Komplexität.

Beispiel 1: Einfache Zeitangaben (niedrige Entropie)

"ES IST EINS"

  • Präzision: ±30 Minuten (volle Stunde)
  • Wortanzahl: 3 Wörter
  • Informationsgehalt: Niedrig
  • Entropie: Gering, da nur 12 mögliche Stunden

Informationsanalyse:

  • Tritt bei: 01:00, 13:00 (2 von 1440 Minuten/Tag = 0,14%)
  • Wahrscheinlichkeit: p ≈ 0,0014
  • Informationsgehalt: -log₂(0,0014) ≈ 9,5 Bit

Beispiel 2: Präzisere Zeitangaben (mittlere Entropie)

"ES IST FÜNF NACH ZWEI"

  • Präzision: ±2 Minuten (5-Minuten-Raster)
  • Wortanzahl: 5 Wörter
  • Informationsgehalt: Mittel
  • Entropie: Höher, da 12 Stunden × 12 Fünf-Minuten-Schritte = 144 Möglichkeiten

Informationsanalyse:

  • Tritt bei: 02:05, 14:05, 02:06, 02:07, 14:06, 14:07 (6 von 1440 Minuten/Tag)
  • Wahrscheinlichkeit: p ≈ 0,0042
  • Informationsgehalt: -log₂(0,0042) ≈ 7,9 Bit

Beispiel 3: Hochpräzise Zeitangaben (hohe Entropie)

"ES IST KURZ VOR HALB VIER"

  • Präzision: ±1 Minute (mit Modifikatoren)
  • Wortanzahl: 6 Wörter
  • Informationsgehalt: Hoch
  • Entropie: Sehr hoch, da sehr spezifisch

Informationsanalyse:

  • Tritt bei: 03:28, 03:29, 15:28, 15:29 (4 von 1440 Minuten/Tag = 0,28%)
  • Wahrscheinlichkeit: p ≈ 0,0028
  • Informationsgehalt: -log₂(0,0028) ≈ 8,5 Bit

Entropie durch Modifikatoren

Die optionalen Modifikatoren KURZ, BALD, FAST erhöhen die Entropie der Zeitangabe systematisch:

ZeitangabeModifikatorenPräzisionWortanzahlRelative Entropie
"EINS"Keine±30 Min1Niedrig (★☆☆☆☆)
"NACH EINS"Keine±2 Min2Niedrig-Mittel (★★☆☆☆)
"FÜNF NACH EINS"Keine±2 Min4Mittel (★★★☆☆)
"KURZ NACH EINS"KURZ±1 Min3Mittel-Hoch (★★★★☆)
"KURZ VOR HALB VIER"KURZ±1 Min5Hoch (★★★★★)
"BALD DREIVIERTEL DREI"BALD±2 Min4Hoch (★★★★★)

Informationsredundanz vs. Klarheit

Trade-Off zwischen Präzision und Lesbarkeit:

Ein interessanter Aspekt ist das Spannungsfeld zwischen:

Hohe Entropie (viel Information):

  • ✅ Präzise Zeitangabe
  • ✅ Weniger Mehrdeutigkeit
  • ❌ Mehr Wörter beleuchtet
  • ❌ Längere Lesezeit
  • ❌ Komplexere Layout-Anforderungen

Niedrige Entropie (wenig Information):

  • ✅ Einfache, schnelle Lesbarkeit
  • ✅ Weniger Wörter beleuchtet
  • ❌ Geringere Präzision
  • ❌ Mehr Mehrdeutigkeit (±30 Minuten bei "EINS")

Praktische Anwendung im CharGraph-Editor

Designentscheidung: Welche Modifikatoren sollen verwendet werden?

Variante A: Minimale Entropie (kfb)

13:00 → "ES IST EINS"
13:28 → "ES IST VOR HALB ZWEI"
  • Geringe Informationsdichte
  • Einfaches Layout möglich
  • Schnelle Lesbarkeit

Variante B: Maximale Entropie (KFB)

13:00 → "ES IST EIN UHR"
13:28 → "ES IST KURZ VOR HALB ZWEI"
13:29 → "ES IST FAST HALB ZWEI"
  • Hohe Informationsdichte
  • Komplexes Layout erforderlich
  • Präzise Zeitangabe

Verbindung zur Informationstheorie

Claude Shannons Arbeit (1948):

Shannon definierte Entropie als Maß für die durchschnittliche Überraschung einer Nachricht:

  • Häufige Ereignisse (niedrige Überraschung) → geringe Entropie
  • Seltene Ereignisse (hohe Überraschung) → hohe Entropie

Im CharGraph-Kontext:

  • "ES IST EINS" - Tritt häufig auf (jede Stunde), geringe Überraschung
  • "ES IST KURZ VOR HALB VIER" - Tritt selten auf (4 Minuten/Tag), hohe Überraschung

Datenkompression und Effizienz

Huffman-Codierung als Analogie:

In der Datenkompression werden häufige Symbole mit kurzen Codes und seltene Symbole mit langen Codes versehen.

Im CharGraph analog:

  • Häufige Zeitangaben: Kurze Formulierungen ("EINS", "ZWEI")
  • Seltene Zeitangaben: Längere Formulierungen ("KURZ VOR HALB VIER")

Dies entspricht einer optimalen Codierung für natürliche Sprache!

Didaktische Lernziele

Für Schüler (Sekundarstufe II):

  1. Grundkonzept Entropie: Was ist Informationsgehalt?
  2. Wahrscheinlichkeit: Wie häufig tritt eine Zeitangabe auf?
  3. Bit als Maßeinheit: Wie viele Bits benötigt man zur Codierung?
  4. Trade-Offs: Präzision vs. Einfachheit

Für Studenten (Hochschule):

  1. Shannon-Entropie: Mathematische Berechnung
  2. Informationstheorie: Huffman-Codierung, optimale Codes
  3. Natürliche Sprache: Zipf'sches Gesetz, Wortfrequenzen
  4. Datenstrukturen: Effiziente Speicherung variabler Nachrichten

Praktische Übung

Aufgabe: Berechne die Entropie der Zeitangabe "ES IST BALD FÜNF NACH ZWEI"

Lösung:

  1. Identifiziere mögliche Zeitpunkte: 14:03, 14:04 (2 Minuten)
  2. Berechne Wahrscheinlichkeit: p = 2/1440 ≈ 0,0014
  3. Berechne Informationsgehalt: I = -log₂(0,0014) ≈ 9,5 Bit
  4. Vergleiche mit "ES IST ZWEI": 120/1440 ≈ 0,083, I ≈ 3,6 Bit

Ergebnis: Die präzisere Angabe hat 2,6× mehr Informationsgehalt!

Zusammenfassung

  • Unterschiedliche Zeitangaben tragen unterschiedlich viel Information
  • Modifikatoren erhöhen die Entropie (Präzision)
  • Layout-Komplexität korreliert mit Entropie
  • Natürliche Sprache ist informationstheoretisch optimiert

Lernziel: Verstehen des Zusammenhangs zwischen Informationsgehalt, Wahrscheinlichkeit und sprachlicher Komplexität