Informationsentropie und Nachrichtenkomplexität
Die **Informationsentropie** (nach Claude Shannon, 1948) ist ein fundamentales Konzept der Informationstheorie. Sie misst den **Informationsgehalt** oder die **Unsicherheit** einer Nachricht. Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt.
Entropie in der Informationstheorie
Die Informationsentropie (nach Claude Shannon, 1948) ist ein fundamentales Konzept der Informationstheorie. Sie misst den Informationsgehalt oder die Unsicherheit einer Nachricht. Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt.
Grundformel (Shannon-Entropie):
H(X) = -Σ p(x) · log₂(p(x))
Wobei:
- H(X) = Entropie (in Bits)
- p(x) = Wahrscheinlichkeit eines Ereignisses
- log₂ = Logarithmus zur Basis 2
Anwendung auf Zeitangaben
Verschiedene Zeitangaben haben unterschiedliche Informationsgehalte, abhängig von ihrer Präzision und Komplexität.
Beispiel 1: Einfache Zeitangaben (niedrige Entropie)
"ES IST EINS"
- Präzision: ±30 Minuten (volle Stunde)
- Wortanzahl: 3 Wörter
- Informationsgehalt: Niedrig
- Entropie: Gering, da nur 12 mögliche Stunden
Informationsanalyse:
- Tritt bei: 01:00, 13:00 (2 von 1440 Minuten/Tag = 0,14%)
- Wahrscheinlichkeit: p ≈ 0,0014
- Informationsgehalt: -log₂(0,0014) ≈ 9,5 Bit
Beispiel 2: Präzisere Zeitangaben (mittlere Entropie)
"ES IST FÜNF NACH ZWEI"
- Präzision: ±2 Minuten (5-Minuten-Raster)
- Wortanzahl: 5 Wörter
- Informationsgehalt: Mittel
- Entropie: Höher, da 12 Stunden × 12 Fünf-Minuten-Schritte = 144 Möglichkeiten
Informationsanalyse:
- Tritt bei: 02:05, 14:05, 02:06, 02:07, 14:06, 14:07 (6 von 1440 Minuten/Tag)
- Wahrscheinlichkeit: p ≈ 0,0042
- Informationsgehalt: -log₂(0,0042) ≈ 7,9 Bit
Beispiel 3: Hochpräzise Zeitangaben (hohe Entropie)
"ES IST KURZ VOR HALB VIER"
- Präzision: ±1 Minute (mit Modifikatoren)
- Wortanzahl: 6 Wörter
- Informationsgehalt: Hoch
- Entropie: Sehr hoch, da sehr spezifisch
Informationsanalyse:
- Tritt bei: 03:28, 03:29, 15:28, 15:29 (4 von 1440 Minuten/Tag = 0,28%)
- Wahrscheinlichkeit: p ≈ 0,0028
- Informationsgehalt: -log₂(0,0028) ≈ 8,5 Bit
Entropie durch Modifikatoren
Die optionalen Modifikatoren KURZ, BALD, FAST erhöhen die Entropie der Zeitangabe systematisch:
| Zeitangabe | Modifikatoren | Präzision | Wortanzahl | Relative Entropie |
|---|---|---|---|---|
| "EINS" | Keine | ±30 Min | 1 | Niedrig (★☆☆☆☆) |
| "NACH EINS" | Keine | ±2 Min | 2 | Niedrig-Mittel (★★☆☆☆) |
| "FÜNF NACH EINS" | Keine | ±2 Min | 4 | Mittel (★★★☆☆) |
| "KURZ NACH EINS" | KURZ | ±1 Min | 3 | Mittel-Hoch (★★★★☆) |
| "KURZ VOR HALB VIER" | KURZ | ±1 Min | 5 | Hoch (★★★★★) |
| "BALD DREIVIERTEL DREI" | BALD | ±2 Min | 4 | Hoch (★★★★★) |
Informationsredundanz vs. Klarheit
Trade-Off zwischen Präzision und Lesbarkeit:
Ein interessanter Aspekt ist das Spannungsfeld zwischen:
Hohe Entropie (viel Information):
- ✅ Präzise Zeitangabe
- ✅ Weniger Mehrdeutigkeit
- ❌ Mehr Wörter beleuchtet
- ❌ Längere Lesezeit
- ❌ Komplexere Layout-Anforderungen
Niedrige Entropie (wenig Information):
- ✅ Einfache, schnelle Lesbarkeit
- ✅ Weniger Wörter beleuchtet
- ❌ Geringere Präzision
- ❌ Mehr Mehrdeutigkeit (±30 Minuten bei "EINS")
Praktische Anwendung im CharGraph-Editor
Designentscheidung: Welche Modifikatoren sollen verwendet werden?
Variante A: Minimale Entropie (kfb)
13:00 → "ES IST EINS"
13:28 → "ES IST VOR HALB ZWEI"
- Geringe Informationsdichte
- Einfaches Layout möglich
- Schnelle Lesbarkeit
Variante B: Maximale Entropie (KFB)
13:00 → "ES IST EIN UHR"
13:28 → "ES IST KURZ VOR HALB ZWEI"
13:29 → "ES IST FAST HALB ZWEI"
- Hohe Informationsdichte
- Komplexes Layout erforderlich
- Präzise Zeitangabe
Verbindung zur Informationstheorie
Claude Shannons Arbeit (1948):
Shannon definierte Entropie als Maß für die durchschnittliche Überraschung einer Nachricht:
- Häufige Ereignisse (niedrige Überraschung) → geringe Entropie
- Seltene Ereignisse (hohe Überraschung) → hohe Entropie
Im CharGraph-Kontext:
- "ES IST EINS" - Tritt häufig auf (jede Stunde), geringe Überraschung
- "ES IST KURZ VOR HALB VIER" - Tritt selten auf (4 Minuten/Tag), hohe Überraschung
Datenkompression und Effizienz
Huffman-Codierung als Analogie:
In der Datenkompression werden häufige Symbole mit kurzen Codes und seltene Symbole mit langen Codes versehen.
Im CharGraph analog:
- Häufige Zeitangaben: Kurze Formulierungen ("EINS", "ZWEI")
- Seltene Zeitangaben: Längere Formulierungen ("KURZ VOR HALB VIER")
Dies entspricht einer optimalen Codierung für natürliche Sprache!
Didaktische Lernziele
Für Schüler (Sekundarstufe II):
- Grundkonzept Entropie: Was ist Informationsgehalt?
- Wahrscheinlichkeit: Wie häufig tritt eine Zeitangabe auf?
- Bit als Maßeinheit: Wie viele Bits benötigt man zur Codierung?
- Trade-Offs: Präzision vs. Einfachheit
Für Studenten (Hochschule):
- Shannon-Entropie: Mathematische Berechnung
- Informationstheorie: Huffman-Codierung, optimale Codes
- Natürliche Sprache: Zipf'sches Gesetz, Wortfrequenzen
- Datenstrukturen: Effiziente Speicherung variabler Nachrichten
Praktische Übung
Aufgabe: Berechne die Entropie der Zeitangabe "ES IST BALD FÜNF NACH ZWEI"
Lösung:
- Identifiziere mögliche Zeitpunkte: 14:03, 14:04 (2 Minuten)
- Berechne Wahrscheinlichkeit: p = 2/1440 ≈ 0,0014
- Berechne Informationsgehalt: I = -log₂(0,0014) ≈ 9,5 Bit
- Vergleiche mit "ES IST ZWEI": 120/1440 ≈ 0,083, I ≈ 3,6 Bit
Ergebnis: Die präzisere Angabe hat 2,6× mehr Informationsgehalt!
Zusammenfassung
- Unterschiedliche Zeitangaben tragen unterschiedlich viel Information
- Modifikatoren erhöhen die Entropie (Präzision)
- Layout-Komplexität korreliert mit Entropie
- Natürliche Sprache ist informationstheoretisch optimiert
Lernziel: Verstehen des Zusammenhangs zwischen Informationsgehalt, Wahrscheinlichkeit und sprachlicher Komplexität