From d77b0f20c77f2a9b8c3671133e9ddddfc720df36 Mon Sep 17 00:00:00 2001 From: Michael Czechowski Date: Thu, 22 Jan 2026 17:02:38 +0100 Subject: [PATCH] add standalone slide decks 01-grundlagen and 02-bild-audio-video for 223015b --- courses/223015b/slides/01-grundlagen.md | 2215 +++++++++++++++++ courses/223015b/slides/02-bild-audio-video.md | 1022 ++++++++ 2 files changed, 3237 insertions(+) create mode 100644 courses/223015b/slides/01-grundlagen.md create mode 100644 courses/223015b/slides/02-bild-audio-video.md diff --git a/courses/223015b/slides/01-grundlagen.md b/courses/223015b/slides/01-grundlagen.md new file mode 100644 index 0000000..aa0b995 --- /dev/null +++ b/courses/223015b/slides/01-grundlagen.md @@ -0,0 +1,2215 @@ +--- +marp: true +theme: gaia +paginate: true +backgroundColor: #fff +header: "Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b)" +footer: "Michael Czechowski – HdM Stuttgart" +title: Dateiformate, Schnittstellen, Speichermedien & Distributionswege +--- + + + + + + + +![bg cover opacity:0.2](./assets/radek-grzybowski-eBRTYyjwpRY-unsplash.jpg) + +# Dateiformate, Schnittstellen, Speichermedien & Distributionswege + +**223015b** · Modul "Technik 1" · 1. Semester +Digital- und Medienwirtschaft +Hochschule der Medien Stuttgart + +[https://librete.ch/hdm/223015b/](https://librete.ch/hdm/223015b/) + + + +--- + +![bg fit](./assets/qrcode-1.svg) + + + +--- + + + +# Teil 1: Einführung +## Grundlagen, Text & Audio + + + +--- + + + +# I. Einführung: Warum diese Vorlesung? + + + +--- + +# Verortung im Modul + +**Modul "Technik 1":** +- Computer & IT-Systeme +- Netzwerke & Protokolle +- **→ Unsere Vorlesung: Daten auf dem Computer** + +**Unser Fokus:** +- Von-Neumann-Architektur: **Speicher** (Memory) +- Wie werden Daten repräsentiert? +- Wie werden Daten gespeichert? +- Wie werden Daten übertragen? + + + +--- + +# Das menschliche Bedürfnis zu speichern + +**Geschichte der Informationsspeicherung:** + +- **40.000 v. Chr.**: Höhlenmalereien (Lascaux, Altamira) +- **3.200 v. Chr.**: Keilschrift auf Tontafeln (Mesopotamien) +- **1450**: Gutenberg-Druckpresse (Buchdruck revolutioniert) +- **1877**: Edison-Phonograph (erstmals Audio gespeichert) +- **1950er**: Magnetbänder, Lochkarten +- **1980er**: Festplatten, CDs +- **2000er**: Flash-Speicher, Cloud + +→ Das Bedürfnis ist **anthropologisch konstant** +→ Die Technologie entwickelt sich **exponentiell** + + + +--- + +# Der Paradigmenwechsel: Analog → Digital + +**Analog (vor ~1980):** +- Information als **kontinuierliche physikalische Größe** +- Beispiel: Schallplatte (Rille formt Schallwelle nach) +- Problem: **Degradation** bei jedem Kopiervorgang + +**Digital (ab ~1980):** +- Information als **diskrete Zahlenfolge** (0 und 1) +- Beispiel: CD (Pits & Lands = Bits) +- Vorteil: **Perfekte Kopien** möglich + +→ Nicht besser oder schlechter, sondern **fundamental anders** + + + +--- + + + +# II. Von der Welt zu den Bits +## Die drei Ebenen des Signals + + + +--- + +# Die drei Ebenen des Signals + +**1. Physisches Signal** – Die Realität +**2. Analoges Signal** – Kontinuierliche Repräsentation +**3. Digitales Signal** – Diskrete Repräsentation + +→ Jeder Übergang ist ein **Übersetzungsakt** mit **Konsequenzen** + +**Zentrale Frage:** +Was gewinnen wir? Was verlieren wir? + + + +--- + +# 1. Physisches Signal: Die Realität + +**Die Welt, wie sie ist** + +- Schallwellen in der Luft (Luftdruckschwankungen) +- Lichtwellen (elektromagnetische Strahlung) +- Temperatur, Bewegung, chemische Prozesse + +**Eigenschaften:** +- ✓ Kontinuierlich in **Raum und Zeit** +- ✓ Unendlich detailliert (theoretisch) +- ✗ Direkt **nicht speicherbar** + + + +--- + +# 2. Analoges Signal: Kontinuierliche Repräsentation + +**Physische Realität → Kontinuierliche Abbildung** + +**Beispiele:** +- **Schallplatte**: Rille formt Schwingungen nach (räumliche Analogie) +- **Magnetband**: Magnetisierung entspricht Schallstärke +- **Thermometer**: Quecksilbersäule entspricht Temperatur +- **Mikrofon**: Luftdruck → elektrische Spannung + +**Eigenschaften:** +- ✓ **Analogie** zur Realität (daher "analog") +- ✓ Immer noch **kontinuierlich**, aber in anderem Medium +- ✗ **Verlustbehaftet** (Rauschen, Verzerrung, Abnutzung) + + + +--- + +# 3. Digitales Signal: Diskrete Repräsentation + +**Kontinuierlich → Diskret (Sampling & Quantisierung)** + +**Zwei fundamentale Schritte:** +1. **Sampling** (zeitlich): Messe nur zu bestimmten Zeitpunkten +2. **Quantisierung** (Amplitude): Runde auf nächsten erlaubten Wert + +**Resultat:** Endliche Menge an Zahlen + +**Eigenschaften:** +- ✓ **Speicherbar** als Bits +- ✓ **Perfekte Kopien** möglich +- ✓ **Rechenbar** (Filter, Effekte, Kompression) +- ✗ **Informationsverlust** (Approximation der Realität) + + + +--- + +# Die drei Ebenen im Vergleich + +| Ebene | Form | Speicherbar? | Kopierbar? | Rechenbar? | Beispiel | +|-------|------|-------------|-----------|-----------|----------| +| **Physisch** | Kontinuierlich | ❌ | ❌ | ❌ | Schallwelle in Luft | +| **Analog** | Kontinuierlich | ✅ | ⚠️ Mit Verlust | ⚠️ Analog-Schaltungen | Schallplatte, Kassette | +| **Digital** | Diskret | ✅ | ✅ Perfekt | ✅ Algorithmen | MP3, WAV, CD | + +→ Jeder Übergang hat **Trade-offs** +→ Digital opfert **Kontinuität** für **Robustheit** + + + +--- + +# Visualisierung: Von Physisch zu Digital + +![bg right:50% fit](./assets/signal-levels-comparison.png) + +**1. Physisch** (Realität) +Glatte Sinuswelle +kontinuierlich in Zeit und Amplitude + +**2. Analog** (Repräsentation) +Leicht verrauschte Kurve +immer noch kontinuierlich + +**3. Digital** (Diskret) +Treppenstufen-Approximation +diskrete Zeitpunkte, diskrete Werte + + + +--- + +# Warum ist diese Unterscheidung wichtig? + +**Verstehen, was passiert, wenn wir:** + +1. **Alte Schallplatten digitalisieren** + → Analog (mit Rauschen) → Digital + → **Rauschen wird "eingefroren"** (bleibt für immer) + +2. **Mit einer Digitalkamera filmen** + → Physisch (Licht) → Digital (Sensor) + → **Kein analoger Zwischenschritt!** (moderne Kameras) + +3. **Audiokassetten kopieren** + → Analog → Analog (Rauschen addiert sich, Generation für Generation) + → Digital → Digital (perfekt, unendlich kopierbar) + +4. **Kompression anwenden** + → Nur bei digitalen Signalen möglich! + → Algorithmen brauchen Zahlen, keine Wellen + + + +--- + +# Praktische Konsequenzen + +**Digitalisierung ist irreversibel** + +Was zwischen Samples passiert: **für immer verloren** +Was bei Quantisierung gerundet wurde: **für immer verloren** + +**Aber:** +- Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust +- Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar + +**Daher die Praxis:** +- **Archivierung**: Höchste Qualität digitalisieren (96 kHz, 24-bit) +- **Distribution**: Dann komprimieren für Streaming/Download (AAC, Opus) + +→ "**You can always go down, but never up**" + + + +--- + + + +# III. Das Problem der Knappheit +## Warum Kompression notwendig ist + + + +--- + +# Ein konkretes Beispiel: 1 Minute Musik + +**Eine Minute Musik in CD-Qualität:** + +44.100 Samples/Sekunde +× 16 Bit pro Sample +× 2 Kanäle (Stereo) +× 60 Sekunden + += **10,584,000 Bytes** ≈ **10,6 MB pro Minute** + + + +--- + +# Konkrete Beispiele: Audio, Video, Bilder + +**Unkomprimierte Größen:** + +| Medium | Parameter | Größe | +|--------|-----------|-------| +| **Audio** | 44,1 kHz, 16-bit, Stereo | **10,6 MB/min** | +| **Bild** | 4000×3000 px, RGB, 8-bit/Kanal | **34,5 MB** | +| **Video** | 4K (3840×2160), 30 fps, 8-bit | **~45 GB/min** | + +**Problem:** Diese Größen sind unpraktikabel für Speicherung und Übertragung. + +--- + +# Skalierung: Von einem Song zu 10.000 Songs + +**Szenario:** Musiksammlung + +| Format | Größe/Song | 10.000 Songs | Speicher nötig | +|--------|-----------|--------------|----------------| +| **WAV (CD)** | 35 MB (3:30 min) | 350 GB | 1× 512 GB SSD | +| **FLAC** | 18 MB (~50% Kompr.) | 180 GB | 1× 256 GB SSD | +| **MP3 320** | 8 MB | 80 GB | 1× 128 GB SSD | +| **MP3 128** | 3,3 MB | 33 GB | 1× 64 GB SSD | + +**Implikation:** +- Ohne Kompression: 350 GB +- Mit MP3 128: 33 GB (Faktor **10:1**) +- **Ermöglicht** iPod (2001: 5–10 GB), Smartphone-Sammlungen + +--- + +# Historischer Kontext: Speicherkapazität 1990–2025 + +| Jahr | Typische Festplatte | Preis/GB | Alben (WAV) | Alben (MP3 128) | +|------|---------------------|----------|-------------|-----------------| +| **1990** | 100 MB | $100 | 0,1 | 1,6 | +| **1995** | 1 GB | $20 | 1,5 | 16 | +| **2000** | 20 GB | $5 | 31 | 330 | +| **2005** | 200 GB | $1 | 314 | 3.300 | +| **2010** | 1 TB | $0,10 | 1.600 | 16.500 | +| **2015** | 2 TB | $0,04 | 3.100 | 33.000 | +| **2020** | 4 TB | $0,025 | 6.200 | 66.000 | +| **2025** | 8+ TB | $0,015 | 12.500 | 132.000 | + +**Faktor (1990 → 2025):** 80.000× Kapazität, 6.667× billiger pro GB + +--- + +# Der digitale Wendepunkt: Zettabyte-Ära + +**Datenmenge der Menschheit:** +- 2010: **2 Zettabyte** (ZB) +- 2015: 15 ZB +- 2020: 64 ZB +- **2025: 181 ZB** (geschätzt) + +**Was ist ein Zettabyte?** +1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte + +**Kontext:** 181 ZB = ~18 Milliarden 10-TB-Festplatten + +--- + +# Zwei Philosophien der Kompression + +## **Lossless (Verlustfrei)** +- **Prinzip**: Redundanz entfernen +- **Resultat**: Original perfekt rekonstruierbar +- **Kompression**: 2:1 bis 4:1 (typisch) +- **Beispiele**: ZIP, FLAC, PNG, FFV1 + +## **Lossy (Verlustbehaftet)** +- **Prinzip**: Wahrnehmung austricksen (Psychoakustik/-visuell) +- **Resultat**: Approximation, Original nicht rekonstruierbar +- **Kompression**: 10:1 bis 100:1+ (typisch) +- **Beispiele**: MP3, JPEG, H.264 + +--- + +# Wann welche Strategie? + +| Anwendungsfall | Lossless | Lossy | Begründung | +|----------------|----------|-------|------------| +| **Archivierung** | ✅ | ❌ | Zukunftssicher, keine Degradation | +| **Medizin (Röntgen, MRT)** | ✅ | ❌ | Rechtlich/ethisch: kein Informationsverlust erlaubt | +| **Text, Code** | ✅ | ❌ | Jedes Bit wichtig | +| **Musik-Streaming** | ❌ | ✅ | Bandbreite wichtiger als Perfektion | +| **Social Media (Fotos)** | ❌ | ✅ | Speicher/Bandbreite, „gut genug" reicht | +| **Video-Streaming** | ❌ | ✅ | Anders unpraktikabel (45 GB/min!) | +| **Professionelle Fotografie** | ✅ | ❌* | RAW für Editing, JPEG für Delivery | + +*Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy) + +--- + + + +# IV. Fundamentale Konzepte +## Bits, Bytes & Kodierung + +--- + +# Das Bit: 0 oder 1 + +**Die kleinste Informationseinheit** + +- **Bit** = Binary Digit +- Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr) +- Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an) + +**Beispiele:** +- 1 Bit: Ja/Nein-Frage +- 2 Bits: 4 Zustände (00, 01, 10, 11) +- n Bits: 2^n Zustände + +**Formel:** n Bits können 2^n verschiedene Werte darstellen + +--- + +# Das Byte: 8 Bits = 256 Zustände + +**Standard-Einheit der Informatik** + +- 1 Byte = 8 Bits +- 2^8 = 256 verschiedene Werte (0–255) +- Kann darstellen: Zahlen 0–255, Zeichen (ASCII), Graustufen + +**Warum 8 Bits?** +- Historisch: IBM System/360 (1964) standardisierte 8-bit Byte +- Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen + +**Größere Einheiten:** +- Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB) +- Megabyte (MB), Gigabyte (GB), Terabyte (TB), ... + +--- + +# Anwendung: RGB-Farben + +**24-bit Farbtiefe (True Color)** + +Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes + +- **Rot**: 8 Bit (0–255) +- **Grün**: 8 Bit (0–255) +- **Blau**: 8 Bit (0–255) + +**Anzahl Farben:** 256 × 256 × 256 = **16.777.216 Farben** + +**Beispiele:** +- Schwarz: (0, 0, 0) +- Weiß: (255, 255, 255) +- Rot: (255, 0, 0) +- Cyan: (0, 255, 255) + +--- + +# Zeichenkodierung: ASCII – Der erste Standard + +**ASCII (American Standard Code for Information Interchange, 1963)** + +- 7 Bit → 128 Zeichen +- Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen + +**Beispiele:** +- 'A' = 65 (dezimal) = 0100 0001 (binär) +- 'a' = 97 +- '0' = 48 +- Leerzeichen = 32 + +**Problem:** Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch. + +--- + +# Das Problem: Sprachen außerhalb des Englischen + +**Extended ASCII (8-bit, 256 Zeichen)** +- ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß) +- ISO-8859-5: Kyrillisch +- Windows-1252: Microsoft-Variante + +**Probleme:** +- Inkompatibel zwischen Sprachen +- Kann nicht Deutsch + Russisch in selber Datei +- Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit + +**Lösung:** Unicode + +--- + +# Unicode: Ein Standard für alle Schriften + +**Unicode 16.0 (2024): 154.998 Zeichen** + +Umfasst: +- Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch +- CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen +- Emoji: ~3.600 +- Historische Schriften (Hieroglyphen, Keilschrift) + +**Struktur:** +- Jedes Zeichen hat einen **Code Point**: U+0041 = 'A' +- Code Points 0–1.114.111 (21 Bit theoretisch) + +**Verschiedene Encodings:** UTF-8, UTF-16, UTF-32 + +--- + +# UTF-8, UTF-16, UTF-32: Encoding-Varianten + +**UTF-8 (variable Länge, 1–4 Bytes):** +- ASCII-kompatibel (A = 1 Byte) +- Umlaute: 2 Bytes (ä = C3 A4) +- Chinesisch: 3–4 Bytes +- **Vorteil**: Effizient für Text mit viel ASCII +- **Standard** im Web (>98% aller Webseiten) + +**UTF-16 (2 oder 4 Bytes):** +- Meiste Zeichen: 2 Bytes +- Seltene: 4 Bytes (Surrogate Pairs) +- **Verwendet**: Windows intern, Java + +**UTF-32 (immer 4 Bytes):** +- Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach) +- **Vorteil**: Direkter Zugriff (Zeichen N = Byte 4N) + +--- + +# Praxis: Bytes zählen, Dateigrößen verstehen + +**Beispiel: "Hello World!" in verschiedenen Encodings** + +| Encoding | Bytes | Hex | +|----------|-------|-----| +| **ASCII** | 12 | 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 | +| **UTF-8** | 12 | (identisch mit ASCII) | +| **UTF-16** | 26 | FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen) | +| **UTF-32** | 52 | (BOM + 4 Bytes/Zeichen) | + +**Beispiel: "Äpfel" in UTF-8** +- 'Ä' = C3 84 (2 Bytes) +- 'p' = 70 (1 Byte) +- 'f' = 66 +- 'e' = 65 +- 'l' = 6C +- **Total**: 6 Bytes (nicht 5!) + +--- + +# Hexadezimal: Die Sprache der Datei-Analyse + +**Warum Hex?** +- Binär (0/1) ist zu lang: 11111111 = FF (kürzer) +- Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze +- Hex: 1 Byte = 2 Hex-Ziffern (00–FF) + +**Hexadezimal (Base 16):** +``` +0 1 2 3 4 5 6 7 8 9 A B C D E F +0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 +``` + +**Beispiele:** +- 0xFF = 255 (dezimal) = 1111 1111 (binär) +- 0x10 = 16 (dezimal) +- 0xA0 = 160 (dezimal) + +--- + +# Magic Numbers: Dateitypen erkennen + +**Jede Datei beginnt mit "Magic Bytes"** + +Erste Bytes identifizieren Dateityp (unabhängig von Extension) + +**Beispiele:** + +| Format | Magic Bytes (Hex) | ASCII | +|--------|-------------------|-------| +| **PNG** | 89 50 4E 47 0D 0A 1A 0A | .PNG.... | +| **JPEG** | FF D8 FF | ÿØÿ | +| **GIF** | 47 49 46 38 | GIF8 | +| **PDF** | 25 50 44 46 | %PDF | +| **ZIP** | 50 4B 03 04 | PK.. | +| **MP3** | FF FB (oder FF F3) | ÿû | +| **WAV** | 52 49 46 46 | RIFF | + +**Tool:** `hexdump -C filename | head` (Linux/Mac) + +--- + +# Praxis: "What the HEX-Code" + +**Live-Demo: Datei analysieren** + +```bash +$ hexdump -C image.png | head -n 5 + +00000000 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 |.PNG........IHDR| +00000010 00 00 05 00 00 00 03 84 08 02 00 00 00 8c d9 c0 |................| +00000020 ea 00 00 00 09 70 48 59 73 00 00 0b 13 00 00 0b |.....pHYs.......| +``` + +**Interpretation:** +- `89 50 4E 47` = PNG Magic Number ✓ +- `49 48 44 52` = "IHDR" (Image Header Chunk) +- Nächste Bytes: Breite, Höhe, Bit-Tiefe + +**Anwendung:** +- Datei-Validierung (ist das wirklich ein PNG?) +- Forensik (versteckte Daten?) +- Debugging (warum öffnet Datei nicht?) + +--- + +# Dateneinheiten: KB, MB, GB, TB, PB, ZB + +**Präfixe (SI dezimal vs. Binär):** + +| Einheit | Dezimal (SI) | Binär (IEC) | Faktor | +|---------|--------------|-------------|--------| +| **Kilobyte** | 1 KB = 1.000 Bytes | 1 KiB = 1.024 Bytes | 2^10 | +| **Megabyte** | 1 MB = 1.000 KB | 1 MiB = 1.024 KiB | 2^20 | +| **Gigabyte** | 1 GB = 1.000 MB | 1 GiB = 1.024 MiB | 2^30 | +| **Terabyte** | 1 TB = 1.000 GB | 1 TiB = 1.024 GiB | 2^40 | +| **Petabyte** | 1 PB = 1.000 TB | 1 PiB = 1.024 TiB | 2^50 | +| **Exabyte** | 1 EB = 1.000 PB | | 2^60 | +| **Zettabyte** | 1 ZB = 1.000 EB | | 2^70 | + +**Unterschied:** 1 TB (dezimal) = 0,909 TiB (binär) +→ "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt) + +--- + +# Binär vs. Dezimal: Der Marketing-Trick + +**Warum zwei Standards?** + +**Dezimal (1000-basiert):** +- Hersteller nutzen: "1 TB = 1.000 GB" +- Größere Zahlen → besser klingt + +**Binär (1024-basiert):** +- Computer-intern: Potenzen von 2 (2^10 = 1024) +- OS (Windows, Mac, Linux) zeigt oft GiB + +**Beispiel:** +Festplatte gekauft: "2 TB" +- Hersteller: 2.000.000.000.000 Bytes +- Windows zeigt: 1.862 GB (eigentlich GiB) +- **Differenz:** ~138 GB "verschwunden" + +**Warum?** +2.000.000.000.000 / 1024^3 = 1.862,6 GiB + +--- + +# Datenwachstum der Menschheit + +**Exponentielles Wachstum:** + +| Meilenstein | Jahr | Datenmenge | +|-------------|------|------------| +| Gesamte Menschheitsgeschichte bis | 2003 | 5 Exabyte | +| Alle 2 Tage (2013) | 2013 | 5 Exabyte | +| Pro Tag (2025) | 2025 | ~500 Exabyte | + +**Treiber:** +- Video (80% des Traffics) +- IoT-Sensoren (Autos, Smart Cities) +- AI-Training Datasets +- Social Media + +**Konsequenz:** Speicherkapazität wächst, aber Daten wachsen schneller +→ Kompression bleibt essentiell + +--- + +# Der digitale Wendepunkt: 181 Zettabyte (2025) + +**Vergleich:** +- 181 ZB = 181.000.000.000.000.000.000.000 Bytes +- = 181 Milliarden Terabyte +- = Alle Worte der Menschheit × 36.000 + +**AI-generierte Inhalte:** +- 2030 (Prognose): 90% aller Daten AI-generiert/augmentiert +- Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora) +- Explosion synthetischer Daten + +**Ökologisch:** +- Rechenzentren: ~1–2% globaler Energieverbrauch +- Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher) + +--- + + + +# V. Audio +## Von Analog zu Digital + +--- + +# Schall als physisches Phänomen + +**Was ist Schall?** +- Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper) +- Geschwindigkeit: ~340 m/s in Luft (20°C) +- Frequenz: Anzahl Schwingungen/Sekunde (Hz) +- Amplitude: Stärke der Druckschwankung (Lautstärke) + +**Hörbarer Bereich (Mensch):** +- Frequenz: 20 Hz – 20.000 Hz (20 kHz) +- Lautstärke: 0 dB SPL (Hörschwelle) – 120 dB SPL (Schmerzgrenze) + +**Musik:** +- Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) – 4.186 Hz (höchste) +- Obertöne: bis 15–20 kHz + +--- + +# Analoge Audiowiedergabe: Schallplatte, Magnetband + +**Schallplatte (Vinyl):** +- Rille formt Schallwelle physisch nach +- Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher +- **SNR**: ~60–70 dB +- **Frequenzgang**: 20 Hz – 20 kHz (theoretisch, praktisch schlechter) + +**Magnetband (Kassette):** +- Eisenoxid-Partikel magnetisiert entsprechend Signal +- **SNR**: ~50–60 dB (mit Dolby B/C besser) +- **Frequenzgang**: 30 Hz – 15 kHz (Typ II/Metal besser) + +**Vorteile:** Direktheit, keine Digitalisierung, historisch billig +**Nachteile:** Degradation, Generationsverlust, Rauschen + +--- + +# Vor- und Nachteile analoger Medien + +| Aspekt | Vorteil | Nachteil | +|--------|---------|----------| +| **Qualität** | Theoretisch unbegrenzte Auflösung | Praktisch durch Rauschen limitiert | +| **Kopie** | — | Generationsverlust (Rauschen akkumuliert) | +| **Haltbarkeit** | Jahrzehnte (wenn gut gelagert) | Degradiert (Abnutzung, Chemie) | +| **Kosten** | Historisch billig | Heute teuer (Vinyl-Pressung) | +| **Manipulation** | Schwierig, Hardware-basiert | Tape-Speed, Splicing möglich | + +**Fazit:** Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant. + +--- + +# Der Übergang: Warum Digital? + +**Motivationen (1970er–1980er):** + +1. **Perfekte Kopien**: Keine Generationsverluste (wichtig für Produktion) +2. **Kein Rauschen**: Quantisierungsrauschen kontrolliert, nicht akkumulativ +3. **Manipulation**: Filter, Effekte in Software → flexibel, günstig +4. **Speicher**: Compact Disc (1982) → robust, kompakt, lange Spielzeit + +**Hindernisse:** +- Technologie: ADCs/DACs teuer, langsam +- Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell) +- Patente: Dolby, Sony/Philips kontrollieren Standards + +**Durchbruch:** CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion + +--- + +# Digitalisierung: Sampling (zeitlich) + +**Sampling = zeitliche Diskretisierung** + +- Kontinuierliches Signal → nur bestimmte Zeitpunkte messen +- **Sample Rate** (SR): Anzahl Messungen/Sekunde (Hz) + +**Beispiele:** +- CD: 44.100 Hz (44,1 kHz) +- DVD-Audio: 96.000 Hz +- Pro-Audio: 48 kHz, 96 kHz, 192 kHz + +**Nyquist-Theorem:** +SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion +- Mensch hört bis ~20 kHz → brauchen ≥40 kHz +- CD: 44,1 kHz ✓ + +**Aliasing:** +Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung) +→ Anti-Aliasing-Filter vor ADC nötig + +--- + +# Digitalisierung: Quantisierung (Amplitude) + +**Quantisierung = Amplituden-Diskretisierung** + +- Kontinuierliche Spannungswerte → diskrete Stufen +- **Bit Depth**: Anzahl Bits pro Sample + +**Beispiele:** +- CD: 16-bit → 2^16 = 65.536 Stufen +- Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen + +**SQNR (Signal-to-Quantization-Noise Ratio):** +SQNR ≈ 6 dB × Bits +- 16-bit: ~96 dB (reicht für Hören) +- 24-bit: ~144 dB (Headroom für Produktion) + +**Dithering:** Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen + +--- + +# Berechnung: Sample Rate × Bit Depth × Kanäle + +**Formel:** +``` +Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle +Dateigröße = Bitrate × Zeit +``` + +**Beispiel: CD-Audio (Stereo)** +- SR: 44.100 Hz +- Bit Depth: 16-bit +- Kanäle: 2 (Stereo) + +**Bitrate:** +44.100 × 16 × 2 = 1.411.200 bit/s = **1.411 kbit/s** + +**1 Minute:** +1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = **10,6 MB/min** + +**1 Album (60 min):** +10,6 MB × 60 = **636 MB** + +--- + +# Das Speicherproblem der Digitalisierung + +**Historischer Kontext:** + +**1990: Festplatten 100–500 MB** +- 1 Album (636 MB) = gesamte Festplatte! +- Lösung: Kompression (MP3, 1993) + +**1995: Festplatten 1–2 GB** +- 2–3 Alben → immer noch knapp + +**2000: Festplatten 20–40 GB** +- ~30–60 Alben → akzeptabel, aber MP3 = 10× mehr Musik + +**2025: Festplatten 4+ TB** +- ~6.000 Alben (WAV) → Speicher kein Problem mehr +- **Aber:** Streaming dominiert (Bandbreite wichtiger als lokaler Speicher) + +**Fazit:** Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen. + +--- + + + +# V-b. MP3-Revolution +## Psychoakustik als Lösung + +--- + +# Psychoakustik: Der MP3-Trick + +**Grundidee:** Entferne, was Menschen nicht hören + +**Menschliches Gehör ist nicht perfekt:** +1. **Maskierungseffekte**: Laute Töne übertönen leise +2. **Frequenzgrenzen**: <20 Hz, >20 kHz unhörbar +3. **Kritische Bänder**: Frequenzauflösung limitiert + +**Psychoakustisches Modell:** +- Analysiere Signal: Was wird maskiert? +- Quantisiere maskierte Komponenten grob (oder entferne) +- Resultat: Kleinere Datei, kaum hörbarer Unterschied + +--- + +# Maskierungseffekte: Laute Töne übertönen leise + +**Simultane Maskierung:** +- 1 kHz Ton bei 60 dB SPL +- 1,1 kHz Ton bei 40 dB SPL gleichzeitig +- → 1,1 kHz **unhörbar** (vom 1 kHz maskiert) + +**Temporale Maskierung:** +- Lauter Ton → kurz danach sind leise Töne unhörbar (~5–10 ms) +- Pre-Masking: Auch kurz **vor** lautem Ton (auditorische Verarbeitung) + +**Anwendung:** +MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen + +--- + +# Frequenzbereiche: Was Menschen nicht hören + +**Hörbarer Bereich: 20 Hz – 20 kHz** +- <20 Hz: Infraschall (spürbar, nicht hörbar) +- >20 kHz: Ultraschall (unhörbar, außer für Tiere) + +**Mit Alter sinkt Obergrenze:** +- Kind: ~20 kHz +- 30 Jahre: ~16 kHz +- 50 Jahre: ~12 kHz +- 70 Jahre: ~8 kHz + +**MP3-Strategie:** +- Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten) +- <30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt) + +**Savings:** ~20–30% der Daten in diesen Bereichen + +--- + +# Wahrnehmung ≠ Realität + +**Das Ohr ist kein Mikrofon** + +Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert) +Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig + +**Beispiel: Fletcher-Munson-Kurven** +- Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt? +- Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln) +- → Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen + +**MP3 nutzt das:** +- Weniger Bits für Frequenzen, wo Ohr unempfindlich +- Mehr Bits für 2–5 kHz (Sprachbereich, höchste Empfindlichkeit) + +--- + +# Die Geburt der MP3 + +**Geschichte:** +- 1982: IIS Fraunhofer (Erlangen) startet Forschung +- 1987: Patent eingereicht (DE 3740215) +- 1992: MPEG-1 Audio Layer 3 (MP3) standardisiert +- 1995: Erste Software-Player (Winamp, 1997) +- 1998: Erste portable Player (Diamond Rio) +- 1999: Napster → Massenadoption + +**Kernentwickler:** +- Karlheinz Brandenburg (Fraunhofer IIS) +- Dieter Seitzer (Universität Erlangen) + +**Ziel:** Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität + +--- + +# Suzanne Vega: "Tom's Diner" – Die Referenz + +**Warum dieses Lied?** + +Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version). + +**Eigenschaften:** +- Klare Stimme (testet Vocal-Encoding) +- Minimal begleitet (keine Maskierung durch Instrumente) +- Dynamikreich (leise/laute Passagen) +- Sibilanten (S-Laute, schwierig zu kodieren) + +**Resultat:** +- Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang +- → Andere Musik profitierte + +**Kulturelle Bedeutung:** +"Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz) + +--- + +# Wie funktioniert MP3? (Vereinfacht) + +**7 Schritte:** + +1. **Filterbank** (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder +2. **Psychoakustisches Modell**: Berechne Masking-Threshold +3. **Quantisierung**: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch) +4. **Huffman-Coding**: Verlustfreie Kompression der quantisierten Werte +5. **Bitstream-Formatierung**: Packe in MP3-Frame-Struktur +6. **Optional: Bit Reservoir**: Nutze ungenutzte Bits von einfachen Frames für komplexe + +**Dekodierung:** Umkehrung (Huffman → De-Quantisierung → IMDCT → Synthese-Filterbank → Audio) + +--- + +# Bitrate: Der Qualitäts-Knopf + +**Bitrate = Anzahl Bits pro Sekunde** + +**Gängige MP3-Bitraten:** + +| Bitrate | Qualität | Anwendung | Dateigröße/min | +|---------|----------|-----------|----------------| +| **64 kbit/s** | Niedrig (Telefon) | Sprache, Podcasts | 0,5 MB | +| **128 kbit/s** | Mittel (Radio) | Historisch populär | 1 MB | +| **192 kbit/s** | Gut | Guter Kompromiss | 1,4 MB | +| **256 kbit/s** | Sehr gut | iTunes Standard | 1,9 MB | +| **320 kbit/s** | Höchste (MP3) | "Transparent" (für die meisten) | 2,4 MB | + +**CBR vs. VBR:** +- **CBR** (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch) +- **VBR** (Variable Bitrate): Bitrate variiert (komplexe Passagen → höher, einfache → niedriger) → effizienter + +--- + +# Variable Bitrate (VBR) vs. Constant (CBR) + +**CBR (Constant Bitrate):** +- Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei +- **Vorteil**: Einfach, Dateigröße vorhersagbar, Streaming-freundlich +- **Nachteil**: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen + +**VBR (Variable Bitrate):** +- Bitrate variiert: 128–320 kbit/s je nach Komplexität +- **Vorteil**: Bessere Qualität bei gleicher durchschnittlicher Bitrate +- **Nachteil**: Dateigröße schwankt, manche alte Player hatten Probleme + +**Beispiel:** +- Stille: VBR nutzt ~32 kbit/s (genug) +- Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig) +- Durchschnitt: 192 kbit/s → gleiche Dateigröße wie CBR 192, aber besser klingt + +**Empfehlung (heute):** VBR (alle modernen Player unterstützen) + +--- + + + +# VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs + +--- + +# Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus + +| Codec | Jahr | Entwickler | Typische Bitrate | Effizienz | Status | +|-------|------|-----------|------------------|-----------|--------| +| **MP3** | 1993 | Fraunhofer/Thomson | 128–320 kbit/s | Baseline | Patent-frei seit 2017 | +| **AAC** | 1997 | MPEG | 96–256 kbit/s | ~30% besser als MP3 | Apple Standard, weit verbreitet | +| **Ogg Vorbis** | 2000 | Xiph.Org | 96–256 kbit/s | Ähnlich AAC | Open Source, Spiele/Software | +| **Opus** | 2012 | IETF | 16–256 kbit/s | Bester Lossy-Codec | WebRTC, Streaming, wächst | + +**Opus:** Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei +**AAC:** Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate + +--- + +# Lossless-Codecs: FLAC, ALAC, APE, WAV + +| Codec | Jahr | Entwickler | Kompression | Plattform | Open Source | +|-------|------|-----------|-------------|-----------|-------------| +| **WAV** | 1991 | Microsoft/IBM | Keine (unkomprimiert) | Universal | Ja (Format) | +| **FLAC** | 2001 | Josh Coalson (Xiph) | ~50% | Alle (via FFmpeg) | Ja | +| **ALAC** | 2004 | Apple | ~40–60% | Apple, FFmpeg | Ja (seit 2011) | +| **APE** | 2000 | Matthew T. Ashland | ~50–60% | Windows (primär) | Nein (Freeware) | + +**FLAC:** Standard für Lossless (unterstützt von fast allem) +**ALAC:** Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch +**WAV:** Unkomprimiert, riesig, aber universell kompatibel + +--- + +# Vergleichstabelle: Kompressionsrate, Qualität, Anwendung + +| Kriterium | Lossy (MP3 320) | Lossless (FLAC) | Unkomprimiert (WAV) | +|-----------|-----------------|-----------------|---------------------| +| **Dateigröße** | 2,4 MB/min | ~5 MB/min | 10,6 MB/min | +| **Qualität** | "Transparent" (für die meisten) | Perfekt (bitgenau) | Perfekt | +| **Kompression** | ~4:1 | ~2:1 | 1:1 (keine) | +| **Editing** | Vermeiden (Generationsverlust) | Gut (verlustfrei) | Perfekt | +| **Streaming** | Ideal (klein) | Möglich (WLAN) | Unpraktikabel | +| **Archivierung** | ❌ (irreversibel) | ✅ | ✅ (aber groß) | + +**Empfehlung:** +- Archiv: FLAC +- Mobil/Streaming: AAC 256 oder Opus 128 +- Produktion: WAV oder FLAC (24-bit) + +--- + +# Wann welches Format? + +| Anwendungsfall | Empfohlenes Format | Begründung | +|----------------|-------------------|------------| +| **Spotify/Streaming** | Opus 128–192 kbit/s | Effizient, niedrige Latenz | +| **iTunes/Apple Music** | AAC 256 kbit/s | Apple-Standard, gute Qualität | +| **Podcast** | MP3 64–96 kbit/s (Mono) | Sprache braucht weniger | +| **Musik-Archiv** | FLAC 16-bit/44,1 kHz | Verlustfrei, zukunftssicher | +| **Studio-Aufnahme** | WAV 24-bit/96 kHz | Maximale Qualität | +| **Hi-Res Musik** | FLAC 24-bit/96 kHz | Verlustfrei, hohe Auflösung | +| **Gaming (Voicechat)** | Opus 16–32 kbit/s | Niedrige Latenz | +| **Vinyl-Digitalisierung** | FLAC 24-bit/96 kHz | Bewahrt analoge Bandbreite | + +--- + +# Audio-Container: MP3 vs. MP4 vs. OGG + +**Container ≠ Codec** + +**Container** = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel) +**Codec** = Kompressionsalgorithmus (wie Daten kodiert sind) + +**Beispiele:** + +| Container | Typische Codecs | Extension | Anwendung | +|-----------|----------------|-----------|-----------| +| **MP3** | MP3 | .mp3 | Musik (historisch) | +| **MP4** | AAC, MP3, ALAC | .m4a, .mp4 | iTunes, Streaming | +| **OGG** | Vorbis, Opus | .ogg, .opus | Open Source, Spiele | +| **FLAC** | FLAC | .flac | Lossless Musik | +| **Matroska** | Alles | .mka | Flexibel, wenig genutzt | + +**Verwirrendes Beispiel:** +- `.mp4` Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten +- Nur Codec-Info gibt Qualität an, nicht Extension! + +--- + +# Metadaten: ID3-Tags, Vorbis Comments + +**Metadaten = Information über die Datei** + +Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year + +**ID3-Tags (MP3):** +- ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.) +- ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics) + +**Vorbis Comments (FLAC, OGG):** +- Text-basiert (key=value) +- Flexibler als ID3 (keine Feldlängen-Limits) +- Beispiel: `ARTIST=Suzanne Vega`, `ALBUM=Solitude Standing` + +**Cover Art:** +- ID3v2: APIC-Frame (Attached Picture) +- Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert) + +**Tools:** `ffmpeg -i file.mp3` (zeigt Metadaten), `id3v2`, `metaflac` + +--- + +# Streaming-Formate: Adaptive Bitrate + +**Problem:** Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G) + +**Lösung: Adaptive Bitrate Streaming (ABS)** + +**Prinzip:** +1. Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s) +2. Client misst Bandbreite +3. Client wählt passende Bitrate +4. Wechsel on-the-fly (bei Bandbreiten-Änderung) + +**Protokolle:** +- **HLS** (HTTP Live Streaming, Apple): .m3u8 Playlist +- **DASH** (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest + +**Spotify:** +- Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s) +- Offline: Höchste Bitrate wird gespeichert + +--- + +# Audio-Archivierung: Best Practices + +**Ziel:** Langfristige Erhaltung (>50 Jahre) + +**Format:** +- **FLAC** (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz) +- **Alternativ:** WAV (aber größer, keine Metadaten) + +**Speichermedium:** +- Lokal: HDD (extern, offline) + SSD (aktiv) +- Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt) +- Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit) + +**3-2-1-Regel:** +- **3** Kopien (Original + 2 Backups) +- **2** verschiedene Medien (z.B. HDD + Cloud) +- **1** offsite (extern, Feuer/Diebstahl-schutz) + +**Migration:** +- Alle 5–10 Jahre: Kopiere auf neue Medien (HDDs degradieren) +- Prüfe Checksums (MD5, SHA-256) → Datenintegrität + +--- + + + +# VII. Kritische Perspektive +## Standards & Macht + +--- + +# Der Patentkrieg: Fraunhofer Lizenzgebühren + +**MP3-Patente (1987–2017):** +- Fraunhofer IIS + Thomson hielten Patente +- Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song +- Einnahmen: >$1 Milliarde (geschätzt) + +**Konsequenz:** +- Open-Source-Software (Linux, VLC) musste zahlen oder umgehen +- → Vorbis/Opus als patent-freie Alternative + +**2017: Patente ausgelaufen** +- Alle MP3-Patente weltweit abgelaufen +- MP3 jetzt komplett frei nutzbar +- Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA) + +**Kritik:** +Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?) + +--- + +# Warum Open-Source Ogg Vorbis nutzte + +**Problem:** MP3-Patente + +**Lösung:** Xiph.Org Foundation entwickelt **Ogg Vorbis** (2000) +- Patent-frei (nach bestem Wissen) +- Open Source (BSD-lizenziert) +- Bessere Qualität als MP3 (bei gleicher Bitrate) + +**Adoption:** +- **Wikipedia** (Vorbis für Audio) +- **Spotify** (Vorbis für Streaming) +- **Gaming** (Unreal Engine, Unity unterstützen Vorbis) +- **Mozilla/Firefox** (frühe Unterstützung) + +**Warum nicht dominanter?** +- MP3-Player-Hardware schon weit verbreitet (2000) +- Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen) +- Network-Effekt: "Alle nutzen MP3" + +**Opus (2012):** Nachfolger, noch besser, IETF-Standard, patent-frei + +--- + +# H.264 vs. AV1: Kampf um Video-Standards + +**H.264 (2003):** +- MPEG LA Patent Pool (~1.000 Patente) +- Lizenzgebühren: Komplex (Encoder/Decoder/Distribution) +- **Dominiert** (YouTube, Blu-ray, Streaming bis ~2020) + +**H.265/HEVC (2013):** +- 2× effizienter als H.264 +- **Problem:** 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media) +- Lizenzgebühren unklar, hoch +- → Adoption langsam + +**AV1 (2018):** +- **Alliance for Open Media** (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple) +- **Patent-frei** (Mitglieder gewähren royalty-free Lizenzen) +- ~30% effizienter als H.265 +- **Adoption wächst:** YouTube (2021), Netflix (2021), Meta, TikTok + +**Bedeutung:** +Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation + +--- + +# Napster: Kulturelle Revolution durch MP3 + +**Napster (1999–2001):** +- P2P File-Sharing (Shawn Fanning, 19 Jahre alt) +- 80 Millionen Nutzer (Peak, 2001) +- Teilen von MP3s → Urheberrechtsverletzung (massiv) + +**Warum möglich?** +- MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten) +- P2P: Dezentral (kein zentraler Server mit Musik) + +**Musikindustrie-Reaktion:** +- Klagen (Metallica, Dr. Dre, RIAA) +- 2001: Napster geschlossen (Gerichtsbeschluss) + +**Langfristige Auswirkung:** +- Zeigte: Menschen wollen digitale Musik, on-demand +- → iTunes Store (2003), Spotify (2008) +- Geschäftsmodell shift: Verkauf → Streaming + +**Zitat (Steve Jobs, 2003):** +> "Napster showed us what people wanted. We just had to make it legal." + +--- + + + +# VIII. Abschluss + +--- + +# Zusammenfassung: Die Kernkonzepte + +**Drei Ebenen des Signals:** +- Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret) + +**Digitalisierung:** +- Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen +- Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max + +**Kompression:** +- Lossless (Redundanz) vs. Lossy (Psychoakustik) +- MP3: Psychoakustisches Modell → 10:1 Kompression + +**Formate:** +- Lossy: MP3, AAC, Opus (Streaming) +- Lossless: FLAC, ALAC (Archiv) + +**Kritische Perspektive:** +- Patente beeinflussen Standards (MP3, H.264) +- Open Standards (AV1, Opus) demokratisieren Zugang + +--- + +# Fragen & Diskussion + +**Offene Fragen?** + +**Diskussionsthemen:** +- Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung? +- Streaming vs. Ownership: Was verlieren wir kulturell? +- AI-generierte Musik: Brauchen wir noch menschliche Künstler? + +**Kontakt:** +[Ihre Kontaktinformationen] + +--- + +# Selbstlernen: Audio-Spektrogramm, HEX-Files + +**Aufgabe 1: Audio-Spektrogramm analysieren** +- Tool: Audacity (kostenlos) +- Laden Sie eine MP3 (128 kbit/s) und FLAC +- Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum) +- Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?) + +**Aufgabe 2: HEX-File untersuchen** +- Tool: `hexdump -C file.mp3 | head` (Linux/Mac) oder HxD (Windows) +- Finden Sie Magic Bytes (FF FB oder FF F3) +- Identifizieren Sie ID3-Tag (49 44 33 = "ID3") + +**Aufgabe 3: Encodierung vergleichen** +- Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s) +- Blind-Test: Können Sie Unterschied hören? +- Tool: `ffmpeg -i input.wav -b:a 128k output.mp3` + +--- + +# Lizenz & Attribution + +**Vorlesungsinhalte:** +© 2025 [Ihr Name], Hochschule der Medien Stuttgart +Lizenz: CC BY-SA 4.0 (sofern nicht anders angegeben) + +**Verwendete Quellen:** +- Shannon, C. E. (1948). "A Mathematical Theory of Communication" +- Pohlmann, K. C. (2010). *Principles of Digital Audio* +- Sterne, J. (2012). *MP3: The Meaning of a Format* + +**Abbildungen:** +- Signal-Transformation: Eigene Darstellung +- Weitere Grafiken: Attributiert in jeweiligen Slides + +**Danksagung:** +Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation) + +--- + + + +# Bis zum nächsten Termin! + +**Termin 2: Bild- & Videoformate** +- JPEG, PNG, WebP +- H.264, H.265, AV1 +- Streaming-Technologien + +**Vorbereitung:** +Lesen Sie: Watkinson, J. (2004). *The MPEG Handbook* (Kapitel 1–3) diff --git a/courses/223015b/slides/02-bild-audio-video.md b/courses/223015b/slides/02-bild-audio-video.md new file mode 100644 index 0000000..9fac395 --- /dev/null +++ b/courses/223015b/slides/02-bild-audio-video.md @@ -0,0 +1,1022 @@ +--- +marp: true +theme: gaia +paginate: true +backgroundColor: #fff +header: "Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b)" +footer: "Michael Czechowski – HdM Stuttgart" +title: Dateiformate, Schnittstellen, Speichermedien & Distributionswege - Teil 2 +--- + + + + + + + +![bg cover opacity:0.2](./assets/radek-grzybowski-eBRTYyjwpRY-unsplash.jpg) + +# Dateiformate, Schnittstellen, Speichermedien & Distributionswege + +**223015b** · Modul "Technik 1" · 1. Semester +Digital- und Medienwirtschaft +Hochschule der Medien Stuttgart + +[https://librete.ch/hdm/223015b/](https://librete.ch/hdm/223015b/) + + + +--- + +![bg fit](./assets/qr/slides-223015b.png) + +--- + + + +# Teil 2: Bild- & Videoformate + + + +--- + +# Rückblick: Physisch → Analog → Digital + +**Bei Bildern:** + +- **Physisch**: Lichtwellen (elektromagnetisches Spektrum, 380-750 nm) +- **Analog**: Film (Silberhalogenide reagieren auf Licht, kontinuierlich) +- **Digital**: Kamera-Sensor (Photodioden → A/D-Wandler, diskret) + +→ **Moderne Kameras überspringen analog komplett!** + + + +--- + + + +# I. Grundlagen Digitaler Bilder + +--- + +# Was ist ein digitales Bild? + +**Rastergrafik (Bitmap):** Matrix aus Pixeln + +Jedes Pixel = 1 Farbwert (z.B. RGB) + +**Beispiel 4×4 Pixel Bild:** +``` +R G B W +G B W R +B W R G +W R G B +``` + +**Auflösung:** Pixel-Anzahl bestimmt Detailgrad +**1920×1080 (Full HD):** 2.073.600 Pixel +**3840×2160 (4K):** 8.294.400 Pixel (4× mehr!) + + + +--- + +# Rastergrafiken: Das Problem der Skalierung + +**Problem:** Pixelbilder verlieren Qualität beim Vergrößern + +**Beispiel:** 100×100 Pixel Logo + +- Anzeige in 100×100: perfekt +- Anzeige in 1000×1000: **verpixelt** (Interpolation kann nicht Details erfinden) + +→ **Lösung:** Für verschiedene Größen verschiedene Versionen speichern +Oder: Vektorgrafiken nutzen + + + +--- + +# Vektorgrafiken + +**Prinzip:** Mathematische Beschreibung statt Pixel + +**Beispiel Kreis:** +Raster: 1000×1000 Pixel gespeichert +Vektor: "Kreis bei (500,500), Radius 200, Farbe Rot" + +**Vorteile:** +- Unbegrenzt skalierbar (verlustfrei) +- Kleine Dateigröße (nur Gleichungen) + +**Nachteile:** +- Nur für geometrische Formen geeignet +- Fotos unmöglich als Vektor + + + +--- + +# Raster- und Vektorgrafiken: Vergleich + +| Eigenschaft | Rastergrafik | Vektorgrafik | +|-------------|--------------|--------------| +| **Speicherung** | Pixel-Matrix | Mathematische Formeln | +| **Skalierung** | Verlustbehaftet (Interpolation) | Verlustfrei (neu berechnet) | +| **Dateigröße** | Groß (abhängig von Auflösung) | Klein (nur Gleichungen) | +| **Anwendung** | Fotos, Screenshots | Logos, Icons, Illustrationen | +| **Formate** | PNG, JPEG, GIF | SVG, AI, EPS, PDF (Vektor-Modus) | + + + +--- + + + +# II. Psychovisuelle Kompression +## Die Schwächen des Auges nutzen + +--- + +# Die Schwächen des Auges + +**Menschliches Sehen ist nicht gleichmäßig:** + +1. **Helligkeitsempfindlichkeit > Farbempfindlichkeit** + Wir sehen Graustufen schärfer als Farbnuancen + +2. **Räumliche Frequenzen:** + Grobe Strukturen wichtiger als feine Details + +3. **Foveales Sehen:** + Nur Zentrum des Blickfelds ist scharf (peripher unscharf) + +→ **Chroma Subsampling, DCT, Quantisierung** nutzen das aus + + + +--- + +# Chroma Subsampling + +**Prinzip:** Farbe mit niedrigerer Auflösung speichern als Helligkeit + +**Notation:** 4:2:0, 4:2:2, 4:4:4 + +**4:4:4** – Volle Auflösung (keine Subsampling) +**4:2:2** – Horizontale Halbierung der Chroma +**4:2:0** – Horizontale **und** vertikale Halbierung + +**Beispiel 4:2:0:** +4 Pixel Helligkeit → 1 Pixel Farbe += **75% weniger Farbdaten, kaum sichtbar!** + + + +--- + + + +# III. JPEG: Der Bildkompressionsstandard + +--- + +# JPEG: Sechs Schritte der Kompression + +**JPEG = Joint Photographic Experts Group (1992)** + +**Verlustbehaftete Kompression in 6 Schritten:** + +1. **Farbraum-Konvertierung** (RGB → YCbCr) +2. **Chroma Subsampling** (4:2:0) +3. **DCT** (Discrete Cosine Transform) +4. **Quantisierung** (Hier entsteht Verlust!) +5. **Zigzag-Scan & RLE** +6. **Huffman-Coding** + + + +--- + +# JPEG: Schritt 1 – Farbraum wechseln + +**RGB → YCbCr** + +- **Y** = Luma (Helligkeit) +- **Cb** = Blau-Differenz +- **Cr** = Rot-Differenz + +**Warum?** +Erlaubt Chroma Subsampling (Farbe weniger auflösen) + + + +--- + +# JPEG: Schritt 2 – Chroma Subsampling + +**4:2:0 Standard:** + +Aus 4 Pixeln wird: +- 4 Luma-Werte (Y) +- 1 Cb-Wert +- 1 Cr-Wert + +**Resultat:** 50% Datenreduktion, kaum sichtbar + + + +--- + +# JPEG: Schritt 3 – DCT + +**Discrete Cosine Transform:** +Bild in 8×8 Pixel Blöcke teilen +Jeder Block → Frequenzbereich transformieren + +**Ergebnis:** +Niedrige Frequenzen (große Flächen) → hohe Werte +Hohe Frequenzen (feine Details) → niedrige Werte + +→ **Vorbereitung für Quantisierung** + + + +--- + +# JPEG: Schritt 4 – Quantisierung + +**Hier entsteht der Verlust!** + +**Prinzip:** Hohe Frequenzen stark reduzieren + +Quantisierungstabelle teilt DCT-Koeffizienten: +- Niedrige Frequenzen: Division durch kleine Zahl (wenig Verlust) +- Hohe Frequenzen: Division durch große Zahl (starker Verlust) + +**JPEG-Qualität (0-100):** +100 = sanfte Quantisierung (große Datei, hohe Qualität) +10 = aggressive Quantisierung (kleine Datei, Artefakte) + + + +--- + +# JPEG: Schritt 5 – Zigzag & RLE + +**Zigzag-Scan:** +8×8 Block in 1D-Array umwandeln (niedrige Frequenzen zuerst) + +**Run-Length Encoding (RLE):** +Viele Nullen (hohe Frequenzen wurden stark quantisiert) +→ `0 0 0 0 0 0 0 5` wird zu `7×0, 5` + + + +--- + +# JPEG: Schritt 6 – Huffman-Coding + +**Verlustfreie Kompression** (wie ZIP) + +H�ufige Werte → kurze Codes +Seltene Werte → lange Codes + +**Beispiel:** +`0` (sehr häufig) → `1` (1 Bit) +`127` (selten) → `11001111` (8 Bit) + + + +--- + +# Grenzen der Kompression: JPEG-Artefakte + +**Bei zu hoher Kompression (niedrige Qualität):** + +1. **Blocking:** 8×8 Pixel Blöcke sichtbar +2. **Color Bleeding:** Farbränder verschwimmen +3. **Ringing:** Halos um scharfe Kanten +4. **Mosquito Noise:** Flimmern um Kanten in Video + +**Faustregel:** +JPEG-Qualität < 70: Artefakte sichtbar +JPEG-Qualität 85-95: Sweet Spot (kaum Verlust, gute Kompression) + + + +--- + + + +# IV. Andere Bildformate + +--- + +# PNG: Verlustfrei mit Transparenz + +**PNG = Portable Network Graphics (1996)** + +**Eigenschaften:** +- Verlustfreie Kompression (Deflate-Algorithmus, wie ZIP) +- **Alpha-Kanal:** Transparenz (0 = durchsichtig, 255 = undurchsichtig) +- Paletten-Modus (8-bit, 256 Farben) oder True Color (24/32-bit) + +**Anwendung:** +Logos, Screenshots, Grafiken mit Text, Transparenz + +**Nachteil:** +Größer als JPEG für Fotos (keine Psychovisuelle Kompression) + + + +--- + +# GIF: Der Meme-Veteran + +**GIF = Graphics Interchange Format (1987)** + +**Eigenschaften:** +- **256 Farben** (8-bit Palette) +- **Animation** (Frame-basiert) +- LZW-Kompression (verlustfrei) + +**Anwendung:** +Memes, einfache Animationen + +**Nachteil:** +Nur 256 Farben → Fotos sehen schlecht aus +Ineffizient für Video (besser: MP4, WebM) + + + +--- + +# WebP & AVIF: Moderne Alternativen + +**WebP (Google, 2010):** +- Verlustfrei **und** verlustbehaftet +- ~30% kleiner als JPEG bei gleicher Qualität +- Transparenz + Animation + +**AVIF (AOMedia, 2019):** +- Basiert auf AV1-Video-Codec +- ~50% kleiner als JPEG +- Bessere Qualität, aber langsamer zu encodieren + +**Problem:** Browser-Support +WebP: >95% (gut) +AVIF: ~85% (wachsend) + + + +--- + +# Formatwahl in der Praxis + +| Anwendung | Format | Warum? | +|-----------|--------|--------| +| **Foto (Web)** | JPEG/WebP | Verlustbehaftet OK, kleine Datei | +| **Logo** | SVG/PNG | Vektor (SVG) oder Transparenz (PNG) | +| **Screenshot** | PNG | Verlustfrei, Text lesbar | +| **Meme/Animation** | GIF/MP4 | GIF für Kompatibilität, MP4 für Effizienz | +| **Druck (CMYK)** | TIFF/PDF | Verlustfrei, CMYK-Farbraum | +| **Archivierung** | TIFF/DNG | Unkomprimiert oder verlustfrei | + + + +--- + + + +# V. Warum Instagram eure Fotos "ruiniert" + +--- + +# Social Media & Re-Kompression + +**Problem:** +Instagram, Facebook, Twitter re-encodieren **alle** Uploads + +**Warum?** +- Speicherkosten (Milliarden Bilder) +- Bandbreite (schnellere Ladezeiten) +- Einheitlichkeit (verschiedene Geräte) + +**Konsequenz:** +Upload PNG/JPEG → Instagram konvertiert zu JPEG (Qualität ~85%) +→ **Generationsverlust** bei mehrfachem Re-Upload + + + +--- + + + +# VI. Video: Bilder + Zeit + Audio + +--- + +# Das Größenproblem bei Video + +**Recap: 1 Min 4K = ~45 GB unkomprimiert** + +Ein 2-Stunden-Film: **5,4 Terabyte** + +**Streaming unmöglich ohne Kompression:** +- Netflix 4K: ~15 Mbit/s (~7 GB/Stunde) +- YouTube 4K: ~20-40 Mbit/s (~10-20 GB/Stunde) + +→ **Faktor 100-200× Kompression nötig!** + + + +--- + +# Container und Codec + +**Wichtige Unterscheidung:** + +**Container (Wrapper):** +Datei-Format, das Video, Audio, Untertitel, Metadaten enthält +Beispiele: MP4, MKV, AVI, MOV, WebM + +**Codec (Compressor/Decompressor):** +Algorithmus zur Kompression/Dekompression +Beispiele: H.264, H.265, VP9, AV1 + +**Container ≠ Codec!** +MP4 kann H.264, H.265, AV1, oder andere Codecs enthalten + + + +--- + +# Gängige Container + +| Container | Endung | Codecs | Anwendung | +|-----------|--------|--------|-----------| +| **MP4** | .mp4, .m4v | H.264, H.265, AV1 | Web, Smartphones, universal | +| **MKV** | .mkv | Alle | Flexibel, Open-Source, Filme | +| **WebM** | .webm | VP8, VP9, AV1 | Web (HTML5), YouTube | +| **AVI** | .avi | Viele (alt) | Legacy (90er), veraltet | +| **MOV** | .mov | H.264, ProRes | Apple-Ökosystem, Editing | + + + +--- + +# Video-Codecs + +| Codec | Jahr | Effizienz | Status | +|-------|------|-----------|--------| +| **H.264 (AVC)** | 2003 | Basis | Standard, universell kompatibel | +| **H.265 (HEVC)** | 2013 | ~50% besser | Patente, teuer, langsame Adoption | +| **VP9** | 2013 | ~H.265 | Google, YouTube, patent-frei | +| **AV1** | 2018 | ~30% besser als H.265 | Zukunft, Netflix/YouTube, patent-frei | + + + +--- + + + +# VII. Video-Kompression im Detail + +--- + +# Drei Kompressionsprinzipien + +**1. Spatial Compression (Intra-Frame):** +Kompression **innerhalb** eines Frames (wie JPEG) + +**2. Temporal Compression (Inter-Frame):** +Differenzen **zwischen** Frames (nur Änderungen speichern) + +**3. Motion Compensation:** +Bewegungsvektoren statt volle Frames + +→ **Kombination ermöglicht Faktor 100-200× Kompression** + + + +--- + +# 1. Spatial Compression (Intra-Frame) + +**Prinzip:** Wie JPEG für Video-Frames + +**I-Frames (Intra-coded):** +Vollständige Bilder, unabhängig von anderen Frames +→ Größer, aber notwendig für Schnitte, Wiedereinstiegspunkte + +**Anwendung:** +Jedes N-te Frame ist I-Frame (z.B. alle 2 Sekunden) + + + +--- + +# 2. Temporal Compression (Inter-Frame) + +**Prinzip:** Speichere nur Änderungen zum vorherigen Frame + +**P-Frames (Predicted):** +Referenzieren vorheriges Frame, speichern nur Differenzen +→ Viel kleiner als I-Frames + +**B-Frames (Bi-directional):** +Referenzieren vorheriges **und** nächstes Frame +→ Noch kleiner, aber komplexer zu dekodieren + + + +--- + +# 3. Motion Compensation + +**Prinzip:** Bewegungsvektoren statt volle Blöcke + +**Beispiel:** +Ball bewegt sich von (100,100) zu (150,100) +→ Statt neuen Ball speichern: "Kopiere Block von (100,100), verschiebe um (50,0)" + +**Resultat:** +Bewegung wird mit wenigen Bytes kodiert statt komplettem Block + + + +--- + +# H.264 / AVC + +**H.264 = MPEG-4 Part 10 / AVC (Advanced Video Coding)** + +**Status:** De-facto Standard (seit 2003) + +**Vorteile:** +- Universelle Hardware-Unterstützung (jedes Gerät kann dekodieren) +- Gute Qualität bei moderaten Bitraten +- Mature, stable + +**Nachteile:** +- Patente (MPEG LA) → Lizenzgebühren +- Nicht so effizient wie H.265/AV1 + + + +--- + +# Das Patent-Problem + +**H.264 Patente:** +MPEG LA Pool (viele Unternehmen) +Lizenzgebühren für Encoder/Decoder +→ Bremste Open-Source-Adoption + +**H.265 noch schlimmer:** +Mehrere Patent-Pools, unklar wer zahlen muss +→ Viele Firmen verweigerten Adoption + +**Reaktion:** +AOMedia (Google, Netflix, Amazon, Apple) → AV1 (patent-frei) + + + +--- + +# VP9: Googles Antwort + +**VP9 (2013):** Googles patent-freie Alternative zu H.265 + +**Status:** +- YouTube Standard (>90% der Videos) +- Android, Chrome unterstützen +- Ähnliche Effizienz wie H.265 + +**Problem:** +Wenig Hardware-Support (Software-Dekodierung → Batterie) + + + +--- + +# AV1: Die offene Zukunft + +**AV1 (2018):** AOMedia Video Codec 1 + +**Vorteile:** +- ~30% effizienter als H.265 +- Patent-frei (Royalty-free) +- Netflix, YouTube nutzen es + +**Nachteile:** +- Langsam zu encodieren (CPU-intensiv) +- Hardware-Support wächst erst jetzt + +**Ausblick:** +Wird H.265 langfristig ersetzen + + + +--- + +# Adaptive Bitrate Streaming + +**Problem:** Nutzer haben verschiedene Bandbreiten + +**Lösung:** Video in mehreren Qualitätsstufen encodieren + +**Beispiel:** +- 360p @ 1 Mbit/s +- 720p @ 3 Mbit/s +- 1080p @ 6 Mbit/s +- 4K @ 15 Mbit/s + +**Client wählt dynamisch** je nach Bandbreite + +**Technologien:** +MPEG-DASH (Standard), HLS (Apple) + + + +--- + + + +# VIII. Kritische Perspektive: Deepfakes & Manipulation + +--- + +# Wenn Codecs lügen + +**Deepfakes nutzen Codec-Schwächen:** + +Moderne ML-Modelle (GANs) erzeugen synthetische Videos +→ Müssen nur "gut genug für H.264" sein, nicht pixel-perfekt + +**Compression Artifacts als Forensik:** + +Echte Kamera-Footage hat charakteristische Muster +Synthetische Videos zeigen andere Artefakte +→ Forensische Tools nutzen das zur Erkennung + +**Ethische Dimension:** + +Als Medienschaffende: Verantwortung, nicht zu täuschen +Technisches Wissen befähigt, Manipulationen zu erkennen + + + +--- + + + +# IX. Abschluss + +--- + +# Fragen & Diskussion + +**Was wir heute gelernt haben:** + +1. **Digitale Bilder:** Raster vs. Vektor, Skalierungsprobleme +2. **Psychovisuell:** Chroma Subsampling, Schwächen des Auges +3. **JPEG:** 6-Schritte-Kompression, Artefakte +4. **Formate:** PNG, GIF, WebP, AVIF +5. **Instagram-Problem:** Re-Kompression, Generationsverlust +6. **Video:** Container vs. Codec, Spatial/Temporal Compression +7. **Codecs:** H.264, H.265, VP9, AV1, Patent-Probleme +8. **Deepfakes:** Ethische Verantwortung + +**Fragen?** + +--- + +# Selbstlernen: Bildkompression experimentieren + +**Aufgabe:** Exportiert ein Foto in verschiedenen JPEG-Qualitätsstufen + +**Tools:** +- GIMP (kostenlos, Open-Source) +- Photopea (Browser-basiert, kostenlos) + +**Experiment:** +1. Exportiere mit Qualität 100, 85, 70, 50, 10 +2. Vergleiche Dateigröße und visuelle Qualität +3. Wo werden Artefakte sichtbar? + +**Link:** [https://www.photopea.com/](https://www.photopea.com/) + +--- + +# Selbstlernen: Video analysieren + +**Aufgabe:** Analysiert eine Video-Datei mit MediaInfo + +**Tool:** MediaInfo (kostenlos) +[https://mediaarea.net/en/MediaInfo](https://mediaarea.net/en/MediaInfo) + +**Fragen:** +- Welcher Container? +- Welcher Video-Codec? +- Welche Bitrate? +- I-Frame-Abstand? + +**Bonus:** Vergleicht YouTube-Video (Download mit yt-dlp) vs. eigene Aufnahme + +--- + +# Lizenz & Attribution + +**Dieses Foliendeck:** +© 2025 Michael Czechowski +Lizenz: CC BY-SA 4.0 + +**Quellen:** +- Wallace, G. K. (1992). "The JPEG Still Picture Compression Standard." *IEEE Transactions on Consumer Electronics*. +- Sullivan, G. J., et al. (2012). "Overview of the High Efficiency Video Coding (HEVC) Standard." *IEEE Transactions on Circuits and Systems for Video Technology*. +- AOMedia (2018). AV1 Bitstream & Decoding Process Specification. + +**Kontakt:** [https://librete.ch/hdm/223015b/](https://librete.ch/hdm/223015b/)