--- marp: true theme: gaia paginate: true backgroundColor: #fff header: "Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b)" footer: "Michael Czechowski – HdM Stuttgart" title: Dateiformate, Schnittstellen, Speichermedien & Distributionswege --- ![bg cover opacity:0.2](./assets/radek-grzybowski-eBRTYyjwpRY-unsplash.jpg) # Dateiformate, Schnittstellen, Speichermedien & Distributionswege **223015b** · Modul "Technik 1" · 1. Semester Digital- und Medienwirtschaft Hochschule der Medien Stuttgart [https://librete.ch/hdm/223015b/](https://librete.ch/hdm/223015b/) --- ![bg fit](./assets/qrcode-1.svg) --- # Teil 1: Einführung ## Grundlagen, Text & Audio --- # I. Einführung: Warum diese Vorlesung? --- # Verortung im Modul **Modul "Technik 1":** - Computer & IT-Systeme - Netzwerke & Protokolle - **→ Unsere Vorlesung: Daten auf dem Computer** **Unser Fokus:** - Von-Neumann-Architektur: **Speicher** (Memory) - Wie werden Daten repräsentiert? - Wie werden Daten gespeichert? - Wie werden Daten übertragen? --- # Das menschliche Bedürfnis zu speichern **Geschichte der Informationsspeicherung:** - **40.000 v. Chr.**: Höhlenmalereien (Lascaux, Altamira) - **3.200 v. Chr.**: Keilschrift auf Tontafeln (Mesopotamien) - **1450**: Gutenberg-Druckpresse (Buchdruck revolutioniert) - **1877**: Edison-Phonograph (erstmals Audio gespeichert) - **1950er**: Magnetbänder, Lochkarten - **1980er**: Festplatten, CDs - **2000er**: Flash-Speicher, Cloud → Das Bedürfnis ist **anthropologisch konstant** → Die Technologie entwickelt sich **exponentiell** --- # Der Paradigmenwechsel: Analog → Digital **Analog (vor ~1980):** - Information als **kontinuierliche physikalische Größe** - Beispiel: Schallplatte (Rille formt Schallwelle nach) - Problem: **Degradation** bei jedem Kopiervorgang **Digital (ab ~1980):** - Information als **diskrete Zahlenfolge** (0 und 1) - Beispiel: CD (Pits & Lands = Bits) - Vorteil: **Perfekte Kopien** möglich → Nicht besser oder schlechter, sondern **fundamental anders** --- # II. Von der Welt zu den Bits ## Die drei Ebenen des Signals --- # Die drei Ebenen des Signals **1. Physisches Signal** – Die Realität **2. Analoges Signal** – Kontinuierliche Repräsentation **3. Digitales Signal** – Diskrete Repräsentation → Jeder Übergang ist ein **Übersetzungsakt** mit **Konsequenzen** **Zentrale Frage:** Was gewinnen wir? Was verlieren wir? --- # 1. Physisches Signal: Die Realität **Die Welt, wie sie ist** - Schallwellen in der Luft (Luftdruckschwankungen) - Lichtwellen (elektromagnetische Strahlung) - Temperatur, Bewegung, chemische Prozesse **Eigenschaften:** - ✓ Kontinuierlich in **Raum und Zeit** - ✓ Unendlich detailliert (theoretisch) - ✗ Direkt **nicht speicherbar** --- # 2. Analoges Signal: Kontinuierliche Repräsentation **Physische Realität → Kontinuierliche Abbildung** **Beispiele:** - **Schallplatte**: Rille formt Schwingungen nach (räumliche Analogie) - **Magnetband**: Magnetisierung entspricht Schallstärke - **Thermometer**: Quecksilbersäule entspricht Temperatur - **Mikrofon**: Luftdruck → elektrische Spannung **Eigenschaften:** - ✓ **Analogie** zur Realität (daher "analog") - ✓ Immer noch **kontinuierlich**, aber in anderem Medium - ✗ **Verlustbehaftet** (Rauschen, Verzerrung, Abnutzung) --- # 3. Digitales Signal: Diskrete Repräsentation **Kontinuierlich → Diskret (Sampling & Quantisierung)** **Zwei fundamentale Schritte:** 1. **Sampling** (zeitlich): Messe nur zu bestimmten Zeitpunkten 2. **Quantisierung** (Amplitude): Runde auf nächsten erlaubten Wert **Resultat:** Endliche Menge an Zahlen **Eigenschaften:** - ✓ **Speicherbar** als Bits - ✓ **Perfekte Kopien** möglich - ✓ **Rechenbar** (Filter, Effekte, Kompression) - ✗ **Informationsverlust** (Approximation der Realität) --- # Die drei Ebenen im Vergleich | Ebene | Form | Speicherbar? | Kopierbar? | Rechenbar? | Beispiel | |-------|------|-------------|-----------|-----------|----------| | **Physisch** | Kontinuierlich | ❌ | ❌ | ❌ | Schallwelle in Luft | | **Analog** | Kontinuierlich | ✅ | ⚠️ Mit Verlust | ⚠️ Analog-Schaltungen | Schallplatte, Kassette | | **Digital** | Diskret | ✅ | ✅ Perfekt | ✅ Algorithmen | MP3, WAV, CD | → Jeder Übergang hat **Trade-offs** → Digital opfert **Kontinuität** für **Robustheit** --- # Visualisierung: Von Physisch zu Digital ![bg right:50% fit](./assets/signal-levels-comparison.png) **1. Physisch** (Realität) Glatte Sinuswelle kontinuierlich in Zeit und Amplitude **2. Analog** (Repräsentation) Leicht verrauschte Kurve immer noch kontinuierlich **3. Digital** (Diskret) Treppenstufen-Approximation diskrete Zeitpunkte, diskrete Werte --- # Warum ist diese Unterscheidung wichtig? **Verstehen, was passiert, wenn wir:** 1. **Alte Schallplatten digitalisieren** → Analog (mit Rauschen) → Digital → **Rauschen wird "eingefroren"** (bleibt für immer) 2. **Mit einer Digitalkamera filmen** → Physisch (Licht) → Digital (Sensor) → **Kein analoger Zwischenschritt!** (moderne Kameras) 3. **Audiokassetten kopieren** → Analog → Analog (Rauschen addiert sich, Generation für Generation) → Digital → Digital (perfekt, unendlich kopierbar) 4. **Kompression anwenden** → Nur bei digitalen Signalen möglich! → Algorithmen brauchen Zahlen, keine Wellen --- # Praktische Konsequenzen **Digitalisierung ist irreversibel** Was zwischen Samples passiert: **für immer verloren** Was bei Quantisierung gerundet wurde: **für immer verloren** **Aber:** - Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust - Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar **Daher die Praxis:** - **Archivierung**: Höchste Qualität digitalisieren (96 kHz, 24-bit) - **Distribution**: Dann komprimieren für Streaming/Download (AAC, Opus) → "**You can always go down, but never up**" --- # III. Das Problem der Knappheit ## Warum Kompression notwendig ist --- # Ein konkretes Beispiel: 1 Minute Musik **Eine Minute Musik in CD-Qualität:** 44.100 Samples/Sekunde × 16 Bit pro Sample × 2 Kanäle (Stereo) × 60 Sekunden = **10,584,000 Bytes** ≈ **10,6 MB pro Minute** --- # Konkrete Beispiele: Audio, Video, Bilder **Unkomprimierte Größen:** | Medium | Parameter | Größe | |--------|-----------|-------| | **Audio** | 44,1 kHz, 16-bit, Stereo | **10,6 MB/min** | | **Bild** | 4000×3000 px, RGB, 8-bit/Kanal | **34,5 MB** | | **Video** | 4K (3840×2160), 30 fps, 8-bit | **~45 GB/min** | **Problem:** Diese Größen sind unpraktikabel für Speicherung und Übertragung. --- # Skalierung: Von einem Song zu 10.000 Songs **Szenario:** Musiksammlung | Format | Größe/Song | 10.000 Songs | Speicher nötig | |--------|-----------|--------------|----------------| | **WAV (CD)** | 35 MB (3:30 min) | 350 GB | 1× 512 GB SSD | | **FLAC** | 18 MB (~50% Kompr.) | 180 GB | 1× 256 GB SSD | | **MP3 320** | 8 MB | 80 GB | 1× 128 GB SSD | | **MP3 128** | 3,3 MB | 33 GB | 1× 64 GB SSD | **Implikation:** - Ohne Kompression: 350 GB - Mit MP3 128: 33 GB (Faktor **10:1**) - **Ermöglicht** iPod (2001: 5–10 GB), Smartphone-Sammlungen --- # Historischer Kontext: Speicherkapazität 1990–2025 | Jahr | Typische Festplatte | Preis/GB | Alben (WAV) | Alben (MP3 128) | |------|---------------------|----------|-------------|-----------------| | **1990** | 100 MB | $100 | 0,1 | 1,6 | | **1995** | 1 GB | $20 | 1,5 | 16 | | **2000** | 20 GB | $5 | 31 | 330 | | **2005** | 200 GB | $1 | 314 | 3.300 | | **2010** | 1 TB | $0,10 | 1.600 | 16.500 | | **2015** | 2 TB | $0,04 | 3.100 | 33.000 | | **2020** | 4 TB | $0,025 | 6.200 | 66.000 | | **2025** | 8+ TB | $0,015 | 12.500 | 132.000 | **Faktor (1990 → 2025):** 80.000× Kapazität, 6.667× billiger pro GB --- # Der digitale Wendepunkt: Zettabyte-Ära **Datenmenge der Menschheit:** - 2010: **2 Zettabyte** (ZB) - 2015: 15 ZB - 2020: 64 ZB - **2025: 181 ZB** (geschätzt) **Was ist ein Zettabyte?** 1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte **Kontext:** 181 ZB = ~18 Milliarden 10-TB-Festplatten --- # Zwei Philosophien der Kompression ## **Lossless (Verlustfrei)** - **Prinzip**: Redundanz entfernen - **Resultat**: Original perfekt rekonstruierbar - **Kompression**: 2:1 bis 4:1 (typisch) - **Beispiele**: ZIP, FLAC, PNG, FFV1 ## **Lossy (Verlustbehaftet)** - **Prinzip**: Wahrnehmung austricksen (Psychoakustik/-visuell) - **Resultat**: Approximation, Original nicht rekonstruierbar - **Kompression**: 10:1 bis 100:1+ (typisch) - **Beispiele**: MP3, JPEG, H.264 --- # Wann welche Strategie? | Anwendungsfall | Lossless | Lossy | Begründung | |----------------|----------|-------|------------| | **Archivierung** | ✅ | ❌ | Zukunftssicher, keine Degradation | | **Medizin (Röntgen, MRT)** | ✅ | ❌ | Rechtlich/ethisch: kein Informationsverlust erlaubt | | **Text, Code** | ✅ | ❌ | Jedes Bit wichtig | | **Musik-Streaming** | ❌ | ✅ | Bandbreite wichtiger als Perfektion | | **Social Media (Fotos)** | ❌ | ✅ | Speicher/Bandbreite, „gut genug" reicht | | **Video-Streaming** | ❌ | ✅ | Anders unpraktikabel (45 GB/min!) | | **Professionelle Fotografie** | ✅ | ❌* | RAW für Editing, JPEG für Delivery | *Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy) --- # IV. Fundamentale Konzepte ## Bits, Bytes & Kodierung --- # Das Bit: 0 oder 1 **Die kleinste Informationseinheit** - **Bit** = Binary Digit - Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr) - Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an) **Beispiele:** - 1 Bit: Ja/Nein-Frage - 2 Bits: 4 Zustände (00, 01, 10, 11) - n Bits: 2^n Zustände **Formel:** n Bits können 2^n verschiedene Werte darstellen --- # Das Byte: 8 Bits = 256 Zustände **Standard-Einheit der Informatik** - 1 Byte = 8 Bits - 2^8 = 256 verschiedene Werte (0–255) - Kann darstellen: Zahlen 0–255, Zeichen (ASCII), Graustufen **Warum 8 Bits?** - Historisch: IBM System/360 (1964) standardisierte 8-bit Byte - Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen **Größere Einheiten:** - Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB) - Megabyte (MB), Gigabyte (GB), Terabyte (TB), ... --- # Anwendung: RGB-Farben **24-bit Farbtiefe (True Color)** Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes - **Rot**: 8 Bit (0–255) - **Grün**: 8 Bit (0–255) - **Blau**: 8 Bit (0–255) **Anzahl Farben:** 256 × 256 × 256 = **16.777.216 Farben** **Beispiele:** - Schwarz: (0, 0, 0) - Weiß: (255, 255, 255) - Rot: (255, 0, 0) - Cyan: (0, 255, 255) --- # Zeichenkodierung: ASCII – Der erste Standard **ASCII (American Standard Code for Information Interchange, 1963)** - 7 Bit → 128 Zeichen - Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen **Beispiele:** - 'A' = 65 (dezimal) = 0100 0001 (binär) - 'a' = 97 - '0' = 48 - Leerzeichen = 32 **Problem:** Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch. --- # Das Problem: Sprachen außerhalb des Englischen **Extended ASCII (8-bit, 256 Zeichen)** - ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß) - ISO-8859-5: Kyrillisch - Windows-1252: Microsoft-Variante **Probleme:** - Inkompatibel zwischen Sprachen - Kann nicht Deutsch + Russisch in selber Datei - Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit **Lösung:** Unicode --- # Unicode: Ein Standard für alle Schriften **Unicode 16.0 (2024): 154.998 Zeichen** Umfasst: - Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch - CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen - Emoji: ~3.600 - Historische Schriften (Hieroglyphen, Keilschrift) **Struktur:** - Jedes Zeichen hat einen **Code Point**: U+0041 = 'A' - Code Points 0–1.114.111 (21 Bit theoretisch) **Verschiedene Encodings:** UTF-8, UTF-16, UTF-32 --- # UTF-8, UTF-16, UTF-32: Encoding-Varianten **UTF-8 (variable Länge, 1–4 Bytes):** - ASCII-kompatibel (A = 1 Byte) - Umlaute: 2 Bytes (ä = C3 A4) - Chinesisch: 3–4 Bytes - **Vorteil**: Effizient für Text mit viel ASCII - **Standard** im Web (>98% aller Webseiten) **UTF-16 (2 oder 4 Bytes):** - Meiste Zeichen: 2 Bytes - Seltene: 4 Bytes (Surrogate Pairs) - **Verwendet**: Windows intern, Java **UTF-32 (immer 4 Bytes):** - Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach) - **Vorteil**: Direkter Zugriff (Zeichen N = Byte 4N) --- # Praxis: Bytes zählen, Dateigrößen verstehen **Beispiel: "Hello World!" in verschiedenen Encodings** | Encoding | Bytes | Hex | |----------|-------|-----| | **ASCII** | 12 | 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 | | **UTF-8** | 12 | (identisch mit ASCII) | | **UTF-16** | 26 | FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen) | | **UTF-32** | 52 | (BOM + 4 Bytes/Zeichen) | **Beispiel: "Äpfel" in UTF-8** - 'Ä' = C3 84 (2 Bytes) - 'p' = 70 (1 Byte) - 'f' = 66 - 'e' = 65 - 'l' = 6C - **Total**: 6 Bytes (nicht 5!) --- # Hexadezimal: Die Sprache der Datei-Analyse **Warum Hex?** - Binär (0/1) ist zu lang: 11111111 = FF (kürzer) - Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze - Hex: 1 Byte = 2 Hex-Ziffern (00–FF) **Hexadezimal (Base 16):** ``` 0 1 2 3 4 5 6 7 8 9 A B C D E F 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ``` **Beispiele:** - 0xFF = 255 (dezimal) = 1111 1111 (binär) - 0x10 = 16 (dezimal) - 0xA0 = 160 (dezimal) --- # Magic Numbers: Dateitypen erkennen **Jede Datei beginnt mit "Magic Bytes"** Erste Bytes identifizieren Dateityp (unabhängig von Extension) **Beispiele:** | Format | Magic Bytes (Hex) | ASCII | |--------|-------------------|-------| | **PNG** | 89 50 4E 47 0D 0A 1A 0A | .PNG.... | | **JPEG** | FF D8 FF | ÿØÿ | | **GIF** | 47 49 46 38 | GIF8 | | **PDF** | 25 50 44 46 | %PDF | | **ZIP** | 50 4B 03 04 | PK.. | | **MP3** | FF FB (oder FF F3) | ÿû | | **WAV** | 52 49 46 46 | RIFF | **Tool:** `hexdump -C filename | head` (Linux/Mac) --- # Praxis: "What the HEX-Code" **Live-Demo: Datei analysieren** ```bash $ hexdump -C image.png | head -n 5 00000000 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 |.PNG........IHDR| 00000010 00 00 05 00 00 00 03 84 08 02 00 00 00 8c d9 c0 |................| 00000020 ea 00 00 00 09 70 48 59 73 00 00 0b 13 00 00 0b |.....pHYs.......| ``` **Interpretation:** - `89 50 4E 47` = PNG Magic Number ✓ - `49 48 44 52` = "IHDR" (Image Header Chunk) - Nächste Bytes: Breite, Höhe, Bit-Tiefe **Anwendung:** - Datei-Validierung (ist das wirklich ein PNG?) - Forensik (versteckte Daten?) - Debugging (warum öffnet Datei nicht?) --- # Dateneinheiten: KB, MB, GB, TB, PB, ZB **Präfixe (SI dezimal vs. Binär):** | Einheit | Dezimal (SI) | Binär (IEC) | Faktor | |---------|--------------|-------------|--------| | **Kilobyte** | 1 KB = 1.000 Bytes | 1 KiB = 1.024 Bytes | 2^10 | | **Megabyte** | 1 MB = 1.000 KB | 1 MiB = 1.024 KiB | 2^20 | | **Gigabyte** | 1 GB = 1.000 MB | 1 GiB = 1.024 MiB | 2^30 | | **Terabyte** | 1 TB = 1.000 GB | 1 TiB = 1.024 GiB | 2^40 | | **Petabyte** | 1 PB = 1.000 TB | 1 PiB = 1.024 TiB | 2^50 | | **Exabyte** | 1 EB = 1.000 PB | | 2^60 | | **Zettabyte** | 1 ZB = 1.000 EB | | 2^70 | **Unterschied:** 1 TB (dezimal) = 0,909 TiB (binär) → "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt) --- # Binär vs. Dezimal: Der Marketing-Trick **Warum zwei Standards?** **Dezimal (1000-basiert):** - Hersteller nutzen: "1 TB = 1.000 GB" - Größere Zahlen → besser klingt **Binär (1024-basiert):** - Computer-intern: Potenzen von 2 (2^10 = 1024) - OS (Windows, Mac, Linux) zeigt oft GiB **Beispiel:** Festplatte gekauft: "2 TB" - Hersteller: 2.000.000.000.000 Bytes - Windows zeigt: 1.862 GB (eigentlich GiB) - **Differenz:** ~138 GB "verschwunden" **Warum?** 2.000.000.000.000 / 1024^3 = 1.862,6 GiB --- # Datenwachstum der Menschheit **Exponentielles Wachstum:** | Meilenstein | Jahr | Datenmenge | |-------------|------|------------| | Gesamte Menschheitsgeschichte bis | 2003 | 5 Exabyte | | Alle 2 Tage (2013) | 2013 | 5 Exabyte | | Pro Tag (2025) | 2025 | ~500 Exabyte | **Treiber:** - Video (80% des Traffics) - IoT-Sensoren (Autos, Smart Cities) - AI-Training Datasets - Social Media **Konsequenz:** Speicherkapazität wächst, aber Daten wachsen schneller → Kompression bleibt essentiell --- # Der digitale Wendepunkt: 181 Zettabyte (2025) **Vergleich:** - 181 ZB = 181.000.000.000.000.000.000.000 Bytes - = 181 Milliarden Terabyte - = Alle Worte der Menschheit × 36.000 **AI-generierte Inhalte:** - 2030 (Prognose): 90% aller Daten AI-generiert/augmentiert - Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora) - Explosion synthetischer Daten **Ökologisch:** - Rechenzentren: ~1–2% globaler Energieverbrauch - Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher) --- # V. Audio ## Von Analog zu Digital --- # Schall als physisches Phänomen **Was ist Schall?** - Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper) - Geschwindigkeit: ~340 m/s in Luft (20°C) - Frequenz: Anzahl Schwingungen/Sekunde (Hz) - Amplitude: Stärke der Druckschwankung (Lautstärke) **Hörbarer Bereich (Mensch):** - Frequenz: 20 Hz – 20.000 Hz (20 kHz) - Lautstärke: 0 dB SPL (Hörschwelle) – 120 dB SPL (Schmerzgrenze) **Musik:** - Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) – 4.186 Hz (höchste) - Obertöne: bis 15–20 kHz --- # Analoge Audiowiedergabe: Schallplatte, Magnetband **Schallplatte (Vinyl):** - Rille formt Schallwelle physisch nach - Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher - **SNR**: ~60–70 dB - **Frequenzgang**: 20 Hz – 20 kHz (theoretisch, praktisch schlechter) **Magnetband (Kassette):** - Eisenoxid-Partikel magnetisiert entsprechend Signal - **SNR**: ~50–60 dB (mit Dolby B/C besser) - **Frequenzgang**: 30 Hz – 15 kHz (Typ II/Metal besser) **Vorteile:** Direktheit, keine Digitalisierung, historisch billig **Nachteile:** Degradation, Generationsverlust, Rauschen --- # Vor- und Nachteile analoger Medien | Aspekt | Vorteil | Nachteil | |--------|---------|----------| | **Qualität** | Theoretisch unbegrenzte Auflösung | Praktisch durch Rauschen limitiert | | **Kopie** | — | Generationsverlust (Rauschen akkumuliert) | | **Haltbarkeit** | Jahrzehnte (wenn gut gelagert) | Degradiert (Abnutzung, Chemie) | | **Kosten** | Historisch billig | Heute teuer (Vinyl-Pressung) | | **Manipulation** | Schwierig, Hardware-basiert | Tape-Speed, Splicing möglich | **Fazit:** Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant. --- # Der Übergang: Warum Digital? **Motivationen (1970er–1980er):** 1. **Perfekte Kopien**: Keine Generationsverluste (wichtig für Produktion) 2. **Kein Rauschen**: Quantisierungsrauschen kontrolliert, nicht akkumulativ 3. **Manipulation**: Filter, Effekte in Software → flexibel, günstig 4. **Speicher**: Compact Disc (1982) → robust, kompakt, lange Spielzeit **Hindernisse:** - Technologie: ADCs/DACs teuer, langsam - Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell) - Patente: Dolby, Sony/Philips kontrollieren Standards **Durchbruch:** CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion --- # Digitalisierung: Sampling (zeitlich) **Sampling = zeitliche Diskretisierung** - Kontinuierliches Signal → nur bestimmte Zeitpunkte messen - **Sample Rate** (SR): Anzahl Messungen/Sekunde (Hz) **Beispiele:** - CD: 44.100 Hz (44,1 kHz) - DVD-Audio: 96.000 Hz - Pro-Audio: 48 kHz, 96 kHz, 192 kHz **Nyquist-Theorem:** SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion - Mensch hört bis ~20 kHz → brauchen ≥40 kHz - CD: 44,1 kHz ✓ **Aliasing:** Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung) → Anti-Aliasing-Filter vor ADC nötig --- # Digitalisierung: Quantisierung (Amplitude) **Quantisierung = Amplituden-Diskretisierung** - Kontinuierliche Spannungswerte → diskrete Stufen - **Bit Depth**: Anzahl Bits pro Sample **Beispiele:** - CD: 16-bit → 2^16 = 65.536 Stufen - Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen **SQNR (Signal-to-Quantization-Noise Ratio):** SQNR ≈ 6 dB × Bits - 16-bit: ~96 dB (reicht für Hören) - 24-bit: ~144 dB (Headroom für Produktion) **Dithering:** Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen --- # Berechnung: Sample Rate × Bit Depth × Kanäle **Formel:** ``` Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle Dateigröße = Bitrate × Zeit ``` **Beispiel: CD-Audio (Stereo)** - SR: 44.100 Hz - Bit Depth: 16-bit - Kanäle: 2 (Stereo) **Bitrate:** 44.100 × 16 × 2 = 1.411.200 bit/s = **1.411 kbit/s** **1 Minute:** 1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = **10,6 MB/min** **1 Album (60 min):** 10,6 MB × 60 = **636 MB** --- # Das Speicherproblem der Digitalisierung **Historischer Kontext:** **1990: Festplatten 100–500 MB** - 1 Album (636 MB) = gesamte Festplatte! - Lösung: Kompression (MP3, 1993) **1995: Festplatten 1–2 GB** - 2–3 Alben → immer noch knapp **2000: Festplatten 20–40 GB** - ~30–60 Alben → akzeptabel, aber MP3 = 10× mehr Musik **2025: Festplatten 4+ TB** - ~6.000 Alben (WAV) → Speicher kein Problem mehr - **Aber:** Streaming dominiert (Bandbreite wichtiger als lokaler Speicher) **Fazit:** Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen. --- # V-b. MP3-Revolution ## Psychoakustik als Lösung --- # Psychoakustik: Der MP3-Trick **Grundidee:** Entferne, was Menschen nicht hören **Menschliches Gehör ist nicht perfekt:** 1. **Maskierungseffekte**: Laute Töne übertönen leise 2. **Frequenzgrenzen**: <20 Hz, >20 kHz unhörbar 3. **Kritische Bänder**: Frequenzauflösung limitiert **Psychoakustisches Modell:** - Analysiere Signal: Was wird maskiert? - Quantisiere maskierte Komponenten grob (oder entferne) - Resultat: Kleinere Datei, kaum hörbarer Unterschied --- # Maskierungseffekte: Laute Töne übertönen leise **Simultane Maskierung:** - 1 kHz Ton bei 60 dB SPL - 1,1 kHz Ton bei 40 dB SPL gleichzeitig - → 1,1 kHz **unhörbar** (vom 1 kHz maskiert) **Temporale Maskierung:** - Lauter Ton → kurz danach sind leise Töne unhörbar (~5–10 ms) - Pre-Masking: Auch kurz **vor** lautem Ton (auditorische Verarbeitung) **Anwendung:** MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen --- # Frequenzbereiche: Was Menschen nicht hören **Hörbarer Bereich: 20 Hz – 20 kHz** - <20 Hz: Infraschall (spürbar, nicht hörbar) - >20 kHz: Ultraschall (unhörbar, außer für Tiere) **Mit Alter sinkt Obergrenze:** - Kind: ~20 kHz - 30 Jahre: ~16 kHz - 50 Jahre: ~12 kHz - 70 Jahre: ~8 kHz **MP3-Strategie:** - Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten) - <30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt) **Savings:** ~20–30% der Daten in diesen Bereichen --- # Wahrnehmung ≠ Realität **Das Ohr ist kein Mikrofon** Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert) Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig **Beispiel: Fletcher-Munson-Kurven** - Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt? - Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln) - → Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen **MP3 nutzt das:** - Weniger Bits für Frequenzen, wo Ohr unempfindlich - Mehr Bits für 2–5 kHz (Sprachbereich, höchste Empfindlichkeit) --- # Die Geburt der MP3 **Geschichte:** - 1982: IIS Fraunhofer (Erlangen) startet Forschung - 1987: Patent eingereicht (DE 3740215) - 1992: MPEG-1 Audio Layer 3 (MP3) standardisiert - 1995: Erste Software-Player (Winamp, 1997) - 1998: Erste portable Player (Diamond Rio) - 1999: Napster → Massenadoption **Kernentwickler:** - Karlheinz Brandenburg (Fraunhofer IIS) - Dieter Seitzer (Universität Erlangen) **Ziel:** Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität --- # Suzanne Vega: "Tom's Diner" – Die Referenz **Warum dieses Lied?** Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version). **Eigenschaften:** - Klare Stimme (testet Vocal-Encoding) - Minimal begleitet (keine Maskierung durch Instrumente) - Dynamikreich (leise/laute Passagen) - Sibilanten (S-Laute, schwierig zu kodieren) **Resultat:** - Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang - → Andere Musik profitierte **Kulturelle Bedeutung:** "Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz) --- # Wie funktioniert MP3? (Vereinfacht) **7 Schritte:** 1. **Filterbank** (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder 2. **Psychoakustisches Modell**: Berechne Masking-Threshold 3. **Quantisierung**: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch) 4. **Huffman-Coding**: Verlustfreie Kompression der quantisierten Werte 5. **Bitstream-Formatierung**: Packe in MP3-Frame-Struktur 6. **Optional: Bit Reservoir**: Nutze ungenutzte Bits von einfachen Frames für komplexe **Dekodierung:** Umkehrung (Huffman → De-Quantisierung → IMDCT → Synthese-Filterbank → Audio) --- # Bitrate: Der Qualitäts-Knopf **Bitrate = Anzahl Bits pro Sekunde** **Gängige MP3-Bitraten:** | Bitrate | Qualität | Anwendung | Dateigröße/min | |---------|----------|-----------|----------------| | **64 kbit/s** | Niedrig (Telefon) | Sprache, Podcasts | 0,5 MB | | **128 kbit/s** | Mittel (Radio) | Historisch populär | 1 MB | | **192 kbit/s** | Gut | Guter Kompromiss | 1,4 MB | | **256 kbit/s** | Sehr gut | iTunes Standard | 1,9 MB | | **320 kbit/s** | Höchste (MP3) | "Transparent" (für die meisten) | 2,4 MB | **CBR vs. VBR:** - **CBR** (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch) - **VBR** (Variable Bitrate): Bitrate variiert (komplexe Passagen → höher, einfache → niedriger) → effizienter --- # Variable Bitrate (VBR) vs. Constant (CBR) **CBR (Constant Bitrate):** - Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei - **Vorteil**: Einfach, Dateigröße vorhersagbar, Streaming-freundlich - **Nachteil**: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen **VBR (Variable Bitrate):** - Bitrate variiert: 128–320 kbit/s je nach Komplexität - **Vorteil**: Bessere Qualität bei gleicher durchschnittlicher Bitrate - **Nachteil**: Dateigröße schwankt, manche alte Player hatten Probleme **Beispiel:** - Stille: VBR nutzt ~32 kbit/s (genug) - Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig) - Durchschnitt: 192 kbit/s → gleiche Dateigröße wie CBR 192, aber besser klingt **Empfehlung (heute):** VBR (alle modernen Player unterstützen) --- # VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs --- # Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus | Codec | Jahr | Entwickler | Typische Bitrate | Effizienz | Status | |-------|------|-----------|------------------|-----------|--------| | **MP3** | 1993 | Fraunhofer/Thomson | 128–320 kbit/s | Baseline | Patent-frei seit 2017 | | **AAC** | 1997 | MPEG | 96–256 kbit/s | ~30% besser als MP3 | Apple Standard, weit verbreitet | | **Ogg Vorbis** | 2000 | Xiph.Org | 96–256 kbit/s | Ähnlich AAC | Open Source, Spiele/Software | | **Opus** | 2012 | IETF | 16–256 kbit/s | Bester Lossy-Codec | WebRTC, Streaming, wächst | **Opus:** Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei **AAC:** Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate --- # Lossless-Codecs: FLAC, ALAC, APE, WAV | Codec | Jahr | Entwickler | Kompression | Plattform | Open Source | |-------|------|-----------|-------------|-----------|-------------| | **WAV** | 1991 | Microsoft/IBM | Keine (unkomprimiert) | Universal | Ja (Format) | | **FLAC** | 2001 | Josh Coalson (Xiph) | ~50% | Alle (via FFmpeg) | Ja | | **ALAC** | 2004 | Apple | ~40–60% | Apple, FFmpeg | Ja (seit 2011) | | **APE** | 2000 | Matthew T. Ashland | ~50–60% | Windows (primär) | Nein (Freeware) | **FLAC:** Standard für Lossless (unterstützt von fast allem) **ALAC:** Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch **WAV:** Unkomprimiert, riesig, aber universell kompatibel --- # Vergleichstabelle: Kompressionsrate, Qualität, Anwendung | Kriterium | Lossy (MP3 320) | Lossless (FLAC) | Unkomprimiert (WAV) | |-----------|-----------------|-----------------|---------------------| | **Dateigröße** | 2,4 MB/min | ~5 MB/min | 10,6 MB/min | | **Qualität** | "Transparent" (für die meisten) | Perfekt (bitgenau) | Perfekt | | **Kompression** | ~4:1 | ~2:1 | 1:1 (keine) | | **Editing** | Vermeiden (Generationsverlust) | Gut (verlustfrei) | Perfekt | | **Streaming** | Ideal (klein) | Möglich (WLAN) | Unpraktikabel | | **Archivierung** | ❌ (irreversibel) | ✅ | ✅ (aber groß) | **Empfehlung:** - Archiv: FLAC - Mobil/Streaming: AAC 256 oder Opus 128 - Produktion: WAV oder FLAC (24-bit) --- # Wann welches Format? | Anwendungsfall | Empfohlenes Format | Begründung | |----------------|-------------------|------------| | **Spotify/Streaming** | Opus 128–192 kbit/s | Effizient, niedrige Latenz | | **iTunes/Apple Music** | AAC 256 kbit/s | Apple-Standard, gute Qualität | | **Podcast** | MP3 64–96 kbit/s (Mono) | Sprache braucht weniger | | **Musik-Archiv** | FLAC 16-bit/44,1 kHz | Verlustfrei, zukunftssicher | | **Studio-Aufnahme** | WAV 24-bit/96 kHz | Maximale Qualität | | **Hi-Res Musik** | FLAC 24-bit/96 kHz | Verlustfrei, hohe Auflösung | | **Gaming (Voicechat)** | Opus 16–32 kbit/s | Niedrige Latenz | | **Vinyl-Digitalisierung** | FLAC 24-bit/96 kHz | Bewahrt analoge Bandbreite | --- # Audio-Container: MP3 vs. MP4 vs. OGG **Container ≠ Codec** **Container** = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel) **Codec** = Kompressionsalgorithmus (wie Daten kodiert sind) **Beispiele:** | Container | Typische Codecs | Extension | Anwendung | |-----------|----------------|-----------|-----------| | **MP3** | MP3 | .mp3 | Musik (historisch) | | **MP4** | AAC, MP3, ALAC | .m4a, .mp4 | iTunes, Streaming | | **OGG** | Vorbis, Opus | .ogg, .opus | Open Source, Spiele | | **FLAC** | FLAC | .flac | Lossless Musik | | **Matroska** | Alles | .mka | Flexibel, wenig genutzt | **Verwirrendes Beispiel:** - `.mp4` Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten - Nur Codec-Info gibt Qualität an, nicht Extension! --- # Metadaten: ID3-Tags, Vorbis Comments **Metadaten = Information über die Datei** Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year **ID3-Tags (MP3):** - ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.) - ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics) **Vorbis Comments (FLAC, OGG):** - Text-basiert (key=value) - Flexibler als ID3 (keine Feldlängen-Limits) - Beispiel: `ARTIST=Suzanne Vega`, `ALBUM=Solitude Standing` **Cover Art:** - ID3v2: APIC-Frame (Attached Picture) - Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert) **Tools:** `ffmpeg -i file.mp3` (zeigt Metadaten), `id3v2`, `metaflac` --- # Streaming-Formate: Adaptive Bitrate **Problem:** Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G) **Lösung: Adaptive Bitrate Streaming (ABS)** **Prinzip:** 1. Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s) 2. Client misst Bandbreite 3. Client wählt passende Bitrate 4. Wechsel on-the-fly (bei Bandbreiten-Änderung) **Protokolle:** - **HLS** (HTTP Live Streaming, Apple): .m3u8 Playlist - **DASH** (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest **Spotify:** - Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s) - Offline: Höchste Bitrate wird gespeichert --- # Audio-Archivierung: Best Practices **Ziel:** Langfristige Erhaltung (>50 Jahre) **Format:** - **FLAC** (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz) - **Alternativ:** WAV (aber größer, keine Metadaten) **Speichermedium:** - Lokal: HDD (extern, offline) + SSD (aktiv) - Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt) - Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit) **3-2-1-Regel:** - **3** Kopien (Original + 2 Backups) - **2** verschiedene Medien (z.B. HDD + Cloud) - **1** offsite (extern, Feuer/Diebstahl-schutz) **Migration:** - Alle 5–10 Jahre: Kopiere auf neue Medien (HDDs degradieren) - Prüfe Checksums (MD5, SHA-256) → Datenintegrität --- # VII. Kritische Perspektive ## Standards & Macht --- # Der Patentkrieg: Fraunhofer Lizenzgebühren **MP3-Patente (1987–2017):** - Fraunhofer IIS + Thomson hielten Patente - Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song - Einnahmen: >$1 Milliarde (geschätzt) **Konsequenz:** - Open-Source-Software (Linux, VLC) musste zahlen oder umgehen - → Vorbis/Opus als patent-freie Alternative **2017: Patente ausgelaufen** - Alle MP3-Patente weltweit abgelaufen - MP3 jetzt komplett frei nutzbar - Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA) **Kritik:** Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?) --- # Warum Open-Source Ogg Vorbis nutzte **Problem:** MP3-Patente **Lösung:** Xiph.Org Foundation entwickelt **Ogg Vorbis** (2000) - Patent-frei (nach bestem Wissen) - Open Source (BSD-lizenziert) - Bessere Qualität als MP3 (bei gleicher Bitrate) **Adoption:** - **Wikipedia** (Vorbis für Audio) - **Spotify** (Vorbis für Streaming) - **Gaming** (Unreal Engine, Unity unterstützen Vorbis) - **Mozilla/Firefox** (frühe Unterstützung) **Warum nicht dominanter?** - MP3-Player-Hardware schon weit verbreitet (2000) - Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen) - Network-Effekt: "Alle nutzen MP3" **Opus (2012):** Nachfolger, noch besser, IETF-Standard, patent-frei --- # H.264 vs. AV1: Kampf um Video-Standards **H.264 (2003):** - MPEG LA Patent Pool (~1.000 Patente) - Lizenzgebühren: Komplex (Encoder/Decoder/Distribution) - **Dominiert** (YouTube, Blu-ray, Streaming bis ~2020) **H.265/HEVC (2013):** - 2× effizienter als H.264 - **Problem:** 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media) - Lizenzgebühren unklar, hoch - → Adoption langsam **AV1 (2018):** - **Alliance for Open Media** (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple) - **Patent-frei** (Mitglieder gewähren royalty-free Lizenzen) - ~30% effizienter als H.265 - **Adoption wächst:** YouTube (2021), Netflix (2021), Meta, TikTok **Bedeutung:** Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation --- # Napster: Kulturelle Revolution durch MP3 **Napster (1999–2001):** - P2P File-Sharing (Shawn Fanning, 19 Jahre alt) - 80 Millionen Nutzer (Peak, 2001) - Teilen von MP3s → Urheberrechtsverletzung (massiv) **Warum möglich?** - MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten) - P2P: Dezentral (kein zentraler Server mit Musik) **Musikindustrie-Reaktion:** - Klagen (Metallica, Dr. Dre, RIAA) - 2001: Napster geschlossen (Gerichtsbeschluss) **Langfristige Auswirkung:** - Zeigte: Menschen wollen digitale Musik, on-demand - → iTunes Store (2003), Spotify (2008) - Geschäftsmodell shift: Verkauf → Streaming **Zitat (Steve Jobs, 2003):** > "Napster showed us what people wanted. We just had to make it legal." --- # VIII. Abschluss --- # Zusammenfassung: Die Kernkonzepte **Drei Ebenen des Signals:** - Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret) **Digitalisierung:** - Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen - Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max **Kompression:** - Lossless (Redundanz) vs. Lossy (Psychoakustik) - MP3: Psychoakustisches Modell → 10:1 Kompression **Formate:** - Lossy: MP3, AAC, Opus (Streaming) - Lossless: FLAC, ALAC (Archiv) **Kritische Perspektive:** - Patente beeinflussen Standards (MP3, H.264) - Open Standards (AV1, Opus) demokratisieren Zugang --- # Fragen & Diskussion **Offene Fragen?** **Diskussionsthemen:** - Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung? - Streaming vs. Ownership: Was verlieren wir kulturell? - AI-generierte Musik: Brauchen wir noch menschliche Künstler? **Kontakt:** [Ihre Kontaktinformationen] --- # Selbstlernen: Audio-Spektrogramm, HEX-Files **Aufgabe 1: Audio-Spektrogramm analysieren** - Tool: Audacity (kostenlos) - Laden Sie eine MP3 (128 kbit/s) und FLAC - Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum) - Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?) **Aufgabe 2: HEX-File untersuchen** - Tool: `hexdump -C file.mp3 | head` (Linux/Mac) oder HxD (Windows) - Finden Sie Magic Bytes (FF FB oder FF F3) - Identifizieren Sie ID3-Tag (49 44 33 = "ID3") **Aufgabe 3: Encodierung vergleichen** - Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s) - Blind-Test: Können Sie Unterschied hören? - Tool: `ffmpeg -i input.wav -b:a 128k output.mp3` --- # Lizenz & Attribution **Vorlesungsinhalte:** © 2025 [Ihr Name], Hochschule der Medien Stuttgart Lizenz: CC BY-SA 4.0 (sofern nicht anders angegeben) **Verwendete Quellen:** - Shannon, C. E. (1948). "A Mathematical Theory of Communication" - Pohlmann, K. C. (2010). *Principles of Digital Audio* - Sterne, J. (2012). *MP3: The Meaning of a Format* **Abbildungen:** - Signal-Transformation: Eigene Darstellung - Weitere Grafiken: Attributiert in jeweiligen Slides **Danksagung:** Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation) --- # Bis zum nächsten Termin! **Termin 2: Bild- & Videoformate** - JPEG, PNG, WebP - H.264, H.265, AV1 - Streaming-Technologien **Vorbereitung:** Lesen Sie: Watkinson, J. (2004). *The MPEG Handbook* (Kapitel 1–3)