84 KiB
marp, theme, paginate, backgroundColor, header, footer, title
| marp | theme | paginate | backgroundColor | header | footer | title |
|---|---|---|---|---|---|---|
| true | gaia | true | Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b) | Michael Czechowski – HdM Stuttgart | Dateiformate, Schnittstellen, Speichermedien & Distributionswege |
Dateiformate, Schnittstellen, Speichermedien & Distributionswege
223015b · Modul "Technik 1" · 1. Semester Digital- und Medienwirtschaft Hochschule der Medien Stuttgart
https://librete.ch/hdm/223015b/
Teil 1: Einführung
Grundlagen, Text & Audio
I. Einführung: Warum diese Vorlesung?
Verortung im Modul
Modul "Technik 1":
- Computer & IT-Systeme
- Netzwerke & Protokolle
- → Unsere Vorlesung: Daten auf dem Computer
Unser Fokus:
- Von-Neumann-Architektur: Speicher (Memory)
- Wie werden Daten repräsentiert?
- Wie werden Daten gespeichert?
- Wie werden Daten übertragen?
Das menschliche Bedürfnis zu speichern
Geschichte der Informationsspeicherung:
- 40.000 v. Chr.: Höhlenmalereien (Lascaux, Altamira)
- 3.200 v. Chr.: Keilschrift auf Tontafeln (Mesopotamien)
- 1450: Gutenberg-Druckpresse (Buchdruck revolutioniert)
- 1877: Edison-Phonograph (erstmals Audio gespeichert)
- 1950er: Magnetbänder, Lochkarten
- 1980er: Festplatten, CDs
- 2000er: Flash-Speicher, Cloud
→ Das Bedürfnis ist anthropologisch konstant → Die Technologie entwickelt sich exponentiell
Der Paradigmenwechsel: Analog → Digital
Analog (vor ~1980):
- Information als kontinuierliche physikalische Größe
- Beispiel: Schallplatte (Rille formt Schallwelle nach)
- Problem: Degradation bei jedem Kopiervorgang
Digital (ab ~1980):
- Information als diskrete Zahlenfolge (0 und 1)
- Beispiel: CD (Pits & Lands = Bits)
- Vorteil: Perfekte Kopien möglich
→ Nicht besser oder schlechter, sondern fundamental anders
II. Von der Welt zu den Bits
Die drei Ebenen des Signals
Die drei Ebenen des Signals
1. Physisches Signal – Die Realität 2. Analoges Signal – Kontinuierliche Repräsentation 3. Digitales Signal – Diskrete Repräsentation
→ Jeder Übergang ist ein Übersetzungsakt mit Konsequenzen
Zentrale Frage: Was gewinnen wir? Was verlieren wir?
1. Physisches Signal: Die Realität
Die Welt, wie sie ist
- Schallwellen in der Luft (Luftdruckschwankungen)
- Lichtwellen (elektromagnetische Strahlung)
- Temperatur, Bewegung, chemische Prozesse
Eigenschaften:
- ✓ Kontinuierlich in Raum und Zeit
- ✓ Unendlich detailliert (theoretisch)
- ✗ Direkt nicht speicherbar
2. Analoges Signal: Kontinuierliche Repräsentation
Physische Realität → Kontinuierliche Abbildung
Beispiele:
- Schallplatte: Rille formt Schwingungen nach (räumliche Analogie)
- Magnetband: Magnetisierung entspricht Schallstärke
- Thermometer: Quecksilbersäule entspricht Temperatur
- Mikrofon: Luftdruck → elektrische Spannung
Eigenschaften:
- ✓ Analogie zur Realität (daher "analog")
- ✓ Immer noch kontinuierlich, aber in anderem Medium
- ✗ Verlustbehaftet (Rauschen, Verzerrung, Abnutzung)
3. Digitales Signal: Diskrete Repräsentation
Kontinuierlich → Diskret (Sampling & Quantisierung)
Zwei fundamentale Schritte:
- Sampling (zeitlich): Messe nur zu bestimmten Zeitpunkten
- Quantisierung (Amplitude): Runde auf nächsten erlaubten Wert
Resultat: Endliche Menge an Zahlen
Eigenschaften:
- ✓ Speicherbar als Bits
- ✓ Perfekte Kopien möglich
- ✓ Rechenbar (Filter, Effekte, Kompression)
- ✗ Informationsverlust (Approximation der Realität)
Die drei Ebenen im Vergleich
| Ebene | Form | Speicherbar? | Kopierbar? | Rechenbar? | Beispiel |
|---|---|---|---|---|---|
| Physisch | Kontinuierlich | ❌ | ❌ | ❌ | Schallwelle in Luft |
| Analog | Kontinuierlich | ✅ | ⚠️ Mit Verlust | ⚠️ Analog-Schaltungen | Schallplatte, Kassette |
| Digital | Diskret | ✅ | ✅ Perfekt | ✅ Algorithmen | MP3, WAV, CD |
→ Jeder Übergang hat Trade-offs → Digital opfert Kontinuität für Robustheit
Visualisierung: Von Physisch zu Digital
1. Physisch (Realität) Glatte Sinuswelle kontinuierlich in Zeit und Amplitude
2. Analog (Repräsentation) Leicht verrauschte Kurve immer noch kontinuierlich
3. Digital (Diskret) Treppenstufen-Approximation diskrete Zeitpunkte, diskrete Werte
Warum ist diese Unterscheidung wichtig?
Verstehen, was passiert, wenn wir:
-
Alte Schallplatten digitalisieren → Analog (mit Rauschen) → Digital → Rauschen wird "eingefroren" (bleibt für immer)
-
Mit einer Digitalkamera filmen → Physisch (Licht) → Digital (Sensor) → Kein analoger Zwischenschritt! (moderne Kameras)
-
Audiokassetten kopieren → Analog → Analog (Rauschen addiert sich, Generation für Generation) → Digital → Digital (perfekt, unendlich kopierbar)
-
Kompression anwenden → Nur bei digitalen Signalen möglich! → Algorithmen brauchen Zahlen, keine Wellen
Praktische Konsequenzen
Digitalisierung ist irreversibel
Was zwischen Samples passiert: für immer verloren Was bei Quantisierung gerundet wurde: für immer verloren
Aber:
- Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust
- Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar
Daher die Praxis:
- Archivierung: Höchste Qualität digitalisieren (96 kHz, 24-bit)
- Distribution: Dann komprimieren für Streaming/Download (AAC, Opus)
→ "You can always go down, but never up"
III. Das Problem der Knappheit
Warum Kompression notwendig ist
Ein konkretes Beispiel: 1 Minute Musik
Eine Minute Musik in CD-Qualität:
44.100 Samples/Sekunde × 16 Bit pro Sample × 2 Kanäle (Stereo) × 60 Sekunden
= 10,584,000 Bytes ≈ 10,6 MB pro Minute
Konkrete Beispiele: Audio, Video, Bilder
Unkomprimierte Größen:
| Medium | Parameter | Größe |
|---|---|---|
| Audio | 44,1 kHz, 16-bit, Stereo | 10,6 MB/min |
| Bild | 4000×3000 px, RGB, 8-bit/Kanal | 34,5 MB |
| Video | 4K (3840×2160), 30 fps, 8-bit | ~45 GB/min |
Problem: Diese Größen sind unpraktikabel für Speicherung und Übertragung.
Skalierung: Von einem Song zu 10.000 Songs
Szenario: Musiksammlung
| Format | Größe/Song | 10.000 Songs | Speicher nötig |
|---|---|---|---|
| WAV (CD) | 35 MB (3:30 min) | 350 GB | 1× 512 GB SSD |
| FLAC | 18 MB (~50% Kompr.) | 180 GB | 1× 256 GB SSD |
| MP3 320 | 8 MB | 80 GB | 1× 128 GB SSD |
| MP3 128 | 3,3 MB | 33 GB | 1× 64 GB SSD |
Implikation:
- Ohne Kompression: 350 GB
- Mit MP3 128: 33 GB (Faktor 10:1)
- Ermöglicht iPod (2001: 5–10 GB), Smartphone-Sammlungen
Historischer Kontext: Speicherkapazität 1990–2025
| Jahr | Typische Festplatte | Preis/GB | Alben (WAV) | Alben (MP3 128) |
|---|---|---|---|---|
| 1990 | 100 MB | $100 | 0,1 | 1,6 |
| 1995 | 1 GB | $20 | 1,5 | 16 |
| 2000 | 20 GB | $5 | 31 | 330 |
| 2005 | 200 GB | $1 | 314 | 3.300 |
| 2010 | 1 TB | $0,10 | 1.600 | 16.500 |
| 2015 | 2 TB | $0,04 | 3.100 | 33.000 |
| 2020 | 4 TB | $0,025 | 6.200 | 66.000 |
| 2025 | 8+ TB | $0,015 | 12.500 | 132.000 |
Faktor (1990 → 2025): 80.000× Kapazität, 6.667× billiger pro GB
Der digitale Wendepunkt: Zettabyte-Ära
Datenmenge der Menschheit:
- 2010: 2 Zettabyte (ZB)
- 2015: 15 ZB
- 2020: 64 ZB
- 2025: 181 ZB (geschätzt)
Was ist ein Zettabyte? 1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte
Kontext: 181 ZB = ~18 Milliarden 10-TB-Festplatten
Zwei Philosophien der Kompression
Lossless (Verlustfrei)
- Prinzip: Redundanz entfernen
- Resultat: Original perfekt rekonstruierbar
- Kompression: 2:1 bis 4:1 (typisch)
- Beispiele: ZIP, FLAC, PNG, FFV1
Lossy (Verlustbehaftet)
- Prinzip: Wahrnehmung austricksen (Psychoakustik/-visuell)
- Resultat: Approximation, Original nicht rekonstruierbar
- Kompression: 10:1 bis 100:1+ (typisch)
- Beispiele: MP3, JPEG, H.264
Wann welche Strategie?
| Anwendungsfall | Lossless | Lossy | Begründung |
|---|---|---|---|
| Archivierung | ✅ | ❌ | Zukunftssicher, keine Degradation |
| Medizin (Röntgen, MRT) | ✅ | ❌ | Rechtlich/ethisch: kein Informationsverlust erlaubt |
| Text, Code | ✅ | ❌ | Jedes Bit wichtig |
| Musik-Streaming | ❌ | ✅ | Bandbreite wichtiger als Perfektion |
| Social Media (Fotos) | ❌ | ✅ | Speicher/Bandbreite, „gut genug" reicht |
| Video-Streaming | ❌ | ✅ | Anders unpraktikabel (45 GB/min!) |
| Professionelle Fotografie | ✅ | ❌* | RAW für Editing, JPEG für Delivery |
*Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy)
IV. Fundamentale Konzepte
Bits, Bytes & Kodierung
Das Bit: 0 oder 1
Die kleinste Informationseinheit
- Bit = Binary Digit
- Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr)
- Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an)
Beispiele:
- 1 Bit: Ja/Nein-Frage
- 2 Bits: 4 Zustände (00, 01, 10, 11)
- n Bits: 2^n Zustände
Formel: n Bits können 2^n verschiedene Werte darstellen
Das Byte: 8 Bits = 256 Zustände
Standard-Einheit der Informatik
- 1 Byte = 8 Bits
- 2^8 = 256 verschiedene Werte (0–255)
- Kann darstellen: Zahlen 0–255, Zeichen (ASCII), Graustufen
Warum 8 Bits?
- Historisch: IBM System/360 (1964) standardisierte 8-bit Byte
- Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen
Größere Einheiten:
- Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB)
- Megabyte (MB), Gigabyte (GB), Terabyte (TB), ...
Anwendung: RGB-Farben
24-bit Farbtiefe (True Color)
Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes
- Rot: 8 Bit (0–255)
- Grün: 8 Bit (0–255)
- Blau: 8 Bit (0–255)
Anzahl Farben: 256 × 256 × 256 = 16.777.216 Farben
Beispiele:
- Schwarz: (0, 0, 0)
- Weiß: (255, 255, 255)
- Rot: (255, 0, 0)
- Cyan: (0, 255, 255)
Zeichenkodierung: ASCII – Der erste Standard
ASCII (American Standard Code for Information Interchange, 1963)
- 7 Bit → 128 Zeichen
- Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen
Beispiele:
- 'A' = 65 (dezimal) = 0100 0001 (binär)
- 'a' = 97
- '0' = 48
- Leerzeichen = 32
Problem: Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch.
Das Problem: Sprachen außerhalb des Englischen
Extended ASCII (8-bit, 256 Zeichen)
- ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß)
- ISO-8859-5: Kyrillisch
- Windows-1252: Microsoft-Variante
Probleme:
- Inkompatibel zwischen Sprachen
- Kann nicht Deutsch + Russisch in selber Datei
- Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit
Lösung: Unicode
Unicode: Ein Standard für alle Schriften
Unicode 16.0 (2024): 154.998 Zeichen
Umfasst:
- Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch
- CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen
- Emoji: ~3.600
- Historische Schriften (Hieroglyphen, Keilschrift)
Struktur:
- Jedes Zeichen hat einen Code Point: U+0041 = 'A'
- Code Points 0–1.114.111 (21 Bit theoretisch)
Verschiedene Encodings: UTF-8, UTF-16, UTF-32
UTF-8, UTF-16, UTF-32: Encoding-Varianten
UTF-8 (variable Länge, 1–4 Bytes):
- ASCII-kompatibel (A = 1 Byte)
- Umlaute: 2 Bytes (ä = C3 A4)
- Chinesisch: 3–4 Bytes
- Vorteil: Effizient für Text mit viel ASCII
- Standard im Web (>98% aller Webseiten)
UTF-16 (2 oder 4 Bytes):
- Meiste Zeichen: 2 Bytes
- Seltene: 4 Bytes (Surrogate Pairs)
- Verwendet: Windows intern, Java
UTF-32 (immer 4 Bytes):
- Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach)
- Vorteil: Direkter Zugriff (Zeichen N = Byte 4N)
Praxis: Bytes zählen, Dateigrößen verstehen
Beispiel: "Hello World!" in verschiedenen Encodings
| Encoding | Bytes | Hex |
|---|---|---|
| ASCII | 12 | 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 |
| UTF-8 | 12 | (identisch mit ASCII) |
| UTF-16 | 26 | FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen) |
| UTF-32 | 52 | (BOM + 4 Bytes/Zeichen) |
Beispiel: "Äpfel" in UTF-8
- 'Ä' = C3 84 (2 Bytes)
- 'p' = 70 (1 Byte)
- 'f' = 66
- 'e' = 65
- 'l' = 6C
- Total: 6 Bytes (nicht 5!)
Hexadezimal: Die Sprache der Datei-Analyse
Warum Hex?
- Binär (0/1) ist zu lang: 11111111 = FF (kürzer)
- Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze
- Hex: 1 Byte = 2 Hex-Ziffern (00–FF)
Hexadezimal (Base 16):
0 1 2 3 4 5 6 7 8 9 A B C D E F
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Beispiele:
- 0xFF = 255 (dezimal) = 1111 1111 (binär)
- 0x10 = 16 (dezimal)
- 0xA0 = 160 (dezimal)
Magic Numbers: Dateitypen erkennen
Jede Datei beginnt mit "Magic Bytes"
Erste Bytes identifizieren Dateityp (unabhängig von Extension)
Beispiele:
| Format | Magic Bytes (Hex) | ASCII |
|---|---|---|
| PNG | 89 50 4E 47 0D 0A 1A 0A | .PNG.... |
| JPEG | FF D8 FF | ÿØÿ |
| GIF | 47 49 46 38 | GIF8 |
| 25 50 44 46 | ||
| ZIP | 50 4B 03 04 | PK.. |
| MP3 | FF FB (oder FF F3) | ÿû |
| WAV | 52 49 46 46 | RIFF |
Tool: hexdump -C filename | head (Linux/Mac)
Praxis: "What the HEX-Code"
Live-Demo: Datei analysieren
$ hexdump -C image.png | head -n 5
00000000 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 |.PNG........IHDR|
00000010 00 00 05 00 00 00 03 84 08 02 00 00 00 8c d9 c0 |................|
00000020 ea 00 00 00 09 70 48 59 73 00 00 0b 13 00 00 0b |.....pHYs.......|
Interpretation:
89 50 4E 47= PNG Magic Number ✓49 48 44 52= "IHDR" (Image Header Chunk)- Nächste Bytes: Breite, Höhe, Bit-Tiefe
Anwendung:
- Datei-Validierung (ist das wirklich ein PNG?)
- Forensik (versteckte Daten?)
- Debugging (warum öffnet Datei nicht?)
Dateneinheiten: KB, MB, GB, TB, PB, ZB
Präfixe (SI dezimal vs. Binär):
| Einheit | Dezimal (SI) | Binär (IEC) | Faktor |
|---|---|---|---|
| Kilobyte | 1 KB = 1.000 Bytes | 1 KiB = 1.024 Bytes | 2^10 |
| Megabyte | 1 MB = 1.000 KB | 1 MiB = 1.024 KiB | 2^20 |
| Gigabyte | 1 GB = 1.000 MB | 1 GiB = 1.024 MiB | 2^30 |
| Terabyte | 1 TB = 1.000 GB | 1 TiB = 1.024 GiB | 2^40 |
| Petabyte | 1 PB = 1.000 TB | 1 PiB = 1.024 TiB | 2^50 |
| Exabyte | 1 EB = 1.000 PB | 2^60 | |
| Zettabyte | 1 ZB = 1.000 EB | 2^70 |
Unterschied: 1 TB (dezimal) = 0,909 TiB (binär) → "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt)
Binär vs. Dezimal: Der Marketing-Trick
Warum zwei Standards?
Dezimal (1000-basiert):
- Hersteller nutzen: "1 TB = 1.000 GB"
- Größere Zahlen → besser klingt
Binär (1024-basiert):
- Computer-intern: Potenzen von 2 (2^10 = 1024)
- OS (Windows, Mac, Linux) zeigt oft GiB
Beispiel: Festplatte gekauft: "2 TB"
- Hersteller: 2.000.000.000.000 Bytes
- Windows zeigt: 1.862 GB (eigentlich GiB)
- Differenz: ~138 GB "verschwunden"
Warum? 2.000.000.000.000 / 1024^3 = 1.862,6 GiB
Datenwachstum der Menschheit
Exponentielles Wachstum:
| Meilenstein | Jahr | Datenmenge |
|---|---|---|
| Gesamte Menschheitsgeschichte bis | 2003 | 5 Exabyte |
| Alle 2 Tage (2013) | 2013 | 5 Exabyte |
| Pro Tag (2025) | 2025 | ~500 Exabyte |
Treiber:
- Video (80% des Traffics)
- IoT-Sensoren (Autos, Smart Cities)
- AI-Training Datasets
- Social Media
Konsequenz: Speicherkapazität wächst, aber Daten wachsen schneller → Kompression bleibt essentiell
Der digitale Wendepunkt: 181 Zettabyte (2025)
Vergleich:
- 181 ZB = 181.000.000.000.000.000.000.000 Bytes
- = 181 Milliarden Terabyte
- = Alle Worte der Menschheit × 36.000
AI-generierte Inhalte:
- 2030 (Prognose): 90% aller Daten AI-generiert/augmentiert
- Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora)
- Explosion synthetischer Daten
Ökologisch:
- Rechenzentren: ~1–2% globaler Energieverbrauch
- Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher)
V. Audio
Von Analog zu Digital
Schall als physisches Phänomen
Was ist Schall?
- Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper)
- Geschwindigkeit: ~340 m/s in Luft (20°C)
- Frequenz: Anzahl Schwingungen/Sekunde (Hz)
- Amplitude: Stärke der Druckschwankung (Lautstärke)
Hörbarer Bereich (Mensch):
- Frequenz: 20 Hz – 20.000 Hz (20 kHz)
- Lautstärke: 0 dB SPL (Hörschwelle) – 120 dB SPL (Schmerzgrenze)
Musik:
- Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) – 4.186 Hz (höchste)
- Obertöne: bis 15–20 kHz
Analoge Audiowiedergabe: Schallplatte, Magnetband
Schallplatte (Vinyl):
- Rille formt Schallwelle physisch nach
- Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher
- SNR: ~60–70 dB
- Frequenzgang: 20 Hz – 20 kHz (theoretisch, praktisch schlechter)
Magnetband (Kassette):
- Eisenoxid-Partikel magnetisiert entsprechend Signal
- SNR: ~50–60 dB (mit Dolby B/C besser)
- Frequenzgang: 30 Hz – 15 kHz (Typ II/Metal besser)
Vorteile: Direktheit, keine Digitalisierung, historisch billig Nachteile: Degradation, Generationsverlust, Rauschen
Vor- und Nachteile analoger Medien
| Aspekt | Vorteil | Nachteil |
|---|---|---|
| Qualität | Theoretisch unbegrenzte Auflösung | Praktisch durch Rauschen limitiert |
| Kopie | — | Generationsverlust (Rauschen akkumuliert) |
| Haltbarkeit | Jahrzehnte (wenn gut gelagert) | Degradiert (Abnutzung, Chemie) |
| Kosten | Historisch billig | Heute teuer (Vinyl-Pressung) |
| Manipulation | Schwierig, Hardware-basiert | Tape-Speed, Splicing möglich |
Fazit: Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant.
Der Übergang: Warum Digital?
Motivationen (1970er–1980er):
- Perfekte Kopien: Keine Generationsverluste (wichtig für Produktion)
- Kein Rauschen: Quantisierungsrauschen kontrolliert, nicht akkumulativ
- Manipulation: Filter, Effekte in Software → flexibel, günstig
- Speicher: Compact Disc (1982) → robust, kompakt, lange Spielzeit
Hindernisse:
- Technologie: ADCs/DACs teuer, langsam
- Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell)
- Patente: Dolby, Sony/Philips kontrollieren Standards
Durchbruch: CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion
Digitalisierung: Sampling (zeitlich)
Sampling = zeitliche Diskretisierung
- Kontinuierliches Signal → nur bestimmte Zeitpunkte messen
- Sample Rate (SR): Anzahl Messungen/Sekunde (Hz)
Beispiele:
- CD: 44.100 Hz (44,1 kHz)
- DVD-Audio: 96.000 Hz
- Pro-Audio: 48 kHz, 96 kHz, 192 kHz
Nyquist-Theorem: SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion
- Mensch hört bis ~20 kHz → brauchen ≥40 kHz
- CD: 44,1 kHz ✓
Aliasing: Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung) → Anti-Aliasing-Filter vor ADC nötig
Digitalisierung: Quantisierung (Amplitude)
Quantisierung = Amplituden-Diskretisierung
- Kontinuierliche Spannungswerte → diskrete Stufen
- Bit Depth: Anzahl Bits pro Sample
Beispiele:
- CD: 16-bit → 2^16 = 65.536 Stufen
- Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen
SQNR (Signal-to-Quantization-Noise Ratio): SQNR ≈ 6 dB × Bits
- 16-bit: ~96 dB (reicht für Hören)
- 24-bit: ~144 dB (Headroom für Produktion)
Dithering: Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen
Berechnung: Sample Rate × Bit Depth × Kanäle
Formel:
Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle
Dateigröße = Bitrate × Zeit
Beispiel: CD-Audio (Stereo)
- SR: 44.100 Hz
- Bit Depth: 16-bit
- Kanäle: 2 (Stereo)
Bitrate: 44.100 × 16 × 2 = 1.411.200 bit/s = 1.411 kbit/s
1 Minute: 1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = 10,6 MB/min
1 Album (60 min): 10,6 MB × 60 = 636 MB
Das Speicherproblem der Digitalisierung
Historischer Kontext:
1990: Festplatten 100–500 MB
- 1 Album (636 MB) = gesamte Festplatte!
- Lösung: Kompression (MP3, 1993)
1995: Festplatten 1–2 GB
- 2–3 Alben → immer noch knapp
2000: Festplatten 20–40 GB
- ~30–60 Alben → akzeptabel, aber MP3 = 10× mehr Musik
2025: Festplatten 4+ TB
- ~6.000 Alben (WAV) → Speicher kein Problem mehr
- Aber: Streaming dominiert (Bandbreite wichtiger als lokaler Speicher)
Fazit: Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen.
V-b. MP3-Revolution
Psychoakustik als Lösung
Psychoakustik: Der MP3-Trick
Grundidee: Entferne, was Menschen nicht hören
Menschliches Gehör ist nicht perfekt:
- Maskierungseffekte: Laute Töne übertönen leise
- Frequenzgrenzen: <20 Hz, >20 kHz unhörbar
- Kritische Bänder: Frequenzauflösung limitiert
Psychoakustisches Modell:
- Analysiere Signal: Was wird maskiert?
- Quantisiere maskierte Komponenten grob (oder entferne)
- Resultat: Kleinere Datei, kaum hörbarer Unterschied
Maskierungseffekte: Laute Töne übertönen leise
Simultane Maskierung:
- 1 kHz Ton bei 60 dB SPL
- 1,1 kHz Ton bei 40 dB SPL gleichzeitig
- → 1,1 kHz unhörbar (vom 1 kHz maskiert)
Temporale Maskierung:
- Lauter Ton → kurz danach sind leise Töne unhörbar (~5–10 ms)
- Pre-Masking: Auch kurz vor lautem Ton (auditorische Verarbeitung)
Anwendung: MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen
Frequenzbereiche: Was Menschen nicht hören
Hörbarer Bereich: 20 Hz – 20 kHz
- <20 Hz: Infraschall (spürbar, nicht hörbar)
-
20 kHz: Ultraschall (unhörbar, außer für Tiere)
Mit Alter sinkt Obergrenze:
- Kind: ~20 kHz
- 30 Jahre: ~16 kHz
- 50 Jahre: ~12 kHz
- 70 Jahre: ~8 kHz
MP3-Strategie:
- Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten)
- <30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt)
Savings: ~20–30% der Daten in diesen Bereichen
Wahrnehmung ≠ Realität
Das Ohr ist kein Mikrofon
Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert) Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig
Beispiel: Fletcher-Munson-Kurven
- Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt?
- Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln)
- → Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen
MP3 nutzt das:
- Weniger Bits für Frequenzen, wo Ohr unempfindlich
- Mehr Bits für 2–5 kHz (Sprachbereich, höchste Empfindlichkeit)
Die Geburt der MP3
Geschichte:
- 1982: IIS Fraunhofer (Erlangen) startet Forschung
- 1987: Patent eingereicht (DE 3740215)
- 1992: MPEG-1 Audio Layer 3 (MP3) standardisiert
- 1995: Erste Software-Player (Winamp, 1997)
- 1998: Erste portable Player (Diamond Rio)
- 1999: Napster → Massenadoption
Kernentwickler:
- Karlheinz Brandenburg (Fraunhofer IIS)
- Dieter Seitzer (Universität Erlangen)
Ziel: Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität
Suzanne Vega: "Tom's Diner" – Die Referenz
Warum dieses Lied?
Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version).
Eigenschaften:
- Klare Stimme (testet Vocal-Encoding)
- Minimal begleitet (keine Maskierung durch Instrumente)
- Dynamikreich (leise/laute Passagen)
- Sibilanten (S-Laute, schwierig zu kodieren)
Resultat:
- Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang
- → Andere Musik profitierte
Kulturelle Bedeutung: "Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz)
Wie funktioniert MP3? (Vereinfacht)
7 Schritte:
- Filterbank (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder
- Psychoakustisches Modell: Berechne Masking-Threshold
- Quantisierung: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch)
- Huffman-Coding: Verlustfreie Kompression der quantisierten Werte
- Bitstream-Formatierung: Packe in MP3-Frame-Struktur
- Optional: Bit Reservoir: Nutze ungenutzte Bits von einfachen Frames für komplexe
Dekodierung: Umkehrung (Huffman → De-Quantisierung → IMDCT → Synthese-Filterbank → Audio)
Bitrate: Der Qualitäts-Knopf
Bitrate = Anzahl Bits pro Sekunde
Gängige MP3-Bitraten:
| Bitrate | Qualität | Anwendung | Dateigröße/min |
|---|---|---|---|
| 64 kbit/s | Niedrig (Telefon) | Sprache, Podcasts | 0,5 MB |
| 128 kbit/s | Mittel (Radio) | Historisch populär | 1 MB |
| 192 kbit/s | Gut | Guter Kompromiss | 1,4 MB |
| 256 kbit/s | Sehr gut | iTunes Standard | 1,9 MB |
| 320 kbit/s | Höchste (MP3) | "Transparent" (für die meisten) | 2,4 MB |
CBR vs. VBR:
- CBR (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch)
- VBR (Variable Bitrate): Bitrate variiert (komplexe Passagen → höher, einfache → niedriger) → effizienter
Variable Bitrate (VBR) vs. Constant (CBR)
CBR (Constant Bitrate):
- Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei
- Vorteil: Einfach, Dateigröße vorhersagbar, Streaming-freundlich
- Nachteil: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen
VBR (Variable Bitrate):
- Bitrate variiert: 128–320 kbit/s je nach Komplexität
- Vorteil: Bessere Qualität bei gleicher durchschnittlicher Bitrate
- Nachteil: Dateigröße schwankt, manche alte Player hatten Probleme
Beispiel:
- Stille: VBR nutzt ~32 kbit/s (genug)
- Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig)
- Durchschnitt: 192 kbit/s → gleiche Dateigröße wie CBR 192, aber besser klingt
Empfehlung (heute): VBR (alle modernen Player unterstützen)
VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs
Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus
| Codec | Jahr | Entwickler | Typische Bitrate | Effizienz | Status |
|---|---|---|---|---|---|
| MP3 | 1993 | Fraunhofer/Thomson | 128–320 kbit/s | Baseline | Patent-frei seit 2017 |
| AAC | 1997 | MPEG | 96–256 kbit/s | ~30% besser als MP3 | Apple Standard, weit verbreitet |
| Ogg Vorbis | 2000 | Xiph.Org | 96–256 kbit/s | Ähnlich AAC | Open Source, Spiele/Software |
| Opus | 2012 | IETF | 16–256 kbit/s | Bester Lossy-Codec | WebRTC, Streaming, wächst |
Opus: Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei AAC: Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate
Lossless-Codecs: FLAC, ALAC, APE, WAV
| Codec | Jahr | Entwickler | Kompression | Plattform | Open Source |
|---|---|---|---|---|---|
| WAV | 1991 | Microsoft/IBM | Keine (unkomprimiert) | Universal | Ja (Format) |
| FLAC | 2001 | Josh Coalson (Xiph) | ~50% | Alle (via FFmpeg) | Ja |
| ALAC | 2004 | Apple | ~40–60% | Apple, FFmpeg | Ja (seit 2011) |
| APE | 2000 | Matthew T. Ashland | ~50–60% | Windows (primär) | Nein (Freeware) |
FLAC: Standard für Lossless (unterstützt von fast allem) ALAC: Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch WAV: Unkomprimiert, riesig, aber universell kompatibel
Vergleichstabelle: Kompressionsrate, Qualität, Anwendung
| Kriterium | Lossy (MP3 320) | Lossless (FLAC) | Unkomprimiert (WAV) |
|---|---|---|---|
| Dateigröße | 2,4 MB/min | ~5 MB/min | 10,6 MB/min |
| Qualität | "Transparent" (für die meisten) | Perfekt (bitgenau) | Perfekt |
| Kompression | ~4:1 | ~2:1 | 1:1 (keine) |
| Editing | Vermeiden (Generationsverlust) | Gut (verlustfrei) | Perfekt |
| Streaming | Ideal (klein) | Möglich (WLAN) | Unpraktikabel |
| Archivierung | ❌ (irreversibel) | ✅ | ✅ (aber groß) |
Empfehlung:
- Archiv: FLAC
- Mobil/Streaming: AAC 256 oder Opus 128
- Produktion: WAV oder FLAC (24-bit)
Wann welches Format?
| Anwendungsfall | Empfohlenes Format | Begründung |
|---|---|---|
| Spotify/Streaming | Opus 128–192 kbit/s | Effizient, niedrige Latenz |
| iTunes/Apple Music | AAC 256 kbit/s | Apple-Standard, gute Qualität |
| Podcast | MP3 64–96 kbit/s (Mono) | Sprache braucht weniger |
| Musik-Archiv | FLAC 16-bit/44,1 kHz | Verlustfrei, zukunftssicher |
| Studio-Aufnahme | WAV 24-bit/96 kHz | Maximale Qualität |
| Hi-Res Musik | FLAC 24-bit/96 kHz | Verlustfrei, hohe Auflösung |
| Gaming (Voicechat) | Opus 16–32 kbit/s | Niedrige Latenz |
| Vinyl-Digitalisierung | FLAC 24-bit/96 kHz | Bewahrt analoge Bandbreite |
Audio-Container: MP3 vs. MP4 vs. OGG
Container ≠ Codec
Container = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel) Codec = Kompressionsalgorithmus (wie Daten kodiert sind)
Beispiele:
| Container | Typische Codecs | Extension | Anwendung |
|---|---|---|---|
| MP3 | MP3 | .mp3 | Musik (historisch) |
| MP4 | AAC, MP3, ALAC | .m4a, .mp4 | iTunes, Streaming |
| OGG | Vorbis, Opus | .ogg, .opus | Open Source, Spiele |
| FLAC | FLAC | .flac | Lossless Musik |
| Matroska | Alles | .mka | Flexibel, wenig genutzt |
Verwirrendes Beispiel:
.mp4Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten- Nur Codec-Info gibt Qualität an, nicht Extension!
Metadaten: ID3-Tags, Vorbis Comments
Metadaten = Information über die Datei
Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year
ID3-Tags (MP3):
- ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.)
- ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics)
Vorbis Comments (FLAC, OGG):
- Text-basiert (key=value)
- Flexibler als ID3 (keine Feldlängen-Limits)
- Beispiel:
ARTIST=Suzanne Vega,ALBUM=Solitude Standing
Cover Art:
- ID3v2: APIC-Frame (Attached Picture)
- Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert)
Tools: ffmpeg -i file.mp3 (zeigt Metadaten), id3v2, metaflac
Streaming-Formate: Adaptive Bitrate
Problem: Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G)
Lösung: Adaptive Bitrate Streaming (ABS)
Prinzip:
- Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s)
- Client misst Bandbreite
- Client wählt passende Bitrate
- Wechsel on-the-fly (bei Bandbreiten-Änderung)
Protokolle:
- HLS (HTTP Live Streaming, Apple): .m3u8 Playlist
- DASH (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest
Spotify:
- Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s)
- Offline: Höchste Bitrate wird gespeichert
Audio-Archivierung: Best Practices
Ziel: Langfristige Erhaltung (>50 Jahre)
Format:
- FLAC (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz)
- Alternativ: WAV (aber größer, keine Metadaten)
Speichermedium:
- Lokal: HDD (extern, offline) + SSD (aktiv)
- Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt)
- Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit)
3-2-1-Regel:
- 3 Kopien (Original + 2 Backups)
- 2 verschiedene Medien (z.B. HDD + Cloud)
- 1 offsite (extern, Feuer/Diebstahl-schutz)
Migration:
- Alle 5–10 Jahre: Kopiere auf neue Medien (HDDs degradieren)
- Prüfe Checksums (MD5, SHA-256) → Datenintegrität
VII. Kritische Perspektive
Standards & Macht
Der Patentkrieg: Fraunhofer Lizenzgebühren
MP3-Patente (1987–2017):
- Fraunhofer IIS + Thomson hielten Patente
- Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song
- Einnahmen: >$1 Milliarde (geschätzt)
Konsequenz:
- Open-Source-Software (Linux, VLC) musste zahlen oder umgehen
- → Vorbis/Opus als patent-freie Alternative
2017: Patente ausgelaufen
- Alle MP3-Patente weltweit abgelaufen
- MP3 jetzt komplett frei nutzbar
- Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA)
Kritik: Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?)
Warum Open-Source Ogg Vorbis nutzte
Problem: MP3-Patente
Lösung: Xiph.Org Foundation entwickelt Ogg Vorbis (2000)
- Patent-frei (nach bestem Wissen)
- Open Source (BSD-lizenziert)
- Bessere Qualität als MP3 (bei gleicher Bitrate)
Adoption:
- Wikipedia (Vorbis für Audio)
- Spotify (Vorbis für Streaming)
- Gaming (Unreal Engine, Unity unterstützen Vorbis)
- Mozilla/Firefox (frühe Unterstützung)
Warum nicht dominanter?
- MP3-Player-Hardware schon weit verbreitet (2000)
- Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen)
- Network-Effekt: "Alle nutzen MP3"
Opus (2012): Nachfolger, noch besser, IETF-Standard, patent-frei
H.264 vs. AV1: Kampf um Video-Standards
H.264 (2003):
- MPEG LA Patent Pool (~1.000 Patente)
- Lizenzgebühren: Komplex (Encoder/Decoder/Distribution)
- Dominiert (YouTube, Blu-ray, Streaming bis ~2020)
H.265/HEVC (2013):
- 2× effizienter als H.264
- Problem: 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media)
- Lizenzgebühren unklar, hoch
- → Adoption langsam
AV1 (2018):
- Alliance for Open Media (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple)
- Patent-frei (Mitglieder gewähren royalty-free Lizenzen)
- ~30% effizienter als H.265
- Adoption wächst: YouTube (2021), Netflix (2021), Meta, TikTok
Bedeutung: Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation
Napster: Kulturelle Revolution durch MP3
Napster (1999–2001):
- P2P File-Sharing (Shawn Fanning, 19 Jahre alt)
- 80 Millionen Nutzer (Peak, 2001)
- Teilen von MP3s → Urheberrechtsverletzung (massiv)
Warum möglich?
- MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten)
- P2P: Dezentral (kein zentraler Server mit Musik)
Musikindustrie-Reaktion:
- Klagen (Metallica, Dr. Dre, RIAA)
- 2001: Napster geschlossen (Gerichtsbeschluss)
Langfristige Auswirkung:
- Zeigte: Menschen wollen digitale Musik, on-demand
- → iTunes Store (2003), Spotify (2008)
- Geschäftsmodell shift: Verkauf → Streaming
Zitat (Steve Jobs, 2003):
"Napster showed us what people wanted. We just had to make it legal."
VIII. Abschluss
Zusammenfassung: Die Kernkonzepte
Drei Ebenen des Signals:
- Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret)
Digitalisierung:
- Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen
- Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max
Kompression:
- Lossless (Redundanz) vs. Lossy (Psychoakustik)
- MP3: Psychoakustisches Modell → 10:1 Kompression
Formate:
- Lossy: MP3, AAC, Opus (Streaming)
- Lossless: FLAC, ALAC (Archiv)
Kritische Perspektive:
- Patente beeinflussen Standards (MP3, H.264)
- Open Standards (AV1, Opus) demokratisieren Zugang
Fragen & Diskussion
Offene Fragen?
Diskussionsthemen:
- Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung?
- Streaming vs. Ownership: Was verlieren wir kulturell?
- AI-generierte Musik: Brauchen wir noch menschliche Künstler?
Kontakt: [Ihre Kontaktinformationen]
Selbstlernen: Audio-Spektrogramm, HEX-Files
Aufgabe 1: Audio-Spektrogramm analysieren
- Tool: Audacity (kostenlos)
- Laden Sie eine MP3 (128 kbit/s) und FLAC
- Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum)
- Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?)
Aufgabe 2: HEX-File untersuchen
- Tool:
hexdump -C file.mp3 | head(Linux/Mac) oder HxD (Windows) - Finden Sie Magic Bytes (FF FB oder FF F3)
- Identifizieren Sie ID3-Tag (49 44 33 = "ID3")
Aufgabe 3: Encodierung vergleichen
- Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s)
- Blind-Test: Können Sie Unterschied hören?
- Tool:
ffmpeg -i input.wav -b:a 128k output.mp3
Lizenz & Attribution
Vorlesungsinhalte: © 2025 [Ihr Name], Hochschule der Medien Stuttgart Lizenz: CC BY-SA 4.0 (sofern nicht anders angegeben)
Verwendete Quellen:
- Shannon, C. E. (1948). "A Mathematical Theory of Communication"
- Pohlmann, K. C. (2010). Principles of Digital Audio
- Sterne, J. (2012). MP3: The Meaning of a Format
Abbildungen:
- Signal-Transformation: Eigene Darstellung
- Weitere Grafiken: Attributiert in jeweiligen Slides
Danksagung: Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation)
Bis zum nächsten Termin!
Termin 2: Bild- & Videoformate
- JPEG, PNG, WebP
- H.264, H.265, AV1
- Streaming-Technologien
Vorbereitung: Lesen Sie: Watkinson, J. (2004). The MPEG Handbook (Kapitel 1–3)

