Files
uni/courses/223015b/slides/01-grundlagen.md

84 KiB
Raw Blame History

marp, theme, paginate, backgroundColor, header, footer, title
marp theme paginate backgroundColor header footer title
true gaia true Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b) Michael Czechowski HdM Stuttgart Dateiformate, Schnittstellen, Speichermedien & Distributionswege
<style> :root { --color-foreground: #1a1a2e; --color-highlight: #1e5f8a; --color-dimmed: #4a4a6a; } section.invert { --color-foreground: #fff; } section { font-size: 1.7rem; } h1 { color: #1e5f8a; } section.invert h1 { color: #fff; } h2 { color: #1f2937; } pre { background: #0f0f23; color: #5fb3e4; border-radius: 8px; border-left: 3px solid #1e5f8a; } pre code { background: transparent; color: inherit; } code { background: #1a1a2e; color: #5fb3e4; padding: 0.15em 0.4em; border-radius: 4px; } a { color: var(--color-highlight); } section.klausur { background: repeating-linear-gradient( 135deg, #e3f2fd, #e3f2fd 40px, #fff 40px, #fff 80px ) !important; } @media print { section.klausur { background: #e3f2fd !important; } } section.aufgabe { background: #e3f2fd !important; } section.aufgabe footer { display: none; } </style>

bg cover opacity:0.2

Dateiformate, Schnittstellen, Speichermedien & Distributionswege

223015b · Modul "Technik 1" · 1. Semester Digital- und Medienwirtschaft Hochschule der Medien Stuttgart

https://librete.ch/hdm/223015b/


bg fit


Teil 1: Einführung

Grundlagen, Text & Audio


I. Einführung: Warum diese Vorlesung?


Verortung im Modul

Modul "Technik 1":

  • Computer & IT-Systeme
  • Netzwerke & Protokolle
  • → Unsere Vorlesung: Daten auf dem Computer

Unser Fokus:

  • Von-Neumann-Architektur: Speicher (Memory)
  • Wie werden Daten repräsentiert?
  • Wie werden Daten gespeichert?
  • Wie werden Daten übertragen?

Das menschliche Bedürfnis zu speichern

Geschichte der Informationsspeicherung:

  • 40.000 v. Chr.: Höhlenmalereien (Lascaux, Altamira)
  • 3.200 v. Chr.: Keilschrift auf Tontafeln (Mesopotamien)
  • 1450: Gutenberg-Druckpresse (Buchdruck revolutioniert)
  • 1877: Edison-Phonograph (erstmals Audio gespeichert)
  • 1950er: Magnetbänder, Lochkarten
  • 1980er: Festplatten, CDs
  • 2000er: Flash-Speicher, Cloud

→ Das Bedürfnis ist anthropologisch konstant → Die Technologie entwickelt sich exponentiell


Der Paradigmenwechsel: Analog → Digital

Analog (vor ~1980):

  • Information als kontinuierliche physikalische Größe
  • Beispiel: Schallplatte (Rille formt Schallwelle nach)
  • Problem: Degradation bei jedem Kopiervorgang

Digital (ab ~1980):

  • Information als diskrete Zahlenfolge (0 und 1)
  • Beispiel: CD (Pits & Lands = Bits)
  • Vorteil: Perfekte Kopien möglich

→ Nicht besser oder schlechter, sondern fundamental anders


II. Von der Welt zu den Bits

Die drei Ebenen des Signals


Die drei Ebenen des Signals

1. Physisches Signal Die Realität 2. Analoges Signal Kontinuierliche Repräsentation 3. Digitales Signal Diskrete Repräsentation

→ Jeder Übergang ist ein Übersetzungsakt mit Konsequenzen

Zentrale Frage: Was gewinnen wir? Was verlieren wir?


1. Physisches Signal: Die Realität

Die Welt, wie sie ist

  • Schallwellen in der Luft (Luftdruckschwankungen)
  • Lichtwellen (elektromagnetische Strahlung)
  • Temperatur, Bewegung, chemische Prozesse

Eigenschaften:

  • ✓ Kontinuierlich in Raum und Zeit
  • ✓ Unendlich detailliert (theoretisch)
  • ✗ Direkt nicht speicherbar

2. Analoges Signal: Kontinuierliche Repräsentation

Physische Realität → Kontinuierliche Abbildung

Beispiele:

  • Schallplatte: Rille formt Schwingungen nach (räumliche Analogie)
  • Magnetband: Magnetisierung entspricht Schallstärke
  • Thermometer: Quecksilbersäule entspricht Temperatur
  • Mikrofon: Luftdruck → elektrische Spannung

Eigenschaften:

  • Analogie zur Realität (daher "analog")
  • ✓ Immer noch kontinuierlich, aber in anderem Medium
  • Verlustbehaftet (Rauschen, Verzerrung, Abnutzung)

3. Digitales Signal: Diskrete Repräsentation

Kontinuierlich → Diskret (Sampling & Quantisierung)

Zwei fundamentale Schritte:

  1. Sampling (zeitlich): Messe nur zu bestimmten Zeitpunkten
  2. Quantisierung (Amplitude): Runde auf nächsten erlaubten Wert

Resultat: Endliche Menge an Zahlen

Eigenschaften:

  • Speicherbar als Bits
  • Perfekte Kopien möglich
  • Rechenbar (Filter, Effekte, Kompression)
  • Informationsverlust (Approximation der Realität)

Die drei Ebenen im Vergleich

Ebene Form Speicherbar? Kopierbar? Rechenbar? Beispiel
Physisch Kontinuierlich Schallwelle in Luft
Analog Kontinuierlich ⚠️ Mit Verlust ⚠️ Analog-Schaltungen Schallplatte, Kassette
Digital Diskret Perfekt Algorithmen MP3, WAV, CD

→ Jeder Übergang hat Trade-offs → Digital opfert Kontinuität für Robustheit


Visualisierung: Von Physisch zu Digital

bg right:50% fit

1. Physisch (Realität) Glatte Sinuswelle kontinuierlich in Zeit und Amplitude

2. Analog (Repräsentation) Leicht verrauschte Kurve immer noch kontinuierlich

3. Digital (Diskret) Treppenstufen-Approximation diskrete Zeitpunkte, diskrete Werte


Warum ist diese Unterscheidung wichtig?

Verstehen, was passiert, wenn wir:

  1. Alte Schallplatten digitalisieren → Analog (mit Rauschen) → Digital → Rauschen wird "eingefroren" (bleibt für immer)

  2. Mit einer Digitalkamera filmen → Physisch (Licht) → Digital (Sensor) → Kein analoger Zwischenschritt! (moderne Kameras)

  3. Audiokassetten kopieren → Analog → Analog (Rauschen addiert sich, Generation für Generation) → Digital → Digital (perfekt, unendlich kopierbar)

  4. Kompression anwenden → Nur bei digitalen Signalen möglich! → Algorithmen brauchen Zahlen, keine Wellen


Praktische Konsequenzen

Digitalisierung ist irreversibel

Was zwischen Samples passiert: für immer verloren Was bei Quantisierung gerundet wurde: für immer verloren

Aber:

  • Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust
  • Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar

Daher die Praxis:

  • Archivierung: Höchste Qualität digitalisieren (96 kHz, 24-bit)
  • Distribution: Dann komprimieren für Streaming/Download (AAC, Opus)

→ "You can always go down, but never up"


III. Das Problem der Knappheit

Warum Kompression notwendig ist


Ein konkretes Beispiel: 1 Minute Musik

Eine Minute Musik in CD-Qualität:

44.100 Samples/Sekunde × 16 Bit pro Sample × 2 Kanäle (Stereo) × 60 Sekunden

= 10,584,000 Bytes10,6 MB pro Minute


Konkrete Beispiele: Audio, Video, Bilder

Unkomprimierte Größen:

Medium Parameter Größe
Audio 44,1 kHz, 16-bit, Stereo 10,6 MB/min
Bild 4000×3000 px, RGB, 8-bit/Kanal 34,5 MB
Video 4K (3840×2160), 30 fps, 8-bit ~45 GB/min

Problem: Diese Größen sind unpraktikabel für Speicherung und Übertragung.


Skalierung: Von einem Song zu 10.000 Songs

Szenario: Musiksammlung

Format Größe/Song 10.000 Songs Speicher nötig
WAV (CD) 35 MB (3:30 min) 350 GB 1× 512 GB SSD
FLAC 18 MB (~50% Kompr.) 180 GB 1× 256 GB SSD
MP3 320 8 MB 80 GB 1× 128 GB SSD
MP3 128 3,3 MB 33 GB 1× 64 GB SSD

Implikation:

  • Ohne Kompression: 350 GB
  • Mit MP3 128: 33 GB (Faktor 10:1)
  • Ermöglicht iPod (2001: 510 GB), Smartphone-Sammlungen

Historischer Kontext: Speicherkapazität 19902025

Jahr Typische Festplatte Preis/GB Alben (WAV) Alben (MP3 128)
1990 100 MB $100 0,1 1,6
1995 1 GB $20 1,5 16
2000 20 GB $5 31 330
2005 200 GB $1 314 3.300
2010 1 TB $0,10 1.600 16.500
2015 2 TB $0,04 3.100 33.000
2020 4 TB $0,025 6.200 66.000
2025 8+ TB $0,015 12.500 132.000

Faktor (1990 → 2025): 80.000× Kapazität, 6.667× billiger pro GB


Der digitale Wendepunkt: Zettabyte-Ära

Datenmenge der Menschheit:

  • 2010: 2 Zettabyte (ZB)
  • 2015: 15 ZB
  • 2020: 64 ZB
  • 2025: 181 ZB (geschätzt)

Was ist ein Zettabyte? 1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte

Kontext: 181 ZB = ~18 Milliarden 10-TB-Festplatten


Zwei Philosophien der Kompression

Lossless (Verlustfrei)

  • Prinzip: Redundanz entfernen
  • Resultat: Original perfekt rekonstruierbar
  • Kompression: 2:1 bis 4:1 (typisch)
  • Beispiele: ZIP, FLAC, PNG, FFV1

Lossy (Verlustbehaftet)

  • Prinzip: Wahrnehmung austricksen (Psychoakustik/-visuell)
  • Resultat: Approximation, Original nicht rekonstruierbar
  • Kompression: 10:1 bis 100:1+ (typisch)
  • Beispiele: MP3, JPEG, H.264

Wann welche Strategie?

Anwendungsfall Lossless Lossy Begründung
Archivierung Zukunftssicher, keine Degradation
Medizin (Röntgen, MRT) Rechtlich/ethisch: kein Informationsverlust erlaubt
Text, Code Jedes Bit wichtig
Musik-Streaming Bandbreite wichtiger als Perfektion
Social Media (Fotos) Speicher/Bandbreite, „gut genug" reicht
Video-Streaming Anders unpraktikabel (45 GB/min!)
Professionelle Fotografie * RAW für Editing, JPEG für Delivery

*Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy)


IV. Fundamentale Konzepte

Bits, Bytes & Kodierung


Das Bit: 0 oder 1

Die kleinste Informationseinheit

  • Bit = Binary Digit
  • Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr)
  • Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an)

Beispiele:

  • 1 Bit: Ja/Nein-Frage
  • 2 Bits: 4 Zustände (00, 01, 10, 11)
  • n Bits: 2^n Zustände

Formel: n Bits können 2^n verschiedene Werte darstellen


Das Byte: 8 Bits = 256 Zustände

Standard-Einheit der Informatik

  • 1 Byte = 8 Bits
  • 2^8 = 256 verschiedene Werte (0255)
  • Kann darstellen: Zahlen 0255, Zeichen (ASCII), Graustufen

Warum 8 Bits?

  • Historisch: IBM System/360 (1964) standardisierte 8-bit Byte
  • Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen

Größere Einheiten:

  • Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB)
  • Megabyte (MB), Gigabyte (GB), Terabyte (TB), ...

Anwendung: RGB-Farben

24-bit Farbtiefe (True Color)

Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes

  • Rot: 8 Bit (0255)
  • Grün: 8 Bit (0255)
  • Blau: 8 Bit (0255)

Anzahl Farben: 256 × 256 × 256 = 16.777.216 Farben

Beispiele:

  • Schwarz: (0, 0, 0)
  • Weiß: (255, 255, 255)
  • Rot: (255, 0, 0)
  • Cyan: (0, 255, 255)

Zeichenkodierung: ASCII Der erste Standard

ASCII (American Standard Code for Information Interchange, 1963)

  • 7 Bit → 128 Zeichen
  • Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen

Beispiele:

  • 'A' = 65 (dezimal) = 0100 0001 (binär)
  • 'a' = 97
  • '0' = 48
  • Leerzeichen = 32

Problem: Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch.


Das Problem: Sprachen außerhalb des Englischen

Extended ASCII (8-bit, 256 Zeichen)

  • ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß)
  • ISO-8859-5: Kyrillisch
  • Windows-1252: Microsoft-Variante

Probleme:

  • Inkompatibel zwischen Sprachen
  • Kann nicht Deutsch + Russisch in selber Datei
  • Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit

Lösung: Unicode


Unicode: Ein Standard für alle Schriften

Unicode 16.0 (2024): 154.998 Zeichen

Umfasst:

  • Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch
  • CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen
  • Emoji: ~3.600
  • Historische Schriften (Hieroglyphen, Keilschrift)

Struktur:

  • Jedes Zeichen hat einen Code Point: U+0041 = 'A'
  • Code Points 01.114.111 (21 Bit theoretisch)

Verschiedene Encodings: UTF-8, UTF-16, UTF-32


UTF-8, UTF-16, UTF-32: Encoding-Varianten

UTF-8 (variable Länge, 14 Bytes):

  • ASCII-kompatibel (A = 1 Byte)
  • Umlaute: 2 Bytes (ä = C3 A4)
  • Chinesisch: 34 Bytes
  • Vorteil: Effizient für Text mit viel ASCII
  • Standard im Web (>98% aller Webseiten)

UTF-16 (2 oder 4 Bytes):

  • Meiste Zeichen: 2 Bytes
  • Seltene: 4 Bytes (Surrogate Pairs)
  • Verwendet: Windows intern, Java

UTF-32 (immer 4 Bytes):

  • Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach)
  • Vorteil: Direkter Zugriff (Zeichen N = Byte 4N)

Praxis: Bytes zählen, Dateigrößen verstehen

Beispiel: "Hello World!" in verschiedenen Encodings

Encoding Bytes Hex
ASCII 12 48 65 6C 6C 6F 20 57 6F 72 6C 64 21
UTF-8 12 (identisch mit ASCII)
UTF-16 26 FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen)
UTF-32 52 (BOM + 4 Bytes/Zeichen)

Beispiel: "Äpfel" in UTF-8

  • 'Ä' = C3 84 (2 Bytes)
  • 'p' = 70 (1 Byte)
  • 'f' = 66
  • 'e' = 65
  • 'l' = 6C
  • Total: 6 Bytes (nicht 5!)

Hexadezimal: Die Sprache der Datei-Analyse

Warum Hex?

  • Binär (0/1) ist zu lang: 11111111 = FF (kürzer)
  • Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze
  • Hex: 1 Byte = 2 Hex-Ziffern (00FF)

Hexadezimal (Base 16):

0 1 2 3 4 5 6 7 8 9 A  B  C  D  E  F
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Beispiele:

  • 0xFF = 255 (dezimal) = 1111 1111 (binär)
  • 0x10 = 16 (dezimal)
  • 0xA0 = 160 (dezimal)

Magic Numbers: Dateitypen erkennen

Jede Datei beginnt mit "Magic Bytes"

Erste Bytes identifizieren Dateityp (unabhängig von Extension)

Beispiele:

Format Magic Bytes (Hex) ASCII
PNG 89 50 4E 47 0D 0A 1A 0A .PNG....
JPEG FF D8 FF ÿØÿ
GIF 47 49 46 38 GIF8
PDF 25 50 44 46 %PDF
ZIP 50 4B 03 04 PK..
MP3 FF FB (oder FF F3) ÿû
WAV 52 49 46 46 RIFF

Tool: hexdump -C filename | head (Linux/Mac)


Praxis: "What the HEX-Code"

Live-Demo: Datei analysieren

$ hexdump -C image.png | head -n 5

00000000  89 50 4e 47 0d 0a 1a 0a  00 00 00 0d 49 48 44 52  |.PNG........IHDR|
00000010  00 00 05 00 00 00 03 84  08 02 00 00 00 8c d9 c0  |................|
00000020  ea 00 00 00 09 70 48 59  73 00 00 0b 13 00 00 0b  |.....pHYs.......|

Interpretation:

  • 89 50 4E 47 = PNG Magic Number ✓
  • 49 48 44 52 = "IHDR" (Image Header Chunk)
  • Nächste Bytes: Breite, Höhe, Bit-Tiefe

Anwendung:

  • Datei-Validierung (ist das wirklich ein PNG?)
  • Forensik (versteckte Daten?)
  • Debugging (warum öffnet Datei nicht?)

Dateneinheiten: KB, MB, GB, TB, PB, ZB

Präfixe (SI dezimal vs. Binär):

Einheit Dezimal (SI) Binär (IEC) Faktor
Kilobyte 1 KB = 1.000 Bytes 1 KiB = 1.024 Bytes 2^10
Megabyte 1 MB = 1.000 KB 1 MiB = 1.024 KiB 2^20
Gigabyte 1 GB = 1.000 MB 1 GiB = 1.024 MiB 2^30
Terabyte 1 TB = 1.000 GB 1 TiB = 1.024 GiB 2^40
Petabyte 1 PB = 1.000 TB 1 PiB = 1.024 TiB 2^50
Exabyte 1 EB = 1.000 PB 2^60
Zettabyte 1 ZB = 1.000 EB 2^70

Unterschied: 1 TB (dezimal) = 0,909 TiB (binär) → "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt)


Binär vs. Dezimal: Der Marketing-Trick

Warum zwei Standards?

Dezimal (1000-basiert):

  • Hersteller nutzen: "1 TB = 1.000 GB"
  • Größere Zahlen → besser klingt

Binär (1024-basiert):

  • Computer-intern: Potenzen von 2 (2^10 = 1024)
  • OS (Windows, Mac, Linux) zeigt oft GiB

Beispiel: Festplatte gekauft: "2 TB"

  • Hersteller: 2.000.000.000.000 Bytes
  • Windows zeigt: 1.862 GB (eigentlich GiB)
  • Differenz: ~138 GB "verschwunden"

Warum? 2.000.000.000.000 / 1024^3 = 1.862,6 GiB


Datenwachstum der Menschheit

Exponentielles Wachstum:

Meilenstein Jahr Datenmenge
Gesamte Menschheitsgeschichte bis 2003 5 Exabyte
Alle 2 Tage (2013) 2013 5 Exabyte
Pro Tag (2025) 2025 ~500 Exabyte

Treiber:

  • Video (80% des Traffics)
  • IoT-Sensoren (Autos, Smart Cities)
  • AI-Training Datasets
  • Social Media

Konsequenz: Speicherkapazität wächst, aber Daten wachsen schneller → Kompression bleibt essentiell


Der digitale Wendepunkt: 181 Zettabyte (2025)

Vergleich:

  • 181 ZB = 181.000.000.000.000.000.000.000 Bytes
  • = 181 Milliarden Terabyte
  • = Alle Worte der Menschheit × 36.000

AI-generierte Inhalte:

  • 2030 (Prognose): 90% aller Daten AI-generiert/augmentiert
  • Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora)
  • Explosion synthetischer Daten

Ökologisch:

  • Rechenzentren: ~12% globaler Energieverbrauch
  • Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher)

V. Audio

Von Analog zu Digital


Schall als physisches Phänomen

Was ist Schall?

  • Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper)
  • Geschwindigkeit: ~340 m/s in Luft (20°C)
  • Frequenz: Anzahl Schwingungen/Sekunde (Hz)
  • Amplitude: Stärke der Druckschwankung (Lautstärke)

Hörbarer Bereich (Mensch):

  • Frequenz: 20 Hz 20.000 Hz (20 kHz)
  • Lautstärke: 0 dB SPL (Hörschwelle) 120 dB SPL (Schmerzgrenze)

Musik:

  • Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) 4.186 Hz (höchste)
  • Obertöne: bis 1520 kHz

Analoge Audiowiedergabe: Schallplatte, Magnetband

Schallplatte (Vinyl):

  • Rille formt Schallwelle physisch nach
  • Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher
  • SNR: ~6070 dB
  • Frequenzgang: 20 Hz 20 kHz (theoretisch, praktisch schlechter)

Magnetband (Kassette):

  • Eisenoxid-Partikel magnetisiert entsprechend Signal
  • SNR: ~5060 dB (mit Dolby B/C besser)
  • Frequenzgang: 30 Hz 15 kHz (Typ II/Metal besser)

Vorteile: Direktheit, keine Digitalisierung, historisch billig Nachteile: Degradation, Generationsverlust, Rauschen


Vor- und Nachteile analoger Medien

Aspekt Vorteil Nachteil
Qualität Theoretisch unbegrenzte Auflösung Praktisch durch Rauschen limitiert
Kopie Generationsverlust (Rauschen akkumuliert)
Haltbarkeit Jahrzehnte (wenn gut gelagert) Degradiert (Abnutzung, Chemie)
Kosten Historisch billig Heute teuer (Vinyl-Pressung)
Manipulation Schwierig, Hardware-basiert Tape-Speed, Splicing möglich

Fazit: Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant.


Der Übergang: Warum Digital?

Motivationen (1970er1980er):

  1. Perfekte Kopien: Keine Generationsverluste (wichtig für Produktion)
  2. Kein Rauschen: Quantisierungsrauschen kontrolliert, nicht akkumulativ
  3. Manipulation: Filter, Effekte in Software → flexibel, günstig
  4. Speicher: Compact Disc (1982) → robust, kompakt, lange Spielzeit

Hindernisse:

  • Technologie: ADCs/DACs teuer, langsam
  • Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell)
  • Patente: Dolby, Sony/Philips kontrollieren Standards

Durchbruch: CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion


Digitalisierung: Sampling (zeitlich)

Sampling = zeitliche Diskretisierung

  • Kontinuierliches Signal → nur bestimmte Zeitpunkte messen
  • Sample Rate (SR): Anzahl Messungen/Sekunde (Hz)

Beispiele:

  • CD: 44.100 Hz (44,1 kHz)
  • DVD-Audio: 96.000 Hz
  • Pro-Audio: 48 kHz, 96 kHz, 192 kHz

Nyquist-Theorem: SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion

  • Mensch hört bis ~20 kHz → brauchen ≥40 kHz
  • CD: 44,1 kHz ✓

Aliasing: Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung) → Anti-Aliasing-Filter vor ADC nötig


Digitalisierung: Quantisierung (Amplitude)

Quantisierung = Amplituden-Diskretisierung

  • Kontinuierliche Spannungswerte → diskrete Stufen
  • Bit Depth: Anzahl Bits pro Sample

Beispiele:

  • CD: 16-bit → 2^16 = 65.536 Stufen
  • Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen

SQNR (Signal-to-Quantization-Noise Ratio): SQNR ≈ 6 dB × Bits

  • 16-bit: ~96 dB (reicht für Hören)
  • 24-bit: ~144 dB (Headroom für Produktion)

Dithering: Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen


Berechnung: Sample Rate × Bit Depth × Kanäle

Formel:

Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle
Dateigröße = Bitrate × Zeit

Beispiel: CD-Audio (Stereo)

  • SR: 44.100 Hz
  • Bit Depth: 16-bit
  • Kanäle: 2 (Stereo)

Bitrate: 44.100 × 16 × 2 = 1.411.200 bit/s = 1.411 kbit/s

1 Minute: 1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = 10,6 MB/min

1 Album (60 min): 10,6 MB × 60 = 636 MB


Das Speicherproblem der Digitalisierung

Historischer Kontext:

1990: Festplatten 100500 MB

  • 1 Album (636 MB) = gesamte Festplatte!
  • Lösung: Kompression (MP3, 1993)

1995: Festplatten 12 GB

  • 23 Alben → immer noch knapp

2000: Festplatten 2040 GB

  • ~3060 Alben → akzeptabel, aber MP3 = 10× mehr Musik

2025: Festplatten 4+ TB

  • ~6.000 Alben (WAV) → Speicher kein Problem mehr
  • Aber: Streaming dominiert (Bandbreite wichtiger als lokaler Speicher)

Fazit: Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen.


V-b. MP3-Revolution

Psychoakustik als Lösung


Psychoakustik: Der MP3-Trick

Grundidee: Entferne, was Menschen nicht hören

Menschliches Gehör ist nicht perfekt:

  1. Maskierungseffekte: Laute Töne übertönen leise
  2. Frequenzgrenzen: <20 Hz, >20 kHz unhörbar
  3. Kritische Bänder: Frequenzauflösung limitiert

Psychoakustisches Modell:

  • Analysiere Signal: Was wird maskiert?
  • Quantisiere maskierte Komponenten grob (oder entferne)
  • Resultat: Kleinere Datei, kaum hörbarer Unterschied

Maskierungseffekte: Laute Töne übertönen leise

Simultane Maskierung:

  • 1 kHz Ton bei 60 dB SPL
  • 1,1 kHz Ton bei 40 dB SPL gleichzeitig
  • → 1,1 kHz unhörbar (vom 1 kHz maskiert)

Temporale Maskierung:

  • Lauter Ton → kurz danach sind leise Töne unhörbar (~510 ms)
  • Pre-Masking: Auch kurz vor lautem Ton (auditorische Verarbeitung)

Anwendung: MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen


Frequenzbereiche: Was Menschen nicht hören

Hörbarer Bereich: 20 Hz 20 kHz

  • <20 Hz: Infraschall (spürbar, nicht hörbar)
  • 20 kHz: Ultraschall (unhörbar, außer für Tiere)

Mit Alter sinkt Obergrenze:

  • Kind: ~20 kHz
  • 30 Jahre: ~16 kHz
  • 50 Jahre: ~12 kHz
  • 70 Jahre: ~8 kHz

MP3-Strategie:

  • Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten)
  • <30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt)

Savings: ~2030% der Daten in diesen Bereichen


Wahrnehmung ≠ Realität

Das Ohr ist kein Mikrofon

Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert) Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig

Beispiel: Fletcher-Munson-Kurven

  • Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt?
  • Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln)
  • → Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen

MP3 nutzt das:

  • Weniger Bits für Frequenzen, wo Ohr unempfindlich
  • Mehr Bits für 25 kHz (Sprachbereich, höchste Empfindlichkeit)

Die Geburt der MP3

Geschichte:

  • 1982: IIS Fraunhofer (Erlangen) startet Forschung
  • 1987: Patent eingereicht (DE 3740215)
  • 1992: MPEG-1 Audio Layer 3 (MP3) standardisiert
  • 1995: Erste Software-Player (Winamp, 1997)
  • 1998: Erste portable Player (Diamond Rio)
  • 1999: Napster → Massenadoption

Kernentwickler:

  • Karlheinz Brandenburg (Fraunhofer IIS)
  • Dieter Seitzer (Universität Erlangen)

Ziel: Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität


Suzanne Vega: "Tom's Diner" Die Referenz

Warum dieses Lied?

Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version).

Eigenschaften:

  • Klare Stimme (testet Vocal-Encoding)
  • Minimal begleitet (keine Maskierung durch Instrumente)
  • Dynamikreich (leise/laute Passagen)
  • Sibilanten (S-Laute, schwierig zu kodieren)

Resultat:

  • Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang
  • → Andere Musik profitierte

Kulturelle Bedeutung: "Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz)


Wie funktioniert MP3? (Vereinfacht)

7 Schritte:

  1. Filterbank (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder
  2. Psychoakustisches Modell: Berechne Masking-Threshold
  3. Quantisierung: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch)
  4. Huffman-Coding: Verlustfreie Kompression der quantisierten Werte
  5. Bitstream-Formatierung: Packe in MP3-Frame-Struktur
  6. Optional: Bit Reservoir: Nutze ungenutzte Bits von einfachen Frames für komplexe

Dekodierung: Umkehrung (Huffman → De-Quantisierung → IMDCT → Synthese-Filterbank → Audio)


Bitrate: Der Qualitäts-Knopf

Bitrate = Anzahl Bits pro Sekunde

Gängige MP3-Bitraten:

Bitrate Qualität Anwendung Dateigröße/min
64 kbit/s Niedrig (Telefon) Sprache, Podcasts 0,5 MB
128 kbit/s Mittel (Radio) Historisch populär 1 MB
192 kbit/s Gut Guter Kompromiss 1,4 MB
256 kbit/s Sehr gut iTunes Standard 1,9 MB
320 kbit/s Höchste (MP3) "Transparent" (für die meisten) 2,4 MB

CBR vs. VBR:

  • CBR (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch)
  • VBR (Variable Bitrate): Bitrate variiert (komplexe Passagen → höher, einfache → niedriger) → effizienter

Variable Bitrate (VBR) vs. Constant (CBR)

CBR (Constant Bitrate):

  • Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei
  • Vorteil: Einfach, Dateigröße vorhersagbar, Streaming-freundlich
  • Nachteil: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen

VBR (Variable Bitrate):

  • Bitrate variiert: 128320 kbit/s je nach Komplexität
  • Vorteil: Bessere Qualität bei gleicher durchschnittlicher Bitrate
  • Nachteil: Dateigröße schwankt, manche alte Player hatten Probleme

Beispiel:

  • Stille: VBR nutzt ~32 kbit/s (genug)
  • Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig)
  • Durchschnitt: 192 kbit/s → gleiche Dateigröße wie CBR 192, aber besser klingt

Empfehlung (heute): VBR (alle modernen Player unterstützen)


VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs


Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus

Codec Jahr Entwickler Typische Bitrate Effizienz Status
MP3 1993 Fraunhofer/Thomson 128320 kbit/s Baseline Patent-frei seit 2017
AAC 1997 MPEG 96256 kbit/s ~30% besser als MP3 Apple Standard, weit verbreitet
Ogg Vorbis 2000 Xiph.Org 96256 kbit/s Ähnlich AAC Open Source, Spiele/Software
Opus 2012 IETF 16256 kbit/s Bester Lossy-Codec WebRTC, Streaming, wächst

Opus: Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei AAC: Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate


Lossless-Codecs: FLAC, ALAC, APE, WAV

Codec Jahr Entwickler Kompression Plattform Open Source
WAV 1991 Microsoft/IBM Keine (unkomprimiert) Universal Ja (Format)
FLAC 2001 Josh Coalson (Xiph) ~50% Alle (via FFmpeg) Ja
ALAC 2004 Apple ~4060% Apple, FFmpeg Ja (seit 2011)
APE 2000 Matthew T. Ashland ~5060% Windows (primär) Nein (Freeware)

FLAC: Standard für Lossless (unterstützt von fast allem) ALAC: Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch WAV: Unkomprimiert, riesig, aber universell kompatibel


Vergleichstabelle: Kompressionsrate, Qualität, Anwendung

Kriterium Lossy (MP3 320) Lossless (FLAC) Unkomprimiert (WAV)
Dateigröße 2,4 MB/min ~5 MB/min 10,6 MB/min
Qualität "Transparent" (für die meisten) Perfekt (bitgenau) Perfekt
Kompression ~4:1 ~2:1 1:1 (keine)
Editing Vermeiden (Generationsverlust) Gut (verlustfrei) Perfekt
Streaming Ideal (klein) Möglich (WLAN) Unpraktikabel
Archivierung (irreversibel) (aber groß)

Empfehlung:

  • Archiv: FLAC
  • Mobil/Streaming: AAC 256 oder Opus 128
  • Produktion: WAV oder FLAC (24-bit)

Wann welches Format?

Anwendungsfall Empfohlenes Format Begründung
Spotify/Streaming Opus 128192 kbit/s Effizient, niedrige Latenz
iTunes/Apple Music AAC 256 kbit/s Apple-Standard, gute Qualität
Podcast MP3 6496 kbit/s (Mono) Sprache braucht weniger
Musik-Archiv FLAC 16-bit/44,1 kHz Verlustfrei, zukunftssicher
Studio-Aufnahme WAV 24-bit/96 kHz Maximale Qualität
Hi-Res Musik FLAC 24-bit/96 kHz Verlustfrei, hohe Auflösung
Gaming (Voicechat) Opus 1632 kbit/s Niedrige Latenz
Vinyl-Digitalisierung FLAC 24-bit/96 kHz Bewahrt analoge Bandbreite

Audio-Container: MP3 vs. MP4 vs. OGG

Container ≠ Codec

Container = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel) Codec = Kompressionsalgorithmus (wie Daten kodiert sind)

Beispiele:

Container Typische Codecs Extension Anwendung
MP3 MP3 .mp3 Musik (historisch)
MP4 AAC, MP3, ALAC .m4a, .mp4 iTunes, Streaming
OGG Vorbis, Opus .ogg, .opus Open Source, Spiele
FLAC FLAC .flac Lossless Musik
Matroska Alles .mka Flexibel, wenig genutzt

Verwirrendes Beispiel:

  • .mp4 Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten
  • Nur Codec-Info gibt Qualität an, nicht Extension!

Metadaten: ID3-Tags, Vorbis Comments

Metadaten = Information über die Datei

Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year

ID3-Tags (MP3):

  • ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.)
  • ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics)

Vorbis Comments (FLAC, OGG):

  • Text-basiert (key=value)
  • Flexibler als ID3 (keine Feldlängen-Limits)
  • Beispiel: ARTIST=Suzanne Vega, ALBUM=Solitude Standing

Cover Art:

  • ID3v2: APIC-Frame (Attached Picture)
  • Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert)

Tools: ffmpeg -i file.mp3 (zeigt Metadaten), id3v2, metaflac


Streaming-Formate: Adaptive Bitrate

Problem: Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G)

Lösung: Adaptive Bitrate Streaming (ABS)

Prinzip:

  1. Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s)
  2. Client misst Bandbreite
  3. Client wählt passende Bitrate
  4. Wechsel on-the-fly (bei Bandbreiten-Änderung)

Protokolle:

  • HLS (HTTP Live Streaming, Apple): .m3u8 Playlist
  • DASH (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest

Spotify:

  • Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s)
  • Offline: Höchste Bitrate wird gespeichert

Audio-Archivierung: Best Practices

Ziel: Langfristige Erhaltung (>50 Jahre)

Format:

  • FLAC (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz)
  • Alternativ: WAV (aber größer, keine Metadaten)

Speichermedium:

  • Lokal: HDD (extern, offline) + SSD (aktiv)
  • Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt)
  • Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit)

3-2-1-Regel:

  • 3 Kopien (Original + 2 Backups)
  • 2 verschiedene Medien (z.B. HDD + Cloud)
  • 1 offsite (extern, Feuer/Diebstahl-schutz)

Migration:

  • Alle 510 Jahre: Kopiere auf neue Medien (HDDs degradieren)
  • Prüfe Checksums (MD5, SHA-256) → Datenintegrität

VII. Kritische Perspektive

Standards & Macht


Der Patentkrieg: Fraunhofer Lizenzgebühren

MP3-Patente (19872017):

  • Fraunhofer IIS + Thomson hielten Patente
  • Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song
  • Einnahmen: >$1 Milliarde (geschätzt)

Konsequenz:

  • Open-Source-Software (Linux, VLC) musste zahlen oder umgehen
  • → Vorbis/Opus als patent-freie Alternative

2017: Patente ausgelaufen

  • Alle MP3-Patente weltweit abgelaufen
  • MP3 jetzt komplett frei nutzbar
  • Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA)

Kritik: Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?)


Warum Open-Source Ogg Vorbis nutzte

Problem: MP3-Patente

Lösung: Xiph.Org Foundation entwickelt Ogg Vorbis (2000)

  • Patent-frei (nach bestem Wissen)
  • Open Source (BSD-lizenziert)
  • Bessere Qualität als MP3 (bei gleicher Bitrate)

Adoption:

  • Wikipedia (Vorbis für Audio)
  • Spotify (Vorbis für Streaming)
  • Gaming (Unreal Engine, Unity unterstützen Vorbis)
  • Mozilla/Firefox (frühe Unterstützung)

Warum nicht dominanter?

  • MP3-Player-Hardware schon weit verbreitet (2000)
  • Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen)
  • Network-Effekt: "Alle nutzen MP3"

Opus (2012): Nachfolger, noch besser, IETF-Standard, patent-frei


H.264 vs. AV1: Kampf um Video-Standards

H.264 (2003):

  • MPEG LA Patent Pool (~1.000 Patente)
  • Lizenzgebühren: Komplex (Encoder/Decoder/Distribution)
  • Dominiert (YouTube, Blu-ray, Streaming bis ~2020)

H.265/HEVC (2013):

  • 2× effizienter als H.264
  • Problem: 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media)
  • Lizenzgebühren unklar, hoch
  • → Adoption langsam

AV1 (2018):

  • Alliance for Open Media (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple)
  • Patent-frei (Mitglieder gewähren royalty-free Lizenzen)
  • ~30% effizienter als H.265
  • Adoption wächst: YouTube (2021), Netflix (2021), Meta, TikTok

Bedeutung: Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation


Napster: Kulturelle Revolution durch MP3

Napster (19992001):

  • P2P File-Sharing (Shawn Fanning, 19 Jahre alt)
  • 80 Millionen Nutzer (Peak, 2001)
  • Teilen von MP3s → Urheberrechtsverletzung (massiv)

Warum möglich?

  • MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten)
  • P2P: Dezentral (kein zentraler Server mit Musik)

Musikindustrie-Reaktion:

  • Klagen (Metallica, Dr. Dre, RIAA)
  • 2001: Napster geschlossen (Gerichtsbeschluss)

Langfristige Auswirkung:

  • Zeigte: Menschen wollen digitale Musik, on-demand
  • → iTunes Store (2003), Spotify (2008)
  • Geschäftsmodell shift: Verkauf → Streaming

Zitat (Steve Jobs, 2003):

"Napster showed us what people wanted. We just had to make it legal."


VIII. Abschluss


Zusammenfassung: Die Kernkonzepte

Drei Ebenen des Signals:

  • Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret)

Digitalisierung:

  • Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen
  • Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max

Kompression:

  • Lossless (Redundanz) vs. Lossy (Psychoakustik)
  • MP3: Psychoakustisches Modell → 10:1 Kompression

Formate:

  • Lossy: MP3, AAC, Opus (Streaming)
  • Lossless: FLAC, ALAC (Archiv)

Kritische Perspektive:

  • Patente beeinflussen Standards (MP3, H.264)
  • Open Standards (AV1, Opus) demokratisieren Zugang

Fragen & Diskussion

Offene Fragen?

Diskussionsthemen:

  • Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung?
  • Streaming vs. Ownership: Was verlieren wir kulturell?
  • AI-generierte Musik: Brauchen wir noch menschliche Künstler?

Kontakt: [Ihre Kontaktinformationen]


Selbstlernen: Audio-Spektrogramm, HEX-Files

Aufgabe 1: Audio-Spektrogramm analysieren

  • Tool: Audacity (kostenlos)
  • Laden Sie eine MP3 (128 kbit/s) und FLAC
  • Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum)
  • Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?)

Aufgabe 2: HEX-File untersuchen

  • Tool: hexdump -C file.mp3 | head (Linux/Mac) oder HxD (Windows)
  • Finden Sie Magic Bytes (FF FB oder FF F3)
  • Identifizieren Sie ID3-Tag (49 44 33 = "ID3")

Aufgabe 3: Encodierung vergleichen

  • Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s)
  • Blind-Test: Können Sie Unterschied hören?
  • Tool: ffmpeg -i input.wav -b:a 128k output.mp3

Lizenz & Attribution

Vorlesungsinhalte: © 2025 [Ihr Name], Hochschule der Medien Stuttgart Lizenz: CC BY-SA 4.0 (sofern nicht anders angegeben)

Verwendete Quellen:

  • Shannon, C. E. (1948). "A Mathematical Theory of Communication"
  • Pohlmann, K. C. (2010). Principles of Digital Audio
  • Sterne, J. (2012). MP3: The Meaning of a Format

Abbildungen:

  • Signal-Transformation: Eigene Darstellung
  • Weitere Grafiken: Attributiert in jeweiligen Slides

Danksagung: Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation)


Bis zum nächsten Termin!

Termin 2: Bild- & Videoformate

  • JPEG, PNG, WebP
  • H.264, H.265, AV1
  • Streaming-Technologien

Vorbereitung: Lesen Sie: Watkinson, J. (2004). The MPEG Handbook (Kapitel 13)