public/uni

Files

Michael Czechowski 93e8ced463 fix klausur slide pdf rendering with @media print fallback

2026-01-22 20:15:42 +01:00

84 KiB

Raw Blame History

marp, theme, paginate, backgroundColor, header, footer, title

marp	theme	paginate	backgroundColor	header	footer	title
true	gaia	true		Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b)	Michael Czechowski – HdM Stuttgart	Dateiformate, Schnittstellen, Speichermedien & Distributionswege

Dateiformate, Schnittstellen, Speichermedien & Distributionswege

223015b · Modul "Technik 1" · 1. Semester Digital- und Medienwirtschaft Hochschule der Medien Stuttgart

https://librete.ch/hdm/223015b/

Teil 1: Einführung

Grundlagen, Text & Audio

I. Einführung: Warum diese Vorlesung?

Verortung im Modul

Modul "Technik 1":

Computer & IT-Systeme
Netzwerke & Protokolle
→ Unsere Vorlesung: Daten auf dem Computer

Unser Fokus:

Von-Neumann-Architektur: Speicher (Memory)
Wie werden Daten repräsentiert?
Wie werden Daten gespeichert?
Wie werden Daten übertragen?

Das menschliche Bedürfnis zu speichern

Geschichte der Informationsspeicherung:

40.000 v. Chr.: Höhlenmalereien (Lascaux, Altamira)
3.200 v. Chr.: Keilschrift auf Tontafeln (Mesopotamien)
1450: Gutenberg-Druckpresse (Buchdruck revolutioniert)
1877: Edison-Phonograph (erstmals Audio gespeichert)
1950er: Magnetbänder, Lochkarten
1980er: Festplatten, CDs
2000er: Flash-Speicher, Cloud

→ Das Bedürfnis ist anthropologisch konstant → Die Technologie entwickelt sich exponentiell

Der Paradigmenwechsel: Analog → Digital

Analog (vor ~1980):

Information als kontinuierliche physikalische Größe
Beispiel: Schallplatte (Rille formt Schallwelle nach)
Problem: Degradation bei jedem Kopiervorgang

Digital (ab ~1980):

Information als diskrete Zahlenfolge (0 und 1)
Beispiel: CD (Pits & Lands = Bits)
Vorteil: Perfekte Kopien möglich

→ Nicht besser oder schlechter, sondern fundamental anders

II. Von der Welt zu den Bits

Die drei Ebenen des Signals

1. Physisches Signal – Die Realität 2. Analoges Signal – Kontinuierliche Repräsentation 3. Digitales Signal – Diskrete Repräsentation

→ Jeder Übergang ist ein Übersetzungsakt mit Konsequenzen

Zentrale Frage: Was gewinnen wir? Was verlieren wir?

1. Physisches Signal: Die Realität

Die Welt, wie sie ist

Schallwellen in der Luft (Luftdruckschwankungen)
Lichtwellen (elektromagnetische Strahlung)
Temperatur, Bewegung, chemische Prozesse

Eigenschaften:

✓ Kontinuierlich in Raum und Zeit
✓ Unendlich detailliert (theoretisch)
✗ Direkt nicht speicherbar

2. Analoges Signal: Kontinuierliche Repräsentation

Physische Realität → Kontinuierliche Abbildung

Beispiele:

Schallplatte: Rille formt Schwingungen nach (räumliche Analogie)
Magnetband: Magnetisierung entspricht Schallstärke
Thermometer: Quecksilbersäule entspricht Temperatur
Mikrofon: Luftdruck → elektrische Spannung

Eigenschaften:

✓ Analogie zur Realität (daher "analog")
✓ Immer noch kontinuierlich, aber in anderem Medium
✗ Verlustbehaftet (Rauschen, Verzerrung, Abnutzung)

3. Digitales Signal: Diskrete Repräsentation

Kontinuierlich → Diskret (Sampling & Quantisierung)

Zwei fundamentale Schritte:

Sampling (zeitlich): Messe nur zu bestimmten Zeitpunkten
Quantisierung (Amplitude): Runde auf nächsten erlaubten Wert

Resultat: Endliche Menge an Zahlen

Eigenschaften:

✓ Speicherbar als Bits
✓ Perfekte Kopien möglich
✓ Rechenbar (Filter, Effekte, Kompression)
✗ Informationsverlust (Approximation der Realität)

Die drei Ebenen im Vergleich

Ebene	Form	Speicherbar?	Kopierbar?	Rechenbar?	Beispiel
Physisch	Kontinuierlich	❌	❌	❌	Schallwelle in Luft
Analog	Kontinuierlich	✅	⚠️ Mit Verlust	⚠️ Analog-Schaltungen	Schallplatte, Kassette
Digital	Diskret	✅	✅ Perfekt	✅ Algorithmen	MP3, WAV, CD

→ Jeder Übergang hat Trade-offs → Digital opfert Kontinuität für Robustheit

Visualisierung: Von Physisch zu Digital

1. Physisch (Realität) Glatte Sinuswelle kontinuierlich in Zeit und Amplitude

2. Analog (Repräsentation) Leicht verrauschte Kurve immer noch kontinuierlich

3. Digital (Diskret) Treppenstufen-Approximation diskrete Zeitpunkte, diskrete Werte

Warum ist diese Unterscheidung wichtig?

Verstehen, was passiert, wenn wir:

Alte Schallplatten digitalisieren → Analog (mit Rauschen) → Digital → Rauschen wird "eingefroren" (bleibt für immer)
Mit einer Digitalkamera filmen → Physisch (Licht) → Digital (Sensor) → Kein analoger Zwischenschritt! (moderne Kameras)
Audiokassetten kopieren → Analog → Analog (Rauschen addiert sich, Generation für Generation) → Digital → Digital (perfekt, unendlich kopierbar)
Kompression anwenden → Nur bei digitalen Signalen möglich! → Algorithmen brauchen Zahlen, keine Wellen

Praktische Konsequenzen

Digitalisierung ist irreversibel

Was zwischen Samples passiert: für immer verloren Was bei Quantisierung gerundet wurde: für immer verloren

Aber:

Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust
Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar

Daher die Praxis:

Archivierung: Höchste Qualität digitalisieren (96 kHz, 24-bit)
Distribution: Dann komprimieren für Streaming/Download (AAC, Opus)

→ "You can always go down, but never up"

III. Das Problem der Knappheit

Warum Kompression notwendig ist

Ein konkretes Beispiel: 1 Minute Musik

Eine Minute Musik in CD-Qualität:

44.100 Samples/Sekunde × 16 Bit pro Sample × 2 Kanäle (Stereo) × 60 Sekunden

= 10,584,000 Bytes ≈ 10,6 MB pro Minute

Konkrete Beispiele: Audio, Video, Bilder

Unkomprimierte Größen:

Medium	Parameter	Größe
Audio	44,1 kHz, 16-bit, Stereo	10,6 MB/min
Bild	4000×3000 px, RGB, 8-bit/Kanal	34,5 MB
Video	4K (3840×2160), 30 fps, 8-bit	~45 GB/min

Problem: Diese Größen sind unpraktikabel für Speicherung und Übertragung.

Skalierung: Von einem Song zu 10.000 Songs

Szenario: Musiksammlung

Format	Größe/Song	10.000 Songs	Speicher nötig
WAV (CD)	35 MB (3:30 min)	350 GB	1× 512 GB SSD
FLAC	18 MB (~50% Kompr.)	180 GB	1× 256 GB SSD
MP3 320	8 MB	80 GB	1× 128 GB SSD
MP3 128	3,3 MB	33 GB	1× 64 GB SSD

Implikation:

Ohne Kompression: 350 GB
Mit MP3 128: 33 GB (Faktor 10:1)
Ermöglicht iPod (2001: 5–10 GB), Smartphone-Sammlungen

Historischer Kontext: Speicherkapazität 1990–2025

Jahr	Typische Festplatte	Preis/GB	Alben (WAV)	Alben (MP3 128)
1990	100 MB	$100	0,1	1,6
1995	1 GB	$20	1,5	16
2000	20 GB	$5	31	330
2005	200 GB	$1	314	3.300
2010	1 TB	$0,10	1.600	16.500
2015	2 TB	$0,04	3.100	33.000
2020	4 TB	$0,025	6.200	66.000
2025	8+ TB	$0,015	12.500	132.000

Faktor (1990 → 2025): 80.000× Kapazität, 6.667× billiger pro GB

Der digitale Wendepunkt: Zettabyte-Ära

Datenmenge der Menschheit:

2010: 2 Zettabyte (ZB)
2015: 15 ZB
2020: 64 ZB
2025: 181 ZB (geschätzt)

Was ist ein Zettabyte? 1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte

Kontext: 181 ZB = ~18 Milliarden 10-TB-Festplatten

Zwei Philosophien der Kompression

Lossless (Verlustfrei)

Prinzip: Redundanz entfernen
Resultat: Original perfekt rekonstruierbar
Kompression: 2:1 bis 4:1 (typisch)
Beispiele: ZIP, FLAC, PNG, FFV1

Lossy (Verlustbehaftet)

Prinzip: Wahrnehmung austricksen (Psychoakustik/-visuell)
Resultat: Approximation, Original nicht rekonstruierbar
Kompression: 10:1 bis 100:1+ (typisch)
Beispiele: MP3, JPEG, H.264

Wann welche Strategie?

Anwendungsfall	Lossless	Lossy	Begründung
Archivierung	✅	❌	Zukunftssicher, keine Degradation
Medizin (Röntgen, MRT)	✅	❌	Rechtlich/ethisch: kein Informationsverlust erlaubt
Text, Code	✅	❌	Jedes Bit wichtig
Musik-Streaming	❌	✅	Bandbreite wichtiger als Perfektion
Social Media (Fotos)	❌	✅	Speicher/Bandbreite, „gut genug" reicht
Video-Streaming	❌	✅	Anders unpraktikabel (45 GB/min!)
Professionelle Fotografie	✅	❌*	RAW für Editing, JPEG für Delivery

*Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy)

IV. Fundamentale Konzepte

Bits, Bytes & Kodierung

Das Bit: 0 oder 1

Die kleinste Informationseinheit

Bit = Binary Digit
Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr)
Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an)

Beispiele:

1 Bit: Ja/Nein-Frage
2 Bits: 4 Zustände (00, 01, 10, 11)
n Bits: 2^n Zustände

Formel: n Bits können 2^n verschiedene Werte darstellen

Das Byte: 8 Bits = 256 Zustände

Standard-Einheit der Informatik

1 Byte = 8 Bits
2^8 = 256 verschiedene Werte (0–255)
Kann darstellen: Zahlen 0–255, Zeichen (ASCII), Graustufen

Warum 8 Bits?

Historisch: IBM System/360 (1964) standardisierte 8-bit Byte
Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen

Größere Einheiten:

Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB)
Megabyte (MB), Gigabyte (GB), Terabyte (TB), ...

Anwendung: RGB-Farben

24-bit Farbtiefe (True Color)

Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes

Rot: 8 Bit (0–255)
Grün: 8 Bit (0–255)
Blau: 8 Bit (0–255)

Anzahl Farben: 256 × 256 × 256 = 16.777.216 Farben

Beispiele:

Schwarz: (0, 0, 0)
Weiß: (255, 255, 255)
Rot: (255, 0, 0)
Cyan: (0, 255, 255)

Zeichenkodierung: ASCII – Der erste Standard

ASCII (American Standard Code for Information Interchange, 1963)

7 Bit → 128 Zeichen
Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen

Beispiele:

'A' = 65 (dezimal) = 0100 0001 (binär)
'a' = 97
'0' = 48
Leerzeichen = 32

Problem: Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch.

Das Problem: Sprachen außerhalb des Englischen

Extended ASCII (8-bit, 256 Zeichen)

ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß)
ISO-8859-5: Kyrillisch
Windows-1252: Microsoft-Variante

Probleme:

Inkompatibel zwischen Sprachen
Kann nicht Deutsch + Russisch in selber Datei
Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit

Lösung: Unicode

Unicode: Ein Standard für alle Schriften

Unicode 16.0 (2024): 154.998 Zeichen

Umfasst:

Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch
CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen
Emoji: ~3.600
Historische Schriften (Hieroglyphen, Keilschrift)

Struktur:

Jedes Zeichen hat einen Code Point: U+0041 = 'A'
Code Points 0–1.114.111 (21 Bit theoretisch)

Verschiedene Encodings: UTF-8, UTF-16, UTF-32

UTF-8, UTF-16, UTF-32: Encoding-Varianten

UTF-8 (variable Länge, 1–4 Bytes):

ASCII-kompatibel (A = 1 Byte)
Umlaute: 2 Bytes (ä = C3 A4)
Chinesisch: 3–4 Bytes
Vorteil: Effizient für Text mit viel ASCII
Standard im Web (>98% aller Webseiten)

UTF-16 (2 oder 4 Bytes):

Meiste Zeichen: 2 Bytes
Seltene: 4 Bytes (Surrogate Pairs)
Verwendet: Windows intern, Java

UTF-32 (immer 4 Bytes):

Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach)
Vorteil: Direkter Zugriff (Zeichen N = Byte 4N)

Praxis: Bytes zählen, Dateigrößen verstehen

Beispiel: "Hello World!" in verschiedenen Encodings

Encoding	Bytes	Hex
ASCII	12	48 65 6C 6C 6F 20 57 6F 72 6C 64 21
UTF-8	12	(identisch mit ASCII)
UTF-16	26	FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen)
UTF-32	52	(BOM + 4 Bytes/Zeichen)

Beispiel: "Äpfel" in UTF-8

'Ä' = C3 84 (2 Bytes)
'p' = 70 (1 Byte)
'f' = 66
'e' = 65
'l' = 6C
Total: 6 Bytes (nicht 5!)

Hexadezimal: Die Sprache der Datei-Analyse

Warum Hex?

Binär (0/1) ist zu lang: 11111111 = FF (kürzer)
Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze
Hex: 1 Byte = 2 Hex-Ziffern (00–FF)

Hexadezimal (Base 16):

0 1 2 3 4 5 6 7 8 9 A  B  C  D  E  F
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Beispiele:

0xFF = 255 (dezimal) = 1111 1111 (binär)
0x10 = 16 (dezimal)
0xA0 = 160 (dezimal)

Magic Numbers: Dateitypen erkennen

Jede Datei beginnt mit "Magic Bytes"

Erste Bytes identifizieren Dateityp (unabhängig von Extension)

Beispiele:

Format	Magic Bytes (Hex)	ASCII
PNG	89 50 4E 47 0D 0A 1A 0A	.PNG....
JPEG	FF D8 FF	ÿØÿ
GIF	47 49 46 38	GIF8
PDF	25 50 44 46	%PDF
ZIP	50 4B 03 04	PK..
MP3	FF FB (oder FF F3)	ÿû
WAV	52 49 46 46	RIFF

Tool: hexdump -C filename | head (Linux/Mac)

Praxis: "What the HEX-Code"

Live-Demo: Datei analysieren

$ hexdump -C image.png | head -n 5

00000000  89 50 4e 47 0d 0a 1a 0a  00 00 00 0d 49 48 44 52  |.PNG........IHDR|
00000010  00 00 05 00 00 00 03 84  08 02 00 00 00 8c d9 c0  |................|
00000020  ea 00 00 00 09 70 48 59  73 00 00 0b 13 00 00 0b  |.....pHYs.......|

Interpretation:

89 50 4E 47 = PNG Magic Number ✓
49 48 44 52 = "IHDR" (Image Header Chunk)
Nächste Bytes: Breite, Höhe, Bit-Tiefe

Anwendung:

Datei-Validierung (ist das wirklich ein PNG?)
Forensik (versteckte Daten?)
Debugging (warum öffnet Datei nicht?)

Dateneinheiten: KB, MB, GB, TB, PB, ZB

Präfixe (SI dezimal vs. Binär):

Einheit	Dezimal (SI)	Binär (IEC)	Faktor
Kilobyte	1 KB = 1.000 Bytes	1 KiB = 1.024 Bytes	2^10
Megabyte	1 MB = 1.000 KB	1 MiB = 1.024 KiB	2^20
Gigabyte	1 GB = 1.000 MB	1 GiB = 1.024 MiB	2^30
Terabyte	1 TB = 1.000 GB	1 TiB = 1.024 GiB	2^40
Petabyte	1 PB = 1.000 TB	1 PiB = 1.024 TiB	2^50
Exabyte	1 EB = 1.000 PB		2^60
Zettabyte	1 ZB = 1.000 EB		2^70

Unterschied: 1 TB (dezimal) = 0,909 TiB (binär) → "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt)

Binär vs. Dezimal: Der Marketing-Trick

Warum zwei Standards?

Dezimal (1000-basiert):

Hersteller nutzen: "1 TB = 1.000 GB"
Größere Zahlen → besser klingt

Binär (1024-basiert):

Computer-intern: Potenzen von 2 (2^10 = 1024)
OS (Windows, Mac, Linux) zeigt oft GiB

Beispiel: Festplatte gekauft: "2 TB"

Hersteller: 2.000.000.000.000 Bytes
Windows zeigt: 1.862 GB (eigentlich GiB)
Differenz: ~138 GB "verschwunden"

Warum? 2.000.000.000.000 / 1024^3 = 1.862,6 GiB

Datenwachstum der Menschheit

Exponentielles Wachstum:

Meilenstein	Jahr	Datenmenge
Gesamte Menschheitsgeschichte bis	2003	5 Exabyte
Alle 2 Tage (2013)	2013	5 Exabyte
Pro Tag (2025)	2025	~500 Exabyte

Treiber:

Video (80% des Traffics)
IoT-Sensoren (Autos, Smart Cities)
AI-Training Datasets
Social Media

Konsequenz: Speicherkapazität wächst, aber Daten wachsen schneller → Kompression bleibt essentiell

Der digitale Wendepunkt: 181 Zettabyte (2025)

Vergleich:

181 ZB = 181.000.000.000.000.000.000.000 Bytes
= 181 Milliarden Terabyte
= Alle Worte der Menschheit × 36.000

AI-generierte Inhalte:

2030 (Prognose): 90% aller Daten AI-generiert/augmentiert
Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora)
Explosion synthetischer Daten

Ökologisch:

Rechenzentren: ~1–2% globaler Energieverbrauch
Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher)

V. Audio

Von Analog zu Digital

Schall als physisches Phänomen

Was ist Schall?

Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper)
Geschwindigkeit: ~340 m/s in Luft (20°C)
Frequenz: Anzahl Schwingungen/Sekunde (Hz)
Amplitude: Stärke der Druckschwankung (Lautstärke)

Hörbarer Bereich (Mensch):

Frequenz: 20 Hz – 20.000 Hz (20 kHz)
Lautstärke: 0 dB SPL (Hörschwelle) – 120 dB SPL (Schmerzgrenze)

Musik:

Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) – 4.186 Hz (höchste)
Obertöne: bis 15–20 kHz

Analoge Audiowiedergabe: Schallplatte, Magnetband

Schallplatte (Vinyl):

Rille formt Schallwelle physisch nach
Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher
SNR: ~60–70 dB
Frequenzgang: 20 Hz – 20 kHz (theoretisch, praktisch schlechter)

Magnetband (Kassette):

Eisenoxid-Partikel magnetisiert entsprechend Signal
SNR: ~50–60 dB (mit Dolby B/C besser)
Frequenzgang: 30 Hz – 15 kHz (Typ II/Metal besser)

Vorteile: Direktheit, keine Digitalisierung, historisch billig Nachteile: Degradation, Generationsverlust, Rauschen

Vor- und Nachteile analoger Medien

Aspekt	Vorteil	Nachteil
Qualität	Theoretisch unbegrenzte Auflösung	Praktisch durch Rauschen limitiert
Kopie	—	Generationsverlust (Rauschen akkumuliert)
Haltbarkeit	Jahrzehnte (wenn gut gelagert)	Degradiert (Abnutzung, Chemie)
Kosten	Historisch billig	Heute teuer (Vinyl-Pressung)
Manipulation	Schwierig, Hardware-basiert	Tape-Speed, Splicing möglich

Fazit: Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant.

Der Übergang: Warum Digital?

Motivationen (1970er–1980er):

Perfekte Kopien: Keine Generationsverluste (wichtig für Produktion)
Kein Rauschen: Quantisierungsrauschen kontrolliert, nicht akkumulativ
Manipulation: Filter, Effekte in Software → flexibel, günstig
Speicher: Compact Disc (1982) → robust, kompakt, lange Spielzeit

Hindernisse:

Technologie: ADCs/DACs teuer, langsam
Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell)
Patente: Dolby, Sony/Philips kontrollieren Standards

Durchbruch: CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion

Digitalisierung: Sampling (zeitlich)

Sampling = zeitliche Diskretisierung

Kontinuierliches Signal → nur bestimmte Zeitpunkte messen
Sample Rate (SR): Anzahl Messungen/Sekunde (Hz)

Beispiele:

CD: 44.100 Hz (44,1 kHz)
DVD-Audio: 96.000 Hz
Pro-Audio: 48 kHz, 96 kHz, 192 kHz

Nyquist-Theorem: SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion

Mensch hört bis ~20 kHz → brauchen ≥40 kHz
CD: 44,1 kHz ✓

Aliasing: Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung) → Anti-Aliasing-Filter vor ADC nötig

Digitalisierung: Quantisierung (Amplitude)

Quantisierung = Amplituden-Diskretisierung

Kontinuierliche Spannungswerte → diskrete Stufen
Bit Depth: Anzahl Bits pro Sample

Beispiele:

CD: 16-bit → 2^16 = 65.536 Stufen
Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen

SQNR (Signal-to-Quantization-Noise Ratio): SQNR ≈ 6 dB × Bits

16-bit: ~96 dB (reicht für Hören)
24-bit: ~144 dB (Headroom für Produktion)

Dithering: Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen

Berechnung: Sample Rate × Bit Depth × Kanäle

Formel:

Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle
Dateigröße = Bitrate × Zeit

Beispiel: CD-Audio (Stereo)

SR: 44.100 Hz
Bit Depth: 16-bit
Kanäle: 2 (Stereo)

Bitrate: 44.100 × 16 × 2 = 1.411.200 bit/s = 1.411 kbit/s

1 Minute: 1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = 10,6 MB/min

1 Album (60 min): 10,6 MB × 60 = 636 MB

Das Speicherproblem der Digitalisierung

Historischer Kontext:

1990: Festplatten 100–500 MB

1 Album (636 MB) = gesamte Festplatte!
Lösung: Kompression (MP3, 1993)

1995: Festplatten 1–2 GB

2–3 Alben → immer noch knapp

2000: Festplatten 20–40 GB

~30–60 Alben → akzeptabel, aber MP3 = 10× mehr Musik

2025: Festplatten 4+ TB

~6.000 Alben (WAV) → Speicher kein Problem mehr
Aber: Streaming dominiert (Bandbreite wichtiger als lokaler Speicher)

Fazit: Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen.

V-b. MP3-Revolution

Psychoakustik als Lösung

Psychoakustik: Der MP3-Trick

Grundidee: Entferne, was Menschen nicht hören

Menschliches Gehör ist nicht perfekt:

Maskierungseffekte: Laute Töne übertönen leise
Frequenzgrenzen: <20 Hz, >20 kHz unhörbar
Kritische Bänder: Frequenzauflösung limitiert

Psychoakustisches Modell:

Analysiere Signal: Was wird maskiert?
Quantisiere maskierte Komponenten grob (oder entferne)
Resultat: Kleinere Datei, kaum hörbarer Unterschied

Maskierungseffekte: Laute Töne übertönen leise

Simultane Maskierung:

1 kHz Ton bei 60 dB SPL
1,1 kHz Ton bei 40 dB SPL gleichzeitig
→ 1,1 kHz unhörbar (vom 1 kHz maskiert)

Temporale Maskierung:

Lauter Ton → kurz danach sind leise Töne unhörbar (~5–10 ms)
Pre-Masking: Auch kurz vor lautem Ton (auditorische Verarbeitung)

Anwendung: MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen

Frequenzbereiche: Was Menschen nicht hören

Hörbarer Bereich: 20 Hz – 20 kHz

<20 Hz: Infraschall (spürbar, nicht hörbar)
20 kHz: Ultraschall (unhörbar, außer für Tiere)

Mit Alter sinkt Obergrenze:

Kind: ~20 kHz
30 Jahre: ~16 kHz
50 Jahre: ~12 kHz
70 Jahre: ~8 kHz

MP3-Strategie:

Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten)
<30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt)

Savings: ~20–30% der Daten in diesen Bereichen

Wahrnehmung ≠ Realität

Das Ohr ist kein Mikrofon

Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert) Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig

Beispiel: Fletcher-Munson-Kurven

Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt?
Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln)
→ Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen

MP3 nutzt das:

Weniger Bits für Frequenzen, wo Ohr unempfindlich
Mehr Bits für 2–5 kHz (Sprachbereich, höchste Empfindlichkeit)

Die Geburt der MP3

Geschichte:

1982: IIS Fraunhofer (Erlangen) startet Forschung
1987: Patent eingereicht (DE 3740215)
1992: MPEG-1 Audio Layer 3 (MP3) standardisiert
1995: Erste Software-Player (Winamp, 1997)
1998: Erste portable Player (Diamond Rio)
1999: Napster → Massenadoption

Kernentwickler:

Karlheinz Brandenburg (Fraunhofer IIS)
Dieter Seitzer (Universität Erlangen)

Ziel: Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität

Suzanne Vega: "Tom's Diner" – Die Referenz

Warum dieses Lied?

Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version).

Eigenschaften:

Klare Stimme (testet Vocal-Encoding)
Minimal begleitet (keine Maskierung durch Instrumente)
Dynamikreich (leise/laute Passagen)
Sibilanten (S-Laute, schwierig zu kodieren)

Resultat:

Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang
→ Andere Musik profitierte

Kulturelle Bedeutung: "Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz)

Wie funktioniert MP3? (Vereinfacht)

7 Schritte:

Filterbank (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder
Psychoakustisches Modell: Berechne Masking-Threshold
Quantisierung: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch)
Huffman-Coding: Verlustfreie Kompression der quantisierten Werte
Bitstream-Formatierung: Packe in MP3-Frame-Struktur
Optional: Bit Reservoir: Nutze ungenutzte Bits von einfachen Frames für komplexe

Dekodierung: Umkehrung (Huffman → De-Quantisierung → IMDCT → Synthese-Filterbank → Audio)

Bitrate: Der Qualitäts-Knopf

Bitrate = Anzahl Bits pro Sekunde

Gängige MP3-Bitraten:

Bitrate	Qualität	Anwendung	Dateigröße/min
64 kbit/s	Niedrig (Telefon)	Sprache, Podcasts	0,5 MB
128 kbit/s	Mittel (Radio)	Historisch populär	1 MB
192 kbit/s	Gut	Guter Kompromiss	1,4 MB
256 kbit/s	Sehr gut	iTunes Standard	1,9 MB
320 kbit/s	Höchste (MP3)	"Transparent" (für die meisten)	2,4 MB

CBR vs. VBR:

CBR (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch)
VBR (Variable Bitrate): Bitrate variiert (komplexe Passagen → höher, einfache → niedriger) → effizienter

Variable Bitrate (VBR) vs. Constant (CBR)

CBR (Constant Bitrate):

Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei
Vorteil: Einfach, Dateigröße vorhersagbar, Streaming-freundlich
Nachteil: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen

VBR (Variable Bitrate):

Bitrate variiert: 128–320 kbit/s je nach Komplexität
Vorteil: Bessere Qualität bei gleicher durchschnittlicher Bitrate
Nachteil: Dateigröße schwankt, manche alte Player hatten Probleme

Beispiel:

Stille: VBR nutzt ~32 kbit/s (genug)
Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig)
Durchschnitt: 192 kbit/s → gleiche Dateigröße wie CBR 192, aber besser klingt

Empfehlung (heute): VBR (alle modernen Player unterstützen)

VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs

Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus

Codec	Jahr	Entwickler	Typische Bitrate	Effizienz	Status
MP3	1993	Fraunhofer/Thomson	128–320 kbit/s	Baseline	Patent-frei seit 2017
AAC	1997	MPEG	96–256 kbit/s	~30% besser als MP3	Apple Standard, weit verbreitet
Ogg Vorbis	2000	Xiph.Org	96–256 kbit/s	Ähnlich AAC	Open Source, Spiele/Software
Opus	2012	IETF	16–256 kbit/s	Bester Lossy-Codec	WebRTC, Streaming, wächst

Opus: Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei AAC: Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate

Lossless-Codecs: FLAC, ALAC, APE, WAV

Codec	Jahr	Entwickler	Kompression	Plattform	Open Source
WAV	1991	Microsoft/IBM	Keine (unkomprimiert)	Universal	Ja (Format)
FLAC	2001	Josh Coalson (Xiph)	~50%	Alle (via FFmpeg)	Ja
ALAC	2004	Apple	~40–60%	Apple, FFmpeg	Ja (seit 2011)
APE	2000	Matthew T. Ashland	~50–60%	Windows (primär)	Nein (Freeware)

FLAC: Standard für Lossless (unterstützt von fast allem) ALAC: Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch WAV: Unkomprimiert, riesig, aber universell kompatibel

Vergleichstabelle: Kompressionsrate, Qualität, Anwendung

Kriterium	Lossy (MP3 320)	Lossless (FLAC)	Unkomprimiert (WAV)
Dateigröße	2,4 MB/min	~5 MB/min	10,6 MB/min
Qualität	"Transparent" (für die meisten)	Perfekt (bitgenau)	Perfekt
Kompression	~4:1	~2:1	1:1 (keine)
Editing	Vermeiden (Generationsverlust)	Gut (verlustfrei)	Perfekt
Streaming	Ideal (klein)	Möglich (WLAN)	Unpraktikabel
Archivierung	❌ (irreversibel)	✅	✅ (aber groß)

Empfehlung:

Archiv: FLAC
Mobil/Streaming: AAC 256 oder Opus 128
Produktion: WAV oder FLAC (24-bit)

Wann welches Format?

Anwendungsfall	Empfohlenes Format	Begründung
Spotify/Streaming	Opus 128–192 kbit/s	Effizient, niedrige Latenz
iTunes/Apple Music	AAC 256 kbit/s	Apple-Standard, gute Qualität
Podcast	MP3 64–96 kbit/s (Mono)	Sprache braucht weniger
Musik-Archiv	FLAC 16-bit/44,1 kHz	Verlustfrei, zukunftssicher
Studio-Aufnahme	WAV 24-bit/96 kHz	Maximale Qualität
Hi-Res Musik	FLAC 24-bit/96 kHz	Verlustfrei, hohe Auflösung
Gaming (Voicechat)	Opus 16–32 kbit/s	Niedrige Latenz
Vinyl-Digitalisierung	FLAC 24-bit/96 kHz	Bewahrt analoge Bandbreite

Audio-Container: MP3 vs. MP4 vs. OGG

Container ≠ Codec

Container = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel) Codec = Kompressionsalgorithmus (wie Daten kodiert sind)

Beispiele:

Container	Typische Codecs	Extension	Anwendung
MP3	MP3	.mp3	Musik (historisch)
MP4	AAC, MP3, ALAC	.m4a, .mp4	iTunes, Streaming
OGG	Vorbis, Opus	.ogg, .opus	Open Source, Spiele
FLAC	FLAC	.flac	Lossless Musik
Matroska	Alles	.mka	Flexibel, wenig genutzt

Verwirrendes Beispiel:

.mp4 Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten
Nur Codec-Info gibt Qualität an, nicht Extension!

Metadaten: ID3-Tags, Vorbis Comments

Metadaten = Information über die Datei

Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year

ID3-Tags (MP3):

ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.)
ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics)

Vorbis Comments (FLAC, OGG):

Text-basiert (key=value)
Flexibler als ID3 (keine Feldlängen-Limits)
Beispiel: ARTIST=Suzanne Vega, ALBUM=Solitude Standing

Cover Art:

ID3v2: APIC-Frame (Attached Picture)
Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert)

Tools: ffmpeg -i file.mp3 (zeigt Metadaten), id3v2, metaflac

Streaming-Formate: Adaptive Bitrate

Problem: Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G)

Lösung: Adaptive Bitrate Streaming (ABS)

Prinzip:

Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s)
Client misst Bandbreite
Client wählt passende Bitrate
Wechsel on-the-fly (bei Bandbreiten-Änderung)

Protokolle:

HLS (HTTP Live Streaming, Apple): .m3u8 Playlist
DASH (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest

Spotify:

Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s)
Offline: Höchste Bitrate wird gespeichert

Audio-Archivierung: Best Practices

Ziel: Langfristige Erhaltung (>50 Jahre)

Format:

FLAC (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz)
Alternativ: WAV (aber größer, keine Metadaten)

Speichermedium:

Lokal: HDD (extern, offline) + SSD (aktiv)
Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt)
Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit)

3-2-1-Regel:

3 Kopien (Original + 2 Backups)
2 verschiedene Medien (z.B. HDD + Cloud)
1 offsite (extern, Feuer/Diebstahl-schutz)

Migration:

Alle 5–10 Jahre: Kopiere auf neue Medien (HDDs degradieren)
Prüfe Checksums (MD5, SHA-256) → Datenintegrität

VII. Kritische Perspektive

Standards & Macht

Der Patentkrieg: Fraunhofer Lizenzgebühren

MP3-Patente (1987–2017):

Fraunhofer IIS + Thomson hielten Patente
Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song
Einnahmen: >$1 Milliarde (geschätzt)

Konsequenz:

Open-Source-Software (Linux, VLC) musste zahlen oder umgehen
→ Vorbis/Opus als patent-freie Alternative

2017: Patente ausgelaufen

Alle MP3-Patente weltweit abgelaufen
MP3 jetzt komplett frei nutzbar
Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA)

Kritik: Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?)

Warum Open-Source Ogg Vorbis nutzte

Problem: MP3-Patente

Lösung: Xiph.Org Foundation entwickelt Ogg Vorbis (2000)

Patent-frei (nach bestem Wissen)
Open Source (BSD-lizenziert)
Bessere Qualität als MP3 (bei gleicher Bitrate)

Adoption:

Wikipedia (Vorbis für Audio)
Spotify (Vorbis für Streaming)
Gaming (Unreal Engine, Unity unterstützen Vorbis)
Mozilla/Firefox (frühe Unterstützung)

Warum nicht dominanter?

MP3-Player-Hardware schon weit verbreitet (2000)
Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen)
Network-Effekt: "Alle nutzen MP3"

Opus (2012): Nachfolger, noch besser, IETF-Standard, patent-frei

H.264 vs. AV1: Kampf um Video-Standards

H.264 (2003):

MPEG LA Patent Pool (~1.000 Patente)
Lizenzgebühren: Komplex (Encoder/Decoder/Distribution)
Dominiert (YouTube, Blu-ray, Streaming bis ~2020)

H.265/HEVC (2013):

2× effizienter als H.264
Problem: 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media)
Lizenzgebühren unklar, hoch
→ Adoption langsam

AV1 (2018):

Alliance for Open Media (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple)
Patent-frei (Mitglieder gewähren royalty-free Lizenzen)
~30% effizienter als H.265
Adoption wächst: YouTube (2021), Netflix (2021), Meta, TikTok

Bedeutung: Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation

Napster: Kulturelle Revolution durch MP3

Napster (1999–2001):

P2P File-Sharing (Shawn Fanning, 19 Jahre alt)
80 Millionen Nutzer (Peak, 2001)
Teilen von MP3s → Urheberrechtsverletzung (massiv)

Warum möglich?

MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten)
P2P: Dezentral (kein zentraler Server mit Musik)

Musikindustrie-Reaktion:

Klagen (Metallica, Dr. Dre, RIAA)
2001: Napster geschlossen (Gerichtsbeschluss)

Langfristige Auswirkung:

Zeigte: Menschen wollen digitale Musik, on-demand
→ iTunes Store (2003), Spotify (2008)
Geschäftsmodell shift: Verkauf → Streaming

Zitat (Steve Jobs, 2003):

"Napster showed us what people wanted. We just had to make it legal."

VIII. Abschluss

Zusammenfassung: Die Kernkonzepte

Drei Ebenen des Signals:

Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret)

Digitalisierung:

Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen
Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max

Kompression:

Lossless (Redundanz) vs. Lossy (Psychoakustik)
MP3: Psychoakustisches Modell → 10:1 Kompression

Formate:

Lossy: MP3, AAC, Opus (Streaming)
Lossless: FLAC, ALAC (Archiv)

Kritische Perspektive:

Patente beeinflussen Standards (MP3, H.264)
Open Standards (AV1, Opus) demokratisieren Zugang

Fragen & Diskussion

Offene Fragen?

Diskussionsthemen:

Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung?
Streaming vs. Ownership: Was verlieren wir kulturell?
AI-generierte Musik: Brauchen wir noch menschliche Künstler?

Kontakt: [Ihre Kontaktinformationen]

Selbstlernen: Audio-Spektrogramm, HEX-Files

Aufgabe 1: Audio-Spektrogramm analysieren

Tool: Audacity (kostenlos)
Laden Sie eine MP3 (128 kbit/s) und FLAC
Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum)
Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?)

Aufgabe 2: HEX-File untersuchen

Tool: hexdump -C file.mp3 | head (Linux/Mac) oder HxD (Windows)
Finden Sie Magic Bytes (FF FB oder FF F3)
Identifizieren Sie ID3-Tag (49 44 33 = "ID3")

Aufgabe 3: Encodierung vergleichen

Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s)
Blind-Test: Können Sie Unterschied hören?
Tool: ffmpeg -i input.wav -b:a 128k output.mp3

Lizenz & Attribution

Verwendete Quellen:

Shannon, C. E. (1948). "A Mathematical Theory of Communication"
Pohlmann, K. C. (2010). Principles of Digital Audio
Sterne, J. (2012). MP3: The Meaning of a Format

Abbildungen:

Signal-Transformation: Eigene Darstellung
Weitere Grafiken: Attributiert in jeweiligen Slides

Danksagung: Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation)

Bis zum nächsten Termin!

Termin 2: Bild- & Videoformate

JPEG, PNG, WebP
H.264, H.265, AV1
Streaming-Technologien

Vorbereitung: Lesen Sie: Watkinson, J. (2004). The MPEG Handbook (Kapitel 1–3)

84 KiB Raw Blame History Unescape Escape

Dateiformate, Schnittstellen, Speichermedien & Distributionswege

Teil 1: Einführung

Grundlagen, Text & Audio

I. Einführung: Warum diese Vorlesung?

Verortung im Modul

Das menschliche Bedürfnis zu speichern

Der Paradigmenwechsel: Analog → Digital

II. Von der Welt zu den Bits

Die drei Ebenen des Signals

Die drei Ebenen des Signals

1. Physisches Signal: Die Realität

2. Analoges Signal: Kontinuierliche Repräsentation

3. Digitales Signal: Diskrete Repräsentation

Die drei Ebenen im Vergleich

Visualisierung: Von Physisch zu Digital

Warum ist diese Unterscheidung wichtig?

Praktische Konsequenzen

III. Das Problem der Knappheit

Warum Kompression notwendig ist

Ein konkretes Beispiel: 1 Minute Musik

Konkrete Beispiele: Audio, Video, Bilder

Skalierung: Von einem Song zu 10.000 Songs

Historischer Kontext: Speicherkapazität 1990–2025

Der digitale Wendepunkt: Zettabyte-Ära

Zwei Philosophien der Kompression

Lossless (Verlustfrei)

Lossy (Verlustbehaftet)

Wann welche Strategie?

IV. Fundamentale Konzepte

Bits, Bytes & Kodierung

Das Bit: 0 oder 1

Das Byte: 8 Bits = 256 Zustände

Anwendung: RGB-Farben

Zeichenkodierung: ASCII – Der erste Standard

Das Problem: Sprachen außerhalb des Englischen

Unicode: Ein Standard für alle Schriften

UTF-8, UTF-16, UTF-32: Encoding-Varianten

Praxis: Bytes zählen, Dateigrößen verstehen

Hexadezimal: Die Sprache der Datei-Analyse

Magic Numbers: Dateitypen erkennen

Praxis: "What the HEX-Code"

Dateneinheiten: KB, MB, GB, TB, PB, ZB

Binär vs. Dezimal: Der Marketing-Trick

Datenwachstum der Menschheit

Der digitale Wendepunkt: 181 Zettabyte (2025)

V. Audio

Von Analog zu Digital

Schall als physisches Phänomen

Analoge Audiowiedergabe: Schallplatte, Magnetband

Vor- und Nachteile analoger Medien

Der Übergang: Warum Digital?

Digitalisierung: Sampling (zeitlich)

Digitalisierung: Quantisierung (Amplitude)

Berechnung: Sample Rate × Bit Depth × Kanäle

Das Speicherproblem der Digitalisierung

V-b. MP3-Revolution

Psychoakustik als Lösung

Psychoakustik: Der MP3-Trick

Maskierungseffekte: Laute Töne übertönen leise

Frequenzbereiche: Was Menschen nicht hören

Wahrnehmung ≠ Realität

Die Geburt der MP3

Suzanne Vega: "Tom's Diner" – Die Referenz

Wie funktioniert MP3? (Vereinfacht)

Bitrate: Der Qualitäts-Knopf

Variable Bitrate (VBR) vs. Constant (CBR)

VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs

Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus

Lossless-Codecs: FLAC, ALAC, APE, WAV

Vergleichstabelle: Kompressionsrate, Qualität, Anwendung

Wann welches Format?

Audio-Container: MP3 vs. MP4 vs. OGG

Metadaten: ID3-Tags, Vorbis Comments

Streaming-Formate: Adaptive Bitrate

Audio-Archivierung: Best Practices

VII. Kritische Perspektive

Standards & Macht

Der Patentkrieg: Fraunhofer Lizenzgebühren

Warum Open-Source Ogg Vorbis nutzte

84 KiB

Raw Blame History