Files
uni/courses/223015b/slides/01-grundlagen.md

2221 lines
84 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
marp: true
theme: gaia
paginate: true
backgroundColor: #fff
header: "Dateiformate, Schnittstellen, Speichermedien & Distributionswege (223015b)"
footer: "Michael Czechowski HdM Stuttgart"
title: Dateiformate, Schnittstellen, Speichermedien & Distributionswege
---
<style>
:root {
--color-foreground: #1a1a2e;
--color-highlight: #1e5f8a;
--color-dimmed: #4a4a6a;
}
section.invert {
--color-foreground: #fff;
}
section {
font-size: 1.7rem;
}
h1 {
color: #1e5f8a;
}
section.invert h1 {
color: #fff;
}
h2 {
color: #1f2937;
}
pre {
background: #0f0f23;
color: #5fb3e4;
border-radius: 8px;
border-left: 3px solid #1e5f8a;
}
pre code {
background: transparent;
color: inherit;
}
code {
background: #1a1a2e;
color: #5fb3e4;
padding: 0.15em 0.4em;
border-radius: 4px;
}
a {
color: var(--color-highlight);
}
section.klausur {
background: repeating-linear-gradient(
135deg,
#e3f2fd,
#e3f2fd 40px,
#fff 40px,
#fff 80px
) !important;
}
@media print {
section.klausur {
background: #e3f2fd !important;
}
}
section.aufgabe {
background: #e3f2fd !important;
}
section.aufgabe footer {
display: none;
}
</style>
<!-- _class: invert -->
<!-- _header: '' -->
<!-- _backgroundColor: #000 -->
![bg cover opacity:0.2](./assets/radek-grzybowski-eBRTYyjwpRY-unsplash.jpg)
# Dateiformate, Schnittstellen, Speichermedien & Distributionswege
**223015b** · Modul "Technik 1" · 1. Semester
Digital- und Medienwirtschaft
Hochschule der Medien Stuttgart
[https://librete.ch/hdm/223015b/](https://librete.ch/hdm/223015b/)
<!--
## Kontext
Dies ist die erste von drei Blocksitzungen, die sich mit den technischen Grundlagen digitaler Medien beschäftigen. Im Gesamtmodul "Technik 1" lernen Studierende über Computer, IT-Systeme und Netzwerke unsere Veranstaltung konzentriert sich spezifisch auf **Daten**: Wie werden sie repräsentiert, gespeichert, komprimiert und übertragen?
## Kernaussagen
1. Diese Vorlesung fokussiert sich auf die **Speicher-Perspektive** der Von-Neumann-Architektur.
2. Wir behandeln drei grundlegende Themenblöcke: Dateiformate (Repräsentation), Speichermedien (Hardware) und Schnittstellen (Übertragung).
3. Der rote Faden: Das menschliche Bedürfnis zu speichern trifft auf die physikalische Realität begrenzter Ressourcen.
## Erklärung
Die Vorlesung ist in drei Termine gegliedert:
- **Termin 1** (heute): Grundlagen der Datendarstellung, Textkodierung und Audio-Kompression
- **Termin 2**: Bild- und Videoformate
- **Termin 3**: Speichermedien, Dateisysteme und Schnittstellen
Der didaktische Ansatz: Wir beginnen mit fundamentalen Konzepten (Was ist ein digitales Signal?) und arbeiten uns zu praktischen Anwendungen vor (Warum sieht mein Instagram-Foto so verpixelt aus?). Theoretisches Verständnis ermöglicht informierte Entscheidungen in der Medienproduktion.
## Vertiefung
Die Studierenden im Studiengang Digital- und Medienwirtschaft werden später keine Codecs programmieren, aber sie werden entscheiden müssen: Welches Format für welchen Anwendungsfall? Wie organisiere ich Archivierung? Welche Qualitätsstufe für welches Budget? Diese Entscheidungen erfordern konzeptionelles Verständnis der zugrundeliegenden Technologien.
Das Modul ist bewusst **nicht programming-focused**. Es gibt Hands-on-Elemente am Ende jeder Session, aber der Schwerpunkt liegt auf Konzeptvermittlung. Die Zielgruppe sind zukünftige Medienproduzent:innen, Projektmanager:innen und Entscheidungsträger:innen nicht primär Entwickler:innen.
## Literatur
Pohlmann, K. C. (2010). *Principles of Digital Audio* (6th ed.). McGraw-Hill.
Sayood, K. (2017). *Introduction to Data Compression* (5th ed.). Morgan Kaufmann.
-->
---
![bg fit](./assets/qrcode-1.svg)
<!--
## Kontext
QR-Code zur Kurswebsite, wo alle Materialien, Folien und weiterführende Ressourcen verfügbar sind.
## Kernaussagen
1. Alle Kursmaterialien sind unter einer offenen Lizenz verfügbar.
2. Die Website enthält Links zu vertiefenden Ressourcen, Tools und Selbstlern-Übungen.
3. Studierende können die Materialien jederzeit nachlesen und für eigene Projekte nutzen.
## Erklärung
Die Kurswebsite (librete.ch/hdm/223015b/) dient als zentraler Hub für alle Ressourcen. Dort finden sich:
- PDF-Versionen der Folien
- Speaker Notes in ausformulierter Form
- Verweise auf Open-Source-Tools (Audacity, FFmpeg, MediaInfo)
- Weiterführende Literatur und Paper
- Selbstlern-Aufgaben mit Lösungshinweisen
Die Materialien stehen unter Creative Commons Lizenz (BY-SA 4.0), d.h. Studierende dürfen sie frei verwenden, remixen und weitergeben auch für kommerzielle Zwecke, solange Attribution gegeben wird.
## Vertiefung
Open Educational Resources (OER) sind ein wichtiges Prinzip in der digitalen Bildung. Gerade bei technischen Themen, die sich schnell weiterentwickeln, ist es sinnvoll, Materialien kontinuierlich zu aktualisieren und der Community zur Verfügung zu stellen. Studierende profitieren davon, dass sie nicht nur konsumieren, sondern auch beitragen können (z.B. durch Fehlerberichte, Ergänzungen).
Die Wahl von librete.ch als Domain reflektiert die Philosophie: "librete" (Esperanto für "frei") + ".ch" (Schweiz als neutraler Ort für Wissensaustausch).
-->
---
<!-- _class: lead -->
# Teil 1: Einführung
## Grundlagen, Text & Audio
<!--
## Kontext
Der erste Teil der Vorlesung legt die konzeptionellen Grundlagen. Wir klären fundamentale Fragen: Was bedeutet "digital"? Wie werden physische Phänomene in Daten verwandelt? Warum ist Kompression notwendig?
## Kernaussagen
1. Teil 1 deckt die fundamentalen Konzepte ab, die für alle weiteren Termine gelten.
2. Wir fokussieren auf Text und Audio als Einstieg, weil sie konzeptionell einfacher sind als Bild/Video.
3. Das Verständnis von Sampling, Quantisierung und Kompression hier ist essentiell für Termin 2 (Bild/Video).
## Erklärung
Die Strukturierung "Text → Audio → Bild → Video" folgt einer Logik steigender Komplexität:
- **Text**: Diskret von Natur aus (endliches Alphabet), einfachste Kodierung
- **Audio**: Kontinuierlich → diskret (1-dimensional: nur Zeit)
- **Bild**: Kontinuierlich → diskret (2-dimensional: Raum)
- **Video**: Kontinuierlich → diskret (3-dimensional: Raum + Zeit)
Didaktisch sinnvoll: Konzepte einmal verstehen (bei Audio), dann Transfer auf komplexere Domäne (Video).
## Überleitung
Bevor wir in technische Details gehen: Warum gibt es diese Vorlesung überhaupt? Was ist das fundamentale Problem, das wir lösen müssen?
-->
---
<!-- _class: lead -->
# I. Einführung: Warum diese Vorlesung?
<!--
## Kontext
Studierende müssen verstehen, wo diese Vorlesung im Gesamtkontext des Moduls und ihres Studiums steht. Die Motivation muss klar sein: Warum investieren wir Zeit in diese Themen?
## Kernaussagen
1. Diese Vorlesung behandelt einen spezifischen Aspekt von IT-Systemen: **Daten und ihre Speicherung**.
2. Das fundamentale Problem: Menschen produzieren exponentiell wachsende Datenmengen, aber Speicher ist begrenzt und kostet Geld.
3. Kompression ist keine optionale Optimierung, sondern **ökonomische und physikalische Notwendigkeit**.
## Erklärung
Die drei Termine bauen aufeinander auf:
1. **Wie werden Daten repräsentiert?** (Kodierung, Digitalisierung)
2. **Wie werden Daten komprimiert?** (Verlustfrei und verlustbehaftet)
3. **Wo werden Daten gespeichert und wie übertragen?** (Hardware, Schnittstellen)
Diese Fragen sind relevant für jede Medienproduktion: Eine Fotografin muss entscheiden, ob sie RAW oder JPEG speichert. Ein Videoproduzent muss wissen, welcher Codec für welche Plattform optimal ist. Ein Projektmanager muss Speicherkosten kalkulieren.
## Vertiefung
Die Vorlesung könnte auch "Angewandte Informationstheorie für Medienschaffende" heißen. Wir behandeln Konzepte aus Claude Shannons Informationstheorie (1948), aber immer mit Blick auf praktische Anwendung. Die theoretischen Grundlagen (Entropie, Kodierung, Kanalkapazität) werden nur so weit eingeführt, wie sie für Verständnis nötig sind keine mathematischen Beweise, aber konzeptionelle Klarheit.
-->
---
# Verortung im Modul
**Modul "Technik 1":**
- Computer & IT-Systeme
- Netzwerke & Protokolle
- **→ Unsere Vorlesung: Daten auf dem Computer**
**Unser Fokus:**
- Von-Neumann-Architektur: **Speicher** (Memory)
- Wie werden Daten repräsentiert?
- Wie werden Daten gespeichert?
- Wie werden Daten übertragen?
<!--
## Kontext
Die Von-Neumann-Architektur ist das grundlegende Modell moderner Computer: CPU, Speicher, Ein-/Ausgabe. Andere Teile des Moduls behandeln CPU (Prozessoren, Befehlssätze) und I/O (Netzwerke). Wir konzentrieren uns auf **Speicher**.
## Kernaussagen
1. Die Von-Neumann-Architektur teilt Computer in funktionale Einheiten: CPU, Memory, I/O.
2. Unsere Vorlesung fokussiert auf **Memory** aber nicht die Hardware (RAM-Chips), sondern die **Daten**, die dort gespeichert werden.
3. "Daten" bedeutet: Wie codiere ich Information so, dass sie speicherbar und übertragbar wird?
## Erklärung
Die Von-Neumann-Architektur (1945) definiert, dass Programme und Daten im gleichen Speicher liegen im Gegensatz zu früheren "Fixed-Program"-Computern, die fest verdrahtet waren. Diese Architektur ermöglichte universal programmable computers.
Unsere Perspektive:
- **Nicht**: Wie funktioniert RAM? (Das ist Hardware-Vorlesung)
- **Sondern**: Was speichere ich dort? In welchem Format? Wie effizient?
Konkret: Eine MP3-Datei ist eine spezifische **Repräsentation** von Audio-Information. Die Datei liegt im Speicher als Bytefolge. Um sie zu verstehen, muss man wissen:
1. Wie wurde das analoge Signal digitalisiert? (Sampling, Quantisierung)
2. Wie wurde es komprimiert? (Psychoakustik, Huffman-Coding)
3. Wie ist es in Bytes codiert? (MP3-Container-Format)
## Vertiefung
Die Von-Neumann-Architektur hat eine inhärente Limitation: den **Von-Neumann-Bottleneck**. CPU und Memory kommunizieren über einen Bus mit begrenzter Bandbreite. Moderne Systeme nutzen Caches (L1, L2, L3) als Puffer. Für uns relevant: Datengröße beeinflusst Performance. Eine unkomprimierte 4K-Video-Datei (45 GB/min) würde den Bus lahmlegen Kompression ist also nicht nur für Speicherplatz, sondern auch für **Verarbeitungsgeschwindigkeit** essentiell.
Alternative Architekturen (Harvard-Architektur: getrennte Speicher für Daten und Programme; moderne GPUs mit massiv-parallelem Speicherzugriff) ändern nichts an der Grundfrage: Wie repräsentiere ich Information effizient?
## Literatur
Von Neumann, J. (1945). "First Draft of a Report on the EDVAC." Moore School of Electrical Engineering, University of Pennsylvania.
-->
---
# Das menschliche Bedürfnis zu speichern
**Geschichte der Informationsspeicherung:**
- **40.000 v. Chr.**: Höhlenmalereien (Lascaux, Altamira)
- **3.200 v. Chr.**: Keilschrift auf Tontafeln (Mesopotamien)
- **1450**: Gutenberg-Druckpresse (Buchdruck revolutioniert)
- **1877**: Edison-Phonograph (erstmals Audio gespeichert)
- **1950er**: Magnetbänder, Lochkarten
- **1980er**: Festplatten, CDs
- **2000er**: Flash-Speicher, Cloud
→ Das Bedürfnis ist **anthropologisch konstant**
→ Die Technologie entwickelt sich **exponentiell**
<!--
## Kontext
Menschen haben schon immer Information gespeichert für Kommunikation über Raum und Zeit. Die Erfindung der Schrift vor ~5000 Jahren war ein fundamentaler Zivilisationssprung. Die Digitalisierung ist der neueste, aber nicht der letzte Schritt in dieser Evolution.
## Kernaussagen
1. Informationsspeicherung ist ein **anthropologisches Grundbedürfnis** neben Nahrung, Unterkunft, Kommunikation.
2. Jede Technologie hat spezifische **Trade-offs**: Haltbarkeit, Kapazität, Zugriffsgeschwindigkeit, Kosten.
3. Der Übergang von analog zu digital ist ein **Paradigmenwechsel**, kein gradueller Fortschritt.
## Erklärung
Warum speichern Menschen Information?
- **Gedächtnis erweitern**: Externe Speicher kompensieren begrenzte kognitive Kapazität.
- **Wissen weitergeben**: Über Generationen, über geografische Distanzen.
- **Verträge/Gesetze**: Gesellschaftliche Koordination erfordert fixierte Regeln.
- **Kunst/Kultur**: Ästhetische Erfahrungen konservieren.
Die Technologie-Evolution zeigt ein Muster:
1. **Kapazität steigt**: Von einem Buch (1 MB Text) zu einer Festplatte (20 TB = 20 Millionen Bücher)
2. **Kosten sinken**: 1980 kostete 1 GB Speicher ~$200.000, heute ~$0.02
3. **Zugriffsgeschwindigkeit steigt**: Von sequentiellem Zugriff (Tonband: spule vor) zu Random Access (SSD: sofort)
4. **Haltbarkeit**: Hier kein klarer Trend Tontafeln überleben Jahrtausende, Festplatten sterben nach ~5 Jahren
## Vertiefung
**Höhlenmalerei**: Die ältesten bekannten Informationsspeicher. Warum malten Menschen Tiere an Höhlenwände? Theorien: Rituale, Lehrmaterial (Jagdtechniken), Kunstausdruck. Wichtig: **Nicht-flüchtiger** Speicher die Information überdauert den Schöpfer.
**Keilschrift**: Erste bekannte Schrift (Sumerer, ~3200 v. Chr.). Zunächst für Buchhaltung (Lagerverwaltung), später Literatur (Gilgamesch-Epos, ~2100 v. Chr.). Medium: Tontafeln extrem haltbar (viele Tausende überleben bis heute), aber sperrig, schwer zu transportieren.
**Gutenberg**: Der Buchdruck (1450) demokratisierte Wissen. Vor Gutenberg: Ein Buch kopieren dauerte Monate, kostete ein Vermögen. Nach Gutenberg: Massenprodution, Wissensexplosion (Renaissance, Reformation, Wissenschaftliche Revolution).
**Edison-Phonograph** (1877): Erstmals konnte **Audio** gespeichert werden vorher war Musik nur live erlebbar. Wachszylinder ritzten Schallwellen ein (analog). Revolutionär: Musik wurde zur **Ware**.
**Digitale Ära** (ab 1950er): Von Lochkarten (1 Bit = ein Loch) zu Festplatten (magnetische Domänen) zu Flash (Elektronen in Floating Gates). Die Gemeinsamkeit: **Diskrete Zustände** (0 oder 1), nicht kontinuierliche Signale.
## Überleitung
Die Geschichte zeigt: Jede neue Technologie löste ein Problem der vorherigen aber schuf neue. Festplatten sind haltbarer als Kassetten, aber auch sie versagen. Die digitale Revolution verspricht **perfekte Kopien**, aber wie wir sehen werden, ist "digital" keine Magie nur eine andere Art von Trade-offs.
## Literatur
Gleick, J. (2011). *The Information: A History, A Theory, A Flood*. Pantheon.
McLuhan, M. (1964). *Understanding Media: The Extensions of Man*. McGraw-Hill.
-->
---
# Der Paradigmenwechsel: Analog → Digital
**Analog (vor ~1980):**
- Information als **kontinuierliche physikalische Größe**
- Beispiel: Schallplatte (Rille formt Schallwelle nach)
- Problem: **Degradation** bei jedem Kopiervorgang
**Digital (ab ~1980):**
- Information als **diskrete Zahlenfolge** (0 und 1)
- Beispiel: CD (Pits & Lands = Bits)
- Vorteil: **Perfekte Kopien** möglich
→ Nicht besser oder schlechter, sondern **fundamental anders**
<!--
## Kontext
Der Übergang von analog zu digital war kein gradueller Fortschritt (wie von Pferd zu Auto), sondern ein **kategorialer Sprung** (wie von Materie zu Energie in der Physik). Es änderte sich die **Natur der Repräsentation**.
## Kernaussagen
1. Analog: Information ist **isomorph** zur Realität (die Rille sieht aus wie die Welle).
2. Digital: Information ist **symbolisch** (Bits repräsentieren, ähneln aber nicht).
3. Der Vorteil von Digital: **Fehlerkorrektur** und **verlustfreies Kopieren**.
4. Der Nachteil von Digital: **Sampling-Verlust** und **Quantisierungsrauschen**.
## Erklärung
**Analog**: Die physikalische Eigenschaft des Speichermediums **korrespondiert** direkt zur gespeicherten Information.
- Schallplatte: Tiefe der Rille ~ Amplitude der Schallwelle
- Thermometer: Höhe der Quecksilbersäule ~ Temperatur
- Fotografie (Film): Dichte der Silberkristalle ~ Lichtintensität
Analogie = Ähnlichkeit. Das Medium bildet die Realität **kontinuierlich** ab.
**Digital**: Die Information wird in **diskrete Symbole** codiert (typischerweise Binärzahlen). Es gibt keine direkte physikalische Ähnlichkeit mehr.
- CD: Ein "Pit" (Vertiefung) ist nicht lauter oder leiser es ist einfach eine 1 (oder 0, je nach Konvention)
- Festplatte: Eine magnetische Domäne zeigt nach Norden oder Süden 0 oder 1
Der radikale Unterschied: Bei analog gibt es **unendlich viele Zwischenwerte**. Bei digital gibt es nur **endlich viele diskrete Zustände**.
## Vertiefung
**Warum siegte Digital?**
1. **Shannon's Theorem** (1948): In einem digitalen System kann man Fehler mit beliebiger Genauigkeit korrigieren bei analog nicht. Wenn eine Schallplatte zerkratzt ist, ist die Information verloren. Wenn eine CD zerkratzt ist, können Error-Correction-Codes (Reed-Solomon) die Bits rekonstruieren.
2. **Generationsverlust**: Kopiere eine Kassette → schlechter. Kopiere die Kopie → noch schlechter. Bei digital: Kopiere eine Datei → identisch. Kopiere die Kopie → identisch. Unendlich oft, ohne Qualitätsverlust (solange keine Bitfehler auftreten).
3. **Rechenbarkeit**: Zahlen kann man addieren, filtern, transformieren. Analoge Signale sind schwerer zu manipulieren (analoge Equalizer erfordern physikalische Schaltungen). Digitale Filter sind Software → flexibel, präzise, wiederholbar.
**Was verliert Digital?**
1. **Kontinuität**: Zwischen Sample 1 und Sample 2 existiert nichts. Was passiert dort, ist verloren (außer man kann es rekonstruieren via Nyquist).
2. **Unendliche Präzision**: Analog könnte theoretisch unendlich präzise sein (in der Praxis limitiert durch Rauschen). Digital ist immer auf **endliche Genauigkeit** beschränkt (z.B. 16-bit = 65.536 Stufen).
3. **Natürlichkeit?**: Manche Audiophile behaupten, Vinyl klinge "wärmer". Wissenschaftlich fragwürdig (meist sind es harmonische Verzerrungen, die als angenehm empfunden werden), aber subjektive Wahrnehmung ist real.
## Überleitung
Dieser Paradigmenwechsel ist der Kern unserer Vorlesung. Um zu verstehen, wie MP3, JPEG, H.264 funktionieren, müssen wir zuerst verstehen: **Was bedeutet es überhaupt, dass etwas digital ist?**
## Literatur
Shannon, C. E. (1948). "A Mathematical Theory of Communication." Bell System Technical Journal, 27(3), 379423.
Katz, M. (2010). *Capturing Sound: How Technology Has Changed Music* (Revised ed.). University of California Press.
-->
---
<!-- _class: lead -->
# II. Von der Welt zu den Bits
## Die drei Ebenen des Signals
<!--
## Kontext
Dies ist die konzeptionell wichtigste Sektion der gesamten Vorlesung. Studierende müssen die Unterscheidung zwischen physisch, analog und digital **wirklich verstehen**, sonst bleiben alle folgenden Themen (Sampling, Kompression, Codecs) abstrakt und verwirr end.
## Kernaussagen
1. Es gibt drei fundamentale Ebenen der Signalrepräsentation: physisch, analog, digital.
2. Jeder Übergang von einer Ebene zur nächsten ist ein **Übersetzungsakt** mit spezifischen Konsequenzen.
3. Das Verständnis dieser Ebenen erklärt, warum Digitalisierung notwendig ist und was dabei gewonnen und verloren wird.
## Erklärung
Wir werden nun jede der drei Ebenen detailliert durchgehen:
1. **Physisches Signal**: Die Realität selbst (Schallwellen, Lichtwellen)
2. **Analoges Signal**: Kontinuierliche Repräsentation in einem anderen Medium (Schallplatte, Thermometer)
3. **Digitales Signal**: Diskrete Zahlenrepräsentation (CD, MP3)
Diese Abfolge ist nicht historisch zwingend (moderne Kameras überspringen "analog" komplett), aber konzeptionell hilfreich.
## Didaktischer Hinweis
Erfahrungsgemäß ist dies der Punkt, wo Studierende entweder "Aha!" haben oder verloren gehen. Wichtig: **Konkrete Beispiele** durchgehen, nicht nur abstrakt bleiben. Die Sinuswellen-Visualisierung später wird helfen.
-->
---
# Die drei Ebenen des Signals
**1. Physisches Signal** Die Realität
**2. Analoges Signal** Kontinuierliche Repräsentation
**3. Digitales Signal** Diskrete Repräsentation
→ Jeder Übergang ist ein **Übersetzungsakt** mit **Konsequenzen**
**Zentrale Frage:**
Was gewinnen wir? Was verlieren wir?
<!--
## Kontext
Diese Übersichtsfolie stellt die drei Ebenen vor. Die nächsten Folien gehen ins Detail.
## Kernaussagen
1. Drei Ebenen bilden die konzeptionelle Struktur für alles Folgende.
2. "Übersetzungsakt" bedeutet: Kein Übergang ist verlustfrei oder neutral jeder hat spezifische Trade-offs.
3. Die zentrale Frage (Was gewinnen/verlieren wir?) wird uns durch die gesamte Vorlesung begleiten.
## Erklärung
Die Metapher des "Übersetzungsakts" ist bewusst gewählt: Wie bei der Übersetzung von Deutsch nach Englisch gibt es keine perfekte 1:1-Abbildung. Manche Nuancen gehen verloren, andere werden hinzugefügt. Manche Dinge lassen sich besser ausdrücken, andere schlechter.
Physisch → Analog: Wir verlieren die "Originalität" (es ist nicht mehr die Schallwelle selbst, sondern eine Rille, die sie nachformt). Wir gewinnen Speicherbarkeit.
Analog → Digital: Wir verlieren Kontinuität. Wir gewinnen Robustheit, Kopierbarkeit, Rechenbarkeit.
## Vertiefung
In der Philosophie gibt es eine Debatte über "Repräsentation": Kann eine Repräsentation jemals die Realität vollständig erfassen? (Spoiler: nein.) Platos Höhlengleichnis: Wir sehen nur Schatten der Wirklichkeit. In unserem Kontext: Ein digitales Signal ist ein "Schatten" des physischen Signals aber ein sehr präziser, kontrollierbarer Schatten.
Die Informationstheorie (Shannon) argumentiert: Solange die Repräsentation alle **relevante Information** bewahrt, ist sie äquivalent. "Relevanz" ist kontextabhängig: Für menschliches Hören sind Frequenzen über 20 kHz irrelevant also können wir sie weglassen ohne "Informationsverlust" (im Shannon'schen Sinne).
## Überleitung
Lass uns jede Ebene im Detail anschauen.
-->
---
# 1. Physisches Signal: Die Realität
**Die Welt, wie sie ist**
- Schallwellen in der Luft (Luftdruckschwankungen)
- Lichtwellen (elektromagnetische Strahlung)
- Temperatur, Bewegung, chemische Prozesse
**Eigenschaften:**
- ✓ Kontinuierlich in **Raum und Zeit**
- ✓ Unendlich detailliert (theoretisch)
- ✗ Direkt **nicht speicherbar**
<!--
## Kontext
Physische Signale sind die Wirklichkeit selbst, bevor sie durch Messgeräte oder Sensoren vermittelt werden. Diese Ebene ist abstrakt, weil wir nie direkten Zugang haben sobald wir messen, sind wir bereits auf der analogen oder digitalen Ebene.
## Kernaussagen
1. Physische Signale sind **ontologisch primär** sie existieren unabhängig von Beobachtung.
2. Sie sind kontinuierlich: Zwischen zwei beliebigen Zeitpunkten gibt es unendlich viele Zwischenzustände.
3. Sie sind **nicht direkt speicherbar** dazu brauchen wir ein Medium, das sie repräsentiert.
## Erklärung
**Schallwellen**: Wenn ich spreche, versetzt mein Kehlkopf Luftmoleküle in Schwingung. Diese Schwingungen breiten sich als longitudinale Wellen aus (~340 m/s bei 20°C). Die Luftdruckschwankungen sind kontinuierlich: Die Funktion p(t) (Druck über Zeit) ist stetig differenzierbar.
**Lichtwellen**: Elektromagnetische Strahlung mit Wellenlängen von ~380 nm (violett) bis 750 nm (rot) ist sichtbar für Menschen. Die Welle ist eine Oszillation des elektrischen und magnetischen Feldes physikalisch real, mathematisch beschreibbar als E(x,t) = E₀ sin(kx - ωt).
**Temperatur**: Mittlere kinetische Energie der Moleküle. Kontinuierlich veränderlich, kontinuierlich messbar (in der Praxis limitiert durch Thermometerpräzision, aber konzeptionell kontinuierlich).
Die fundamentale Herausforderung: **Speichern** bedeutet, ein Muster in einem dauerhaften Medium zu fixieren. Luftmoleküle kann ich nicht einfrieren und ins Regal stellen. Ich brauche eine **Repräsentation**.
## Vertiefung
**Philosophische Dimension**: Ist die Realität kontinuierlich? Die klassische Physik (Newton, Maxwell) sagt ja. Die Quantenmechanik (Planck, Heisenberg) sagt: Auf sehr kleinen Skalen (Planck-Länge: 10⁻³⁵ m, Planck-Zeit: 10⁻⁴³ s) könnte Raum-Zeit diskret werden. Für unsere Zwecke (Audiofrequenzen bis 20 kHz, Videobilder mit Millisekunden-Auflösung) ist die Welt effektiv kontinuierlich.
**Technische Anmerkung**: Sobald ein Mikrofon ins Spiel kommt, sind wir bereits **nicht mehr** auf der physischen Ebene. Ein Mikrofon (z.B. dynamisches Mikrofon) wandelt Luftdruck in elektrische Spannung das ist der Übergang zu analog. Manche moderne Mikrofone haben integrierte A/D-Wandler und liefern direkt digitale Signale (USB-Mikrofone) dann überspringen wir analog komplett.
**Warum ist das wichtig?**: Weil es klar macht, dass **jede Messung bereits Interpretation ist**. Es gibt keine "rohen Daten" Daten sind immer schon durch einen Sensor/Messapparat vermittelt. (Donna Haraway: "Situated Knowledges")
## Beispiel
Ein Baum fällt im Wald. Niemand ist da. Gibt es ein Geräusch?
- **Physikalisch**: Ja, es gibt Luftdruckschwankungen (Schallwellen).
- **Wahrnehmung**: Nein, "Geräusch" erfordert einen Beobachter.
- **Speicherung**: Nein, ohne Mikrofon wird nichts aufgezeichnet.
→ Physische Signale existieren unabhängig von uns, aber **Information** entsteht erst durch Messung/Kodierung.
## Überleitung
Um ein physisches Signal zu speichern, müssen wir den ersten Übersetzungsschritt machen: in ein **analoges Signal**.
## Literatur
Feynman, R. P. (1963). *The Feynman Lectures on Physics*, Vol. 1. Addison-Wesley. (Kapitel über Wellen)
Haraway, D. (1988). "Situated Knowledges: The Science Question in Feminism and the Privilege of Partial Perspective." *Feminist Studies*, 14(3), 575-599.
-->
---
# 2. Analoges Signal: Kontinuierliche Repräsentation
**Physische Realität → Kontinuierliche Abbildung**
**Beispiele:**
- **Schallplatte**: Rille formt Schwingungen nach (räumliche Analogie)
- **Magnetband**: Magnetisierung entspricht Schallstärke
- **Thermometer**: Quecksilbersäule entspricht Temperatur
- **Mikrofon**: Luftdruck → elektrische Spannung
**Eigenschaften:**
-**Analogie** zur Realität (daher "analog")
- ✓ Immer noch **kontinuierlich**, aber in anderem Medium
-**Verlustbehaftet** (Rauschen, Verzerrung, Abnutzung)
<!--
## Kontext
Analoge Signale sind der erste Vermittlungsschritt zwischen Realität und Speicherung. Sie bewahren die Kontinuität des physischen Signals, aber übersetzen es in ein anderes Medium.
## Kernaussagen
1. "Analog" bedeutet **Analogie**: Das Signal im Medium formt das physische Signal nach.
2. Analoge Signale sind **immer noch kontinuierlich** unendlich viele Zwischenwerte (theoretisch).
3. Jede analoge Repräsentation fügt **Rauschen und Verzerrung** hinzu perfekte Kopien sind unmöglich.
## Erklärung
**Schallplatte (Phonograph, 1877)**: Die Nadel ritzt eine Rille in Wachs/Vinyl. Die **Tiefe und Form** der Rille entspricht der Amplitude und Frequenz der Schallwelle. Beim Abspielen folgt die Nadel der Rille und wird in Schwingung versetzt → Lautsprecher.
- Vorteile: Einfach, funktioniert rein mechanisch, klingt "warm" (harmonische Verzerrungen)
- Nachteile: Rille nutzt sich ab (Generationsverlust), Staub/Kratzer addieren Rauschen, sperrig
**Magnetband (1930er)**: Eisenoxidpartikel auf Plastikband werden magnetisiert. Die **Stärke und Richtung** der Magnetisierung entspricht dem Audiosignal.
- Vorteile: Kompakter als Vinyl, überspielbar (re-recordable)
- Nachteile: Bandrauschen (thermisches Rauschen der Partikel), Abnutzung, Print-Through (benachbarte Lagen beeinflussen sich)
**Thermometer**: Die Ausdehnung der Quecksilbersäule ist proportional zur Temperatur. Kontinuierliche Analogie: Je wärmer, desto höher.
**Mikrofon (dynamisch)**: Eine Membran wird durch Schallwellen bewegt. Die Bewegung induziert elektrische Spannung in einer Spule (elektromagnetische Induktion). Die **Spannung** ist analog zur **Luftdruckänderung**.
## Vertiefung
**Warum "kontinuierlich"?** Theoretisch gibt es unendlich viele Magnetisierungsstufen auf dem Band. Praktisch ist es limitiert durch:
- **Korngröße** der Eisenoxidpartikel (diskrete Partikel → effektive Quantisierung)
- **Thermisches Rauschen** (Brown'sche Bewegung der Atome → stochastisches Signal überlagert)
- **Bandbreite** des Aufnahme/Wiedergabe-Systems (Elektronik hat Frequenzlimits)
Aber: Konzeptionell sind analoge Systeme **nicht-quantisiert**. Es gibt keine "Stufen" wie bei digital.
**Generationsverlust**: Kopiere Kassette A → B: Rauschen von A wird mit aufgenommen, plus neues Rauschen von B addiert. Kopiere B → C: Noch mehr Rauschen. Nach 10 Generationen: Unhörbar.
**Warum dominierte Analog ein Jahrhundert?** (1877 Phonograph bis ~1982 CD)
- **Technische Einfachheit**: Keine Computer, keine A/D-Wandler nötig
- **Kosten**: Vinyl-Pressen, Kassetten-Duplikation war billig und skalierbar
- **Qualität**: Für damalige Standards völlig ausreichend (die meisten Menschen hatten nie ein "perfektes" Referenzsignal gehört)
## Beispiel
Ein konkretes Szenario: Schallplatte vs. Kassette in den 1970ern
- **Schallplatte**: Bessere Frequenzantwort (bis 20 kHz), niedrigerer Störabstand (65-70 dB), aber Knistern durch Staub
- **Kassette**: Schlechtere Frequenzantwort (bis ~15 kHz), Störabstand ~55 dB (ohne Dolby), aber portabel
Beide analog, beide verlustbehaftet unterschiedliche Trade-offs.
## Überleitung
Analoge Systeme dominierten, bis Computer billig genug wurden, um Echtzeit-A/D-Wandlung zu ermöglichen. Der Übergang zu **digital** war die größte Revolution in der Mediengeschichte.
## Literatur
Morton, D. (2004). *Sound Recording: The Life Story of a Technology*. Johns Hopkins University Press.
Pohlmann, K. C. (2010). *Principles of Digital Audio* (6th ed.). McGraw-Hill. (Kapitel 1: History)
-->
---
# 3. Digitales Signal: Diskrete Repräsentation
**Kontinuierlich → Diskret (Sampling & Quantisierung)**
**Zwei fundamentale Schritte:**
1. **Sampling** (zeitlich): Messe nur zu bestimmten Zeitpunkten
2. **Quantisierung** (Amplitude): Runde auf nächsten erlaubten Wert
**Resultat:** Endliche Menge an Zahlen
**Eigenschaften:**
-**Speicherbar** als Bits
-**Perfekte Kopien** möglich
-**Rechenbar** (Filter, Effekte, Kompression)
-**Informationsverlust** (Approximation der Realität)
<!--
## Kontext
Dies ist der konzeptionell schwierigste Übergang. Wir geben die Kontinuität vollständig auf und arbeiten nur noch mit **diskreten Zahlen**. Dieser Schritt ermöglicht die gesamte digitale Revolution Computer können nur Zahlen verarbeiten.
## Kernaussagen
1. Digitale Signale sind **Zahlenfolgen**, keine kontinuierlichen Funktionen.
2. **Sampling** reduziert die zeitliche Dimension auf diskrete Messpunkte.
3. **Quantisierung** reduziert die Amplituden-Dimension auf erlaubte Werte.
4. Der Gewinn: Robustheit, perfekte Kopien, algorithmische Manipulation.
5. Der Preis: Irreversibler Informationsverlust.
## Erklärung
**Sampling**: Eine kontinuierliche Funktion f(t) wird nur zu diskreten Zeitpunkten t₀, t₁, t₂, ... gemessen.
Beispiel: Eine Sinuswelle bei 440 Hz (Ton A). Kontinuierlich: y(t) = sin(2π × 440 × t). Gesampelt bei 44.100 Hz: Wir nehmen nur 100,227 Samples pro Wellenzyklus (44.100 / 440 ≈ 100,2).
→ Zwischen den Samples existiert **nichts**. Wir ignorieren, was die Funktion dort macht.
**Nyquist-Shannon-Theorem**: Wenn wir mit mindestens **doppelter Frequenz** des höchsten Signals sampeln, können wir das Signal **perfekt rekonstruieren** (theoretisch).
- Menschliches Hören: bis 20 kHz
- CD-Standard: 44,1 kHz (2,2× höher → sicherer Puffer)
**Quantisierung**: Die gemessenen Amplitudenwerte werden auf die nächste erlaubte Zahl gerundet.
Beispiel: 16-bit Audio hat 2¹⁶ = 65.536 mögliche Werte. Ein gemessener Wert von 0.73421 Volt wird auf einen der 65.536 Werte gerundet (z.B. Wert #48.123).
→ Der Rundungsfehler heißt **Quantisierungsrauschen**.
Signal-to-Quantization-Noise Ratio (SQNR): ≈ 6 dB pro Bit
- 16-bit: ~96 dB (für menschliches Hören mehr als ausreichend)
- 24-bit: ~144 dB (für professionelle Aufnahmen, um Bearbeitungs-Headroom zu haben)
## Vertiefung
**Warum ist Digitalisierung irreversibel?**
Sobald ich ein Signal digitalisiere, sind alle Informationen **zwischen den Samples** verloren. Ich kann nicht "zurückrechnen", was dort war ich kann nur **interpolieren** (Annahmen treffen, z.B. durch Sinc-Interpolation).
Analogie: Fotografiere einen Film, nehme nur jeden 100. Frame. Dann versuche, die Zwischenframes zu rekonstruieren. Ich kann raten (Motion Interpolation), aber ich weiß nicht, was **wirklich** passierte.
**Aber: Nyquist sagt, das ist OK!**
Wenn das Signal **bandbegrenzt** ist (d.h. keine Frequenzen über f_max), dann reicht Sampling mit 2×f_max, um es **perfekt** zu rekonstruieren. Das rekonstruierte Signal ist mathematisch identisch zum Original (für Frequenzen ≤ f_max).
Praxis-Problem: Echte Signale sind nie perfekt bandbegrenzt. Daher:
- **Anti-Aliasing-Filter** vor dem A/D-Wandler (entfernt Frequenzen > f_Nyquist)
- **Oversampling** (Sample höher als nötig, z.B. 96 kHz oder 192 kHz)
**Warum perfekte Kopien?**
Ein digitales Signal ist eine Liste von Zahlen: [0.234, 0.456, 0.123, ...]. Kopiere die Liste → identisch. Computer nutzen **Error Correction Codes** (z.B. Reed-Solomon bei CDs), um Bitfehler zu erkennen und zu korrigieren.
Analog: Kopiere Kassette → physikalischer Prozess, Rauschen addiert sich, unvermeidbar.
Digital: Kopiere Datei → logischer Prozess, Bits werden verifiziert, Fehler korrigiert.
**Warum rechenbar?**
Filter (Equalizer, Kompressor, Reverb) sind mathematische Operationen auf Zahlenfolgen.
- **FIR-Filter** (Finite Impulse Response): Faltung mit Koeffizienten
- **IIR-Filter** (Infinite Impulse Response): Rückkopplungsstruktur
- **FFT** (Fast Fourier Transform): Spektralanalyse
All das ist nur möglich, weil das Signal **Zahlen** sind.
## Beispiel
Eine 1 kHz Sinuswelle, gesampelt bei 44.100 Hz:
Ohne Quantisierung (ideale Werte):
t₀: 0.000
t₁: 0.142
t₂: 0.281
t₃: 0.415
... (kontinuierliche Werte)
Mit 16-bit Quantisierung:
t₀: 0 / 32768 (exakt)
t₁: 4661 / 32768 ≈ 0.1422
t₂: 9221 / 32768 ≈ 0.2814
t₃: 13607 / 32768 ≈ 0.4153
... (diskrete Werte)
→ Der Unterschied zwischen idealem und quantisiertem Wert ist das Quantisierungsrauschen (bei 16-bit unhörbar).
## Überleitung
Jetzt verstehen wir die fundamentale Natur digitaler Signale. Als Nächstes schauen wir, wie die drei Ebenen zusammenwirken.
## Literatur
Shannon, C. E. (1949). "Communication in the Presence of Noise." *Proceedings of the IRE*, 37(1), 1021.
Nyquist, H. (1928). "Certain Topics in Telegraph Transmission Theory." *Transactions of the AIEE*, 47(2), 617644.
Pohlmann, K. C. (2010). *Principles of Digital Audio* (6th ed.). McGraw-Hill. (Kapitel 2-3: Sampling & Quantization)
-->
---
# Die drei Ebenen im Vergleich
| Ebene | Form | Speicherbar? | Kopierbar? | Rechenbar? | Beispiel |
|-------|------|-------------|-----------|-----------|----------|
| **Physisch** | Kontinuierlich | ❌ | ❌ | ❌ | Schallwelle in Luft |
| **Analog** | Kontinuierlich | ✅ | ⚠️ Mit Verlust | ⚠️ Analog-Schaltungen | Schallplatte, Kassette |
| **Digital** | Diskret | ✅ | ✅ Perfekt | ✅ Algorithmen | MP3, WAV, CD |
→ Jeder Übergang hat **Trade-offs**
→ Digital opfert **Kontinuität** für **Robustheit**
<!--
## Kontext
Diese Vergleichstabelle fasst die wesentlichen Unterschiede zusammen. Sie zeigt, warum Digital dominiert aber auch, was verloren geht.
## Kernaussagen
1. Nur analoge und digitale Signale sind speicherbar (physische nicht).
2. Nur digitale Signale erlauben verlustfreies Kopieren.
3. Nur digitale Signale erlauben präzise algorithmische Manipulation.
4. Der Preis: Diskretisierung = Informationsverlust (kontrolliert, aber irreversibel).
## Erklärung
**Speicherbar:**
- Physisch: Nein. Die Schallwelle verpufft. Ohne Aufzeichnungsmedium ist sie weg.
- Analog: Ja. Rille auf Platte, Magnetisierung auf Band.
- Digital: Ja. Zahlen auf Festplatte, CD, Flash-Speicher.
**Kopierbar:**
- Physisch: Nein. Man kann nicht "die Welle" kopieren, nur neu erzeugen (wenn man sie kennt).
- Analog: Ja, aber mit Degradation. Jede Kopie ist schlechter (Generationsverlust).
- Digital: Ja, perfekt (mit Error Correction).
**Rechenbar:**
- Physisch: Nein. Man kann nicht "rechnen" mit einer Schallwelle (man kann sie physikalisch manipulieren, z.B. durch Reflexionen, aber nicht algorithmisch).
- Analog: Bedingt. Analog-Schaltungen (Equalizer, Filter) sind möglich, aber fest verdrahtet, schwer zu ändern.
- Digital: Ja, beliebig. Jeder Algorithmus ist anwendbar (Filter, Kompression, Synthese, ML).
## Vertiefung
**Trade-offs explizit:**
Was Digital gewinnt:
- **Fehlertoleranz**: Reed-Solomon auf CDs korrigiert bis zu 4000 fehlerhafte Bits in Folge
- **Duplikation**: YouTube-Video wird millionenfach identisch kopiert
- **Flexibilität**: Auto-Tune, Noise Reduction, Format-Konvertierung all das ist Software
Was Digital verliert:
- **Kontinuität**: Nyquist garantiert Rekonstruktion nur für bandbegrenzte Signale
- **Unendliche Präzision**: 16-bit = 96 dB dynamic range (praktisch ausreichend, aber theoretisch limitiert)
- **"Natürlichkeit"**: Manche bevorzugen den "Sound" von Vinyl wissenschaftlich sind es meist harmonische Verzerrungen, aber subjektive Präferenz ist real
**Philosophische Frage**: Ist ein digitales Signal "weniger real" als ein analoges?
Nein. Es ist nur eine **andere Art von Realität**. Ein JPEG-Bild existiert nicht weniger als ein gedrucktes Foto es ist nur anders repräsentiert.
Die Informationstheorie (Shannon) würde sagen: Solange alle **relevante Information** bewahrt wird, sind die Repräsentationen äquivalent. "Relevanz" ist kontextabhängig.
## Überleitung
Lass uns visualisieren, wie diese Übergänge aussehen.
-->
---
# Visualisierung: Von Physisch zu Digital
![bg right:50% fit](./assets/signal-levels-comparison.png)
**1. Physisch** (Realität)
Glatte Sinuswelle
kontinuierlich in Zeit und Amplitude
**2. Analog** (Repräsentation)
Leicht verrauschte Kurve
immer noch kontinuierlich
**3. Digital** (Diskret)
Treppenstufen-Approximation
diskrete Zeitpunkte, diskrete Werte
<!--
## Kontext
Eine visuelle Darstellung macht den Unterschied greifbar. Die Grafik zeigt drei Versionen derselben Sinuswelle.
## Kernaussagen
1. **Physisch**: Perfekte, glatte Kurve (existiert nur mathematisch/physikalisch).
2. **Analog**: Verrauschte Kurve (Rauschen überlagert das Signal).
3. **Digital**: Stufen-Approximation (Sampling + Quantisierung sichtbar).
## Erklärung
**Linke Kurve (Physisch)**:
Eine mathematisch perfekte Sinuswelle: y(t) = A sin(ωt)
- Kontinuierlich: unendlich viele Punkte auf der Kurve
- Glatt: differenzierbar überall
- Idealisiert: In der Realität gibt es immer Rauschen (thermisch, quantenmechanisch), aber konzeptionell ist das Signal glatt
**Mittlere Kurve (Analog)**:
Die Sinuswelle **plus Rauschen**. Das Rauschen kommt von:
- Thermisches Rauschen (Brown'sche Bewegung der Moleküle in Kabeln)
- Bandrauschen (bei Magnetbändern: stochastische Magnetisierung)
- Elektronik-Rauschen (Verstärker, Widerstände)
Die Kurve ist immer noch kontinuierlich (unendlich viele Werte), aber nicht mehr perfekt glatt.
**Rechte Kurve (Digital)**:
Die Treppenstufen zeigen:
- **Horizontale Stufen**: Quantisierung (nur bestimmte Amplitudenwerte erlaubt)
- **Vertikale Sprünge**: Sampling (nur zu bestimmten Zeitpunkten gemessen)
Wenn Sampling-Rate und Bit-Tiefe hoch genug sind, ist die Approximation **visuell nicht unterscheidbar** vom Original (für menschliche Augen/Ohren).
## Vertiefung
**Wichtige Klarstellung**: Die Treppenstufen sind **nicht**, wie ein D/A-Wandler das Signal rekonstruiert. Ein moderner D/A-Wandler nutzt einen **Reconstruction Filter** (typischerweise Sinc-Interpolation), der die Stufen glättet. Die Ausgabe ist wieder eine glatte Kurve (innerhalb der Bandbreite).
Die Treppenstu fen-Darstellung ist **konzeptionell korrekt** für die gespeicherten Daten, aber **irreführend** für die Wiedergabe.
**Nyquist-Shannon nochmal**: Wenn wir mindestens 2× samplen, können wir die **exakte** Original-Kurve rekonstruieren (für Frequenzen unterhalb f_Nyquist). Die Treppenstufen sind nur eine **Darstellungsform** der Daten mathematisch ist die Information äquivalent.
**Praktisches Beispiel**:
- Physisch: 1 kHz Sinuswelle (perfekt)
- Analog: Aufgenommen auf Kassette (Bandrauschen ~55 dB SNR)
- Digital: Gesampelt bei 44,1 kHz, 16-bit (Quantisierungsrauschen ~96 dB SNR)
→ Das digitale Signal hat **besseren SNR** als das analoge! (96 dB vs. 55 dB)
## Überleitung
Diese Visualisierung zeigt: Digital ist keine Magie, sondern eine **kontrollierte Approximation**. Wenn die Parameter (Sampling-Rate, Bit-Tiefe) richtig gewählt sind, ist die Approximation so gut, dass Menschen keinen Unterschied hören/sehen.
-->
---
# Warum ist diese Unterscheidung wichtig?
**Verstehen, was passiert, wenn wir:**
1. **Alte Schallplatten digitalisieren**
→ Analog (mit Rauschen) → Digital
**Rauschen wird "eingefroren"** (bleibt für immer)
2. **Mit einer Digitalkamera filmen**
→ Physisch (Licht) → Digital (Sensor)
**Kein analoger Zwischenschritt!** (moderne Kameras)
3. **Audiokassetten kopieren**
→ Analog → Analog (Rauschen addiert sich, Generation für Generation)
→ Digital → Digital (perfekt, unendlich kopierbar)
4. **Kompression anwenden**
→ Nur bei digitalen Signalen möglich!
→ Algorithmen brauchen Zahlen, keine Wellen
<!--
## Kontext
Die theoretische Unterscheidung wird praktisch relevant in konkreten Anwendungsfällen. Diese Folie zeigt, warum man verstehen muss, auf welcher Ebene man arbeitet.
## Kernaussagen
1. **Digitalisierung analoger Medien**: Rauschen wird Teil des Signals (nicht mehr trennbar).
2. **Moderne Aufnahme**: Überspringt analog komplett (direkt physisch → digital).
3. **Generationsverlust**: Nur bei analog-analog, nicht bei digital-digital.
4. **Kompression**: Ist eine rein digitale Operation.
## Erklärung
**Fall 1: Schallplatten digitalisieren**
Wenn ich eine Vinyl-Schallplatte digitalisiere:
1. Die Rille ist analog (mit Knistern, Staub, Abnutzung)
2. Der Tonabnehmer wandelt in elektrisches Signal (immer noch analog, mit Rauschen)
3. Der A/D-Wandler samplet und quantisiert
→ Das **Rauschen aus Schritt 1-2 wird eingefroren**. Es ist nun Teil der digitalen Datei und kann nicht mehr ohne weiteres entfernt werden. (Noise Reduction ist möglich, aber imperfekt oft klingen Stimmen dann metallisch.)
Konsequenz: Wenn ich eine perfekte Schallplatte habe, digitalisiere ich besser früh (bevor sie abnutzt). Spätere Digitalisierung = schlechteres Signal.
**Fall 2: Digitalkameras**
Moderne Digitalkameras (seit ~2000) haben **keine analoge Zwischenstufe** mehr:
- Licht trifft auf Sensor (CCD oder CMOS)
- Photodioden erzeugen elektrische Ladung (proportional zur Lichtintensität)
- **Sofort** A/D-Wandlung (on-chip)
- Ausgabe: digitale Rohdaten (RAW) oder komprimiert (JPEG)
Alte Videokameras (vor ~1995):
- Licht → Sensor → analoges Video-Signal → Band (VHS, Betacam)
- Später digitalisiert für Bearbeitung
→ Moderne Workflows überspringen analog komplett. Vorteil: Kein analoges Rauschen, kein Generationsverlust beim Kopieren.
**Fall 3: Kassetten vs. Digitaldateien kopieren**
Kassette A → Kassette B:
- Abspielen: Magnetband → elektrisches Signal (mit Bandrauschen ~55 dB SNR)
- Aufnehmen: Elektrisches Signal → Magnetband auf B (neues Bandrauschen addiert)
- SNR nach Kopie: schlechter (~50 dB?)
Digital: Datei A → Datei B:
- Binäre Kopie: Bits werden 1:1 kopiert
- Mit CRC/Checksums: Fehler werden erkannt und korrigiert
- SNR nach Kopie: **identisch** (96 dB bleibt 96 dB)
→ Nach 10 Kassetten-Kopien: unhörbar. Nach 10 Datei-Kopien: identisch zum Original.
**Fall 4: Kompression**
MP3, JPEG, H.264 all das sind **Algorithmen**, die auf **Zahlen** operieren.
- Fourier-Transform (FFT): Rechnet Zeitbereich → Frequenzbereich
- Psychoakustisches Modell: Entscheidet, welche Frequenzen weggeworfen werden können
- Huffman-Coding: Komprimiert die verbleibenden Daten verlustfrei
All das ist nur möglich, weil das Signal **diskret** ist. Man kann keine FFT auf eine Schallwelle in der Luft anwenden man kann sie nur auf eine **Liste von Zahlen** anwenden.
## Vertiefung
**Restauration alter Aufnahmen**:
Wenn ich eine alte Schellackplatte aus den 1920ern digitalisiere, habe ich:
- **Signal** (die Musik)
- **Rauschen** (Kratzer, Knistern)
- **Verzerrung** (Frequenzgang der damaligen Technik war schlecht)
Moderne Restaurationssoftware (z.B. iZotope RX) nutzt Machine Learning, um:
- Knistern zu entfernen (erkenne Muster von "Klick"-Geräuschen)
- Rauschen zu reduzieren (lerne Rauschprofil in stillen Passagen)
- Frequenzgang zu korrigieren (modelliere damalige Aufnahmetechnik, invertiere)
All das funktioniert nur, weil das Signal **digital** ist. Bei einem analogen Band kann ich mechanisch nichts "herausrechnen".
**Warum digitalisieren Bibliotheken/Archive alles?**
Nicht wegen "besserer Qualität" (eine Schallplatte klingt wie eine Schallplatte, egal ob analog oder digital abgespielt). Sondern wegen:
1. **Preservation**: Analoge Medien zerfallen (Magnetbänder haben ~20-30 Jahre Lebensdauer). Digital kann unendlich kopiert werden ohne Verlust.
2. **Access**: Digital kann online gestellt werden, durchsuchbar gemacht, mit Metadaten versehen.
3. **Manipulation**: Restauration, Normalisierung, Format-Konvertierung.
## Überleitung
Jetzt verstehen wir die fundamentale Natur von Signalen. Als Nächstes schauen wir uns an: **Warum müssen wir überhaupt komprimieren?**
-->
---
# Praktische Konsequenzen
**Digitalisierung ist irreversibel**
Was zwischen Samples passiert: **für immer verloren**
Was bei Quantisierung gerundet wurde: **für immer verloren**
**Aber:**
- Wenn Sampling-Rate hoch genug (Nyquist erfüllt): kein hörbarer Verlust
- Wenn Bit-Tiefe hoch genug (16-bit+): Quantisierungsrauschen unhörbar
**Daher die Praxis:**
- **Archivierung**: Höchste Qualität digitalisieren (96 kHz, 24-bit)
- **Distribution**: Dann komprimieren für Streaming/Download (AAC, Opus)
→ "**You can always go down, but never up**"
<!--
## Kontext
Diese Folie fasst die praktischen Implikationen für Medienproduktion zusammen. Sie gibt konkrete Handlungsanweisungen.
## Kernaussagen
1. **Digitalisierung ist eine Einbahnstraße**: Informationsverlust ist irreversibel.
2. **Aber**: Wenn Parameter richtig gewählt, ist Verlust unhörbar/unsichtbar.
3. **Workflow-Prinzip**: Archiviere in höchster Qualität, konvertiere nach unten für Distribution.
## Erklärung
**"You can always go down, but never up"**:
Wenn ich mit 96 kHz, 24-bit aufnehme:
- Kann ich zu 48 kHz, 16-bit konvertieren (für CD)
- Kann ich zu 44,1 kHz, 16-bit konvertieren (für Streaming)
- Kann ich zu 32 kHz, 128 kbit/s AAC komprimieren (für Web)
Aber: Wenn ich mit 44,1 kHz, 16-bit aufnehme, kann ich **nicht** nachträglich zu 96 kHz, 24-bit "hochkonvertieren". (Technisch kann ich die Datei re-samplen, aber ich erfinde keine Information es ist nur Interpolation.)
**Archivierungs-Best-Practices**:
Audio:
- Mindestens 48 kHz, 24-bit (besser 96 kHz)
- Unkomprimiert (WAV, AIFF) oder verlustfrei komprimiert (FLAC)
- Warum 24-bit für Aufnahme? Nicht wegen dynamischem Range für Wiedergabe (16-bit reicht), sondern wegen **Headroom** bei Bearbeitung (Normalisierung, EQ, Mixing addiert Rauschen besser mit mehr Präzision starten)
Video:
- Mindestens 1080p, besser 4K (auch wenn finale Ausgabe 1080p ist Downscaling ist OK, Upscaling nicht)
- Hohe Bitrate (100+ Mbit/s für ProRes, DNxHR)
- Unkomprimiert oder nur leicht komprimiert (ProRes, DNxHR sind "mezzanine codecs" geringe Kompression, hohe Qualität)
**Distribution-Best-Practices**:
Audio:
- Streaming: AAC 128-256 kbit/s, Opus 128 kbit/s (moderner, besser)
- Download: MP3 320 kbit/s (Kompatibilität) oder FLAC (Audiophile)
Video:
- Streaming: H.264 oder H.265, adaptive bitrate (360p/720p/1080p/4K)
- Download: H.264 High Profile, ~5-10 Mbit/s für 1080p
## Vertiefung
**Warum nicht gleich in finaler Qualität aufnehmen?**
1. **Flexibilität**: Heute streamst du in 720p, morgen will der Kunde 4K. Wenn Original 4K ist, kein Problem. Wenn Original 720p ist, Pech.
2. **Bearbeitung**: Jede Bearbeitung (Color Grading, EQ, Normalisierung) addiert Artefakte. Besser mit höherer Qualität starten, dann degradiert es langsamer.
3. **Zukunftssicherheit**: Codecs entwickeln sich. Heute ist H.264 Standard, morgen AV1. Wenn ich unkomprimiertes Master habe, kann ich neu encodieren. Wenn ich nur H.264 habe, re-encoding = doppelter Verlust.
**Die "Prosumer-Falle"**:
Viele Hobby-Filmer nehmen mit DSLR in 1080p H.264 auf (weil Kamera das direkt ausgibt). Problem:
- H.264 ist ein **Delivery-Codec**, kein **Editing-Codec**
- Interframe-Kompression macht Cutting schwer (Schnittprogramme müssen dekodieren, langsam)
- Jedes Re-Encoding verschlechtert
Besser: Aufnahme in ProRes (wenn Kamera unterstützt) oder extern aufzeichnen (Atomos Ninja mit ProRes RAW).
**Professionelle Workflows**:
Film-Produktion:
1. Aufnahme: RAW (RED R3D, ARRI RAW) unkomprimiert oder minimal komprimiert
2. Bearbeitung: ProRes 4444 oder DNxHR (mezzanine codec)
3. Color Grading: In mezzanine-Codec
4. Export: H.264/H.265 für Streaming, DCP für Kino
Musik-Produktion:
1. Aufnahme: 96 kHz, 24-bit WAV
2. Mixing: Intern in DAW (oft 32-bit float für noch mehr Headroom)
3. Mastering: Export als 48 kHz, 24-bit WAV (für Streaming-Services)
4. Distribution: Streaming-Services konvertieren zu AAC/Opus
## Beispiel
Ein konkretes Projekt: Podcast
**Schlechter Workflow**:
- Aufnahme direkt in MP3 128 kbit/s (weil "spart Speicher")
- Bearbeitung (Schneiden, Normalisieren, EQ)
- Export als MP3 128 kbit/s
→ Doppelter Verlust! (Aufnahme-Encoding + Export-Encoding)
**Guter Workflow**:
- Aufnahme in WAV 48 kHz, 16-bit (oder 24-bit wenn Budget da)
- Bearbeitung in WAV
- Export als MP3 192 kbit/s (für Breite Kompatibilität) oder Opus 128 kbit/s (moderner)
→ Nur einmal Verlust (bei Export), Archiv bleibt verlustfrei
## Überleitung
Jetzt verstehen wir, **warum** wir digitalisieren und **wie** wir es richtig machen. Als Nächstes: **Warum komprimieren wir überhaupt?**
## Literatur
AES Technical Council (2017). "Recommendations for Delivery of Recorded Music Projects." Audio Engineering Society.
Apple (2024). "ProRes White Paper." Apple Inc.
Avid (2024). "DNxHR and DNxHD Codecs." Avid Technology.
-->
---
<!-- _class: lead -->
# III. Das Problem der Knappheit
## Warum Kompression notwendig ist
<!--
## Kontext
Jetzt haben wir die theoretischen Grundlagen. Aber warum ist das alles relevant? Weil **Speicher endlich ist** und **Bandbreite begrenzt ist**. Kompression ist keine Optimierung, sondern **ökonomische Notwendigkeit**.
## Kernaussagen
1. Unkomprimierte digitale Medien sind **riesig** (Gigabytes pro Minute).
2. Speicher und Bandbreite kosten **Geld**.
3. Die gesamte digitale Medienwelt (Streaming, Social Media, Cloud) wäre ohne Kompression **unmöglich**.
## Erklärung
Wir werden jetzt konkrete Zahlen sehen: Wie groß sind unkomprimierte Dateien? Wie skaliert das Problem? Was kosten Speicher und Bandbreite?
Diese Sektion motiviert die folgenden Themen (verlustfreie und verlustbehaftete Kompression).
## Überleitung
Lass uns mit einem konkreten Beispiel starten: Wie groß ist 1 Minute Musik?
-->
---
# Ein konkretes Beispiel: 1 Minute Musik
**Eine Minute Musik in CD-Qualität:**
44.100 Samples/Sekunde
× 16 Bit pro Sample
× 2 Kanäle (Stereo)
× 60 Sekunden
= **10,584,000 Bytes****10,6 MB pro Minute**
<!--
## Kontext
Dies ist die erste konkrete Berechnung. Studierende sollen verstehen, **woher die Zahl kommt** nicht nur auswendig lernen "CD = 10 MB/min".
## Kernaussagen
1. CD-Qualität ist definiert durch: 44,1 kHz Sampling, 16-bit Tiefe, Stereo.
2. Die Datenmenge ist das Produkt aus Sample-Rate, Bit-Tiefe, Kanälen und Dauer.
3. 10,6 MB/Minute klingt erstmal nicht dramatisch aber es skaliert schnell.
## Erklärung
**Schritt-für-Schritt-Berechnung**:
1. **Sample-Rate**: 44.100 Hz = 44.100 Messungen pro Sekunde
- Warum 44,1 kHz? Nyquist für 20 kHz (menschliches Hören) × 2 = 40 kHz. 44,1 kHz gibt etwas Puffer für Anti-Aliasing-Filter.
- Historischer Grund: Frühe digitale Aufnahmen nutzten Video-Recorder. NTSC-Video hat 30 Frames/sec × 490 Zeilen × 3 Samples = 44.100 Hz. (PAL: 25 × 588 × 3 = 44.100 Hz auch.) Zufall, aber praktisch.
2. **Bit-Tiefe**: 16 Bit = 2 Bytes pro Sample
- 2¹⁶ = 65.536 mögliche Werte
- Dynamic Range: ~96 dB (6 dB × 16 bit)
- Für menschliches Hören mehr als ausreichend (Schmerzgrenze ~120 dB, Hörschwelle ~0 dB → 120 dB Range, aber Musik nutzt selten volle Range)
3. **Kanäle**: 2 (Stereo: links + rechts)
- Mono wäre halb so groß
- Surround (5.1) wäre 6× so groß (oder 5,1× wenn LFE-Kanal weniger Samples hat)
4. **Dauer**: 60 Sekunden
**Berechnung**:
44.100 Samples/sec × 2 Bytes/Sample × 2 Kanäle = 176.400 Bytes/sec
176.400 Bytes/sec × 60 sec = 10.584.000 Bytes = 10,6 MB
## Vertiefung
**Alternative Sampling-Raten**:
- **48 kHz**: DVD, professionelle Video-Produktion
- 48.000 × 2 × 2 × 60 = 11,52 MB/min (~9% größer)
- Warum 48 kHz? Bessere Teilbarkeit (teilt durch 2, 3, 4, 6 → leichter für Video-Frame-Rates)
- **96 kHz**: Hi-Res Audio, Archivierung
- 96.000 × 2 × 2 × 60 = 23,04 MB/min (doppelt so groß)
- Warum? Mehr Headroom für Bearbeitung, theoretisch ultrasonic Frequenzen (obwohl Menschen nicht hören)
- **192 kHz**: Extreme Hi-Res (fragwürdig ob sinnvoll)
- 192.000 × 2 × 2 × 60 = 46,08 MB/min (4× so groß wie CD)
- Wissenschaftlicher Konsens: Für Wiedergabe unnötig (Nyquist bei 96 kHz schon erfüllt). Für Aufnahme/Bearbeitung manchmal nützlich.
**Alternative Bit-Tiefen**:
- **24-bit**: Professionelle Aufnahme
- 44.100 × 3 × 2 × 60 = 15,876 MB/min (~50% größer)
- Dynamic Range: ~144 dB (weit über menschliche Wahrnehmung, aber nützlich für Bearbeitungs-Headroom)
- **32-bit float**: DAW-intern
- Wird selten als Datei gespeichert (zu groß), aber intern in DAWs benutzt für präzise Berechnungen
## Beispiel
Ein 4-Minuten-Song (typische Länge):
CD-Qualität (44,1 kHz, 16-bit, Stereo):
4 min × 10,6 MB/min = **42,4 MB**
Hi-Res (96 kHz, 24-bit, Stereo):
4 min × 34,56 MB/min = **138,24 MB**
→ Ein Album (12 Songs, ~50 min):
- CD: ~530 MB
- Hi-Res: ~1,7 GB
## Überleitung
10 MB/min klingt harmlos. Aber was passiert, wenn wir mehr Musik wollen?
-->
---
# Konkrete Beispiele: Audio, Video, Bilder
**Unkomprimierte Größen:**
| Medium | Parameter | Größe |
|--------|-----------|-------|
| **Audio** | 44,1 kHz, 16-bit, Stereo | **10,6 MB/min** |
| **Bild** | 4000×3000 px, RGB, 8-bit/Kanal | **34,5 MB** |
| **Video** | 4K (3840×2160), 30 fps, 8-bit | **~45 GB/min** |
**Problem:** Diese Größen sind unpraktikabel für Speicherung und Übertragung.
---
# Skalierung: Von einem Song zu 10.000 Songs
**Szenario:** Musiksammlung
| Format | Größe/Song | 10.000 Songs | Speicher nötig |
|--------|-----------|--------------|----------------|
| **WAV (CD)** | 35 MB (3:30 min) | 350 GB | 1× 512 GB SSD |
| **FLAC** | 18 MB (~50% Kompr.) | 180 GB | 1× 256 GB SSD |
| **MP3 320** | 8 MB | 80 GB | 1× 128 GB SSD |
| **MP3 128** | 3,3 MB | 33 GB | 1× 64 GB SSD |
**Implikation:**
- Ohne Kompression: 350 GB
- Mit MP3 128: 33 GB (Faktor **10:1**)
- **Ermöglicht** iPod (2001: 510 GB), Smartphone-Sammlungen
---
# Historischer Kontext: Speicherkapazität 19902025
| Jahr | Typische Festplatte | Preis/GB | Alben (WAV) | Alben (MP3 128) |
|------|---------------------|----------|-------------|-----------------|
| **1990** | 100 MB | $100 | 0,1 | 1,6 |
| **1995** | 1 GB | $20 | 1,5 | 16 |
| **2000** | 20 GB | $5 | 31 | 330 |
| **2005** | 200 GB | $1 | 314 | 3.300 |
| **2010** | 1 TB | $0,10 | 1.600 | 16.500 |
| **2015** | 2 TB | $0,04 | 3.100 | 33.000 |
| **2020** | 4 TB | $0,025 | 6.200 | 66.000 |
| **2025** | 8+ TB | $0,015 | 12.500 | 132.000 |
**Faktor (1990 → 2025):** 80.000× Kapazität, 6.667× billiger pro GB
---
# Der digitale Wendepunkt: Zettabyte-Ära
**Datenmenge der Menschheit:**
- 2010: **2 Zettabyte** (ZB)
- 2015: 15 ZB
- 2020: 64 ZB
- **2025: 181 ZB** (geschätzt)
**Was ist ein Zettabyte?**
1 ZB = 1.000 Exabyte = 1.000.000 Petabyte = 1.000.000.000 Terabyte
**Kontext:** 181 ZB = ~18 Milliarden 10-TB-Festplatten
---
# Zwei Philosophien der Kompression
## **Lossless (Verlustfrei)**
- **Prinzip**: Redundanz entfernen
- **Resultat**: Original perfekt rekonstruierbar
- **Kompression**: 2:1 bis 4:1 (typisch)
- **Beispiele**: ZIP, FLAC, PNG, FFV1
## **Lossy (Verlustbehaftet)**
- **Prinzip**: Wahrnehmung austricksen (Psychoakustik/-visuell)
- **Resultat**: Approximation, Original nicht rekonstruierbar
- **Kompression**: 10:1 bis 100:1+ (typisch)
- **Beispiele**: MP3, JPEG, H.264
---
# Wann welche Strategie?
| Anwendungsfall | Lossless | Lossy | Begründung |
|----------------|----------|-------|------------|
| **Archivierung** | ✅ | ❌ | Zukunftssicher, keine Degradation |
| **Medizin (Röntgen, MRT)** | ✅ | ❌ | Rechtlich/ethisch: kein Informationsverlust erlaubt |
| **Text, Code** | ✅ | ❌ | Jedes Bit wichtig |
| **Musik-Streaming** | ❌ | ✅ | Bandbreite wichtiger als Perfektion |
| **Social Media (Fotos)** | ❌ | ✅ | Speicher/Bandbreite, „gut genug" reicht |
| **Video-Streaming** | ❌ | ✅ | Anders unpraktikabel (45 GB/min!) |
| **Professionelle Fotografie** | ✅ | ❌* | RAW für Editing, JPEG für Delivery |
*Hybrid: Bearbeiten in RAW (lossless), exportieren als JPEG (lossy)
---
<!-- _class: lead -->
# IV. Fundamentale Konzepte
## Bits, Bytes & Kodierung
---
# Das Bit: 0 oder 1
**Die kleinste Informationseinheit**
- **Bit** = Binary Digit
- Zwei Zustände: 0 oder 1 (aus oder an, falsch oder wahr)
- Physikalisch: Spannung (niedrig/hoch), Magnetisierung (N/S), Licht (aus/an)
**Beispiele:**
- 1 Bit: Ja/Nein-Frage
- 2 Bits: 4 Zustände (00, 01, 10, 11)
- n Bits: 2^n Zustände
**Formel:** n Bits können 2^n verschiedene Werte darstellen
---
# Das Byte: 8 Bits = 256 Zustände
**Standard-Einheit der Informatik**
- 1 Byte = 8 Bits
- 2^8 = 256 verschiedene Werte (0255)
- Kann darstellen: Zahlen 0255, Zeichen (ASCII), Graustufen
**Warum 8 Bits?**
- Historisch: IBM System/360 (1964) standardisierte 8-bit Byte
- Praktisch: 256 Werte genug für Buchstaben + Sonderzeichen
**Größere Einheiten:**
- Kilobyte (KB): 1.000 Bytes (dezimal) oder 1.024 Bytes (binär, KiB)
- Megabyte (MB), Gigabyte (GB), Terabyte (TB), ...
---
# Anwendung: RGB-Farben
**24-bit Farbtiefe (True Color)**
Jeder Pixel: 3 Kanäle × 8 Bit = 24 Bit = 3 Bytes
- **Rot**: 8 Bit (0255)
- **Grün**: 8 Bit (0255)
- **Blau**: 8 Bit (0255)
**Anzahl Farben:** 256 × 256 × 256 = **16.777.216 Farben**
**Beispiele:**
- Schwarz: (0, 0, 0)
- Weiß: (255, 255, 255)
- Rot: (255, 0, 0)
- Cyan: (0, 255, 255)
---
# Zeichenkodierung: ASCII Der erste Standard
**ASCII (American Standard Code for Information Interchange, 1963)**
- 7 Bit → 128 Zeichen
- Enthält: Buchstaben (A-Z, a-z), Ziffern (0-9), Sonderzeichen, Steuerzeichen
**Beispiele:**
- 'A' = 65 (dezimal) = 0100 0001 (binär)
- 'a' = 97
- '0' = 48
- Leerzeichen = 32
**Problem:** Nur für Englisch! Keine Umlaute, kein Kyrillisch, kein Chinesisch.
---
# Das Problem: Sprachen außerhalb des Englischen
**Extended ASCII (8-bit, 256 Zeichen)**
- ISO-8859-1 (Latin-1): Westeuropäische Sprachen (äöüß)
- ISO-8859-5: Kyrillisch
- Windows-1252: Microsoft-Variante
**Probleme:**
- Inkompatibel zwischen Sprachen
- Kann nicht Deutsch + Russisch in selber Datei
- Chinesisch, Japanisch: 10.000+ Zeichen → unmöglich mit 8-bit
**Lösung:** Unicode
---
# Unicode: Ein Standard für alle Schriften
**Unicode 16.0 (2024): 154.998 Zeichen**
Umfasst:
- Latein, Kyrillisch, Griechisch, Arabisch, Hebräisch
- CJK (Chinesisch, Japanisch, Koreanisch): ~90.000 Zeichen
- Emoji: ~3.600
- Historische Schriften (Hieroglyphen, Keilschrift)
**Struktur:**
- Jedes Zeichen hat einen **Code Point**: U+0041 = 'A'
- Code Points 01.114.111 (21 Bit theoretisch)
**Verschiedene Encodings:** UTF-8, UTF-16, UTF-32
---
# UTF-8, UTF-16, UTF-32: Encoding-Varianten
**UTF-8 (variable Länge, 14 Bytes):**
- ASCII-kompatibel (A = 1 Byte)
- Umlaute: 2 Bytes (ä = C3 A4)
- Chinesisch: 34 Bytes
- **Vorteil**: Effizient für Text mit viel ASCII
- **Standard** im Web (>98% aller Webseiten)
**UTF-16 (2 oder 4 Bytes):**
- Meiste Zeichen: 2 Bytes
- Seltene: 4 Bytes (Surrogate Pairs)
- **Verwendet**: Windows intern, Java
**UTF-32 (immer 4 Bytes):**
- Jedes Zeichen: 4 Bytes (verschwenderisch, aber einfach)
- **Vorteil**: Direkter Zugriff (Zeichen N = Byte 4N)
---
# Praxis: Bytes zählen, Dateigrößen verstehen
**Beispiel: "Hello World!" in verschiedenen Encodings**
| Encoding | Bytes | Hex |
|----------|-------|-----|
| **ASCII** | 12 | 48 65 6C 6C 6F 20 57 6F 72 6C 64 21 |
| **UTF-8** | 12 | (identisch mit ASCII) |
| **UTF-16** | 26 | FF FE 48 00 65 00 ... (BOM + 2 Bytes/Zeichen) |
| **UTF-32** | 52 | (BOM + 4 Bytes/Zeichen) |
**Beispiel: "Äpfel" in UTF-8**
- 'Ä' = C3 84 (2 Bytes)
- 'p' = 70 (1 Byte)
- 'f' = 66
- 'e' = 65
- 'l' = 6C
- **Total**: 6 Bytes (nicht 5!)
---
# Hexadezimal: Die Sprache der Datei-Analyse
**Warum Hex?**
- Binär (0/1) ist zu lang: 11111111 = FF (kürzer)
- Dezimal passt nicht zu Bytes: 255 ≠ klare Byte-Grenze
- Hex: 1 Byte = 2 Hex-Ziffern (00FF)
**Hexadezimal (Base 16):**
```
0 1 2 3 4 5 6 7 8 9 A B C D E F
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
```
**Beispiele:**
- 0xFF = 255 (dezimal) = 1111 1111 (binär)
- 0x10 = 16 (dezimal)
- 0xA0 = 160 (dezimal)
---
# Magic Numbers: Dateitypen erkennen
**Jede Datei beginnt mit "Magic Bytes"**
Erste Bytes identifizieren Dateityp (unabhängig von Extension)
**Beispiele:**
| Format | Magic Bytes (Hex) | ASCII |
|--------|-------------------|-------|
| **PNG** | 89 50 4E 47 0D 0A 1A 0A | .PNG.... |
| **JPEG** | FF D8 FF | ÿØÿ |
| **GIF** | 47 49 46 38 | GIF8 |
| **PDF** | 25 50 44 46 | %PDF |
| **ZIP** | 50 4B 03 04 | PK.. |
| **MP3** | FF FB (oder FF F3) | ÿû |
| **WAV** | 52 49 46 46 | RIFF |
**Tool:** `hexdump -C filename | head` (Linux/Mac)
---
# Praxis: "What the HEX-Code"
**Live-Demo: Datei analysieren**
```bash
$ hexdump -C image.png | head -n 5
00000000 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 |.PNG........IHDR|
00000010 00 00 05 00 00 00 03 84 08 02 00 00 00 8c d9 c0 |................|
00000020 ea 00 00 00 09 70 48 59 73 00 00 0b 13 00 00 0b |.....pHYs.......|
```
**Interpretation:**
- `89 50 4E 47` = PNG Magic Number ✓
- `49 48 44 52` = "IHDR" (Image Header Chunk)
- Nächste Bytes: Breite, Höhe, Bit-Tiefe
**Anwendung:**
- Datei-Validierung (ist das wirklich ein PNG?)
- Forensik (versteckte Daten?)
- Debugging (warum öffnet Datei nicht?)
---
# Dateneinheiten: KB, MB, GB, TB, PB, ZB
**Präfixe (SI dezimal vs. Binär):**
| Einheit | Dezimal (SI) | Binär (IEC) | Faktor |
|---------|--------------|-------------|--------|
| **Kilobyte** | 1 KB = 1.000 Bytes | 1 KiB = 1.024 Bytes | 2^10 |
| **Megabyte** | 1 MB = 1.000 KB | 1 MiB = 1.024 KiB | 2^20 |
| **Gigabyte** | 1 GB = 1.000 MB | 1 GiB = 1.024 MiB | 2^30 |
| **Terabyte** | 1 TB = 1.000 GB | 1 TiB = 1.024 GiB | 2^40 |
| **Petabyte** | 1 PB = 1.000 TB | 1 PiB = 1.024 TiB | 2^50 |
| **Exabyte** | 1 EB = 1.000 PB | | 2^60 |
| **Zettabyte** | 1 ZB = 1.000 EB | | 2^70 |
**Unterschied:** 1 TB (dezimal) = 0,909 TiB (binär)
→ "1 TB Festplatte" zeigt 931 GB in Windows (weil Windows GiB nutzt)
---
# Binär vs. Dezimal: Der Marketing-Trick
**Warum zwei Standards?**
**Dezimal (1000-basiert):**
- Hersteller nutzen: "1 TB = 1.000 GB"
- Größere Zahlen → besser klingt
**Binär (1024-basiert):**
- Computer-intern: Potenzen von 2 (2^10 = 1024)
- OS (Windows, Mac, Linux) zeigt oft GiB
**Beispiel:**
Festplatte gekauft: "2 TB"
- Hersteller: 2.000.000.000.000 Bytes
- Windows zeigt: 1.862 GB (eigentlich GiB)
- **Differenz:** ~138 GB "verschwunden"
**Warum?**
2.000.000.000.000 / 1024^3 = 1.862,6 GiB
---
# Datenwachstum der Menschheit
**Exponentielles Wachstum:**
| Meilenstein | Jahr | Datenmenge |
|-------------|------|------------|
| Gesamte Menschheitsgeschichte bis | 2003 | 5 Exabyte |
| Alle 2 Tage (2013) | 2013 | 5 Exabyte |
| Pro Tag (2025) | 2025 | ~500 Exabyte |
**Treiber:**
- Video (80% des Traffics)
- IoT-Sensoren (Autos, Smart Cities)
- AI-Training Datasets
- Social Media
**Konsequenz:** Speicherkapazität wächst, aber Daten wachsen schneller
→ Kompression bleibt essentiell
---
# Der digitale Wendepunkt: 181 Zettabyte (2025)
**Vergleich:**
- 181 ZB = 181.000.000.000.000.000.000.000 Bytes
- = 181 Milliarden Terabyte
- = Alle Worte der Menschheit × 36.000
**AI-generierte Inhalte:**
- 2030 (Prognose): 90% aller Daten AI-generiert/augmentiert
- Text (ChatGPT), Bilder (Midjourney, DALL-E), Video (Sora)
- Explosion synthetischer Daten
**Ökologisch:**
- Rechenzentren: ~12% globaler Energieverbrauch
- Kompression reduziert Energie (kleinere Dateien = weniger Übertragung/Speicher)
---
<!-- _class: lead -->
# V. Audio
## Von Analog zu Digital
---
# Schall als physisches Phänomen
**Was ist Schall?**
- Mechanische Welle (Druckschwankung) in Medium (Luft, Wasser, Festkörper)
- Geschwindigkeit: ~340 m/s in Luft (20°C)
- Frequenz: Anzahl Schwingungen/Sekunde (Hz)
- Amplitude: Stärke der Druckschwankung (Lautstärke)
**Hörbarer Bereich (Mensch):**
- Frequenz: 20 Hz 20.000 Hz (20 kHz)
- Lautstärke: 0 dB SPL (Hörschwelle) 120 dB SPL (Schmerzgrenze)
**Musik:**
- Grundfrequenzen: 27,5 Hz (tiefste Klaviertaste) 4.186 Hz (höchste)
- Obertöne: bis 1520 kHz
---
# Analoge Audiowiedergabe: Schallplatte, Magnetband
**Schallplatte (Vinyl):**
- Rille formt Schallwelle physisch nach
- Nadel tastet ab → mechanische Vibration → elektrisch → Lautsprecher
- **SNR**: ~6070 dB
- **Frequenzgang**: 20 Hz 20 kHz (theoretisch, praktisch schlechter)
**Magnetband (Kassette):**
- Eisenoxid-Partikel magnetisiert entsprechend Signal
- **SNR**: ~5060 dB (mit Dolby B/C besser)
- **Frequenzgang**: 30 Hz 15 kHz (Typ II/Metal besser)
**Vorteile:** Direktheit, keine Digitalisierung, historisch billig
**Nachteile:** Degradation, Generationsverlust, Rauschen
---
# Vor- und Nachteile analoger Medien
| Aspekt | Vorteil | Nachteil |
|--------|---------|----------|
| **Qualität** | Theoretisch unbegrenzte Auflösung | Praktisch durch Rauschen limitiert |
| **Kopie** | — | Generationsverlust (Rauschen akkumuliert) |
| **Haltbarkeit** | Jahrzehnte (wenn gut gelagert) | Degradiert (Abnutzung, Chemie) |
| **Kosten** | Historisch billig | Heute teuer (Vinyl-Pressung) |
| **Manipulation** | Schwierig, Hardware-basiert | Tape-Speed, Splicing möglich |
**Fazit:** Für Massenmarkt überholt, für Audiophile/Sammler kulturell relevant.
---
# Der Übergang: Warum Digital?
**Motivationen (1970er1980er):**
1. **Perfekte Kopien**: Keine Generationsverluste (wichtig für Produktion)
2. **Kein Rauschen**: Quantisierungsrauschen kontrolliert, nicht akkumulativ
3. **Manipulation**: Filter, Effekte in Software → flexibel, günstig
4. **Speicher**: Compact Disc (1982) → robust, kompakt, lange Spielzeit
**Hindernisse:**
- Technologie: ADCs/DACs teuer, langsam
- Skepsis: "Digital klingt kalt/steril" (subjektiv, kulturell)
- Patente: Dolby, Sony/Philips kontrollieren Standards
**Durchbruch:** CD (1982), DAT (1987), dann 1990er: Digital dominiert Produktion
---
# Digitalisierung: Sampling (zeitlich)
**Sampling = zeitliche Diskretisierung**
- Kontinuierliches Signal → nur bestimmte Zeitpunkte messen
- **Sample Rate** (SR): Anzahl Messungen/Sekunde (Hz)
**Beispiele:**
- CD: 44.100 Hz (44,1 kHz)
- DVD-Audio: 96.000 Hz
- Pro-Audio: 48 kHz, 96 kHz, 192 kHz
**Nyquist-Theorem:**
SR ≥ 2 × höchste Frequenz → perfekte Rekonstruktion
- Mensch hört bis ~20 kHz → brauchen ≥40 kHz
- CD: 44,1 kHz ✓
**Aliasing:**
Wenn SR zu niedrig → hohe Frequenzen "spiegeln" als niedrige (Verzerrung)
→ Anti-Aliasing-Filter vor ADC nötig
---
# Digitalisierung: Quantisierung (Amplitude)
**Quantisierung = Amplituden-Diskretisierung**
- Kontinuierliche Spannungswerte → diskrete Stufen
- **Bit Depth**: Anzahl Bits pro Sample
**Beispiele:**
- CD: 16-bit → 2^16 = 65.536 Stufen
- Pro-Audio: 24-bit → 2^24 = 16.777.216 Stufen
**SQNR (Signal-to-Quantization-Noise Ratio):**
SQNR ≈ 6 dB × Bits
- 16-bit: ~96 dB (reicht für Hören)
- 24-bit: ~144 dB (Headroom für Produktion)
**Dithering:** Kleines Rauschen vor Quantisierung → verhindert Verzerrung bei leisen Signalen
---
# Berechnung: Sample Rate × Bit Depth × Kanäle
**Formel:**
```
Bitrate (bit/s) = Sample Rate × Bit Depth × Kanäle
Dateigröße = Bitrate × Zeit
```
**Beispiel: CD-Audio (Stereo)**
- SR: 44.100 Hz
- Bit Depth: 16-bit
- Kanäle: 2 (Stereo)
**Bitrate:**
44.100 × 16 × 2 = 1.411.200 bit/s = **1.411 kbit/s**
**1 Minute:**
1.411 kbit/s × 60 s / 8 (bits → bytes) / 1024 (kB) = **10,6 MB/min**
**1 Album (60 min):**
10,6 MB × 60 = **636 MB**
---
# Das Speicherproblem der Digitalisierung
**Historischer Kontext:**
**1990: Festplatten 100500 MB**
- 1 Album (636 MB) = gesamte Festplatte!
- Lösung: Kompression (MP3, 1993)
**1995: Festplatten 12 GB**
- 23 Alben → immer noch knapp
**2000: Festplatten 2040 GB**
- ~3060 Alben → akzeptabel, aber MP3 = 10× mehr Musik
**2025: Festplatten 4+ TB**
- ~6.000 Alben (WAV) → Speicher kein Problem mehr
- **Aber:** Streaming dominiert (Bandbreite wichtiger als lokaler Speicher)
**Fazit:** Ohne MP3 wäre digitale Musik-Revolution der 1990er unmöglich gewesen.
---
<!-- _class: lead -->
# V-b. MP3-Revolution
## Psychoakustik als Lösung
---
# Psychoakustik: Der MP3-Trick
**Grundidee:** Entferne, was Menschen nicht hören
**Menschliches Gehör ist nicht perfekt:**
1. **Maskierungseffekte**: Laute Töne übertönen leise
2. **Frequenzgrenzen**: <20 Hz, >20 kHz unhörbar
3. **Kritische Bänder**: Frequenzauflösung limitiert
**Psychoakustisches Modell:**
- Analysiere Signal: Was wird maskiert?
- Quantisiere maskierte Komponenten grob (oder entferne)
- Resultat: Kleinere Datei, kaum hörbarer Unterschied
---
# Maskierungseffekte: Laute Töne übertönen leise
**Simultane Maskierung:**
- 1 kHz Ton bei 60 dB SPL
- 1,1 kHz Ton bei 40 dB SPL gleichzeitig
- → 1,1 kHz **unhörbar** (vom 1 kHz maskiert)
**Temporale Maskierung:**
- Lauter Ton → kurz danach sind leise Töne unhörbar (~510 ms)
- Pre-Masking: Auch kurz **vor** lautem Ton (auditorische Verarbeitung)
**Anwendung:**
MP3-Encoder berechnet Masking-Kurve → entfernt/reduziert maskierte Frequenzen
---
# Frequenzbereiche: Was Menschen nicht hören
**Hörbarer Bereich: 20 Hz 20 kHz**
- <20 Hz: Infraschall (spürbar, nicht hörbar)
- >20 kHz: Ultraschall (unhörbar, außer für Tiere)
**Mit Alter sinkt Obergrenze:**
- Kind: ~20 kHz
- 30 Jahre: ~16 kHz
- 50 Jahre: ~12 kHz
- 70 Jahre: ~8 kHz
**MP3-Strategie:**
- Frequenzen >16 kHz: Entfernen oder stark reduzieren (bei niedrigen Bitraten)
- <30 Hz: Ebenfalls reduzieren (wenig musikalischer Inhalt)
**Savings:** ~2030% der Daten in diesen Bereichen
---
# Wahrnehmung ≠ Realität
**Das Ohr ist kein Mikrofon**
Mikrofon: Lineare Aufnahme aller Frequenzen (idealisiert)
Ohr: Nichtlinear, frequenzabhängig empfindlich, kontextabhängig
**Beispiel: Fletcher-Munson-Kurven**
- Gleichlaute Kurven: Wie laut muss Frequenz X sein, damit sie gleich laut wie 1 kHz klingt?
- Bei 100 Hz: Muss ~20 dB lauter sein als 1 kHz (bei leisen Pegeln)
- Ohr ist weniger empfindlich bei tiefen/hohen Frequenzen
**MP3 nutzt das:**
- Weniger Bits für Frequenzen, wo Ohr unempfindlich
- Mehr Bits für 25 kHz (Sprachbereich, höchste Empfindlichkeit)
---
# Die Geburt der MP3
**Geschichte:**
- 1982: IIS Fraunhofer (Erlangen) startet Forschung
- 1987: Patent eingereicht (DE 3740215)
- 1992: MPEG-1 Audio Layer 3 (MP3) standardisiert
- 1995: Erste Software-Player (Winamp, 1997)
- 1998: Erste portable Player (Diamond Rio)
- 1999: Napster Massenadoption
**Kernentwickler:**
- Karlheinz Brandenburg (Fraunhofer IIS)
- Dieter Seitzer (Universität Erlangen)
**Ziel:** Audio über ISDN übertragen (64 kbit/s) mit akzeptabler Qualität
---
# Suzanne Vega: "Tom's Diner" Die Referenz
**Warum dieses Lied?**
Brandenburg testete MP3-Prototypen jahrelang mit Suzanne Vega's "Tom's Diner" (a cappella Version).
**Eigenschaften:**
- Klare Stimme (testet Vocal-Encoding)
- Minimal begleitet (keine Maskierung durch Instrumente)
- Dynamikreich (leise/laute Passagen)
- Sibilanten (S-Laute, schwierig zu kodieren)
**Resultat:**
- Codec-Entwicklung optimiert, bis "Tom's Diner" perfekt klang
- Andere Musik profitierte
**Kulturelle Bedeutung:**
"Tom's Diner" = "Mona Lisa der digitalen Audio-Ära" (weil so oft genutzt als Referenz)
---
# Wie funktioniert MP3? (Vereinfacht)
**7 Schritte:**
1. **Filterbank** (Polyphase + MDCT): Teile Signal in 32/576 Frequenzbänder
2. **Psychoakustisches Modell**: Berechne Masking-Threshold
3. **Quantisierung**: Quantisiere jedes Band entsprechend Threshold (grob wenn maskiert, fein wenn kritisch)
4. **Huffman-Coding**: Verlustfreie Kompression der quantisierten Werte
5. **Bitstream-Formatierung**: Packe in MP3-Frame-Struktur
6. **Optional: Bit Reservoir**: Nutze ungenutzte Bits von einfachen Frames für komplexe
**Dekodierung:** Umkehrung (Huffman De-Quantisierung IMDCT Synthese-Filterbank Audio)
---
# Bitrate: Der Qualitäts-Knopf
**Bitrate = Anzahl Bits pro Sekunde**
**Gängige MP3-Bitraten:**
| Bitrate | Qualität | Anwendung | Dateigröße/min |
|---------|----------|-----------|----------------|
| **64 kbit/s** | Niedrig (Telefon) | Sprache, Podcasts | 0,5 MB |
| **128 kbit/s** | Mittel (Radio) | Historisch populär | 1 MB |
| **192 kbit/s** | Gut | Guter Kompromiss | 1,4 MB |
| **256 kbit/s** | Sehr gut | iTunes Standard | 1,9 MB |
| **320 kbit/s** | Höchste (MP3) | "Transparent" (für die meisten) | 2,4 MB |
**CBR vs. VBR:**
- **CBR** (Constant Bitrate): Gleiche Bitrate durchgehend (einfach, verschwenderisch)
- **VBR** (Variable Bitrate): Bitrate variiert (komplexe Passagen höher, einfache niedriger) effizienter
---
# Variable Bitrate (VBR) vs. Constant (CBR)
**CBR (Constant Bitrate):**
- Feste Bitrate (z.B. 192 kbit/s) für gesamte Datei
- **Vorteil**: Einfach, Dateigröße vorhersagbar, Streaming-freundlich
- **Nachteil**: Verschwendet Bits bei einfachen Passagen, zu wenig bei komplexen
**VBR (Variable Bitrate):**
- Bitrate variiert: 128320 kbit/s je nach Komplexität
- **Vorteil**: Bessere Qualität bei gleicher durchschnittlicher Bitrate
- **Nachteil**: Dateigröße schwankt, manche alte Player hatten Probleme
**Beispiel:**
- Stille: VBR nutzt ~32 kbit/s (genug)
- Orchester-Crescendo: VBR nutzt 320 kbit/s (nötig)
- Durchschnitt: 192 kbit/s gleiche Dateigröße wie CBR 192, aber besser klingt
**Empfehlung (heute):** VBR (alle modernen Player unterstützen)
---
<!-- _class: lead -->
# VI. Verlustfreie vs. Verlustbehaftete Audio-Codecs
---
# Lossy-Codecs: MP3, AAC, Ogg Vorbis, Opus
| Codec | Jahr | Entwickler | Typische Bitrate | Effizienz | Status |
|-------|------|-----------|------------------|-----------|--------|
| **MP3** | 1993 | Fraunhofer/Thomson | 128320 kbit/s | Baseline | Patent-frei seit 2017 |
| **AAC** | 1997 | MPEG | 96256 kbit/s | ~30% besser als MP3 | Apple Standard, weit verbreitet |
| **Ogg Vorbis** | 2000 | Xiph.Org | 96256 kbit/s | Ähnlich AAC | Open Source, Spiele/Software |
| **Opus** | 2012 | IETF | 16256 kbit/s | Bester Lossy-Codec | WebRTC, Streaming, wächst |
**Opus:** Hybrid-Codec (SILK für Sprache, CELT für Musik), sehr niedrige Latenz, patent-frei
**AAC:** Apple Music, YouTube (Audio), bessere Qualität als MP3 bei gleicher Bitrate
---
# Lossless-Codecs: FLAC, ALAC, APE, WAV
| Codec | Jahr | Entwickler | Kompression | Plattform | Open Source |
|-------|------|-----------|-------------|-----------|-------------|
| **WAV** | 1991 | Microsoft/IBM | Keine (unkomprimiert) | Universal | Ja (Format) |
| **FLAC** | 2001 | Josh Coalson (Xiph) | ~50% | Alle (via FFmpeg) | Ja |
| **ALAC** | 2004 | Apple | ~4060% | Apple, FFmpeg | Ja (seit 2011) |
| **APE** | 2000 | Matthew T. Ashland | ~5060% | Windows (primär) | Nein (Freeware) |
**FLAC:** Standard für Lossless (unterstützt von fast allem)
**ALAC:** Apple-Ökosystem (iTunes, iPhone), aber FFmpeg unterstützt auch
**WAV:** Unkomprimiert, riesig, aber universell kompatibel
---
# Vergleichstabelle: Kompressionsrate, Qualität, Anwendung
| Kriterium | Lossy (MP3 320) | Lossless (FLAC) | Unkomprimiert (WAV) |
|-----------|-----------------|-----------------|---------------------|
| **Dateigröße** | 2,4 MB/min | ~5 MB/min | 10,6 MB/min |
| **Qualität** | "Transparent" (für die meisten) | Perfekt (bitgenau) | Perfekt |
| **Kompression** | ~4:1 | ~2:1 | 1:1 (keine) |
| **Editing** | Vermeiden (Generationsverlust) | Gut (verlustfrei) | Perfekt |
| **Streaming** | Ideal (klein) | Möglich (WLAN) | Unpraktikabel |
| **Archivierung** | ❌ (irreversibel) | ✅ | ✅ (aber groß) |
**Empfehlung:**
- Archiv: FLAC
- Mobil/Streaming: AAC 256 oder Opus 128
- Produktion: WAV oder FLAC (24-bit)
---
# Wann welches Format?
| Anwendungsfall | Empfohlenes Format | Begründung |
|----------------|-------------------|------------|
| **Spotify/Streaming** | Opus 128192 kbit/s | Effizient, niedrige Latenz |
| **iTunes/Apple Music** | AAC 256 kbit/s | Apple-Standard, gute Qualität |
| **Podcast** | MP3 6496 kbit/s (Mono) | Sprache braucht weniger |
| **Musik-Archiv** | FLAC 16-bit/44,1 kHz | Verlustfrei, zukunftssicher |
| **Studio-Aufnahme** | WAV 24-bit/96 kHz | Maximale Qualität |
| **Hi-Res Musik** | FLAC 24-bit/96 kHz | Verlustfrei, hohe Auflösung |
| **Gaming (Voicechat)** | Opus 1632 kbit/s | Niedrige Latenz |
| **Vinyl-Digitalisierung** | FLAC 24-bit/96 kHz | Bewahrt analoge Bandbreite |
---
# Audio-Container: MP3 vs. MP4 vs. OGG
**Container ≠ Codec**
**Container** = "Wrapper" (enthält Audio + Metadaten + optional Video/Untertitel)
**Codec** = Kompressionsalgorithmus (wie Daten kodiert sind)
**Beispiele:**
| Container | Typische Codecs | Extension | Anwendung |
|-----------|----------------|-----------|-----------|
| **MP3** | MP3 | .mp3 | Musik (historisch) |
| **MP4** | AAC, MP3, ALAC | .m4a, .mp4 | iTunes, Streaming |
| **OGG** | Vorbis, Opus | .ogg, .opus | Open Source, Spiele |
| **FLAC** | FLAC | .flac | Lossless Musik |
| **Matroska** | Alles | .mka | Flexibel, wenig genutzt |
**Verwirrendes Beispiel:**
- `.mp4` Datei kann AAC (häufig), MP3 (selten), oder ALAC (Apple) enthalten
- Nur Codec-Info gibt Qualität an, nicht Extension!
---
# Metadaten: ID3-Tags, Vorbis Comments
**Metadaten = Information über die Datei**
Beispiele: Artist, Album, Track Number, Cover Art, Genre, Year
**ID3-Tags (MP3):**
- ID3v1: 128 Bytes am Ende, limitiert (30 Zeichen Artist, etc.)
- ID3v2: Variable Länge am Anfang, umfangreich (Unicode, Bilder, Lyrics)
**Vorbis Comments (FLAC, OGG):**
- Text-basiert (key=value)
- Flexibler als ID3 (keine Feldlängen-Limits)
- Beispiel: `ARTIST=Suzanne Vega`, `ALBUM=Solitude Standing`
**Cover Art:**
- ID3v2: APIC-Frame (Attached Picture)
- Vorbis: METADATA_BLOCK_PICTURE (Base64-kodiert)
**Tools:** `ffmpeg -i file.mp3` (zeigt Metadaten), `id3v2`, `metaflac`
---
# Streaming-Formate: Adaptive Bitrate
**Problem:** Netzwerk-Bandbreite variiert (4G → Wi-Fi → 5G)
**Lösung: Adaptive Bitrate Streaming (ABS)**
**Prinzip:**
1. Server kodiert Audio in mehreren Bitraten (64, 128, 256 kbit/s)
2. Client misst Bandbreite
3. Client wählt passende Bitrate
4. Wechsel on-the-fly (bei Bandbreiten-Änderung)
**Protokolle:**
- **HLS** (HTTP Live Streaming, Apple): .m3u8 Playlist
- **DASH** (Dynamic Adaptive Streaming over HTTP, MPEG): .mpd Manifest
**Spotify:**
- Nutzt Ogg Vorbis mit ABS (96, 160, 320 kbit/s)
- Offline: Höchste Bitrate wird gespeichert
---
# Audio-Archivierung: Best Practices
**Ziel:** Langfristige Erhaltung (>50 Jahre)
**Format:**
- **FLAC** (16-bit/44,1 kHz minimum, besser 24-bit/96 kHz)
- **Alternativ:** WAV (aber größer, keine Metadaten)
**Speichermedium:**
- Lokal: HDD (extern, offline) + SSD (aktiv)
- Cloud: Backblaze, AWS Glacier (redundant, geografisch verteilt)
- Tape: LTO-9 (professionell, 18 TB, lange Haltbarkeit)
**3-2-1-Regel:**
- **3** Kopien (Original + 2 Backups)
- **2** verschiedene Medien (z.B. HDD + Cloud)
- **1** offsite (extern, Feuer/Diebstahl-schutz)
**Migration:**
- Alle 510 Jahre: Kopiere auf neue Medien (HDDs degradieren)
- Prüfe Checksums (MD5, SHA-256) → Datenintegrität
---
<!-- _class: lead -->
# VII. Kritische Perspektive
## Standards & Macht
---
# Der Patentkrieg: Fraunhofer Lizenzgebühren
**MP3-Patente (19872017):**
- Fraunhofer IIS + Thomson hielten Patente
- Lizenzgebühren: ~$2 pro MP3-fähiges Gerät, $0,01 pro verkauftem Song
- Einnahmen: >$1 Milliarde (geschätzt)
**Konsequenz:**
- Open-Source-Software (Linux, VLC) musste zahlen oder umgehen
- → Vorbis/Opus als patent-freie Alternative
**2017: Patente ausgelaufen**
- Alle MP3-Patente weltweit abgelaufen
- MP3 jetzt komplett frei nutzbar
- Aber: AAC/H.264/H.265 haben eigene Patente (MPEG LA)
**Kritik:**
Patente auf mathematische Algorithmen umstritten (sollte Wissen frei sein?)
---
# Warum Open-Source Ogg Vorbis nutzte
**Problem:** MP3-Patente
**Lösung:** Xiph.Org Foundation entwickelt **Ogg Vorbis** (2000)
- Patent-frei (nach bestem Wissen)
- Open Source (BSD-lizenziert)
- Bessere Qualität als MP3 (bei gleicher Bitrate)
**Adoption:**
- **Wikipedia** (Vorbis für Audio)
- **Spotify** (Vorbis für Streaming)
- **Gaming** (Unreal Engine, Unity unterstützen Vorbis)
- **Mozilla/Firefox** (frühe Unterstützung)
**Warum nicht dominanter?**
- MP3-Player-Hardware schon weit verbreitet (2000)
- Apple/Microsoft unterstützten nicht nativ (AAC/WMA stattdessen)
- Network-Effekt: "Alle nutzen MP3"
**Opus (2012):** Nachfolger, noch besser, IETF-Standard, patent-frei
---
# H.264 vs. AV1: Kampf um Video-Standards
**H.264 (2003):**
- MPEG LA Patent Pool (~1.000 Patente)
- Lizenzgebühren: Komplex (Encoder/Decoder/Distribution)
- **Dominiert** (YouTube, Blu-ray, Streaming bis ~2020)
**H.265/HEVC (2013):**
- 2× effizienter als H.264
- **Problem:** 3 Patent Pools (MPEG LA, HEVC Advance, Velos Media)
- Lizenzgebühren unklar, hoch
- → Adoption langsam
**AV1 (2018):**
- **Alliance for Open Media** (Google, Mozilla, Cisco, Amazon, Netflix, Intel, Microsoft, Apple)
- **Patent-frei** (Mitglieder gewähren royalty-free Lizenzen)
- ~30% effizienter als H.265
- **Adoption wächst:** YouTube (2021), Netflix (2021), Meta, TikTok
**Bedeutung:**
Open Standards verhindern Patent-Monopole, senken Kosten, fördern Innovation
---
# Napster: Kulturelle Revolution durch MP3
**Napster (19992001):**
- P2P File-Sharing (Shawn Fanning, 19 Jahre alt)
- 80 Millionen Nutzer (Peak, 2001)
- Teilen von MP3s → Urheberrechtsverletzung (massiv)
**Warum möglich?**
- MP3: Klein genug für 56k Modem (1 Song in ~10 Minuten)
- P2P: Dezentral (kein zentraler Server mit Musik)
**Musikindustrie-Reaktion:**
- Klagen (Metallica, Dr. Dre, RIAA)
- 2001: Napster geschlossen (Gerichtsbeschluss)
**Langfristige Auswirkung:**
- Zeigte: Menschen wollen digitale Musik, on-demand
- → iTunes Store (2003), Spotify (2008)
- Geschäftsmodell shift: Verkauf → Streaming
**Zitat (Steve Jobs, 2003):**
> "Napster showed us what people wanted. We just had to make it legal."
---
<!-- _class: lead -->
# VIII. Abschluss
---
# Zusammenfassung: Die Kernkonzepte
**Drei Ebenen des Signals:**
- Physisch (Realität) → Analog (kontinuierlich) → Digital (diskret)
**Digitalisierung:**
- Sampling (zeitlich) + Quantisierung (Amplitude) = Zahlen
- Nyquist-Theorem: Kein Verlust wenn SR ≥ 2× f_max
**Kompression:**
- Lossless (Redundanz) vs. Lossy (Psychoakustik)
- MP3: Psychoakustisches Modell → 10:1 Kompression
**Formate:**
- Lossy: MP3, AAC, Opus (Streaming)
- Lossless: FLAC, ALAC (Archiv)
**Kritische Perspektive:**
- Patente beeinflussen Standards (MP3, H.264)
- Open Standards (AV1, Opus) demokratisieren Zugang
---
# Fragen & Diskussion
**Offene Fragen?**
**Diskussionsthemen:**
- Vinyl vs. Digital: Subjektive Präferenz vs. objektive Messung?
- Streaming vs. Ownership: Was verlieren wir kulturell?
- AI-generierte Musik: Brauchen wir noch menschliche Künstler?
**Kontakt:**
[Ihre Kontaktinformationen]
---
# Selbstlernen: Audio-Spektrogramm, HEX-Files
**Aufgabe 1: Audio-Spektrogramm analysieren**
- Tool: Audacity (kostenlos)
- Laden Sie eine MP3 (128 kbit/s) und FLAC
- Vergleichen Sie Spektrogramm (Analyze → Plot Spectrum)
- Frage: Wo sehen Sie Unterschiede? (Hohe Frequenzen fehlen bei MP3?)
**Aufgabe 2: HEX-File untersuchen**
- Tool: `hexdump -C file.mp3 | head` (Linux/Mac) oder HxD (Windows)
- Finden Sie Magic Bytes (FF FB oder FF F3)
- Identifizieren Sie ID3-Tag (49 44 33 = "ID3")
**Aufgabe 3: Encodierung vergleichen**
- Enkodieren Sie WAV → MP3 (128, 192, 320 kbit/s)
- Blind-Test: Können Sie Unterschied hören?
- Tool: `ffmpeg -i input.wav -b:a 128k output.mp3`
---
# Lizenz & Attribution
**Vorlesungsinhalte:**
© 2025 [Ihr Name], Hochschule der Medien Stuttgart
Lizenz: CC BY-SA 4.0 (sofern nicht anders angegeben)
**Verwendete Quellen:**
- Shannon, C. E. (1948). "A Mathematical Theory of Communication"
- Pohlmann, K. C. (2010). *Principles of Digital Audio*
- Sterne, J. (2012). *MP3: The Meaning of a Format*
**Abbildungen:**
- Signal-Transformation: Eigene Darstellung
- Weitere Grafiken: Attributiert in jeweiligen Slides
**Danksagung:**
Fraunhofer IIS (MP3-Geschichte), Xiph.Org (Opus/Vorbis-Dokumentation)
---
<!-- _class: lead -->
# Bis zum nächsten Termin!
**Termin 2: Bild- & Videoformate**
- JPEG, PNG, WebP
- H.264, H.265, AV1
- Streaming-Technologien
**Vorbereitung:**
Lesen Sie: Watkinson, J. (2004). *The MPEG Handbook* (Kapitel 13)