Video- und Audio-Codierung nach dem MPEG-Standard

7.1 Entwicklung des MPEG-Standards

Nachdem in den achtziger Jahren mit durchwegs beachtlichen Erfolgen bei verschiedenen Institutionen intensiv an Verfahren zur Datenreduktion bei Audio- und Videosignalen gearbeitet wurde, war es naheliegend, über die Internationale Standardisierungs-Organisation ISO (International Standards Organisation) einen weltweit verbindlichen Standard zur Codierung von Audio- und Videosignalen zu schaffen. Dazu wurde vom Joint Technical Committee (JTC) der International Standards Organisation (ISO) und der International Electrotechnical Commission (IEC) eine Arbeitsgruppe aus Experten eingerichtet, die sich zunächst mit der Erarbeitung eines Standards zur Codierung von Standbildern unter Anwendung der DCT zum Zweck der Speicherung und Übertragung befassen sollte. Die Arbeitsgruppe etablierte sich unter dem Begriff Joint Photographie Experts Group, abgekürzt mit JPEG. Das Ergebnis der Arbeitsgespräche, der JPEG-Standard, wurde 1993 als ISO/ IEC 10918 veröffentlicht. Der ursprünglich nur für die Codierung von Standbildern gedachte JPEG-Standard lässt sich prinzipiell auch auf die Codierung von Bewegtbildern anwenden, wenn man diese als eine Folge von Standbildern betrachtet. Ein Interims-Ergebnis, ohne Festlegung auf einen Standard, führte zu dem Begriff Motion-JPEG, ein Verfahren, das aber wegen
• fehlender Standardisierung und daraus resultierenden Problemen bei der Abstimmung zwischen verschiedenen Anwendern und Herstellern, keine Bedeutung erlangte.

• der nur geringen Datenreduktion, bedingt durch die fehlende Ausnutzung der Ähnlichkeit von Teilbildern in zeitlicher Folge und

• nicht vorgesehener Audiocodierung und Multiplexbildung von Video- und Audio-Komponenten

Der nächste Schritt war nun die Erweiterung der Arbeitsgruppe zur Moving Pictures Expert Group, MPEG mit der Aufgabe, einen Algorithmus zur Codierung von bewegten Bildern und dem dazugehörigen Ton zu definieren. Das erste Ergebnis war der MPEG-1-Standard mit dem Titel „Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1,5 Mbit/s“, veröffentlicht am 1. August 1993 als ISO/IEC 11172-1 bis -3 und ausgerichtet auf Anwendungen bei Multimedia mit Computer und die Speicherung von komprimierten Videosignalen auf eine herkömmliche CD mit einer maximalen Datenrate von etwa 1,5 Mbit/s.
Um bei dieser niedrigen Datenrate noch annehmbare Bildqualität zu erreichen, wurde zunächst von gewissen Einschränkungen ausgegangen: Rasterauflösung in 352 x 288 Bildpunkte (aus dem SIF-Format mit 360 x 288 Bildpunkten durch Weglassen von jeweils 4 Bildpunkten am linken und rechten Bildrand, wegen der Unterteilung in Makroblöcke mit 16 x 16 Bildpunkten) und einer Bildwiederholfrequenz von < 30 Hz bei progressiver Abtastung. Die Datenreduktion beim Audiosignal erfolgt nach dem MUSICAM-Verfahren mit Layer l [8, 31]. Schon bald versuchte man, den MPEG-1-Standard auf das ITU-R-601-Format mit einer Rasterauflösung von 720 x 576 (bzw. 720 x 480 beim US-Standard) Bildpunkten auszuweiten. Es führte zu einer „MPEG-1 +“- und weiter zu einer „MPEG- 1,5“-Version. Aber es war kein Zeilensprungverfahren möglich.

Deshalb kam es zur Erarbeitung des MPEG-2-Standards mit dem Titel „Generic Coding of Moving Pictures and Associated Audio“, der von vorneherein für die Übertragung von Fernsehbildern mit progressiver oder Zeilensprung-Abtastung ausgerichtet war und die Codierung der vollen Rasterauflösung nach ITU-R BT.601 mit 4:2:2- oder 4:2:0-Chrominanzauflösung zulässt. Außerdem waren verschiedene Qualitätsstufen vorgesehen. Das Ergebnis lag zum Jahresende 1994 vor. Ein ursprünglich vorgesehener MPEG-3-Standard für hochauflösendes Fernsehen (HDTV) konnte entfallen, weil der MPEG-2-Standard mit seinen verschiedenen Qualitätsebenen, beschrieben durch „Levels“ und „Profiles“, neben SDTV auch HDTV abdeckt.

Dagegen wurde ein MPEG-4-Standard geschaffen, der für niedrige Datenraten bis 64 kbit/s und Anwendung bei Computer-Animation, mobile Bildkommunikation und Videokonferenzen gedacht war, sowie für Zuspielungen im Internet, Zukünftig wird die MPEG-4-Spezifikation mit der Einbeziehung des H.264 Advanced Video Code (AVC) bei der Codierung von HDTV-Signalen Bedeutung erlangen.

 

7.2 Der MPEG-2-Standard

Auf Grund der Anforderungen für den „Fernseh-Standard“, wie Fernsehsignalübertragung über Satelliten- und Kabelkanäle sowie terrestrische Netze, über ATM- und Computernetzwerke, Magnetband- und Disc-Aufzeichnung usw. wurden von der MPEG-Arbeitsgruppe geeignete Codierungswerkzeuge, so genannte „tools“ geschaffen, die an Stelle von festen Parametersätzen eine weitgehende Flexibilität gewährleisten. Mit diesen Codier-Werkzeugen werden komprimierte Video- und Audio-Datenströme generiert, die so genannten Elementary Bitstreams. Diese „elementaren Datenströme“ werden in Pakete unterteilt und im Zeitmultiplex nach den System-Vorgaben zusammengefasst. Ergänzend dazu werden zur Identifikation und Synchronisation notwendige Zeitmarken in den Datenstrom eingefügt. Bild 7.1 gibt dazu den prinzipiellen Ablauf wieder.

 

2.24.png

 

Von den Normungsgremien ISO und IEC wurde 1994 der MPEG-2-Standard ISO/IEC 13818 Generic Coding of Moving Pictures and Associated Audio mit den drei Teilen

ISO/IEC 13818-1 Systems

ISO/IEC 13818-2 Video

ISO/IEC 13818-3 Audio


spezifiziert, vergleichbar mit der bereits für den MPEG-1-Standard erfolgten Spezifizierung unter ISO/IEC 11172-1,-2,-3.

 

7.2.1 MPEG-2, Teil 1: Systems

Der MPEG-2-Systems-Teil baut auf den Festlegungen in MPEG-1-Systems auf und kann als dessen Erweiterung betrachtet werden, die im Wesentlichen zu der dualen Struktur des Multiplex-Datenstroms mit Programm-Datenstrom und Transport-Datenstrom führt. Der Systems-Standard definiert nicht die genauen Coder-Prozeduren. Vielmehr werden syntaktische, die Zusammenstellung betreffende und semantische, die Bedeutung betreffende Regeln für die Generierung der Bitströme festgelegt. Damit kann ein Decoder, dem diese Regeln bekannt sind, über geeignete Funktionseinheiten den Bitstrom richtig interpretieren. Die Syntax des Datenstroms beschreibt eine Pack-Layer und eine Packet Structure, mit deren Hilfe die komprimierten Video- und Audiodaten im Multiplex geordnet werden. Jedem Paket vorangehend werden Header- und Descriptor-Daten übertragen. Video- und Audio-Information werden zusammen mit ihren den Decodierzeitpunkt bestimmenden Decoding Time Stamps (DTS) und den für den Wiedergabezeitpunkt verantwortlichen Presentation Time Stamps (PTS) in aufeinanderfolgende Pakete eingebracht. Eine Folge von Paketen wird zu so genannten Packs mit Startcode und generellen Informationen über den Bitstrom, sowie der wichtigen System Clock Reference (SCR) als absoluter Zeitbasis zusammengefasst. Sowohl bei MPEG-1 als auch bei MPEG-2 liegt eine einzige Zeitbasis als Referenz für Codierung und Decodierung vor. Der System Time Clock (STC) weist bei MPEG-1 die Frequenz von 90 kHz auf. Bei MPEG-2 wurde die System Clock Frequency auf 27 MHz erhöht, um eine größere Genauigkeit der Zeitbasis sicherzustellen. Alle Codier-, Decodier- und Wiedergabezeitpunkte werden durch die DTS- und PTS-Marken bestimmt, die man durch Abtastung des System Time Clock (STC) während des Codiervorgangs erhält. Nähere Erläuterungen dazu folgen im Abschnitt 8.

 

7.2.2 MPEG-2, Teil 2: Video

Der MPEG-2-Standard wurde geschaffen, um komprimierte Videobilder für verschiedene Qualitätsebenen, von Low Definition Television (LDTV) über Standard Definition Television (SDTV) bis zu High Definition Television (HDTV), zu speichern oder zu übertragen. Um einerseits ein Maximum von Austauschbarkeit zu ermöglichen und andererseits nicht zu hohen Aufwand bei der Codierung und Decodierung auf niedrigerer Qualitätsebene zu bewirken, wurde bei MPEG-2 eine Konfiguration mit Profiles und Levels konzipiert und in den Standard aufgenommen. Die Profiles geben indirekt die Codierungstechnik an, beginnend mit der Chrominanzauflösung und ergänzend mit einer möglichen Skalierbarkeit. Das „einfachste“ Profil lässt darüber hinaus eine vereinfachte Prädiktion beim Hybrid- Coder zu. Es wird unterschieden in

• Simple Profile (SP), basierend auf 4:2:0-Abtastraster, keine bidirektionale Prädiktion (Erklärung folgt),

• Main Profile (MP), basierend auf 4:2:0-Abtastraster, keine Skalierbarkeit,

• SNR Scalable Profile (SNRP), entsprechend Main Profile mit SNR-Skalierbarkeit,

• Spatial Scalable Profile (SSP), entsprechend Main Profile mit Auflösungs-Skalierbarkeit und

• High Profile (HP), basierend auf 4:2:2-Abtastraster und gesamte Funktionalität mit Skalierbarkeit.

Die spatiale Skalierbarkeit kann zum Beispiel verwendet werden, um aus einem HDTV-Signal einen HDTV- und einen SDTV-Datenstrom zu erzeugen. Mit der SNR-Skalierbarkeit können zwei Datenströme erzeugt werden, die bei gleicher örtlicher Auflösung einer unterschiedlichen Quantisierung zuzuordnen sind. Damit besteht die Möglichkeit, bei ungünstigen Empfangsbedingungen nur den robusteren Anteil, aber mit gröberer Quantisierung auszuwerten [33]. Die Levels beziehen sich auf die Werte der Hauptparameter wie Bildformat, Anzahl der Pixel horizontal und vertikal und maximale Bitrate, die bestimmend ist für die Kapazität des Eingangs-Buffers beim Decoder. Die Levels werden zugeordnet wie in Tabelle 7.1 angegeben.

 

Tab. 7.1: Levels beim MPEG-2-Standard

 

6.15.png

 

Der Low Level (LL) bezieht sich auf SIF-Auflösung, der Main Level (ML) berücksichtigt die volle Auflösung bei SDTV nach ITU-R 601.


Bei HDTV wurde unterschieden zwischen High 1440 Level (H14L) mit 1440 Bildpunkten pro Zeile, gedacht mit 25 bzw. 30 Zeilensprung-Bilder pro Sekunde, und der vollen Breitbildauflösung mit 1920 Bildpunkten pro Zeile beim High Level (HL), ggf. mit 50 bzw. 60 progressiv abgetasteten Bildern pro Sekunde, um eine stufenweise Einführung von HDTV zu ermöglichen.

Das Pixel-mal-Bilder/s-Produkt, das indirekt die Buffer-Größe zum Ausdruck bringt, ist für den europäischen und den amerikanischen Standard entweder vollkommen oder annähernd gleich, wie nachfolgende Berechnung beweist.

 

2.25.png

 

Die möglichen und bisher als notwendig und sinnvoll erachteten Kombinationen von Levels und Profiles zeigt Tabelle 7.2 auf. Die Verbindung von Profile mit Level erfolgt mit dem „at“-Zeichen @.

 

2.26.png

Für die Fernseh-Produktionstechnik im Studio hat sich mittlerweile ein eigener Standard mit der Bezeichnung

 

2.27.png

 

und einer Bitrate von 50 Mbit/s als sinnvoll erwiesen. Es handelt sich um ein „modifiziertes“ Main Profile mit 4:2:2-Abtastraster, weil eine Bitrate von 50 Mbit/s nach der Profile-Level-Organisation mit der HP@ML-Kombination nicht zugelassen ist. Die hohe Bitrate von 50 Mbit/s ist dadurch bedingt, dass für Studiobearbeitung, insbesondere wegen der Vornahme von Schnitten, die Länge der Group of Pictures (GOP) nur ein oder zwei Bilder betragen darf (GOP siehe später).

Die praktische Ausnutzung der nach MPEG-2 definierten Level beim Rundfunk-Fernsehen beschränkt sich in Europa zurzeit nur auf den Main Level beim Standard-Fernsehen mit 625 Zeilen (576 aktive Zeilen) und 50 Halbbildern/s, d.h. mit Zeilensprung. HDTV im High Level mit 1250 Zeilen (1080 aktive Zeilen) mit Zeilensprung oder mit progressiver Abtastung ist für zukünftige Anwendungen vorgesehen. Dahingegen wird in den USA gemäß den vom FCC (Federal Communications Commission) schon Mitte 1996 festgelegten 18 Parameter-Kombinationen sowohl im Main Level als auch im High 1440 und High Level neben dem Standard-Fernsehen auch hochauflösendes Fernsehen von verschiedenen Rundfunkanstalten bereits angeboten.

Verschiedene Interessen wie Rundfunk, Computer-Industrie und Kinofilm sind zu berücksichtigen. Die traditionellen Fernsehempfänger-Hersteller in den USA sind bereit, alle 18 Formate zu implementieren, wogegen die Computer-Industrie, vertreten durch das Digital-TV-Team mit Compaq, Microsoft und Intel, eine praktikable Untermenge des von der FCC bestätigten ATSC-Vorschlags (Advanced Television Systems Committee) befürwortet. Dabei steht vor allem die progressive Abtastung im Vordergrund. Tabelle 7.3 gibt die Situation nach dem Stand von 1997 wieder, mit den vom Digital-TV-Team bevorzugten Formaten in Fettdruck.

 

2.28.png

 

Die Video-Codiertechniken von MPEG-1, die auf der so genannten Hybridcodierung, der Kombination von DPCM mit Bewegungskompensation und DCT basieren, können auch für höhere Bitraten nun bei MPEG-2 angewendet werden. Später wird an Hand eines Blockschaltbildes der Funktionsablauf in dem MPEG-2-Video-Encoder erläutert. Die Codierung wird auf verschiedenen Ebenen vorgenommen, um dem Datenstrom eine hierarchische Struktur zu geben. Damit wird der Decodierprozess vereinfacht. Der MPEG-2-Video-Standard definiert für die Codierungseinheiten so genannte Layers beim Videodatenstrom.

Ihre Kennzeichnung erfolgt über spezielle Codeworte. Die Layers beim MPEG-2-Video-Datenstrom werden, von der obersten Stufe ausgehend, bezeichnet mit

• Sequence Layer (Video-Reihenfolge),

• Group of Pictures Layer (Gruppe von Bildern),

• Picture Layer (Bild),

• Slice Layer (Scheibe),

• Macrobiock Layer (Makroblock) und

• Block Layer (Block).

 

Bild 7.2 gibt die Zuordnung der Layers innerhalb einer Video-Sequenz grafisch wieder.

 

7.0.png

Abb. 7.2: Layers beim MPEG-2-Video-Datenstrom

 

Die Bedeutung der Layers ist folgende:

• Die Sequence Layer als oberste Schicht definiert die Basis-Parameter für die „Video-Sequenz“, z.B. ein Programmbeitrag. Zu den Basis-Parametern gehören das Abtastraster für Chrominanz (4:2:2 oder 4:2:0), Anzahl der horizontalen und vertikalen Bildpunkte, Bildpunkt-Seitenverhältnis vertikal-zu-horizontal (0,6735 bis 1,2015), Bitrate, minimal erforderliche Kapazität des Eingangsbuffers beim Decoder, maximale Größe der DCT-Koeffizienten (±255 oder ±2047), Quantisierer-Matrix und weitere Angaben.

• Die Group of Pictures Layer (GOP) beschreibt die Prädiktion innerhalb einer Gruppe von Teilbildern (geschlossene GOP) bzw. gibt einen Hinweis, wenn Bewegungsvektoren auf Bilder außerhalb dieser GOP zeigen. Es wird die Zusammensetzung dieser Gruppe von Teilbildern beschrieben aus.

• intracodierten Bildern (I-Pictures), die ganz ohne Bezug auf andere Teilbilder im Vollbild oder im Halbbild codiert werden und die notwendig sind für den Neuzugriff auf eine Bildsequenz,einseitig vorhergesagten Bildern (P-Pictures), die mit dem Verfahren der Bewegungskompensation über Bezug auf ein vorangehendes intracodiertes oder ein bereits einseitig vorhergesagtes Bild codiert werden und Stützpunkte für die Rekonstruktion der kompletten Bildsequenz bilden.

• zweiseitig, bidirektional, vorhergesagten Bildern (B-Pictures), die über Bezug auf ein vorangehendes und ein folgendes Teilbild als eine bidirektionale Interpolation codiert werden.

Um stets einen Neustart des Decodiervorgangs zu gewährleisten, müssen I-Bilder mindestens etwa alle 0,5 s übertragen werden. P- und B-Bilder sind nach einer definierten Reihenfolge zwischen den I-Bildern eingeordnet. Siehe dazu Bild 7.3. I-Bilder weisen die geringste Datenreduktion auf, B-Bilder sind mit der höchsten Datenreduktion verbunden.

In der Picture Layer ist die Information über die Position des Bildes innerhalb der GOP und die Codierung des einzelnen Teilbildes als I-, P- oder B-Bild enthalten und außerdem eine Angabe, ob es sich um ein Vollbild oder um das erste oder zweite Halbbild handelt. Der Video-Encoder kann für jedes Teilbild entscheiden, ob Vollbild- oder halbbildbasierte Prädiktion zum besseren Ergebnis führt.

Die Slice Layer dient zur Angabe einer expliziten Position innerhalb eines Bildes und ist für die Resynchronisation notwendig. Eine „Scheibe“ (Slice) wird aus einer Folge von Makroblöcken gebildet. Die Gesamtheit der Slices überdeckt das gesamte Teilbild. Ein Slice kann theoretisch von einem Makroblock bis zum ganzen Bild reichen. Die Anzahl der Makroblöcke in einer Slice wird in der Slice Layer angegeben. Die Macroblock Layer ist die Basis für die bewegungskompensierte Prädiktion. Es werden darin die Bewegungsvektoren übertragen. Ein Makroblock weist üblicherweise 16x16 Pixel beim Luminanzsignal auf. In der Block Layer finden sich die Koeffizienten aus den DCT-transformierten 8x8-Pixel-Blöcken. Bei I-Bildern ist es die Information aus dem Originalbild, bei P- und B-Bildern aus dem Differenzbild.

Innerhalb einer Group of Pictures kann die Anzahl und Reihenfolge aufeinanderfolgender I-, P- und B-Bilder für verschiedene Anwendungen unterschiedlich gewählt werden. Tabelle 7.4 gibt hierzu einige typische Beispiele. Der Abstand zwischen aufeinanderfolgenden I-Bildern wird mit dem Parameter N angegeben, der Abstand der P-Bilder durch den Parameter M. Die Tabelle gibt die Reihenfolge am Eingang des Coders (Cod) und die Reihenfolge der Übertragung (Übtr) an, weil eine Umsortierung notwendig wird, wie später an Hand von Bild 7.4 erläutert wird.

 

Tab. 7.4: Beispiele verschiedener Kombinationen von I-, P- und B-Bildern innerhalb einer Group of Pictures

 

2.29.png

 

Bei Anwendungen mit niedriger Bitrate, wo also eine hohe Datenkompression notwendig ist, werden umfangreiche Kompressionsmöglichkeiten benötigt. Vielfach wird deshalb mit den Parametern n12_formel.png und m13_formel.png gearbeitet. Bild 7.3 zeigt die Teilbildfolge innerhalb der Group of Pictures für diese Parameter-Kombination und die dabei ablaufende Prädiktion.

 

2.30.png

 

Der Parameter n12_formel.png erlaubt jedoch nur in Abständen von 480 ms den Zugriff auf intracodierte Bilder. Das kann zu Problemen beim Editieren von Videobildern führen. Für eine Nachbearbeitung ist deshalb diese Kombination nicht geeignet. Eine Folge von nur intracodierten Bildern wäre hier am besten, liefert aber die geringste Datenreduktion. Siehe dazu auch nachfolgendes Zahlenbeispiel. Datenreduktion vom Studio-Quellensignal bis zum MPEG-2-Signal am Beispiel einer Group of Pictures, mit n12_formel.pngund m13_formel.png

Ausgangssituation: Netto-Bitrate des aktiven Videoanteils aus dem DSC-270Mbit/s-Signal 207,36 Mbit/s bei 10bit-Codierung bzw. 165,888 Mbit/s bei 8bit-Codierung

Nächster Schritt: Übergang vom 4:2:2-Abtastraster auf das 4:2:0-Abtastraster 

Berechnung der Datenmenge eines Teilbildes:

 

2.31.png

 

Mit 25 Bildern/s ergibt das eine Bitrate von 124,4 Mbit/s. Nach Datenreduktion über Differenzbildübertragung (nur bei P- und B-Bildern) und DCT mit nachfolgender RLC und VLC erhält man aus der statistischen Auswertung von Bildmaterial

 

2.32.png

 

Damit berechnet sich die Datenmenge in einer GOP, mit l-B-B-P-B-B-P-B-B-P-B-B

 

2.33.png

 

entsprechend einer mittleren Datenrate über 12 Teilbilder (in 12 x 40 ms = 480 ms) von 1,64 Mbit/0,48 s = 3,42 Mbit/s.

Wie in Tabelle 7.4 schon erwähnt, werden die Teilbilder aus der GOP zur Übertragung umsortiert. Zur Rekonstruktion von P- oder B-Bildern beim Decoder muss die übertragene Differenz zwischen P- und I-Bild bzw. zwischen B-Bild und I- sowie P-Bild wieder zu dem I-Bild bzw. dem Mittelwert aus I- und P-Bild addiert werden. Dazu ist es notwendig, beim Decoder das I- und das P-Bild zu speichern. Die gewählte Umsortierung bei der Übertragung erfordert nur beim Encoder vier Teilbildspeicher (Sp) und kommt aber beim Decoder mit zwei Teilbildspeichern (Sp) aus. Siehe dazu Bild 7.4.

Dem Decoder wird mit dem Picture Header in der Picture-Layer die jeweilige Art des Bildes, ob I-, P- oder B-Bild mitgeteilt. In den I-Bildern werden alle Makroblocke ohne Prädiktion codiert, das heißt es wird das Originalbild übertragen. Dagegen wird bei den P- und B-Bildern die Art der Codierung, ob über eine Prädiktion oder „Intracodiert“, für jeden Makroblock neu bestimmt, abhängig von der „Qualität“ der Prädiktion. Somit können auch verschiedene Makroblöcke in P- und B-Bildern intracodiert werden.

 

2.34.png

Abb. 7.4: Verarbeitung und Übertragung der Teilbilder innerhalb einer Group of Pictures

 

Wie nachfolgend in Bild 7.6 gezeigt, erfolgt die Regelung einer konstanten Datenrate am Ausgang des Hybrid-Encoders, mit Bewegungskompensation und DCT, durch eine gesteuerte Rückkopplung auf die Quantisierungsstufe. Man vermeidet so, dass bei vielen hohen Frequenzanteilen oder bei einem Versagen der Prädiktion auf Grund zu starker Änderungen im Bild der Ausgangsbuffer beim Encoder nicht mehr aufnahmefähig ist. In diesem Fall wird die Quantisierungsstufenhöhe vergrößert, was allerdings eventuell auch die Bildqualität kurzzeitig verschlechtert. Die Beeinflussung der Quantisierung erfolgt über einen von Makroblock zu Makroblock variablen Quantisierungsfaktor, der von der Buffer-Steuerung eingestellt werden kann. Abhängig von der Quantisierung fließen damit mehr oder weniger Daten in den Ausgangs-Buffer.

Reicht die Einstellung des Quantisierungsfaktors in den Grenzen von 1 bis 31 nicht aus, um einen Überlauf des Buffers zu verhindern, so treten so genannte „skipped macroblocks“ auf, d.h. diese Makroblöcke werden nicht codiert und durch entsprechende Makroblöcke des vorangehenden Bildes ersetzt. Mit der Festlegung der Makroblöcke als Grundeinheit für die Bewegungsschätzung und Kompensation bietet sich die Möglichkeit, denselben Bewegungsvektor sowohl für das Luminanzsignal, mit dem die Bewegungsschätzung vorgenommen wird, als auch für die Chrominanzsignale zu verwende. Je nach dem Abtastraster ergibt sich eine entsprechende Makroblock-Block- Zuordnung, wobei stets der gesamte Makroblock-Bildausschnitt von den Blöcken für das Luminanzsignal y_formel.png und die beiden Chrominanzsignale CB_formel.png und cr_formel.png abgedeckt wird (Bild 7.5).

 

7.8_formel.png

Abb. 7.5: Makroblock-Block-Zuordnung beim 4:4:4-, 4:2:2-und 4:2:0-Abtastraster

 

Die Makroblöcke und Blöcke sind jetzt nur indirekt „zeilengebunden”, weil eine Anzahl von 16 bzw. 8 übereinander liegenden Bildpunkten aus 16 bzw. 8 aufeinanderfolgen Zeilen des Vollbildes für die Makroblock- bzw. Blockbildung herangezogen werden. 

Bei dem 4:4:4-Abtastraster bilden jeweils vier Blöcke des y_formel.png-, CB_formel.png- bzw. cr_formel.png- Signals einen Makroblock. Das ergibt bei einem SDTV-Signal mit 720 Bildpunkten pro aktive Zeile und 576 aktiven Zeilen, aus

720:16 = 45               und         576:16 = 36,

sowohl für das y_formel.pngSignal als auch für die Chrominanzsignale CB_formel.png- und cr_formel.png- eine Anzahl von

45 x 36 = 1620 Makroblöcke pro Bild

und entsprechend

90 x 72 = 6480 Blöcke pro Bild.

 

Bezogen auf die geometrische Breite des sichtbaren Fernsehbildes mit z.B. 52 cm, bei einer Diagonale von 65 cm, würden auf einen Makroblock etwa 1,15 cm entfallen. Den vier Blöcken des Signals beim 4:2:2-Abtastraster werden jeweils zwei Blöcke des CB_formel.png- bzw. cr_formel.png- Signals mit nun „breiteren” Pixeln zugeordnet, weil ja nur über zwei nebeneinander liegende Original-Pixel ein Chrominanz-Abtastwert gewonnen wird. Beim 4:2:0-Abtastraster schließlich wird der Bildbereich eines Makroblocks für das Y-Signal mit 16 x 16 Pixel durch einen gleich großen Bereich für jeweils einen Makroblock oder auch Block mit 8 x 8 nun „größeren”, aber wieder quadratischen Pixeln für das CB- bzw. CR-Signal abgedeckt. Zusammenfassend gibt nun Bild 7.6 das Funktionsschema eines MPEG-2- Video-Encoders wieder. Es zeigt die Verarbeitung beim Luminanzsignal. Die parallele Verarbeitung der beiden Chrominanzsignale kommt ohne die Bewegungsschätzung aus, wie oben erläutert.

Das Eingangssignal aus dem Videoanteil des digitalen Studiosignals wird entweder im 4:2:2-Abtastraster übernommen (High Profile) oder durch Filterung und Dezimation beim Chrominanzanteil auf das 4:2:0-Abtastraster gebracht (Main Profile). Es folgt die Makroblock- und Block-Zuordnung der Pixel. Dazu müssen die Pixel aus 16 bzw. 8 Zeilen in einen Speicher übernommen werden.

Bei intracodierten Bildern (I-Bilder) wird das Signal dann blockweise der DCT zugeführt. Nach Quantisierung und Rundung der DCT-Koeffizienten werden diese im Zick-Zack-Verfahren ausgelesen und über eine Lauflängencodierung (RLC) und Variable-Längen-Codierung (VLC) einem Multiplexer zugeführt, der charakteristische Größen aus der Sequence Layer und der Group of Picture Layer einbringt. Vom Ausgangsbuffer aus erfolgt wiederum die Steuerung des Quantisierungsfaktors.

 

2.36.png

 

Bei prädizierten Bildern, ob einseitig prädiziert (P-Bilder) oder zweiseitig prädiziert (B-Bilder), gelangt das Differenzbild zur DCT. Dieses erhält man auf Makroblock-Ebene aus dem Vergleich des aktuell anliegenden Bildes mit der Prädiktion von dem vorangehenden Bild, das mit den aus der Bewegungsschätzung ermittelten Bewegungsvektoren in den Makroblökken so verschoben wird, dass es dem aktuellen Bild möglichst gleich kommt. Die Prädiktion baut sich aus dem gespeicherten I- oder P-Bild und der über inverse DCT und inverse Quantisierung zurückgewonnenen Differenz auf. Die Daten über die Art der Prädiktion und die Bewegungsvektoren werden nach einer variablen Längen-Codierung dem Multiplexer zugeführt und in den Ausgangsdatenstrom eingefügt.

Der Video-Encoder entscheidet über die Vorgabe der I-, P- oder B-Bilder hinaus abhängig vom aktuellen Bildinhalt, ob ein Makroblock in einem P- oder B-Bild

• intraframe codiert wird, also komplett neu mittels DCT,

• differenz-codiert wird oder

• übersprungen wird {skipped), wenn es keine Differenz gibt, und ob die Codierung

• vom Vollbild (frame encoded) oder

• von den Halbbildern aus erfolgt.

Bei der Vollbild-Codierung kann zwar die Bildqualität etwas leiden, aber es kommt zu einer besseren Korrelation zwischen den aufeinanderfolgenden Zeilen und die Datenreduktion ist höher als bei der Halbbild-Codierung, die aber wiederum eine bessere Bildqualität ermöglicht.

Eine Vorgabe bei der Festlegung des MPEG-2-Standards war auch, dass der Decoder möglichst einfach zu realisieren sein sollte. Dies zeigt sich u. a. im Wegfall der aufwändigen Bewegungsschätzung zur Bestimmung der Bewegungsvektoren, weil diese ja vom Encoder her übertragen werden. Ein Funktionsschema des MPEG-2-Video-Decoders gibt Bild 7.7 wieder.

 

2.37.png

 

Im Decoder laufen prinzipiell die umgekehrten Vorgänge wie im Encoder ab. Mit konstanter Bitrate wird der Datenstrom dem Eingangsbuffer zugeführt und gelangt von dort zum Demultiplexer. Ein Header-Detektor wertet zunächst die Daten in der Sequence Layer aus. Die Verarbeitung der weiteren Daten wird nach Decodierung der Lauflängencodierung und variablen Längencodierung übereine Funktionssteuerung in den einzelnen Stufen vorgenommen. Zu berücksichtigen ist die in der Quantisierungstabelle übertragene aktuelle Situation bei der inversen DCT. Es folgt die Rücksortierung von den Blöcken und Makroblöcken in das zeilenorientierte Ausgangsbild. Dieses setzt sich aus den übertragenen I-Bildern und den mit der Prädiktion zusammengefassten Differenzbildern zur Rekonstruktion der P- und B-Bilder zusammen. Am Ausgang stehen wieder die Komponentensignale y_formel.png CB_formel.pngund cr_formel.png zur Verfügung. 

7.2.3 MPEG-2, Teil 3: Audio

Der MPEG-2-Audio-Standard übernimmt im Wesentlichen die Vorgaben von MPEG-1 -Audio mit der Unterteilung in Layer I, II und III. Die Layer sind abwärtskompatibel organisiert, so dass ein Layer-Ill-Decoder auch den Layer-Il- und Layer-I-Datenstrom decodieren kann. Gegenüber MPEG-1 wurde MPEG-2-Audio auf Mehrkanal- und Surround-Codierung erweitert, und zwar in einer rückwärts- und vorwärtskompatiblen Weise, was bedeutet, dass ein MPEG-1-Audio-Decoder die Stereoinformation eines MPEG- 2-Audio-Datenstroms decodieren kann. Umgekehrt kann ein MPEG-2-Audio- Decoder die im MPEG-1-Datenstrom enthaltenen Mono- und Stereo-Audiosignale wiedergeben. Siehe dazu auch Bild 6.8.

Die Mehrkanal-Erweiterung ist wegen der höheren Gesamtdatenrate auf die Layer II und III beschränkt, wie aus Tabelle 7.5 zu ersehen ist. Die Mehrkanal-Codierung erstreckt sich über die beiden Stereokanäle L und R, den Mitten-Front-Kanal C und zwei Raumklang-Kanäle LS und RS. Zusätzlich kann ein Effekt-Kanal codiert werden.

 

2.38.png

MPEG-2-Audio sieht auch noch zusätzliche Abtastfrequenzen von 16 kHz, 22,05 kHz und 24 kHz für die Codierung mit sehr niedrigen Bitraten vor.  Neben der von MPEG-1-Audio übernommenen Teilbandcodierung wurde bei MPEG-2 das Verfahren „Advanced Audio Coding (AAC)“ in den Standard ISO/IEC 13818-7 aufgenommen. Typische Datenraten für ein Stereo-Audiosignal liegen bei MPEG-2 zwischen 128 und 256 kbit/s. Die Tendenz geht jedoch in Richtung „Surround Sound”, besonders bei der Übertragung von Kinofilmen. Der Mehrkanalton bei Kinofilmen (Movie Soundtrack) erfordert Datenraten zwischen 320 und 640 kbit/s. MPEG-2 definiert hierfür die „Multichannel-Version” mit fünf Audiokanälen bei voller Bandbreite (20 Hz bis 20 kHz) und einem tieffrequenten Effektkanal (etwa 30 bis 120 Hz). Dieser wird auch als LFE Channel (Low Frequency Enhancement Channel) oder Subwoofer Channel bezeichnet.

In diesem Zusammenhang wird auch der Begriff Dolby Digital 5.1 verwendet (siehe dazu auch Abschnitt 6.4). Den fünf hochwertigen Audiokanälen ist ein schmalbandiger Effektkanal zugeordnet, der auch nur etwa 1/10 (.1 in englischer Schreibweise) der Datenrate eines breitbandigen Kanals erfordert. Des Weiteren können bei MPEG-2-Audio, Layer II noch bis zu sieben Sprachkanäle (Mehrsprachen-Ton, Kommentare oder Telekonferenz) mit wählbaren Abtastfrequenzen übertragen werden.

 

7.3 Weitere MPEG-Standards: MPEG-4, MPEG-7, MPEG-21

Die Festlegung des MPEG-4-Standards stand zunächst unter dem Aspekt von sehr niedrigen Datenraten der komprimierten Video- und Audiosignale für die Anwendung bei Multimedia und Internet-Übertragung. Daneben sollte dem Fernsehzuschauer eine nutzerangepasste und interaktive Navigation angeboten werden. Im Unterschied zu den bisherigen MPEG-Standards basiert MPEG-4 auf einer Aufteilung der Bildvorlage in Verbindung mit dem Begleitton in einzelne audiovisuelle Objekte. Die eigenständige Beschreibung dieser Objekte innerhalb des gesamten Datenstroms mit Hilfe einer speziellen Beschreibungssprache ermöglicht es, die vorliegende Szene auf der Empfängerseite durch Benutzerinteraktion nach eigenen Vorstellungen des Fernsehteilnehmers zu verändern. Damit bleiben Funktionen, die bisher nur während der Produktion des Programmbeitrags ausführbar waren, auf dem gesamten Signalweg erhalten. Mit dem später geschaffenen MPEG-7-Standard bietet sich damit eine Plattform für so genannte „Mehrwertdienste“.

Der MPEG-4-Standard nach ISO/IEC 14496 weist, wie auch bei MPEG-1 und MPEG-2 definiert, neben den Teilen Systems (14496-1), Audio- (14496-2) und Video (14496-3 Codecs) noch weitere Teile auf, von denen jedoch der Teil AVC (Advanced Video Coding) (14496-10) eine weit reichende Bedeutung erlangt hat. Von ITU-T wurden im Laufe der vergangenen Jahre Video-Kompressions-Standards definiert, die unter der Bezeichnung H.261 in MPEG-1 (Teil 2), H.262 in MPEG-2 (Teil 2)und H.263 in MPEG-4 (Teil 2) übernommen wurden. Es folgte ein neues, wesentlich verbessertes Kompressionsverfahren, das von der ITU-T mit H.264 bezeichnet und in MPEG-4, Teil 10, AVC eingebracht wurde.

Mit AVC/H.264 reduziert sich die Datenrate des komprimierten Videosignals gegenüber dem bei MPEG-2 verwendeten Verfahren auf die Hälfte oder weniger, bei gleicher Qualität des rekonstruierten Bildes. Allerdings ist die Rechenkomplexität auch um den Faktor zwei bis drei höher. H.264 wurde nicht für eine spezielle Anwendung entwickelt. Das Kompressionsverfahren bietet sich aber optimal an für den Einsatz bei HDTV-Übertragung, sowie bei der HD-DVD und Blu-ray-Disc [91]. Auch bei Videoübertragung auf Mobiltelefone oder PDAs mit dem DVB-H- oder DMB-Standard kommt H.264 zum Einsatz.

Gegenüber MPEG-2 weist die Videocodierung nach H.264 deutliche Veränderungen und Erweiterungen auf. Diese sind u. a.:

• An Stelle der Diskreten Cosinus-Transformation (DCT) auf 8x8-Pixel-Blöcke wird eine von der DCT abgeleitete Integertransformation auf 4x4-Pixel-Blöcke verwendet.

• Die Entropiecodierung (VLC) wurde an die veränderte Transformation angepasst.

• Die Makroblöcke mit 16x16 Pixel können auf Unterblöcke bis hinab auf 4x4 Pixel unterteilt werden.

• Die Bewegungskompensation ist immer auf 1/4 Pixel genau zum besseren Erhalt der Bildschärfe.

• Auch innerhalb von I-Bildern gibt es eine Prädiktion zu umliegenden Pixeln.

• P-Bilder und B-Bilder können nicht nur Referenzen auf das letzte I- oder P-Bild enthalten, sondern auch auf praktisch maximal fünf vorhergehende Referenzbilder.

• Mit einem Deblocking-Filter als integraler Bestandteil von H.264 wird der Bezug auf decodierte, aber bereits gefilterte Referenzbilder gewonnen.

• Die Makroblöcke innerhalb eines Slices können in relativ freier Reihenfolge angegeben werden. Dies ermöglicht eine Fehlerverdeckung bei Kanalverlusten, z.B. bei Videoübertragung im Mobilfunk.

MPEG-7-Standard mit dem Titel „Multimedia Content Description Interface” standardisiert die Techniken zur Beschreibung von Multimediadaten. Dieser Standard liefert ähnlich wie bei MPEG-2 der Abschnitt 1, Systems die „Grammatik” der beschreibenden Merkmale. Diese können sich auf Standbilder, Grafiken, dreidimensionale Modelle oder Musik beziehungsweise Sprache beziehen und zusätzlich auch Information enthalten, wie diese Elemente in einer gemeinsamen Präsentation zusammengefügt werden, MPEG-7 wurde im Jahr 2001 zum ISO/ IEC-Standard erklärt. Die programmbegleitenden Daten werden auch als Meta-Daten bezeichnet. Eine praktische Anwendung hat MPEG-7 zum ersten Mal bei der MHP (Multimedia Home Platform) gefunden als ein Standard für die neuere Generation der Set-Top-Box, als Zusatzgerät für den Empfang von digitalen Fernsehsignalen.

Die nach MPEG-4 und MPEG-7 aufbereiteten Datenströme bilden eine Ergänzung zu einem MPEG-1- oder insbesondere MPEG-2-Datenstrom. Dazu werden sendeseitig nach einer MPEG-2-adaptierten Umsetzung der MPEG-4-Teildatenströme diese zusammen mit dem ergänzenden MPEG-7-Datenstrom in einem Multiplexer in den MPEG-2-Transportstrom eingebracht (Bild 7.8, links). Empfängerseitig erfolgt zunächst eine parallele Verarbeitung des MPEG-2-Hauptdatenstroms und der zusätzlich übertragenen MPEG-4- und MPEG-7-Anteile. Ein Compositor verarbeitet die Teildatenströme zu den für die Bild- und Ton-Wiedergabe am Fernsehempfänger erforderlichen Signalen (Bild 7.8, rechts).

 

2.39.png

 

Der MPEG-4-Standard erweitert einerseits die in MPEG-2 implementierte Technik um die Interaktionsmöglichkeit mit einzelnen Video-, Audio- oder Grafikobjekten und ist damit wesentlich auf den vom Computer gewohnten Umgang mit Multimedia ausgerichtet. Andererseits lassen sich mit MPEG-4 Video- und Audiodaten sehr stark komprimieren und fehlerresistent aufbereiten, so dass diese Daten auch über neuere GSM-Mobilfunknetze übertragen werden können. Auch bei der Datenreduktion von HDTV-Signalen wird, wie schon erwähnt, das in MPEG-4-10 eingebrachte Verfahren nach H.264 zur Anwendung kommen. Zur Vorbereitung vom MPEG-21-Standard befasste sich die MPEG-Arbeitsgruppe zunächst mit einer Analyse der Situationen, die zukünftig bei der Komposition von individuellen Multimedia-Produktionen auftreten. Das Ergebnis dieser Analyse wurde als technischer Report definiert mit dem Titel „Vision, Technologien und Strategie”. Jeder elementare Multimediainhalt wird als digitaler Artikel bezeichnet. Im Weiteren werden sieben Unterabschnitte festgelegt, in denen detaillierte Festlegungen zu treffen sind. Bis Mitte 2002 waren die Inhalte von zwei dieser Unterabschnitte festgelegt. Das Ziel von MPEG-21 ist ein technischer Rahmen für die Abwicklung von Produktion, Verteilung und Ausnutzung von Multimedia auf einem durchgehend digitalen Weg.

 

 

Entdecken Sie auch unsere weiteren Websites: burosch.de, nf-technik.de, radiogeschichte.de


Home         Impressum