[rohrpost] Bildcodierung

Kilian Hirt kilian.hirt at student.hu-berlin.de
Die Feb 22 12:15:34 CET 2005


Liebe Liste.
(Sorry für Doppelposting, dafür diesmal mit richtigem Absender und
hoffentlich in lesbarer Formation:-)

Durch die Präsentation eines neuen Codecs wurde neulich mein Interesse an
der Bildkompression wiedererweckt: Die Komprimierung ist meiner Meinung nach
für die Ästhetik digitaler Bilder ebenso essentiell wie z.B. das interlace
fürs Fernsehen. Dabei ist sie nichts anderes als angewandte
Informationstheorie: (Mathemat.) Modelle trennen das Wesentliche eines
Signals vom Redundanten und Irrelevanten. Diese Auswahl trifft jedes Format
anders und erzeugt dadurch seine spezielle Charakteristik. Um es also gleich
vorwegzunehmen: Geht es hierbei nicht um ein wichtiges mediales Apriori nach
der elektronischen, uniformen Zerlegung des Bildes in Zeilen und Spalten?

Die Modelle basieren auf ohnehin bekannten Eigenschaften der Bilder
(z.B.´continuous tone´) oder den Ergebnissen von empirisch-statistischen
Untersuchungen. Ähnlich wie bei der Kryptanalyse werden Strukturen gesucht,
mehr oder weniger offen liegende Korrelationen, Regelmässigkeiten. Mit deren
Kenntnis werden dann Algorithmen modelliert, die diese Strukturen
reproduzieren und vorhersagen können. Modelle der menschlichen Wahrnehmung
entlarven zusätzlich die Irrelevanzen im Bild. So kann eine gezielte
Reduktion von Information dort stattfinden, wo kein Unterschied gesehen
wird. Die grundlegenden aber leider auffälligen Artefakte von geringer
digitaler räumlicher und farblicher Auflösung (Quantisierungstreppen) werden
in nicht sichtbare Bereiche verschoben. Das Rauschen wird so geformt, dass
es durch die Nachbarschaft prägnanter Information dominiert und maskiert
wird. Shannons mathemat. Entropie wird zur ´perceptual entropy´, zu einer
Funktion der Psychooptik.

Im Idealfall ist Kompression nicht direkt sichtbar, aus ökonomischen Gründen
wird aber oft an der Grenze zum Erträglichen codiert: je weniger Bandbreite
für Information zur Verfügung steht, desto mehr tritt die Rechenleistung des
Modells in den Vordergrund. Nun sind es die dort angelegten Strukturen, die
das Bild dominieren und sich in sichtbaren Artefakten offenbaren.

Die Artefakte der nächsten Generation von Video-Codern werden sich von den
typischen Klötzchen unterscheiden, die das Zeitalter der
Transformationscodierung (JPEG, MPEG1-2) prägten. Differenz und Ähnlichkeit
aufeinanderfolgender frames erlauben nämlich nicht nur die
Bewegungsschätzung von Pixelhaufen auf der 2-D Ebene, sondern die
Identifikation von "Video-Objekten" oder gleich die Rekonstruktion einer 3-D
Szenerie "vor der Kamera", die dann beim Decodieren nur noch mit
Bewegungsparametern gefüttert, "re-animiert" werden müssen. Eine
funktionierende Objekterkennung ermöglicht eine effiziente Darstellung. Die
kompositorische und zeitliche Autorität des einzelnen frames wird dabei
durch die sich emanzipierenden Objekte angegriffen. Innerhalb des Videos
werden Elemente adressierbar, indizierbar und manipulierbar, die sich früher
noch im Pixelsalat versteckten. Der Rahmen für eine umfangreiche Erfassung
und Anwendung von Metadaten ist bereits mit MPEG-7 geschaffen worden.
Shannons Aussage, die Semantik einer Nachricht sei für das Codierungsproblem
irrelevant, könnte sich somit relativiert haben.

Es würde mich interessieren, ob jemand etwas Interessantes dazu gelesen hat,
ich habe jenseits der einschlägigen Literatur (Informationstheorie,
Suchbilder, IEEE, ...) nicht viel gefunden. Vielleicht gibt es ja auch
irgendwelche Projekte, die sich mit Codierung, Datenbank-Video, Indizierung,
etc. beschäftigen, oder den einen oder anderen Experten...

Grüsse an alle,
kilian.hirt at student.hu-berlin.de