digitale bildverarbeitung ||

Bernd Jähne

Digitale Bildverarbeitung

Bernd Jähne

DigitaleBildverarbeitung

13

Mit 248 Abbildungen und 155 Übungsaufgaben und CD-ROM

6., überarbeitete und erweiterte Auflage

Professor Dr. Bernd JähneInterdisziplinäres Zentrum für Wissenschaftliches Rechnen (IWR)Forschungsgruppe BildverarbeitungIm Neuenheimer Feld 36869120 HeidelbergGermanyBernd.Jaehne@iwr.uni-heidelberg.dewww.bernd-jaehne.dehttp://klimt.uni-heidelberg.de

ISBN 3-540-24999-0 Springer Berlin Heidelberg New YorkISBN 978-3-540-24999-3 Springer Berlin Heidelberg New York

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die derÜbersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, derFunksendung, der Mikroverfilmung oder Vervielfältigung auf anderen Wegen und der Speicherungin Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. EineVervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in denGrenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutsch-land vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlichvergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechts-gesetzes.

Springer ist ein Unternehmen von Springer Science + Business Media

springer.de

© Springer-Verlag Berlin Heidelberg 2005Printed in The Netherlands

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buchberechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinneder Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher vonjedermann benutzt werden dürften.

Sollte in diesem Werk direkt oder indirekt auf Gesetze, Vorschriften oder Richtlinien (z.B. DIN, VDI,VDE) Bezug genommen oder aus ihnen zitiert worden sein, so kann der Verlag keine Gewähr für dieRichtigkeit, Vollständigkeit oder Aktualität übernehmen. Es empfiehlt sich, gegebenenfalls für dieeigenen Arbeiten die vollständigen Vorschriften oder Richtlinien in der jeweils gültigen Fassunghinzuzuziehen.

Einband-Gestaltung: Struve & Partner, HeidelbergSatz: Digitale Druckvorlage des AutorsHerstellung: medionet AG, Berlin

Gedruckt auf säurefreiem Papier 62/3141 5 4 3 2 1 0

Bibliografische Information der Deutschen BibliothekDie Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbliografie;detaillierte bibliografische Daten sind im Internet über <http://dnb.ddb.de> abrufbar.

Vorwort

Auch die sechste Auflage dieses weltweit benutzten Lehrbuchs wurdewieder gründlich überarbeitet und erweitert. Im ganzen Buch finden sicheine Fülle an kleineren Verbesserungen, Erweiterungen und Aktualisie-rungen. Besonders möchte ich aber auf zwei wesentliche Neuerungenhinweisen.

Zum einen wurde wegen der wachsenden Fülle des Stoffes jetzt eineklare Strukturierung in grundlegendes und vertiefendes Material vorge-nommen. Die wichtigsten Formeln wurden eingerahmt. Die weiterfüh-renden Abschnitte befinden sich jeweils im zweiten Teil eines Kapitelsund sind durch kursive Überschriften und eine kleinere Schrift gekenn-zeichnet. Auf diese Weise kann der Leser zuerst die Grundlagen erarbei-ten und dann, je nach Bedarf und Interessen, seine Studien vertiefen.

Die zweite wesentliche Neuerung sind Übungsaufgaben, die am En-de jeden Kapitels zu finden sind. Diese beinhalten Verständnisfragen,Rechenübungen und praktische Aufgabenstellungen, mit denen der Le-ser sein Wissen überprüfen und vertiefen kann. Die Aufgaben sind demSchwierigkeitsgrad nach mit ein bis drei Sternen markiert. WesentlicheTeile der Übungen sind interaktive Computerübungen, die alle Themen-bereiche des Buches umfassen. Diese werden mit der Bildverarbeitungs-software heurisko® (http://www.heurisko.de) durchgeführt, die ineiner Demoversion auf der CD-ROM zur Verfügung steht. Damit könnenfast alle in dem Buch beschriebenen Sachverhalte und Algorithmen prak-tisch ausprobiert werden. Dazu gibt es eine reichhaltige Sammlung vonBildern, Bildsequenzen und Volumenbildern. Hinweise zu den Muster-lösungen und Aktualisierungen der Computerübungen sind im Internetauf der Homepage des Autors (http://www.bernd-jaehne.de).

Jedes Kapitel wird durch einen Abschnitt abgeschlossen, der auf wei-terführende Literatur hinweist. Der Anhang enthält zwei Abschnitte.Anhang A erlaubt einen schnellen Zugriff auf oft benötigte Formeln undDatenmaterial in Tabellenform. Anhang B fasst die im Buch benutzte No-tation zusammen. Der vollständige Text des Buches ist in deutscher undenglischer Sprache als PDF-Datei auf der beiliegenden CD-ROM zu finden.Die PDF-Dateien enthalten Querverweise, die eine flexible Nutzung desTextes in elektronischer Form erlauben. Man kann unter anderem vom

VI

Inhaltsverzeichnis in entsprechende Abschnitte, von Zitaten zum Lite-raturverzeichnis und vom Sachverzeichnis auf die entsprechende Seitespringen. Es ist auch möglich, die einzelnen Computer-Übungsaufgabendirekt aus der PDF-Datei heraus auszuführen.

Ich möchte allen Personen, Institutionen und Firmen danken, die Bild-material für dieses Buch zur Verfügung gestellt haben. Die Quellen sindan den betreffenden Stellen angegeben. Bedanken möchte ich mich auchherzlich bei meinen Kollegen und Mitarbeitern, den Hörern meiner Vor-lesungen und den Lesern der früheren Auflagen dieses Buches, die michauf Fehler aufmerksam machten, Erweiterungen und Verbesserungenvorschlugen bzw. das Manuskript kritisch Korrektur lasen. Mein aufrich-tiger Dank gilt den Mitarbeitern des Springer-Verlags für das konstanteInteresse an diesem Buch und für die gute Betreuung in allen Phasen sei-ner Entstehung. Ganz besonderer Dank gebührt meinen Freunden vonAEON Verlag & Studio, ohne deren tatkräftige und sachkundige Mithil-fe dieses Buch und insbesondere die beiliegende CD-ROM nicht hättenentstehen können.

Schließlich wende ich mich an Sie als Leser dieses Buchs mit der Bitte,sich kritisch und konstruktiv zu diesem Buch zu äußern, Verbesserun-gen oder Ergänzungen vorzuschlagen oder auf Unstimmigkeiten oderDruckfehler aufmerksam zu machen, die sich trotz aller Sorgfalt bei derHerstellung eingeschlichen haben.

Heidelberg, Januar 2005 Bernd Jähne

Aus dem Vorwort zur fünften Auflage

Wie die vierte Auflage, so wurde die fünfte Auflage komplett überarbeitet underweitert. Der Stoff ist nun in 20 anstelle von 16 Kapiteln aufgeteilt. Etwa einDrittel des Inhalts sind weiterführende Abschnitte. Auf diese Weise kann derLeser zuerst das grundlegende Material durcharbeiten und dann, je nach Bedarf,seine Studien vertiefen. Jedes Kapitel wird durch einen Abschnitt abgeschlos-sen, der auf weiterführende Literatur hinweist.

Die wichtigsten Erweiterungen beinhalten eine detaillierte Darstellung von Zu-fallsvariablen und stochastischen Prozessen (Kapitel 3) und 3D-Bildaufnahme-techniken (Kapitel 8). Kapitel 17 stellt regularisierte Parameterschätzverfahrenunter einem einheitlichen Konzept dar. Behandelt werden so unterschiedlicheTechniken wie inverse Probleme, adaptive Filtertechniken (z. B. anisotrope Diffu-sion) und Variationsrechnung. Die Anwendungen umfassen Bildrestaurierung,Tomografie, Segmentierung und Bewegungsbestimmung.

Der vollständige Text des Buches ist in deutscher und englischer Sprache alsPDF-Datei auf der beiliegenden CD-ROM zu finden. Die PDF-Dateien enthal-ten Querverweise, die eine flexible Nutzung des Textes in elektronischer Formerlauben. Man kann unter anderem vom Inhaltsverzeichnis in entsprechendeAbschnitte, von Zitaten zum Literaturverzeichnis und vom Sachverzeichnis aufdie entsprechende Seite springen.

Heidelberg, Dezember 2001 Bernd Jähne

VII

Aus dem Vorwort zur vierten Auflage

In einem sich so schnell entwickelnden Gebiet wie der digitalen Bildverarbei-tung war acht Jahre nach der Herausgabe der ersten Auflage im Jahre 1989 einegrundlegende Überarbeitung notwendig geworden.

Das bewährte Konzept wurde festgehalten und vertieft: eine systematische Dar-stellung der Grundlagen der digitalen Bildverarbeitung unter Zuhilfenahme dervielfältigen Analogien zu anderen Bereichen in den Naturwissenschaften. Da-her wird der Stoff von den Grundlagen her erarbeitet, exemplarisch vertieft undbis an aktuelle Forschungsergebnisse herangeführt. Wo immer möglich, werdenBilder zur anschaulichen Darstellung herangezogen.

Das Buch wurde neu in vier Teile gegliedert. Teil I fasst die Grundlagen zusam-men. Deswegen entfällt der bisherige mathematische Anhang. Der Teil II überBildaufnahme und Vorverarbeitung wurde um eine ausführlichere Diskussionder Bildgewinnung erweitert. In Teil III über Merkmalsextraktion wurde die Be-wegungsanalyse integriert. Neu aufgenommen im Teil IV Bildanalyse wurde einKapitel über die Formanalyse.

Generell beschränkt sich das Buch nicht auf die 2D-Bildverarbeitung. Wo esmöglich ist, wird der Stoff so dargestellt, dass er für die höherdimensionaleBildverarbeitung (Volumenbilder, Bildsequenzen) verallgemeinert werden kann.Berücksichtigung finden auch Mehrkanalbilder, nicht nur Farbbilder.

Heidelberg, Februar 1997 Bernd Jähne

Aus dem Vorwort zur ersten Auflage

Digitale Bildverarbeitung ist in mehrfacher Hinsicht ein faszinierendes Gebiet.Während Menschen den größten Teil ihrer Information über die äußere Wirklich-keit mithilfe ihres natürlichen Sehvermögens aufnehmen, geht jetzt die Tech-nik über das reine fotografische Festhalten von Bildern hinaus. Sichtbares ma-schinell wahrzunehmen und quantitativ auszuwerten stellt den Beginn einerweiteren tief greifenden Umwälzung im Umgang mit Bildern dar. Der enormeFortschritt der Computertechnologie erlaubt nun einen breiten Einsatz digita-ler Bildverarbeitung als Hilfsmittel zur Auswertung komplexer zwei- und drei-dimensionaler Vorgänge in allen Bereichen der Naturwissenschaften und dar-über hinaus. Damit wird die Tür zu neuen interdisziplinären Arbeitsgebietenaufgestoßen, in denen Computerwissenschaft und das betreffende Sachgebietmiteinander verbunden werden.

Grundlage für dieses Buch ist eine zweisemestrige Vorlesungsreihe über digi-tale Bildverarbeitung, die der Autor in den Jahren 1986 und 1987 an der Phy-sikalischen Fakultät der Universität Heidelberg gehalten hat. Ausgehend voneinem die Vorlesung zusammenfassenden Skript, wurde das gesammelte Mate-rial grundlegend überarbeitet und erheblich erweitert.

Diese Darstellung ist für Naturwissenschaftler und Ingenieure aller Fachrichtun-gen geschrieben für die Bedürfnisse eines Anwenders, der digitale Bildverarbei-tung in seinem Arbeitsgebiet als experimentelles Hilfsmittel zur Erfassung undAuswertung zwei- und dreidimensionaler Vorgänge einsetzen möchte. Der Au-tor — selbst Physiker — hat genau auf diesem Weg Zugang zur Bildverarbeitunggefunden. Manche Analogien zu anderen Bereichen der Naturwissenschaften

VIII

sind ihm dabei aufgefallen; sie ermöglichen einen einfachen Zugang zu man-chen schwierigen Problemen der Bildverarbeitung. Es ist Ziel des Buches, demLeser die notwendigen Grundkenntnisse zu vermitteln, die ihm eine schnelleAnwendung der digitalen Bildverarbeitung in seinem Fachgebiet erlauben.

Ich möchte allen denen danken, die mitgeholfen haben, dass dieses Buch entste-hen konnte. Diese Danksagung schildert zugleich ein Stück seiner Entstehungs-geschichte: Als deutlich wurde, dass digitale Bildverarbeitung auf meinem Ar-beitsgebiet einen Durchbruch in der Messtechnik bedeutet, habe ich intensivnach interdisziplinären Kontakten gesucht. Die ersten Schritte führten dabeiins Institut für Angewandte Physik der Universität Heidelberg und ins Deut-sche Krebsforschungszentrum. Für viele anregende Gespräche und eine guteZusammenarbeit möchte ich mich bei Prof. Dr. J. Bille, Dr. J. Dengler und Dr. M.Schmidt herzlich bedanken.

Herzlich bedanken möchte ich mich bei Prof. Dr. K. O. Münnich, dem Direktordes Instituts für Umweltphysik an der Universität Heidelberg. Von den Anfän-gen an war er offen und interessiert für die neuen Ideen zum Einsatz digitalerBildverarbeitung in der Umweltphysik. Seiner Weitsicht und nachhaltigen Un-terstützung auch in schwierigen Abschnitten ist es mit zu verdanken, dass sicham Institut die Arbeitsgruppe „Digitale Bildverarbeitung“ so fruchtbar entwi-ckeln konnte.

La Jolla, Kalifornien und Heidelberg, Frühjahr 1989 Bernd Jähne

Inhaltsverzeichnis

I Grundlagen

1 Anwendungen und Werkzeuge 31.1 Ein Werkzeug für Wissenschaft und Technik . . . . . . 31.2 Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . 41.3 Hierarchie von Bildverarbeitungsoperationen . . . . . . 151.4 Bildverarbeitung und Computergrafik . . . . . . . . . . . 171.5 Interdisziplinäre Natur der Bildverarbeitung . . . . . . 171.6 Menschliches und maschinelles Sehen . . . . . . . . . . 191.7 Komponenten eines Bildverarbeitungssystems . . . . . 211.8 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 271.9 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 28

2 Bildrepräsentation 312.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2 Digitale Bilder im Ortsraum . . . . . . . . . . . . . . . . . 312.3 Wellenzahlraum und Fouriertransformation . . . . . . . 422.4 Diskrete unitäre Transformationen . . . . . . . . . . . . 642.5 Schnelle Berechnung unitärer Transformationen . . . . 692.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 802.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 83

3 Statistik 853.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.2 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . 873.3 Multiple Zufallsvariable . . . . . . . . . . . . . . . . . . . 913.4 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . 953.5 Stochastische Prozesse und Felder . . . . . . . . . . . . . 1033.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 1073.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 109

4 Nachbarschaftsoperatoren 1114.1 Grundlegende Eigenschaften und Zweck . . . . . . . . . 1114.2 Lineare verschiebungsinvariante Filter . . . . . . . . . . 1144.3 Rangordnungsfilter . . . . . . . . . . . . . . . . . . . . . . 1254.4 LSI-Filter: Weitere Eigenschaften . . . . . . . . . . . . . . 1274.5 Rekursive Filter . . . . . . . . . . . . . . . . . . . . . . . . . 129

X Inhaltsverzeichnis

4.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 1384.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 141

5 Multiskalenrepräsentation 1435.1 Skalen in der Signalverarbeitung . . . . . . . . . . . . . . 1435.2 Mehrgitterrepräsentation . . . . . . . . . . . . . . . . . . . 1465.3 Skalenräume . . . . . . . . . . . . . . . . . . . . . . . . . . 1525.4 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 1605.5 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 161

II Bildaufnahme und Vorverarbeitung

6 Quantitative Visualisierung 1656.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1656.2 Radiometrie, Photometrie, Spektroskopie und Farbe . . 1676.3 Wellen und Teilchen . . . . . . . . . . . . . . . . . . . . . . 1776.4 Wechselwirkung zwischen Strahlung und Materie . . . . 1836.5 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 1966.6 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 197

7 Bildaufnahme 1997.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1997.2 Welt- und Kamerakoordinaten . . . . . . . . . . . . . . . 1997.3 Ideale Abbildung: die Zentralprojektion . . . . . . . . . 2037.4 Reale Abbildung . . . . . . . . . . . . . . . . . . . . . . . . 2057.5 Radiometrie der Abbildung . . . . . . . . . . . . . . . . . 2127.6 Lineare Systemtheorie der Abbildung . . . . . . . . . . . 2157.7 Homogene Koordinaten . . . . . . . . . . . . . . . . . . . . 2247.8 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 2257.9 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 226

8 3D-Bildaufnahme 2278.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 2278.2 Tiefe aus Triangulation . . . . . . . . . . . . . . . . . . . . 2318.3 Tiefe aus Laufzeit . . . . . . . . . . . . . . . . . . . . . . . 2398.4 Tiefe aus Phase: Interferometrie . . . . . . . . . . . . . . 2408.5 Gestalt aus Schattierung . . . . . . . . . . . . . . . . . . . 2408.6 Tiefe aus mehreren Projektionen: Tomografie . . . . . . 2478.7 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 2538.8 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 254

9 Digitalisierung, Abtastung, Quantisierung 2559.1 Definition und Wirkung der Digitalisierung . . . . . . . 2559.2 Schritte des Abtastprozesses . . . . . . . . . . . . . . . . 2579.3 Rekonstruktion aus Abtastpunkten . . . . . . . . . . . . 2629.4 Multidimensionale, nichtorthogonale Gitter . . . . . . . 2639.5 Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . 2659.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 267

Inhaltsverzeichnis XI

9.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 268

10 Pixelverarbeitung 26910.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 26910.2 Homogene Punktoperationen . . . . . . . . . . . . . . . . 27010.3 Inhomogene Punktoperationen . . . . . . . . . . . . . . . 28110.4 Geometrische Transformationen . . . . . . . . . . . . . . 28810.5 Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . 29310.6 Optimierte Interpolation . . . . . . . . . . . . . . . . . . . 29910.7 Mehrkanal-Punktoperationen . . . . . . . . . . . . . . . . 30510.8 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 30710.9 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 308

III Merkmalsextraktion

11 Mittelung 31111.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31111.2 Eigenschaften von Glättungsfiltern . . . . . . . . . . . . 31111.3 Rechteckfilter . . . . . . . . . . . . . . . . . . . . . . . . . . 31411.4 Binomialfilter . . . . . . . . . . . . . . . . . . . . . . . . . . 31911.5 Schnelle großräumige Mittelung . . . . . . . . . . . . . . 32511.6 Nichtlineare Mittelung . . . . . . . . . . . . . . . . . . . . 33411.7 Mittelung in Mehrkanalbildern . . . . . . . . . . . . . . . 33911.8 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 34111.9 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 343

12 Kanten 34512.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34512.2 Differenzielle Beschreibung von Signaländerungen . . . 34612.3 Allgemeine Eigenschaften von Kantenfiltern . . . . . . . 34912.4 Gradientenbasierte Kantendetektion . . . . . . . . . . . 35212.5 Kantendetektion durch Nulldurchgänge . . . . . . . . . 36012.6 Optimierte Kantendetektion . . . . . . . . . . . . . . . . . 36212.7 Regularisierte Kantendetektion . . . . . . . . . . . . . . . 36412.8 Kanten in Mehrkanalbildern . . . . . . . . . . . . . . . . . 36912.9 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 37012.10 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 372

13 Einfache Nachbarschaften 37313.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 37313.2 Eigenschaften einfacher Nachbarschaften . . . . . . . . 37413.3 Tensordarstellung erster Ordnung . . . . . . . . . . . . . 37813.4 Lokale Wellenzahl und Phase . . . . . . . . . . . . . . . . 39013.5 Andere Tensordarstellungen . . . . . . . . . . . . . . . . . 40013.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 41013.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 412

XII Inhaltsverzeichnis

14 Bewegung 41314.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 41314.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 41414.3 Differenzielle Methoden erster Ordnung . . . . . . . . . 43014.4 Tensormethode . . . . . . . . . . . . . . . . . . . . . . . . 43514.5 Korrelationsmethode . . . . . . . . . . . . . . . . . . . . . 44114.6 Phasenmethode . . . . . . . . . . . . . . . . . . . . . . . . . 44414.7 Weitere Methoden . . . . . . . . . . . . . . . . . . . . . . . 44714.8 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 45214.9 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 453

15 Textur 45515.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 45515.2 Statistik erster Ordnung . . . . . . . . . . . . . . . . . . . 45815.3 Rotations- und größenvariante Texturparameter . . . . 46115.4 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 46615.5 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 467

IV Bildanalyse

16 Segmentierung 47116.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47116.2 Pixelorientierte Segmentierung . . . . . . . . . . . . . . . 47216.3 Kantenbasierte Segmentierung . . . . . . . . . . . . . . . 47516.4 Regionenorientierte Verfahren . . . . . . . . . . . . . . . 47716.5 Modellbasierte Segmentierung . . . . . . . . . . . . . . . 48116.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 48416.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 485

17 Regularisierung und Modellierung 48717.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 48717.2 Kontinuierliche Modellierung I: Variationsansatz . . . . 49017.3 Kontinuierliche Modellierung II: Diffusionsmodelle . . . 49817.4 Diskrete Modellierung: inverse Probleme . . . . . . . . . 50417.5 Inverse Filterung . . . . . . . . . . . . . . . . . . . . . . . . 51217.6 Weitere äquivalente Ansätze . . . . . . . . . . . . . . . . . 51817.7 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 52517.8 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 527

18 Morphologie 52918.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52918.2 Nachbarschaftsoperationen mit Binärbildern . . . . . . 52918.3 Allgemeine Eigenschaften . . . . . . . . . . . . . . . . . . 53218.4 Zusammengesetzte morphologische Operatoren . . . . 53418.5 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 54118.6 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 542

Inhaltsverzeichnis XIII

19 Formrepräsentation und -analyse 54319.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54319.2 Repräsentation der Form . . . . . . . . . . . . . . . . . . . 54419.3 Momentenbasierte Formmerkmale . . . . . . . . . . . . . 54819.4 Fourierdeskriptoren . . . . . . . . . . . . . . . . . . . . . . 55119.5 Formparameter . . . . . . . . . . . . . . . . . . . . . . . . . 55719.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 56019.7 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 562

20 Klassifizierung 56320.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56320.2 Merkmalsraum . . . . . . . . . . . . . . . . . . . . . . . . . 56720.3 Einfache Klassifizierungsverfahren . . . . . . . . . . . . 57420.4 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . 57920.5 Literaturhinweise zur Vertiefung . . . . . . . . . . . . . . 580

V Referenzteil

A Referenzmaterial 583

B Notation 607

Literaturverzeichnis 617

Sachverzeichnis 631

Teil I

Grundlagen

1 Anwendungen und Werkzeuge

1.1 Ein Werkzeug für Wissenschaft und Technik

Von den Anfängen der Wissenschaft an spielte die visuelle Beobachtungeine wichtige Rolle. Zuerst waren die verbale Beschreibung und manu-ell angefertigte Zeichnungen die einzigen Möglichkeiten, experimentelleErgebnisse zu dokumentieren. Objektive Dokumentation von Ergebnis-sen wurde erst möglich mit der Erfindung der Fotografie. Drei promi-nente Beispiele wissenschaftlicher Anwendungen der Fotografie sind dieAstronomie, die Photogrammetrie und die Teilchenphysik. Astronomenkonnten damit Position und Größe von Sternen bestimmen und Photo-grammeter topografische Karten erstellen. Die Untersuchung unzähli-ger Bilder aus Wasserstoffblasenkammern führte zur Entdeckung vielerElementarteilchen. Die manuellen Auswertungsverfahren waren jedochsehr zeitaufwendig. So wurden halb- oder sogar vollautomatische opto-mechanische Geräte konstruiert, die jedoch den Nachteil hatten, dass sienur für einen bestimmten Zweck einzusetzen waren. Dies ist der Grund,warum die quantitative Bildauswertung keine breite Anwendung fand.Bilder wurden hauptsächlich für die Dokumentation, die qualitative Be-schreibung und die Illustration beobachteter Phänomene benutzt.

Heute stehen wir mitten in einer zweiten Revolution, die mit den ra-santen Fortschritten in der Bildsensorik und Computertechnologie ein-hergeht. Computer wurden leistungsfähig genug, um Bilddaten zu ver-arbeiten. Ausgelöst durch die Multimediawelle, werden Software undHardware für die Verarbeitung von Bildern, Bildsequenzen und neuer-dings sogar 3D-Visualisierungen Standard. So werden sie für jeden Wis-senschaftler und Ingenieur einsetzbare Werkzeuge. Daher hat sich dieBildverarbeitung von einigen wenigen, spezialisierten Anwendungen zueinem wissenschaftlichen Standardwerkzeug entwickelt. Bildverarbei-tungstechniken werden mittlerweile in praktisch allen Naturwissenschaf-ten und technischen Disziplinen angewandt.

Ein einfaches Beispiel zeigt die Bedeutung visueller Information. Stel-len wir uns vor, wir hätten die Aufgabe, einen Artikel über ein neues tech-nisches System, z. B. ein Solarkraftwerk, zu verfassen. Es würde einenenormen Aufwand kosten, ein solches System ohne die Verwendung vonBildern und technischen Zeichnungen zu beschreiben. Ein Artikel, dernur aus beschreibendem Text besteht, würde auch für den Leser zu ei-nem frustrierenden Erlebnis. Er würde viel Mühe haben, sich vorzustel-

B. Jähne, Digitale Bildverarbeitung Copyright © 2005 by Springer-VerlagAll rights of reproduction in any form reserved.ISBN 3–540–24999-0

4 1 Anwendungen und Werkzeuge

a

b c

Abbildung 1.1: Partikelvermessung mittels Bildverarbeitung: a Gasblasen, diedurch brechende Wellen ins Wasser geschlagen wurden, sichtbar gemacht durchein telezentrisches Beleuchtungs- und Bildaufnahmesystem; aus Geißler und Jäh-ne [65]. b Seifenblasen. c Elektronenmikroskopische Aufnahme von Farbpigmen-ten (zur Verfügung gestellt von Dr. Klee, Hoechst AG, Frankfurt).

len, wie ein solches neues Kraftwerk funktioniert, und könnte sich nurein vages Bild vom Aussehen des Systems machen.

Dagegen sind technische Zeichnungen und Fotografien eine enormeHilfe. Der Leser wird sofort eine Vorstellung von dem Kraftwerk habenund kann Einzelheiten im Bildmaterial studieren, auf die er aufmerksamwird, die jedoch nicht im Text beschrieben sind. Durch Bilder könnenviel mehr Details vermittelt werden als durch Text, was treffend durchdas Sprichwort „Ein Bild sagt mehr als tausend Worte“ ausgedrückt wird.Der Leser wird auch, wenn er später von dem Solarkraftwerk hört, sofortdas gesehene Bild damit assoziieren.

1.2 Anwendungsbeispiele

In diesem Abschnitt diskutieren wir Beispiele wissenschaftlicher undtechnischer Anwendungen der digitalen Bildverarbeitung. Die Beispie-le zeigen, dass durch die Bildverarbeitung komplexe Phänomene unter-sucht werden können, die mit konventionellen Messtechniken nicht zu-gänglich sind.

1.2 Anwendungsbeispiele 5

a b c

Abbildung 1.2: Industrieteile, bei denen die Position und der Durchmesser vonBohrungen durch ein visuelles Inspektionssystem überprüft werden (zur Verfü-gung gestellt von Martin von Brocke, Robert Bosch GmbH).

1.2.1 Zählen und Vermessen

Eine klassische Aufgabe der digitalen Bildverarbeitung ist das Zählen vonPartikeln und die Bestimmung ihrer Größenverteilung. Abb. 1.1 zeigtdrei Beispiele sehr unterschiedlicher Partikel: Gasblasen unter der Ober-fläche brechender Wellen, Seifenblasen und Pigmentteilchen. Bei solchenAufgaben gilt es zunächst, einen angemessenen Aufnahme- und Beleuch-tungsaufbau zu finden.

Die Blasenbilder in Abb. 1.1a wurden mit einem direkten, telezen-trischen Beleuchtungs- und Bildaufnahmesystem (Abschn. 7.4.4) aufge-nommen. Bei diesem Aufbau sind die Zentralstrahlen parallel zur opti-schen Achse. Die Größe der abgebildeten Blasen hängt damit nicht vonder Entfernung zur Kamera ab. Das Messvolumen für Konzentrations-messungen wird durch die Abschätzung des Unschärfegrades der Blasenbestimmt.

Wesentlich schwieriger ist es, die Form der Seifenblasen in Abb. 1.1bzu vermessen, da diese transparent sind und deswegen dahinter liegen-de Blasen ebenfalls noch sichtbar sind. Außerdem zeigen die Blasendeutliche Abweichungen von der Kreisform, sodass geeignete Parameterzur Beschreibung der Form gefunden werden müssen.

Eine dritte Anwendung ist die Messung der Größenverteilung vonFarbpigmentteilchen. Durch sie werden die Eigenschaften einer Farbebeeinflusst. Deshalb ist die Messung der Größenverteilung eine wichtigeAufgabe der Qualitätskontrolle. Das mit einem Transmissions-Elektro-nenmikroskop aufgenommene Bild in Abb. 1.1c zeigt die Problematikdieser Aufgabe: Die Partikel neigen zur Verklumpung. Diese Klumpenmüssen identifiziert und — wenn möglich — in einzelne Partikel sepa-riert werden, um die Bestimmung der Größenverteilung nicht zu verfäl-schen.

Fast jedes heute hergestellte Produkt wird durch ein visuelles Inspek-tionssystem automatisch auf Defekte geprüft. Eine Klasse von Aufgaben


a b

c d

Abbildung 1.3: Fokusserie einer Pressform aus Plexiglas mit kleinen rechtecki-gen Löchern, aufgenommen mit einer konfokalen Technik unter Verwendungstatistisch verteilter Intensitätsmuster. Die Bilder sind, vom Boden der Löcheraus gemessen, auf folgende Tiefen fokussiert: a 16µm, b 480µm und c 620µm(Oberfläche der Form). e 3D-Rekonstruktion. Aus Scheuermann et al. [198].

ist dabei die optische Vermessung der Teile auf korrekte Größe und An-ordnung der Teile. Beispielbilder sind in Abb. 1.2 gezeigt. Hier wird diePosition, der Durchmesser und die Rundheit der Bohrlöcher geprüft. Ab-bildung 1.2c zeigt, dass es nicht leicht ist, metallische Teile zu beleuch-ten. Die Kante des linken Bohrlochs ist teilweise hell, was es schwierigmacht, das Bohrloch zu detektieren und korrekt zu vermessen.

1.2.2 3D-Vermessung

In Bildern werden 3D-Szenen auf eine 2D-Bildebene projiziert. Dadurchgeht die Tiefe verloren, und es bedarf spezieller Aufnahmetechniken, umdie Topografie einer Oberfläche oder volumetrische Bilder zu gewinnen.In den letzten Jahren wurde eine Vielzahl von Techniken zur Generie-rung von Tiefenkarten und Volumenbildern entwickelt. Daher müssenBildverarbeitungstechniken auch für solche Bilder geeignet sein.

Abb. 1.3 zeigt die Rekonstruktion der Pressform für Mikrostrukturen,die mit einer speziellen Form der konfokalen Mikroskopie aufgenommen


Abbildung 1.4: Tiefenkarte eines Pflanzenblatts, die mithilfe der Optischen Ko-härenztomografie aufgenommen wurde (von Jochen Restle, Robert Bosch GmbH).

Abbildung 1.5: Schnittbild in Augenhöhe durch einen menschlichen Schädelmit einem Tumor, aufgenommen mit Röntgenstrahlung (links), T2-gewichteterMagnetresonanztomografie (Mitte), und Positronenemissionstomografie (rechts)(von Michael Bock, DKFZ Heidelberg).

wurde [198]. Die Form ist aus Plexiglas hergestellt, ein durchsichtigerKunststoff mit glatter Oberfläche, der in einem normalen Mikroskop fastunsichtbar ist. Die Form hat enge, etwa 500µm tiefe rechteckige Löcher.

Um das transparente Material sichtbar zu machen, wurden statistischverteilte Muster durch die Mikroskopoptik auf die Bildebene projiziert.Dieses Muster erscheint nur auf Flächen scharf, die in der scharf ein-gestellten Ebene liegen. Je weiter eine reflektierende Fläche von derscharf eingestellten Ebene entfernt ist, desto unschärfer erscheint dasMuster. Am Anfang der Fokusserie sind die Muster auf dem Boden derLöcher scharf (Abb. 1.3a), am Ende die Muster auf der Oberfläche derForm (Abb. 1.3c). Die Tiefe der reflektierenden Fläche kann rekonstru-iert werden, indem wir die Position des maximalen Kontrasts in demBildstapel suchen (Abb. 1.3d).

Abbildung 1.4 zeigt die Tiefenkarte eines Ausschnitts aus einem Pflan-zenblatt, das mit einer anderen modernen optischen 3D-Messtechnikaufgenommen wurde, der Weißlicht-Interferometrie oder Kohärenztomo-grafie. Dabei wird Licht mit einer Kohärenzlänge von nur wenigen Wel-


a b

c

Abbildung 1.6: Wachstumsstudien in der Botanik: a Bild eines Rizinusblattes;b zugehörige Wachstumskarte; c Wachstum von Maiswurzeln (von Uli Schurrund Stefan Terjung, Botanisches Institut, Universität Heidelberg).

lenlängen benutzt. Daher können Interferenzmuster nur bei ganz gerin-gen Weglängenunterschieden in einem Interferometer beobachtet wer-den. Diesen Effekt nutzt man zur Tiefenmessung aus mit einer Genau-igkeit in der Größenordnung der Wellenlänge des benutzten Lichtes.

Die treibende Kraft zur Entwicklung moderner volumetrischer Bild-gebungstechniken, mit denen wir in das Innere von 3D-Objekten schau-en können, ist die Medizintechnik. Abbildung 1.5 zeigt ein Schnittbilddurch einen menschlichen Schädel mit einem Tumor. Während Röntgen-strahlung (Computertomografie, CT ) im Wesentlichen die knöchernenStrukturen abbildet, stellt die T2-gewichtete Magnetresonanztomogra-fie (MRT ) eher die weichen Gewebe, die Glaskörper der Augen und eineOperationsnarbe signalreich dar. In der Positronenemissionstomografie(PET ) wird am Ort des Tumors ein hohes Signal beobachtet, da sich hierder dem Körper zugeführte Positronenemitter anreichert.

1.2.3 Analyse dynamischer Prozesse

Die Analyse von Bildsequenzen ermöglicht die Untersuchung dynami-scher Prozesse. Das enorme Potenzial dieser Technik wird durch eineReihe von Beispielen in diesem Abschnitt belegt.


Abbildung 1.7: Motility Assay zur Bewegungsanalyse von Motorproteinen (vonDietmar Uttenweiler, Institut für Physiologie, Universität Heidelberg).

In der Botanik ist das Studium des Wachstums von Pflanzen undder Mechanismen, die es steuern, eine zentrale Fragestellung. Abbil-dung 1.6a zeigt ein Rizinusblatt, von dem die Wachstumsrate (ProzentFlächenzuwachs pro Zeiteinheit) durch Zeitrafferaufnahmen bestimmtwurde, bei denen etwa jede Minute ein Bild aufgenommen wurde. Dieseneue Technik zur Wachstumsanalyse ist empfindlich genug, um flächen-aufgelöst den Tagesgang des Wachstums bestimmen zu können.

Abbildung 1.6c zeigt eine Bildsequenz (von links nach rechts) mitwachsenden Maiswurzeln. Die Grauwerte geben die Wachstumsrate an.

Diese ist am größten in der Nähe der Wurzelspitze.In der Wissenschaft werden Bilder oft an der Grenze des technisch

Möglichen aufgenommen. Daher sind sie oft sehr verrauscht. Abbil-dung 1.7 zeigt einen Motility-Assay mit fluoreszenzmarkierten Motor-proteinen, die sich auf einem Träger bewegen, der mit Myosin-Molekülenbedeckt ist. Solche Assays werden benutzt, um die molekularen Mecha-nismen von Muskelzellen aufzuklären. Trotz des hohen Rauschpegelslässt sich mit dem Auge erkennen, dass sich die Filamente bewegen. Ei-ne automatische Bewegungsanalyse solcher verrauschter Bildsequenzenist jedoch eine große Herausforderung.

Das nächste Beispiel stammt aus der Ozeanografie. Die kleinräumi-gen Prozesse, die in der unmittelbaren Nähe der Ozeanoberfläche statt-finden, sind wegen der Wellenbewegung nur sehr schwer zu messen. AusMessungen von Zeitserien an einem Punkt ist es auch nicht möglich, dieräumliche Struktur der Wellen zu erfassen. Daher kommt bildaufneh-menden Messungen eine große Bedeutung zu. Abbildung 1.8 zeigt einOrts/Zeit-Bild von winderzeugten Wellen. Die vertikale Koordinate istdie Ortskoordinate in Windrichtung, die horizontale die Zeit. Durch ei-ne spezielle Beleuchtungstechnik, die auf dem Gestalt-aus-Schattierung-Paradigma beruht (englisch shape from shading) wurde die Neigung derWellen in Windrichtung sichtbar gemacht. In solchen Orts/Zeit-Bildernzeigt sich Bewegung an der Orientierung von Linien konstanter Grau-werte. Eine horizontale Linie entspricht statischen Objekten. Je grö-


a

b

Abbildung 1.8: Orts/Zeit-Bild von winderzeugten Wellen bei Windgeschwindig-keiten von a 2,5 und b 7,5 m/s. Die vertikale Koordinate ist die Ortskoordinatein Windrichtung, die horizontale die Zeit.

ßer der Winkel zur horizontalen Achse ist, desto schneller bewegt sichdas Objekt. Die Bildsequenz gibt einen direkten Einblick in die komple-xe nichtlineare Dynamik von Windwellen. Eine sich schnell bewegendegroße Welle ist zu sehen, die die Bewegung der kleinen Wellen moduliert.Manchmal bewegen sich die kleinen Wellen mit der gleichen Geschwin-digkeit wie die großen (gebundene Wellen), meistens sind sie aber deut-lich langsamer und variieren stark in ihrer Phasengeschwindigkeit undAmplitude.

Beim letzten Beispiel treten viel größere Orts- und Zeitskalen auf. Ab-bildung 1.9 zeigt den Jahresgang der troposphärischen Säulendichte vonNO2. NO2 ist eines der wichtigsten Spurengase für die Ozon-Chemie inder Atmosphäre. Die Hauptquellen für das troposphärische NO2 sind In-dustrie und Verkehr, Wald- und Buschbrände (Biomassenverbrennung),mikrobiologische Bodenemissionen und Gewitter. Satellitenbilder ma-


Abbildung 1.9: Karten der troposphärischen NO2-Säulendichte. Dargestellt sindvier aufeinander folgende Dreimonatsmittel aus dem Jahre 1999 (zur Verfügunggestellt von Mark Wenig, Institut für Umweltphysik, Universität Heidelberg).


a b

Abbildung 1.10: Industrielle Prüfaufgaben: a Zeichenerkennung, b Lageerken-nung bei Steckverbindern (von Martin von Brocke, Robert Bosch GmbH).

chen es möglich, die regionale Verteilung von NO2, die verschiedenenQuellen und deren Jahreszyklen zu untersuchen.

Die Daten werden aus spektroskopischen Bildern des GOME-Instru-ments auf dem ERS2-Satelliten berechnet. Jeder Bildpunkt besteht aus ei-nem kompletten Spektrum mit 4000 Kanälen, das den ultravioletten undsichtbaren Bereich umfasst. Die gesamte atmosphärische Säulendichteder NO2-Konzentration kann aus dem charakteristischen Absorptions-spektrum bestimmt werden. Dieses ist jedoch von Absorptionsspek-tren anderer Spurengase überlagert und von einer Reihe anderer Effekte(z. B. Fraunhoferlinien im Sonnenspektrum und Streuung durch Aeroso-le) beeinflusst. Weiterhin ist es zur Bestimmung der troposphärischenSäulendichte notwendig, den stratosphärischen Anteil durch geeigneteBildverarbeitungsalgorithmen abzuziehen.

Die resultierenden Karten der troposphärischen NO2 Säulendichte inAbb. 1.9 zeigen eine Fülle interessanter Details. Die meisten Emissionenstammen aus den industrialisierten Ländern. Auf der Nordhalbkugel istein klarer Jahresgang zu sehen mit einem Maximum im Winter.

1.2.4 Klassifizierung

Eine andere wichtige Aufgabe ist die Klassifizierung von Objekten inBildern. Das klassische Beispiel einer Klassifizierungsaufgabe ist dieZeichenerkennung (optical character recognition oder kurz OCR). Abbil-dung 1.10a zeigt eine typische industrielle OCR-Anwendung, die Erken-nung der Beschriftung auf einem integrierten Schaltkreis. Objektklassi-fizierung schließt auch die Erkennung unterschiedlicher Lagen von Ob-jekten ein, damit sie von einem Roboter gegriffen werden können. InAbb. 1.10b liegen Steckverbinder in willkürlicher Lage auf einem Förder-band. Um diese korrekt zu greifen, muss erkannt werden, ob sie mit derVorder- oder Rückseite auf dem Band liegen.


a b c

d e f

Abbildung 1.11: Fehler beim Löten und Bonden integrierter Schaltkreise (zurVerfügung gestellt von Florian Raisch, Robert Bosch GmbH).

Abbildung 1.12: Klassifizierung entfernter Galaxien (Bild vom Hubble-Welt-raumteleskop, http://hubblesite.org/).

Die Klassifizierung von Defekten ist eine andere wichtige Aufgabe.Abbildung 1.11 zeigt typische Fehler bei integrierten Schaltkreisen, wieein nicht korrekt zentriert montiertes Bauteil (Abb. 1.11a) und gebroche-ne und fehlende Drahtverbindungen (Abb. 1.11b–f).

Klassifizierung ist auch in der Grundlagenforschung von Bedeutung.Abbildung 1.12 zeigt einige der am weitesten entfernten Galaxien, dieje mit dem Hubble-Teleskop aufgenommen wurden. Die Aufgabe ist es,die Galaxien aufgrund ihrer Form und Farbe in unterschiedliche Klassenaufzuteilen und von anderen Objekten, wie z. B. Sternen, zu unterschei-den.


Abbildung 1.13: Hierarchie der Bildverarbeitungsoperationen von der Bildauf-nahme bis zum Bildverstehen. Die Zahlen an den Kästen verweisen auf die ent-sprechenden Kapitel dieses Buches.

1.3 Hierarchie von Bildverarbeitungsoperationen 15

1.3 Hierarchie von Bildverarbeitungsoperationen

Die Bildverarbeitung ist ein mehrstufiger Prozess. Zur Extraktion deruns interessierenden Daten aus einem Bild wird eine Kette von Bildverar-beitungsoperationen durchgeführt. Dadurch entsteht das hierarchischeSchema in Abb. 1.13. Es gibt einen Überblick über die unterschiedlichenPhasen der Bildverarbeitung und zugleich eine Zusammenfassung der indiesem Buch besprochenen Themen.

Am Beginn jeder Bildverarbeitung steht die Aufnahme eines Bildesmit einem nicht notwendigerweise optischen Aufnahmesystem. Um dieinteressierende Objekteigenschaft auf die beste Art und Weise abzubil-den, können wir ein geeignetes Bildaufnahmesystem, die Beleuchtung,den günstigsten Wellenlängenbereich und viele weitere Optionen wäh-len (Kapitel 6). 2D- und 3D-Bildaufnahmetechniken werden in Kapitel 7und 8 behandelt. Ist das Bild aufgenommen, muss es in eine von Di-gitalrechnern verstehbare Form gebracht werden. Dieser Prozess derDigitalisierung wird in Kapitel 9 diskutiert.

Auf der ersten Verarbeitungsstufe, der Bildvorverarbeitung, könneneine Reihe unterschiedlicher Operationen stehen. Eine etwaige nicht-lineare Charakteristik eines Sensors muss korrigiert werden. Ebensokann es sein, dass Helligkeit und Kontrast des Bildes Verbesserung erfor-dern. Eine übliche Aufgabe sind auch Koordinatentransformationen zurRestaurierung geometrischer Störungen, die bei der Bildaufnahme ent-stehen. Radiometrische und geometrische Korrekturen sind elementareOperationen; sie werden in Kapitel 10 besprochen.

Eine ganze Kette von Verarbeitungsschritten ist zur Analyse und Iden-tifikation von Objekten notwendig. Zunächst müssen geeignete Filter-operationen durchgeführt werden, um die interessierenden Objekte vonanderen Objekten und dem Hintergrund zu unterscheiden. Im Wesentli-chen werden dabei ein oder mehrere Merkmalsbilder extrahiert. Grund-legende Werkzeuge für diese Aufgabe sind Mittelung (Kapitel 11), Kan-tendetektion (Kapitel 12), die Analyse einfacher Nachbarschaften (Kapi-tel 13) und komplexer Muster, die in der Bildverarbeitung als Texturenbekannt sind (Kapitel 15). Eine wichtige Eigenschaft eines Objektes istauch seine Bewegung. Techniken zur Bewegungsbestimmung werden inKapitel 14 besprochen.

Weiterhin müssen Objekte vom Hintergrund separiert werden, d. h.,Regionen konstanter Merkmale und Diskontinuitäten durch eine Seg-mentierung identifiziert werden (Kapitel 16). Dies ist nur dann eine ein-fache Aufgabe, falls sich ein Objekt klar vom Hintergrund unterscheidet.Das ist leider nicht oft der Fall. Dann sind aufwendigere Segmentierungs-techniken notwendig (Kapitel 17). Sie benutzen verschiedene Optimie-rungsstrategien, um eine minimale Abweichung zwischen den Bilddatenund einem gegebenen Modell, in das globales Wissen über die Objekteim Bild einfließt, zu erreichen.


Die gleichen mathematischen Techniken können für andere Aufga-ben benutzt werden. Bildstörungen, z. B. durch eine defokussierte Optik,Bewegungsunschärfe, Sensorfehler oder Fehler bei der Bildübertragungkönnen damit korrigiert werden (Bildrestauration). Ebenso können Bil-der aus indirekten Bildaufnahmetechniken, die nicht unmittelbar ein Bildliefern, wie die Tomografie, rekonstruiert werden (Bildrekonstruktion).

Wenn wir die Form der Objekte kennen, können wir morphologischeOperatoren einsetzen, um die Form zu analysieren und zu verändern (Ka-pitel 18) oder weitere Parameter wie den mittleren Grauwert, die Fläche,den Umfang oder andere Formbeschreibungen des Objektes zu ermitteln(Kapitel 19). Diese Parameter können dann benutzt werden, um Objektezu klassifizieren (Klassifizierung, Kapitel 20).

Es erscheint logisch, eine komplexe Aufgabe in eine Folge einfacherTeilaufgaben zu zerlegen. Es ist aber nicht klar, ob diese Strategie zu ei-ner Lösung führt. Wir betrachten dazu ein einfaches Beispiel. Ein Objekt,das sich in seinem Grauwert nur geringfügig vom Hintergrund unter-scheidet, soll in einem verrauschten Bild gefunden werden. Hier könnenwir nicht einfach den Grauwert nehmen, um das Objekt vom Hintergrundzu unterscheiden. Durch Mittelung benachbarter Bildpunkte könntenwir den Rauschpegel reduzieren. An der Kante des Objekts mitteln wirjedoch Bildpunkte des Hintergrunds und des Objekts und erhalten damitfalsche Mittelwerte. Falls wir die Position der Kanten wüssten, könntenwir verhindern, dass die Mittelung über die Kante hinweg läuft. Aberdie Kante können wir ja erst nach der Mittelung ermitteln, wenn durchdie Reduzierung des Rauschens Objekt und Hintergrund unterschiedenwerden können. Es besteht eine Chance, dieses Problem durch einen ite-rativen Ansatz zu lösen. Wir führen die Mittelung durch und nehmeneine erste Schätzung der Objektkanten vor. Diese benutzen wir zur Ver-besserung der Mittelung, indem wir sie nicht über die Objektkanten aus-dehnen, und berechnen die Kanten erneut, usw. Obwohl dieser Ansatzvielversprechend klingt, muss er sorgfältig untersucht werden: konver-giert die Iteration überhaupt? Wenn ja, ist der Grenzwert korrekt?

Wie dem auch sei, das Beispiel macht deutlich, dass schwierigere Bild-verarbeitungsaufgaben Rückkopplung benötigen. Verarbeitungsschrit-te geben Parameter an vorangegangene Verarbeitungsschritte zurück.Dadurch liegt keine lineare Verarbeitungskette mehr vor, sondern esgibt auch Schleifen, die mehrmals durchlaufen werden können. Abbil-dung 1.13 zeigt einige solcher möglichen Rückkopplungsschritte. Dabeikönnen auch nicht-bildverarbeitende Schritte eingeschlossen sein. Fallseine Bildverarbeitungsaufgabe nicht mit einem aufgenommenen Bild ge-löst werden kann, könnten wir uns dazu entschließen, die Beleuchtungzu ändern, näher an das Objekt heranzuzoomen oder es unter einemanderen Blickwinkel zu betrachten. Bei dieser Vorgehensweise sprechenwir von aktivem Sehen. Im Zusammenhang mit intelligenten Systemen,

1.4 Bildverarbeitung und Computergrafik 17

die ihre Umgebung durch ihre Sinnesorgane erkunden, können wir auchvon einem Aktions-Perzeptions-Zyklus sprechen.

1.4 Bildverarbeitung und Computergrafik

Einige Zeit wurden Bildverarbeitung und Computergrafik als zwei ge-trennte Bereiche behandelt. Seitdem ist das Wissen in beiden Berei-chen beträchtlich gewachsen, und komplexere Aufgabenstellungen kön-nen gelöst werden. Die Computergrafik hat zum Ziel, fotorealistischeBilder einer dreidimensionalen Szene mit dem Computer zu erzeugen,während die Bildverarbeitung versucht, die dreidimensionale Szene ausKameraaufnahmen zu rekonstruieren. In diesem Sinne führen wir beider Bildverarbeitung im Vergleich zur Computergrafik die umgekehrteProzedur durch. In der Computergrafik beginnen wir mit dem Wissenum Form und Eigenschaften eines Objektes, d. h., wir beginnen im Sche-ma der Abb. 1.13 unten und arbeiten uns nach oben, bis wir ein zwei-dimensionales Bild erhalten. Für Bildverarbeitung und Computergrafikbenötigen wir im Wesentlichen das gleiche Wissen. Wir müssen die In-teraktion zwischen Beleuchtung und Objekten kennen, wissen, wie einedreidimensionale Szene auf eine Bildebene projiziert wird, und anderesmehr.

Die zunehmende Verbreitung von Multimedia, d. h. der Integrationvon Text, Bild, Ton und Film, wird die Vereinigung von Computergrafikund Bildverarbeitung weiter beschleunigen. In diesem Zusammenhangwurde der Begriff des „visuellen Computers“ geprägt [74].

1.5 Interdisziplinäre Natur der Bildverarbeitung

Digitale Bildverarbeitung ist eine interdisziplinäre Wissenschaft in mehr-facher Hinsicht. In die Bildverarbeitung fließen Konzepte von verschie-denen Gebieten ein. Ehe wir ein Bild bearbeiten können, müssen wirwissen, wie das vorliegende digitale Signal mit den Eigenschaften desaufgenommenen Objekts zusammenhängt. Dabei sind eine Reihe physi-kalischer Prozesse beteiligt, von der Wechselwirkung von Strahlung mitMaterie bis zur Geometrie und Radiometrie der optischen Abbildung. EinBildsensor wandelt die Bestrahlungsstärke auf dem einen oder anderenWeg in ein elektrisches Signal um. Dann wird das Signal in digitale Zahlenumgewandelt und mit einem Digitalrechner verarbeitet, um die relevan-ten Parameter zu extrahieren. In dieser Verarbeitungskette (siehe auchAbb. 1.13) sind viele Gebiete aus der Physik, Informatik und Mathematikinvolviert, unter anderem Optik, Festkörperphysik, Computerarchitek-tur, Algebra, Analysis, Statistik, Komplexitätstheorie, Graphentheorie,Systemtheorie und numerische Mathematik. Aus der Sichtweise der In-genieurwissenschaften werden Beiträge aus der technischen Optik, der


Elektrotechnik, der Optoelektronik und der technischen und angewand-ten Informatik benötigt.

Die digitale Bildverarbeitung hat viele Überschneidungspunkte mitanderen Fachgebieten. Bildverarbeitungsaufgaben können teilweise alsMessprobleme aufgefasst werden und sind als solche ein Teilgebiet derWissenschaft der Metrologie. Die Bildverarbeitung beinhaltet wie auchdie Spracherkennung Aufgaben der Mustererkennung. Andere Gebie-te mit ähnlichen Beziehungen sind die Disziplinen der Neuroinformatik,künstlichen Intelligenz, und der Kognitionswissenschaft . All diesen Berei-chen sind die engen Beziehungen zu den Biowissenschaften gemeinsam.

Wenn wir von Computer-Sehen (englisch computer vision) sprechen,so ist damit ein Computersystem gemeint, das die gleiche Aufgabe aus-führt wie ein biologisches System, nämlich, „aus Bildern zu entdecken,was in der Welt ist und wo es ist“ [149]. Im Gegensatz dazu wird derAusdruck maschinelles Sehen (englisch machine vision) für ein Systembenutzt, das eine visuelle industrielle Prüfaufgabe durchführt, wie z. B.die Größe und Vollständigkeit von Teilen in einer Produktionslinie zuprüfen. Für viele Jahre hat man ein Sehsystem nur als einen passiven Be-obachter betrachtet. Wie es biologische Systeme tun, kann ein Computer-Sehsystem aber auch seine Umgebung aktiv erkunden, d. h. sich bewegenoder seinen Blickwinkel verändern. Wir sprechen von aktivem Sehen.

Es gibt einige Spezialdisziplinen, die sich im Bereich der Bildverarbei-tung aus historischen Gründen teilweise unabhängig voneinander entwi-ckelt haben. Das bekannteste Beispiel ist die Photogrammetrie (Vermes-sung mittels Fotografien zur Kartenerstellung und Objektidentifikation).Andere Gebiete sind die Fernerkundung, die mit Luft- und Satellitenbil-dern arbeitet, die Astronomie, und die medizinische Bildverarbeitung.

Der zweite wichtige Aspekt der interdisziplinären Natur der Bildver-arbeitung hat mit den weit gestreuten Anwendungsgebieten zu tun. Esgibt fast kein Gebiet in den Natur- und Ingenieurwissenschaften, in demBildverarbeitung nicht eingesetzt wird. Wie wir an den Beispielen in Ab-schn. 1.2 sehen konnten, hat sie in manchen Anwendungen eine ent-scheidende Bedeutung gewonnen. Die engen Beziehungen zu so vielenAnwendungsgebieten sind ein fruchtbarer Boden für die weitere stürmi-sche Entwicklung der Bildverarbeitung, da daraus ein ständiger Stromneuer Techniken und Ideen aus den Anwendungsgebieten resultiert.

Es sollte allerdings beachtet werden, dass die Interdisziplinarität nichtnur als interessante Begleiterscheinung zu betrachten ist. Sie ist eineNotwendigkeit. Mangel an Wissen entweder in der Bildverarbeitung oderdem Anwendungsgebiet wird unausweichlich zu suboptimalen Lösun-gen oder sogar einem völligen Fehlschlag führen.

1.6 Menschliches und maschinelles Sehen 19

a b

c d

Abbildung 1.14: Testbilder zur Frage der Längen- und Flächenbestimmung mitdem menschlichen visuellen System: a parallele Linien mit bis zu 5 % Längen-unterschied; b Kreise mit bis zu 10 % Radiusunterschied; c die vertikale Linieerscheint länger, obwohl sie die gleiche Länge wie die horizontale Linie hat; dperspektivische Täuschung: Die obere Linie (im Hintergrund) erscheint längerals die untere Linie (im Vordergrund), obwohl beide gleich lang sind.

1.6 Menschliches und maschinelles Sehen

Maschinelle Bildverarbeitung ist ohne das menschliche Sehsystem un-denkbar. Diese banal klingende Feststellung hat so weitreichende Kon-sequenzen, dass man sie sich bei der Beschäftigung mit digitaler Bild-verarbeitung Bewussthalten sollte. Jedes Bild, ob direkt aufgenommenoder von einem Rechner verarbeitet, können wir nur mithilfe unseres vi-suellen Systems beurteilen. Jede Bildausgabe auf einen Monitor, Druckeroder eine sonstige Bildausgabeeinheit muss sich daher an den Gegeben-heiten des visuellen Systems orientieren. Die einfachsten Fragen, die wirzunächst stellen sollten, sind:

• Welche Intensitätsunterschiede können wir erkennen?

• Welche örtliche Auflösung hat unser Auge?

• Wie genau können wir Längen und Flächen in ihrer Größe schätzenund miteinander vergleichen?

• Wie gut können wir Farben unterscheiden?

• Anhand welcher Eigenschaften können wir Objekte erkennen und un-terscheiden?

Es ist offensichtlich, dass eine tiefere Kenntnis des menschlichenSehsystems eine unschätzbare Hilfe für das Computersehen ist. Es istan dieser Stelle nicht beabsichtigt, einen Überblick über das Sehsystem


Abbildung 1.15: Erkennung dreidimensionaler Objekte: drei unterschiedlicheDarstellungen eines Würfels mit identischen Kanten in der Bildebene.

zu geben. Vielmehr sollen uns die elementaren Beziehungen zwischenmenschlichem und Computer-Sehen bewusst werden. Daher werden wirverschiedene Eigenschaften des humanen Sehsystems in den entspre-chenden Kapiteln aufzeigen. Hier folgen lediglich einige einführendeAnmerkungen.

Dazu kann der Leser selbst einige Experimente zur Frage der Längen-und Flächenschätzung durchführen. (Abb. 1.14). Während bei paralle-len Linien (Abb. 1.14a) kleine Längenunterschiede leicht erkannt werden,scheint ein Flächenvergleich mit Kreisen ungleich schwieriger zu sein(Abb. 1.14b). Die übrigen Beispiele zeigen, wie die Schätzung durch um-gebende Objekte fehlgeleitet werden kann. Man spricht von optischenTäuschungen. Gezeigt sind Beispiele zur Längenschätzung (Abb. 1.14cund d). Diese Beispiele machen deutlich, wie sehr sich das menschlicheSehvermögen am Kontext orientiert. Man muss daher beim Schätzenund Vergleichen von Längen und Flächen in Bildern sehr vorsichtig sein.

Das zweite Thema ist die Frage der Erkennung von Objekten in Bil-dern. Obwohl Abb. 1.15 nur einige wenige Linien enthält und obwohles ein ebenes Bild ohne direkte Tiefeninformation ist, erkennen wir imrechten und linken Bild sofort einen Würfel und seine räumliche Ori-entierung. Wir können diese Schlussfolgerung nur aus den verstecktenLinien und unserem Wissen um die Form eines Würfels ziehen. Das mitt-lere Bild, das auch die verdeckten Linien zeigt, ist ambivalent. Mit eini-ger Übung können wir zwischen den beiden möglichen Orientierungenim Raum wechseln.

Abbildung 1.16 zeigt eine bemerkenswerte Eigenschaft des mensch-lichen visuellen Systems. Ohne Probleme erkennen wir scharfe Grenzenzwischen den verschiedenen Texturen in Abb. 1.16 und die Zahl 5. InAbb. 1.16 identifizieren wir ein weißes gleichschenkliges Dreieck, obwohlTeile der Grenzen nicht existieren. Diese wenigen Beobachtungen zeigendie enorme Leistungsfähigkeit des menschlichen visuellen Systems beider Objekterkennung. Dagegen ist es weniger geeignet für die exakteBestimmung von Grauwerten, Entfernungen und Flächen.

Im Vergleich dazu sollte uns die marginale Leistungsfähigkeit vonComputer-Sehsystemen bescheiden machen. Ein digitales Bildverarbei-

1.7 Komponenten eines Bildverarbeitungssystems 21

a b

Abbildung 1.16: a Erkennung von Grenzen zwischen Mustern; b „Interpolation“von Objektgrenzen.

tungssystem kann nur elementare oder fest definierte Bildverarbeitungs-aufgaben ausführen, wie z. B. die Echtzeit-Qualitätskontrolle in der In-dustrieproduktion. Es wurde auch erreicht, dass ein maschinelles vi-suelles System ein Auto bei hoher Geschwindigkeit einschließlich Spur-wechsel automatisch steuert. Allerdings sind wir noch Welten von einemuniversellen maschinellen Bildverarbeitungssystem entfernt, das Bilder„versteht“, wie Menschen es können, und das intelligent und flexibel inEchtzeit reagiert.

Erwähnenswert ist noch eine andere Beziehung zwischen menschli-chem und maschinellem Sehen. Bedeutende Entwicklungen beim ma-schinellen Sehen wurden durch Fortschritte im Verstehen des mensch-lichen Sehsystems möglich. Wir werden in diesem Buch einigen Beispie-len begegnen: den Pyramiden als einer effizienten Datenstruktur für dieBildverarbeitung (Kapitel 5), der lokalen Orientierung (Kapitel 13) undder Bestimmung von Bewegung durch Filtertechniken (Kapitel 14).

1.7 Komponenten eines Bildverarbeitungssystems

In diesem Abschnitt gehen wir kurz auf die Möglichkeiten moderner Bild-verarbeitungssysteme ein. Ein Bildaufnahme- und -verarbeitungssystembesteht üblicherweise aus den folgenden vier Komponenten:

1. einem Bildaufnahmesystem, das im einfachsten Fall eine CCD-Kame-ra, ein Flachbettscanner oder ein Videorecorder sein kann;

2. einem als Bildspeicher (Framegrabber) bezeichneten Gerät, das elek-trische Signale (normalerweise ein analoges Videosignal) vom Bild-aufnahmesystem in ein digitales Bild umwandelt, das im Rechner ge-speichert werden kann;

3. einem Personalcomputer oder einer Workstation mit der entspre-chenden Leistungsfähigkeit;


4. einer Bildverarbeitungssoftware, die die Werkzeuge zur Manipulationund Analyse der Bilder bereitstellt.

1.7.1 Bildsensoren

Digitale Verarbeitung erfordert Bilder in Form von elektrischen Signalen.Diese Signale können in Sequenzen von Zahlen digitalisiert und dann voneinem Computer verarbeitet werden. Es gibt viele Wege, Bilder in digitaleZahlen zu konvertieren. Wir konzentrieren uns hier auf die Videotechno-logie, die den am weitesten verbreiteten und kostengünstigsten Ansatzdarstellt.

Ein Meilenstein in der Bildaufnahmetechnik war die Erfindung derHalbleiter-Bildsensoren. Es gibt viele Typen solcher Sensoren. Die amweitesten verbreiteten sind die so genannten charge coupled devicesoder CCDs. Solch ein Sensor besteht aus einer großen Zahl fotosensi-tiver Elemente. Während der Akkumulationsphase sammelt jedes Ele-ment elektrische Ladungen, die von absorbierten Photonen erzeugt wer-den. Damit ist die erzeugte Ladung der Beleuchtung proportional. Inder Auslesephase werden diese Ladungen nacheinander von Sensorele-ment zu Sensorelement über den Chip transportiert und schließlich ineine elektrische Spannung umgewandelt.

Seit einiger Zeit sind auch CMOS-Bildsensoren verfügbar. Aber erstvor kurzer Zeit sind diese Sensoren ins Blickfeld der Anwender gerückt,da die Bildqualität, insbesondere die Gleichförmigkeit der Empfindlich-keit, langsam die der CCD-Bildsensoren erreicht. CMOS-Bildsensoren er-reichen in manchen Eigenschaften immer noch nicht die Qualität derCCD-Sensoren, insbesondere bei niedrigen Bestrahlungsstärken. Ande-rerseits haben sie aber auch eine Reihe signifikanter Vorteile gegenüberCCD-Sensoren. Sie verbrauchen deutlich weniger Leistung, Bildausschnit-te können schnell und flexibel ausgelesen werden, und weitere Schalt-kreise zur Bildvorverarbeitung und Signalumwandlung können direktintegriert werden. In der Tat ist es heute möglich, eine komplette Ka-mera auf einem Chip unterzubringen (Abb. 1.17a). Schließlich könnenCMOS-Bildsensoren wesentlich billiger hergestellt werden und eröffnendamit neue Anwendungsfelder.Halbleiter-Bildsensoren haben eine Reihe signifikanter Vorteile:

• Präzise und stabile Geometrie. Die Sensorelemente sind präzise aufeinem regelmäßigen Gitter angeordnet. Geometrische Verzerrungenkommen praktisch nicht vor. Wegen des niedrigen Wärmeausdeh-nungskoeffizienten von Silizium (2 · 10−6/K) ist die Sensorgeome-trie nur wenig temperaturabhängig. Diese Eigenschaften ermöglichenpräzise Größen- und Positionsmessungen.

• Klein und robust. Die Sensoren sind klein und unempfindlich gegen-über äußeren Einflüssen wie magnetischen Feldern und Vibrationen.


a b

Abbildung 1.17: Moderne Halbleiter-Bildsensoren: a Komplette CMOS-Kameraauf einem Chip mit digitaler und analoger Bildausgabe (Bild zur Verfügung ge-stellt von K. Meier, Kirchhoff-Institut für Physik, Universität Heidelberg), [140]).b Hochqualitative digitale 12-bit CCD-Kamera, Pixelfly (Bild zur Verfügung ge-stellt von PCO GmbH, Kelkheim).

• Hohe Sensitivität. Die Quantenausbeute, d. h. der Anteil an elemen-taren Ladungen, der pro Photon erzeugt wird, kann nahe bei einsliegen (R2 und R1). Selbst Standardsensoren, die bei Umgebungs-temperaturen betrieben werden, haben einen geringen Rauschpegelvon nur 10 bis 100 Elektronen, sodass sie eine hohe Empfindlichkeitaufweisen. Gekühlte Sensoren können für Belichtungszeiten bis inden Stundenbereich eingesetzt werden, ohne dass sich ein merkli-ches thermisches Signal ergibt.

• Große Variabilität. Bildsensoren gibt es mit den verschiedensten Auf-lösungen und Bildraten. Sensoren mit hohen Auflösungen von bis zu2048× 2048 und mehr Bildpunkten sind erhältlich (R2 und R1).Der bis 2001 größte CCD-Sensor wurde von der Firma Philips ge-baut. Er besteht aus Modulen mit 1k× 1k-Sensorblöcken. Daraus ent-stand ein 7k× 9k-Sensor mit Bildpunkten der Größe 12× 12µm [77].Zu den schnellsten verfügbaren Bildaufnehmern gehört der CMOS-Bildsensor von Micron mit einer maximalen Bildrate von 500 Hz bei1280× 1024 Sensorelementen (660 MB/s Datenrate).

• Bilder vom Unsichtbaren. Halbleiter-Bildaufnehmer sind nicht nur fürden sichtbaren Bereich des elektromagnetischen Spektrums empfind-lich. Standard-CCD-Sensoren können so gebaut werden, dass sie Wel-lenlängen von 200 nm im Ultraviolettbereich bis zu 1100 nm im nahenInfrarot detektieren können. Für größere Wellenlängen sind andereMaterialien wie GaAs, InSb oder HgCdTe erforderlich (R3), da Sili-zium transparent wird. Mit speziellen Verfahren können Silizium-Sensoren aber bis weit in den Bereich der Röntgenstrahlen hineinempfindlich gemacht werden.


1.7.2 Bildspeicher und Bilddarstellung

Ein Bildspeicher wandelt ein elektrisches Signal vom Bildaufnahmesys-tem in ein digitales Bild um, das von einem Computer verarbeitet wer-den kann. Bilddarstellung und -verarbeitung erfordern heutzutage keinespezielle Hardware mehr. Mit der Entwicklung der grafischen Benutzero-berflächen wurde die Bilddarstellung ein integrierter Teil eines Personal-computers oder einer Workstation. Neben der Darstellung von Grauwert-bildern mit bis zu 256 Grauwertstufen (8 Bit) können auch Echtfarbbildermit bis zu 16,7 Millionen Farben (3 Kanäle mit je 8 Bit) bei einer Auflö-sung von bis zu 1600× 1200 Bildpunkten auf preiswerten Grafikkartenin hoher Qualität dargestellt werden.

Dementsprechend erfordert ein moderner Bildspeicher keine eigeneBilddarstellungseinheit mehr. Nötig sind lediglich Schaltkreise, um daselektrische Signal vom Bildsensor zu digitalisieren. Zusätzlich muss dasBild im Speicher des Computers abgelegt werden. Die direkte Übertra-gung der Bilddaten vom Bildspeicher in den Hauptspeicher (RAM) ei-nes Mikrocomputers ist seit 1995 durch die Einführung schneller pe-ripherer Bussysteme wie des PCI-Busses möglich. Dieser 32 Bit breiteBus hat eine theoretische Spitzenübertragungsgeschwindigkeit von 132MByte/s. Je nach PCI-Bus-Controller auf dem Framegrabber und Chip-satz auf dem Motherboard des Computers werden tatsächliche Übertra-gungsraten zwischen 15 und 80 MB/s erreicht. Dies ist selbst für Farb-bilder und Bilder mit hoher Bildrate ausreichend, um Bildsequenzen inEchtzeit in den Hauptspeicher zu übertragen. Die zweite Generation desPCI-Busses ist 64 Bit breit und hat eine Taktfrequenz von 66 MHz. Damitvervierfacht sich die maximale Transferrate auf 512 MB/s. Digitale Ka-meras, die Bilder direkt über standardisierte Schnittstellen wie Firewire(IEEE 1394), die Camera Link-Schnittstelle oder eine schnelle Ethernet -Verbindung übertragen, machen die Bildeingabe in den Rechnern nocheinfacher.

Die Datentransferraten zu Festplatten sind jedoch mit etwa 10 MB/swesentlich geringer. Das reicht nicht aus, um unkomprimierte Bilddatenin Echtzeit auf die Festplatte zu transferieren. Echtzeit-Transfer vonBilddaten mit Transferraten zwischen 10 und 30 MB/s sind jedoch mitRAID arrays möglich.

1.7.3 Computer-Hardware für die Bildverarbeitung

Der enorme Fortschritt der Computertechnologie in den letzten zwanzigJahren hat die digitale Bildverarbeitung jedem Wissenschaftler und Inge-nieur zugänglich gemacht. Um einen Personal-Computer für die Bildver-arbeitung einsetzen zu können, müssen vier wesentliche Bedingungenerfüllt sein: hochauflösende Bilddarstellung, ausreichende Bandbreitefür Speichertransfer, genügend Speicher und eine ausreichende Rechen-


leistung. In allen vier Bereichen wurde eine kritische Leistungsgrenzeüberschritten, die es möglich macht, Bilder mit Standardhardware zuverarbeiten. In naher Zukunft ist zu erwarten, dass auch Volumenbil-der und/oder Bildsequenzen mit Personal-Computern verarbeitet wer-den können. Im Folgenden werden wir diese Schlüsselbereiche bespre-chen.

Personal-Computer verfügen nun über genügend Hauptspeicher (Ran-dom Access Memory oder RAM), um mehrere Bilder zu speichern. Theo-retisch kann ein 32-Bit-Computer bis zu 4 GB Speicher adressieren. Dasist ausreichend auch für komplexe Bildverarbeitungsoperationen mit um-fangreichem Bildmaterial. Mit den seit kurzer Zeit erhältlichen 64-Bit-Computersystemen steht genügend Speicher für anspruchsvolle Anwen-dungen mit Bildsequenzen und Volumenbildern zur Verfügung.

Während in den Anfängen der Personalcomputer Festplatten eine Ka-pazität von 5 bis 10 MByte hatten, sind heute Plattensysteme mit zehn-tausendfach höherer Kapazität (40–200 GB) Standard. Damit kann ei-ne große Anzahl Bilder auf Festplatten gespeichert werden. Dies ist ei-ne wichtige Voraussetzung für die wissenschaftliche Bildverarbeitung.Für die permanente Datenspeicherung und den Austausch von Bildda-ten spielt die DVD eine zunehmend bedeutende Rolle. Ein solches Me-dium kann knapp 5 GByte an Bilddaten aufnehmen, die unabhängig vomBetriebssystem auf MS Windows-, MacIntosh- und UNIX-Plattformen ge-lesen werden können. Mittlerweile gibt es günstige DVD-ROM-Brenner,die es jedermann erlauben, seine eigenen DVDs zu produzieren.

Während der kurzen Geschichte der Mikroprozessoren hat sich dieRechenleistung beträchtlich erhöht. Im Zeitraum von 1978 bis 2001 hatsich die Taktrate von 4.7 MHz auf 2.0 GHz um den Faktor 500 erhöht.Die Geschwindigkeit elementarer Operationen wie Fließkommaadditionoder -multiplikation hat sich sogar noch mehr erhöht, da auf moder-nen Mikroprozessoren diese Operationen nur einige Takte benötigen ge-genüber etwa 100 auf frühen Prozessoren. Das hat dazu geführt, dasssich die Verarbeitungsgeschwindigkeit von Fließkomma-Operationen ummehr als den Faktor 10000 beschleunigt hat.

Die Bildverarbeitung konnte von dieser Entwicklung nur teilweiseprofitieren. Auf modernen Mikroprozessoren wurden die Verarbeitungund der Transfer von 8-Bit- und 16-Bit-Bilddaten zunehmend ineffektiv.Diese Entwicklung hat sich erst 1997 mit der Integration von Multimedia-Instruktionssätzen in Mikroprozessoren geändert.

Die grundlegende Idee der schnellen Verarbeitung von Bilddaten istsehr einfach. Man macht sich zunutze, dass auf den 64-Bit breiten in-ternen Bussystemen moderner Mikroprozessoren mehrere Bildpunktegleichzeitig verarbeitet werden können. Diese spezielle Form der Paral-lelverarbeitung ist bekannt unter dem Namen Single Instruction MultipleData (SIMD). Mit 64 Bit langen Datenworten können acht 8-Bit-, vier 16-


Bit- oder zwei 32-Bit-Datenwörter gleichzeitig mit derselben Operationverarbeitet werden.

Sun war die erste Firma, die das SIMD-Konzept mit dem visual in-struction set (VIS ) auf der UltraSparc-Architektur integriert hat [156].Im Januar 1997 führte Intel die Technologie Multimedia Instruction SetExtension (MMX ) für die nächste Generation von Pentium-Prozessoren(P55C) ein. Das SIMD-Konzept wurde schnell von anderen Herstellernübernommen. Motorola entwickelte z. B. die AltiVec-Architektur. SIMD-Pixelverarbeitung wurde auch ein integraler Bestandteil von neuen 64-Bit-Architekturen wie der IA-64-Architektur von Intel und der x86-64-Architektur von AMD.

SIMD-Verarbeitung ist damit ein Standard für moderne Mikroprozes-soren geworden und hat teilweise zu einer erheblichen Beschleunigungvon Bildverarbeitungsoperationen geführt. Immer mehr komplexe Bild-verarbeitungsaufgaben können in Echtzeit auf Standard-Mikroprozesso-ren ausgeführt werden, ohne dass teuere und schwer zu programmie-rende Spezialhardware benötigt wird. Allerdings bedarf es noch weitererFortschritte bei den Compilern, bis die diversen SIMD-Techniken allge-mein genutzt werden können. Der Benutzer ist heute noch weitgehendauf von den Hardwareherstellern angebotene optimierte Bibliotheken an-gewiesen oder gezwungen, hardwarenahe zu programmieren.

1.7.4 Software und Algorithmen

Der rasche Fortschritt der Computerhardware lenkt leicht von der Bedeu-tung der Software und der mathematischen Untermauerung der Konzep-te für die Bildverarbeitung ab. Früher wurde die Bildverarbeitung mehrals „Kunst“ denn als Wissenschaft bezeichnet. Sie ähnelte mehr einemTappen im Dunkeln oder einem empirischen Suchen nach einer Lösung.Wenn ein Algorithmus für eine bestimmte Aufgabenstellung funktionier-te, konnte man fast sicher sein, dass er mit anderen Bildern nicht lief,ohne dass man wusste, warum.

Glücklicherweise ändert sich dies allmählich. Die Bildverarbeitungist dabei, sich zu einer wohlfundierten Wissenschaft zu entwickeln. Dastiefere Verständnis hat auch zu einer realistischeren Einschätzung derheutigen Möglichkeiten der Bildverarbeitung und -analyse geführt, die invielen Aspekten noch Welten von den Möglichkeiten des menschlichenSehens entfernt ist. Eine weitverbreitete falsche Meinung ist die, dasseine bessere mathematische Grundlage der Bildverarbeitung nur für dieTheoretiker von Interesse sei, jedoch keine Konsequenzen für die An-wendungen habe. Das Gegenteil ist der Fall; die Vorteile sind enorm.Zunächst erlaubt die mathematische Analyse eine Unterscheidung derlösbaren von den unlösbaren Bildverarbeitungsproblemen. Dies ist be-reits sehr hilfreich. Des Weiteren werden Bildverarbeitungsalgorithmenvorhersagbar und exakt; in einigen Fällen resultieren optimale Ergeb-

1.8 Übungsaufgaben 27

nisse. Neue mathematische Methoden führen oft zu neuen Ansätzen,die entweder bisher unlösbare Probleme lösen oder Aufgaben schnellerund genauer erledigen können als zuvor. In vielen Fällen lässt sich dieVerarbeitungsgeschwindigkeit um mehrere Größenordnungen steigern.Damit machen schnelle Algorithmen viele Bildverarbeitungsmethodenüberhaupt erst anwendbar bzw. reduzieren die Hardwarekosten einesBildverarbeitungssystems erheblich.

1.8 Übungsaufgaben

1.1: Bildsequenzbetrachter

Interaktive Betrachtung und Inspektion aller in diesem Buch behandeltenBildsequenzen und Volumenbilder (dip6ex01.01).

1.2: ∗Bildverarbeitungsaufgaben

Abbildung 1.13 enthält eine systematische Zusammenstellung der Hierar-chie der Bildverarbeitungsoperationen von der Beleuchtung bis zur Analysevon aus den Bildern extrahierten Objekten. Untersuchen Sie, welche dieserOperationen für die folgenden Aufgabenstellungen benötigt werden.

1. Messung der Größenverteilung von Farbpigmenten in elektronenmikro-skopischen Aufnahmen (Abschn. 1.2.1, Abb. 1.1c)

2. Detektion eines Hirntumors in einer Magnetresonanz-Tomografie-Auf-nahme (Abschn. 1.2.2, Abb. 1.5) und die Vermessung seiner Größe undForm

3. Untersuchung des Tagesganges des Wachstums von Pflanzenblättern (Ab-schn. 1.2.3, Abb. 1.6)

4. Zeichenerkennung (OCR): Lesen der Beschriftung auf einem integriertenSchaltkreis (Abschn. 1.2.4, Abb. 1.10a)

5. Einteilung von Galaxien aufgrund ihrer Form und ihres Spektrums in Klas-sen (Abschn. 1.2.4, Abb. 1.12)

1.3: ∗Interdisziplinäre Natur der Bildverarbeitung

1. Welche anderen Wissenschaften liefern Methoden, die in der Bildverar-beitung benutzt werden?

2. In welchen Bereichen der Wissenschaft und Technik findet die Bildverar-beitung Ihre Anwendung?

1.4: ∗∗Vergleich von technischen und biologischen Sehsystemen

In Abschn. 1.7 werden die Komponenten eines technischen Bildverarbei-tungssystems beschrieben. Versuchen Sie, die entsprechenden Komponen-ten in biologischen Sehsystemen zu finden. Ist eine komponentenweiseUmsetzung denkbar und sehen Sie dabei fundamentale Differenzen? Gibtes biologische Komponenten, die in technischen Systemen noch nicht um-gesetzt wurden und umgekehrt?


1.5: ∗Datenmengen in der Bildverarbeitung

In der Bildverarbeitung müssen im Vergleich zur Analyse von Zeitreihen inder Regel sehr große Datenmengen verarbeitet werden. Um dafür ein Ge-fühl zu bekommen, schätzen Sie ab, welche Datenmengen in den folgendentypischen Aufgabenstellungen verarbeitet werden müssen.

1. Wellenbildsequenzen. In einem Wind/Wellen-Kanal werden Bildsequen-zen der Wasseroberflächenwellen aufgenommen (Abschn. 1.2.3, Abb. 1.8).Dabei werden gleichzeitig zwei Kamerasysteme eingesetzt, die jeweils200 Bilder pro Sekunde mit einer Auflösung von 640× 480 Bildpunktenund 8 Bit Auflösung liefern. Eine Messserie läuft über sechs Stunden.Alle 15 Minuten wird mit beiden Kameras eine Sequenz von 5 Minutenaufgenommen. Wie hoch ist die Datenrate, mit der die beiden Bildsequen-zen in Echtzeit auf die Festplatte geschrieben werden müssen? WelcheDatenmenge fällt nach der sechsstündigen Messserie an?

2. Industrielles Inspektionssystem beim Laserschweissen. Das Schwei-ßen von Teilen in einer industriellen Produktionsstraße wird von einerHochgeschwindigkeitskamera überwacht, die eine Sekunde lang 1000 Bil-der/s mit 256× 256 Bildpunkten und 16 Bit/Bildpunkt zur Überprüfungeines Teils aufnimmt. Pro Stunde werden 1000 Teile überprüft. Die An-lage läuft rund um die Uhr und hat insgesamt sechs Prüfstellen. WelcheDatenmenge fällt pro Tag bzw. pro Jahr an?

3. Fahrerassistenzsystem. Für ein Fahrerassistenzsystem, das zur automa-tischen Erkennung der Fahrspur und der Verkehrszeichen eingesetzt wer-den soll, wird eine Kamera mit einer räumlichen Auflösung von 640× 480Bildpunkten und 25 Bildern/s eingebaut. Die Kamera liefert Farbbildermit drei Farbkanälen rot, grün und blau und 10 Bit pro Farbkanal. WelcheDatenrate in Mbyte/s muss in Echtzeit verarbeitet werden?

4. Medizinische Volumenbildsequenzen. In einem schnellen Computer-tomografen können für dynamische medizinische Untersuchungen Vo-lumenbilder mit einer Auflösung von 256× 256× 256 Bildpunkten undeiner Wiederholrate von 10 Bildern/s aufgenommen werden. Die Datensind 16 Bit tief. Welche Datenrate in Mbyte/s fällt an?

1.9 Literaturhinweise zur Vertiefung

In diesem Abschnitt werden einige Hinweise auf weiterführende Literatur gege-ben.

Einführende Lehrbücher. Einführende deutschsprachige Lehrbücher sindHaberäcker [76] und Abmayr [1]. „The Image Processing Handbook“ von Russ[193] ist eine gute Einführung in die Bildverarbeitung mit einer Fülle von Anwen-dungsbeispielen und Bildmaterial. Empfehlenswert ist auch das Lehrbuch vonNalwa [161]. Es führt den Leser, wie der Titel sagt, durch das Computer-Sehen.

Lehrbücher für Fortgeschrittene. Auch heute lohnt es sich noch, das nunfast zwanzig Jahre alte, klassische Lehrbuch „Digital Picture Processing“ vonRosenfeld und Kak [192] zu lesen. Ein anderes klassische, aber zwischenzeit-lich etwas veraltetes Lehrbuch ist Jain [108]. Von anderen Klassikern gibt es

1.9 Literaturhinweise zur Vertiefung 29

aktuelle Neuauflagen: Pratt [175] und Gonzalez und Woods [70]. Das Lehr-buch von van der Heijden [228] befasst sich mit Bildverarbeitung unter demGesichtspunkt der Messtechnik und schließt die Parameterschätzung und Ob-jekterkennung ein.

Lehrbücher zu speziellen Themen. Wegen der interdisziplinären Naturder Bildverarbeitung (Abschn. 1.5) kann diese von verschiedenen Standpunktenaus betrachtet werden. Die folgende Tabelle weist Lehrbücher und Monografienaus, die sich auf den einen oder anderen Aspekt der Bildverarbeitung konzen-trieren. Es sind auch applikationsorientierte Darstellungen dabei.

Thema Referenz

Bildsensoren Holst [86], Howell [91], Jane-sick [110]

Magnetresonanz-Bildgebung Haacke et al. [75], Liang undLauterbur [137], Reisser undSemmler [183], Mitchell undCohen [155]

Geometrie des Computer-Sehens Faugeras [50], Faugeras undLuong [51]

Perzeption Mallot [146], Wandell [233]Maschinelles Sehen Jain et al. [109], Jähne et al.

[106], Demant et al. [39]Robotor- und Computer-Sehen Horn [90], Shapiro und Stock-

man [207], Forsyth und Ponce[62]

Signalverarbeitung Granlund und Knutsson [72],Lim [138]

Bildverarbeitung in der Medizin Lehmann et al. [133]Photogrammetrie Bähr und Vögtle [8], Luhmann

[144], Luhmann [143]Fernerkundung Richards und Jia [187], Schott

[201]Mikrostrukturanalyse Ohser und Mücklich [165]Industrielle Bildverarbeitung Demant et al. [39]Mustererkennung, Objektklassifizierung Duda et al. [46], Schürmann

[203], Bishop [16], Schöllkopfund Smola [200]

Bildverstehen Ullman [223]

Menschliches und maschinelles Sehen. Eine ausführliche Behandlung istbei Levine [136] zu finden. Eine exzellente und aktuelle Referenz ist auch dieMonografie von Wandell [233].

Artikelsammlungen. Einen guten Überblick über die Bildverarbeitung an-hand von Schlüsselpublikation aus Fachzeitschriften geben folgende Sammel-bände: „Digital Image Processing“ von Chelappa [28], „Readings in ComputerVision: Issues, Problems, Principles, and Paradigms“ von Fischler und Firschein


[54] und „Computer Vision: Principles and Advances and Applications“ von Ka-sturi und Jain [117, 118].

Handbücher. Das „Practical Handbook on Image Processing for Scientific Ap-plications“ von Jähne [99] gibt einen aufgabenorientierten Zugang zur Bildver-arbeitung mit vielen praktischen Hinweisen. Eine umfangreiche Zusammenfas-sung der Computer Vision bietet das dreibändige Werk „Handbook of ComputerVision and Applications“ von Jähne et al. [104]. Algorithmen für die Bildverar-beitung und Computer Vision sind zu finden in Voss und Süße [232], Pitas [172],Parker [169], Umbaugh [224] und Wilson und Ritter [241].

2 Bildrepräsentation

2.1 Einleitung

Dieses und die beiden nächsten Kapitel behandeln die mathematischenGrundlagen der Bildverarbeitung. Thema dieses Kapitels ist die Frage,wie bildhafte Information repräsentiert werden kann. Zwei Aspekte sindin diesem Zusammenhang wesentlich:

Zum einen kann Bildinformation auf völlig verschiedene Arten darge-stellt werden, wobei die wichtigsten die räumliche (Abschn. 2.2) und dieWellenzahldarstellung (Abschn. 2.3) sind. Sie unterscheiden sich durcheine andere Betrachtung räumlicher Daten. Da die verschiedenen Bild-darstellungen die Bilddaten jeweils vollständig repräsentieren und damitäquivalent sind, können sie ineinander konvertiert werden. Die Konver-sion von der räumlichen in die Wellenzahlrepräsentation ist als Fourier-transformation bekannt. Sie ist ein Beispiel einer allgemeineren Klassevon Operationen, den unitären Transformationen (Abschn. 2.4).

Zum anderen diskutieren wir, wie diese Bilddarstellungen mit Digital-rechnern realisiert werden können. Wie können Bilder durch eine Matrixdigitaler Zahlen adäquat dargestellt werden? Wie können diese Dateneffizient gehandhabt werden? Gibt es schnelle Algorithmen, die eine Re-präsentation in die andere konvertieren? Ein Schlüsselbeispiel dazu istdie schnelle Fouriertransformation, die in Abschn. 2.5 besprochen wird.

2.2 Digitale Bilder im Ortsraum

2.2.1 Pixel und Voxel

Bilder stellen eine flächenhafte Verteilung der Bestrahlungsstärke in ei-ner Ebene dar. Mathematisch kann diese als eine kontinuierliche Funk-tion von zwei räumlichen Variablen beschrieben werden:

E(x1, x2) = E(x). (2.1)

Computer können keine kontinuierlichen Bilder verarbeiten, sondernnur digitale Zahlenfelder. Aus diesem Grund müssen Bilder als zweidi-mensionale Punktfelder abgespeichert werden. Ein Punkt auf dem 2D-Gitter wird als Pixel oder Pel bezeichnet. Beide Begriffe sind Kurzformen


32 2 Bildrepräsentation

aSpalten

Zei

len

0

1

m

M-1

0 1 n N-1

Gm,n

x

y

b

l

m

n

z

x

y

Abbildung 2.1: Darstellung von Digitalbildern durch Felder diskreter Punkte aufeinem quadratischen Gitter: a 2D-Bild, b 3D-Bild.

des englischen Begriffes picture element . Ein Pixel oder Bildpunkt reprä-sentiert die Bestrahlungsstärke an der zugehörigen Gitterposition. Fürdie Angabe der Position des Pixels ist die Matrixnotation üblich. Der ers-te Index, m, gibt die Position der Zeile (Zeilenindex), der zweite, n, diePosition der Spalte (Spaltenindex) an (Abb. 2.1a). Besteht ein digitalesBild aus M ×N Bildpunkten, wird es durch eine M ×N-Matrix repräsen-tiert. Der Spaltenindex, n, läuft von 0 bis N − 1 und der Zeilenindex, m,von 0 bis M − 1. M gibt die Anzahl der Zeilen, N die Anzahl der Spal-ten an. In Übereinstimmung mit der Matrixnotation läuft die vertikaleAchse (y-Achse) von oben nach unten und nicht umgekehrt wie sonstvielfach üblich. Die horizontale Achse (x-Achse) läuft wie gewohnt vonlinks nach rechts.

Jedes Pixel repräsentiert eigentlich nicht nur einen Bildpunkt, son-dern eine rechteckige Region, die Elementarzelle des Gitters. Der mitdem Pixel assoziierte Wert muss die mittlere Bestrahlungsstärke der zu-gehörigen Gitterzelle angemessen darstellen.

Abbildung 2.2 zeigt ein Bild, dargestellt mit unterschiedlicher Anzahlvon Pixeln. Bei Verwendung von wenigen Pixeln (Abb. 2.2a, b) ist nichtnur die räumliche Auflösung schlecht, sondern die Grauwertunterschie-de an den Pixelrändern erzeugen auch Artefakte, die vom eigentlichenBildinhalt ablenken. Werden die Pixel kleiner, sind auch diese Effekteweniger auffällig bis dahin, dass wir den Eindruck eines räumlich konti-nuierlichen Bildes haben. Dies ist dann der Fall, wenn die Pixel kleinersind als die räumliche Auflösung unseres Sehsystems. Sie können sichvon dieser Beziehung überzeugen, indem Sie Abb. 2.2 aus unterschied-licher Entfernung betrachten.

2.2 Digitale Bilder im Ortsraum 33

a b

c d

Abbildung 2.2: Auf einem quadratischen Gitter repräsentiert jedes Pixel ei-ne quadratische Region des Bildes. Dargestellt ist dasselbe Bild mit a 3× 4, b12× 16, c 48× 64 und d 192× 256 Bildpunkten. Enthält das Bild ausreichendviele Bildpunkte, erscheint es für das menschliche Sehsystem als kontinuierlichesBild.

Wie viele Pixel sind notwendig? Auf diese Frage gibt es keine generelleAntwort. Für die Betrachtung eines digitalen Bildes sollte die Pixelgrößekleiner sein als die räumliche Auflösung des visuellen Systems des Be-obachters bei einer gegebenen Entfernung. Auf eine bestimmte Aufgabebezogen, sollte die Pixelgröße kleiner sein als die kleinsten Objekte, dieuntersucht werden sollen. Im Allgemeinen ist für die Pixelgröße jedocheher die verfügbare Sensortechnologie limitierend als die Anforderungder Anwendung (Abschn. 1.7.1). Auch ein hochauflösender Sensor mit1000× 1000 Bildpunkten hat eine relative räumliche Auflösung von nur10−3. Dies ist eine schlechte Auflösung im Vergleich zu anderen Verfah-ren wie der Längenmessung, der Messung elektrischer Spannung oderder Bestimmung der Häufigkeit. Diese Größen können mit relativen Auf-lösungen von weit besser als 10−6 bestimmt werden. Allerdings liefernsie nur eine Messung an einem einzigen Punkt, während ein 1000× 1000-Bild eine Million Bildpunkte enthält. Damit erhalten wir Einsicht in dieräumlichen Variationen einer Messgröße. Bei Aufnahme von Bildsequen-


a b c

Abbildung 2.3: Die drei möglichen regelmäßigen 2D-Gitter: a Dreiecksgitter,b quadratisches Gitter, c hexagonales Gitter.

zen erschließen sich auch die zeitlichen Änderungen und damit die Kine-matik und Dynamik der untersuchten Prozesse. Auf diese Weise eröffnetdie Bildverarbeitung eine völlig neue Qualität der Messung.

Ein quadratisches Gitter ist die einfachste Geometrie eines digitalenBildes. Andere geometrische Anordnungen der Bildpunkte und Formender Elementarzellen sind möglich. Diese Fragestellung entspricht derUntersuchung von Kristallstrukturen im 3D-Raum, mit der sich Festkör-perphysiker, Mineralogen und Chemiker beschäftigen. Kristalle zeigenperiodische 3D-Muster der Anordnung ihrer Atome, Ionen oder Molekü-le, die aufgrund ihrer Symmetrien und der Geometrie einer Elementar-zelle klassifiziert werden können. Zweidimensional ist die Klassifikationdigitaler Gitter viel einfacher als im dreidimensionalen Raum. Wenn wiruns auf regelmäßige Polyeder beschränken, gibt es nur drei Anordnungs-möglichkeiten: Dreiecke, Quadrate und Sechsecke (Abb. 2.3).

In der Bildverarbeitung sind neben den zweidimensionalen auch drei-und sogar höherdimensionale Signale von Interesse. Ein Pixel wird in ei-nem 3D-Bild zu einem Voxel (Kurzform des englischen Begriffes volumeelement ). Auf einem in jeder Richtung quadratischen Gitter repräsen-tiert jedes Voxel den mittleren Grauwert eines Würfels. Die Positioneines Voxels wird durch drei Indizes gegeben. Dabei steht l für die Tie-fe, m ist wieder der Zeilen- und n der Spaltenvektor (Abb. 2.1b). Einkartesisches Gitter ist die allgemeinste Lösung für digitale Daten derDimension n, weil es die einzige geometrische Form ist, die leicht fürbeliebige Dimensionen erweitert werden kann (Hyperpixel).

2.2.2 Nachbarschaftsrelationen

Eine bedeutende Eigenschaft diskreter Bilder sind Nachbarschaftsbezie-hungen, da sie definieren, was wir als zusammenhängende Region unddamit als digitales Objekt betrachten. Ein zweidimensionales quadrati-sches Gitter hat die unglückliche Eigenschaft, dass zwei Möglichkeitenbestehen, benachbarte Bildpunkte zu definieren (Abb. 2.4a, b). Wir kön-nen Pixel als benachbart betrachten, wenn sie eine gemeinsame Kante


a

m,n+1

m-1,n

m,n

m+1,n

m,n-1

b

m,n+1

m-1,n

m,n

m+1,n

m,n-1

m-1,n-1 m-1,n+1

m+1,n-1 m+1,n+1

c

Abbildung 2.4: Nachbarschaften auf einem quadratischen Gitter: a 4er-Nachbarschaft und b 8er-Nachbarschaft. c Der schwarze Bereich zählt in ei-ner 8er-Nachbarschaft als ein Objekt (zusammenhängende Region), in einer 4er-Nachbarschaft jedoch als zwei Objekte.

oder aber mindestens eine gemeinsame Ecke aufweisen. Also gibt esentweder 4 oder 8 Nachbarn. Wir sprechen dann von einer 4er-Nachbar-schaft oder einer 8er-Nachbarschaft .

Beide Nachbarschaftstypen sind für die Definition von Objekten alszusammenhängende Regionen notwendig. Eine Region oder ein Objektwird als zusammenhängend bezeichnet, wenn wir jedes Pixel in der Re-gion von jedem anderen Pixel über einen Weg erreichen können, der voneinem benachbarten Pixel zu einem nächsten führt. Das schwarze Objektin Abb. 2.4c wird in einer 8er-Nachbarschaft als ein Objekt betrachtet, ineiner 4er-Nachbarschaft zerfällt es jedoch in zwei Objekte, da die beidenBereiche keine gemeinsame Kante haben. Der weiße Hintergrund zeigt inbeiden Nachbarschaften gleiche Eigenschaften. In der 8er-Nachbarschaftüberkreuzen sich also zwei zusammenhängende Regionen, während inder 4er-Nachbarschaft zwei separate Regionen resultieren. Diese Inkon-sistenzen können überwunden werden, wenn die Objekte als 4er- undder Hintergrund als 8er-Nachbarschaft definiert werden oder umgekehrt.

Solche Komplikationen treten nicht nur bei quadratischen Gittern auf.Bei einem dreieckigen Gitter (Abb. 2.3a) können wir eine 3er- und 12er-Nachbarschaft definieren, bei denen die Nachbarn entweder eine gemein-same Kante oder Ecke haben. Bei einem hexagonalen Gitter (Abb. 2.3c)können wir dagegen nur eine 6er-Nachbarschaft definieren, da es Bild-punkte, die eine gemeinsame Ecke, aber keine gemeinsame Kante aufwei-sen, nicht gibt. Benachbarte Pixel haben stets eine gemeinsame Kanteund zwei gemeinsame Ecken. Trotz dieses Vorteils werden Hexagon-algitter in der Bildverarbeitung selten verwendet, da fast alle handels-üblichen Bildsensoren Pixel auf einem quadratischen Gitter liefern. DieFotosensoren der Retina des menschlichen Auges haben dagegen ehereine hexagonale Form [233].


a

m

m+1

p-1

nm

n-1m-1

mp

n+1

p+1

n

b c

Abbildung 2.5: Die drei Nachbarschaftstypen auf einem dreidimensionalen ku-bischen Gitter. a 6er-Nachbarschaft: Voxel mit zusammenhängenden Flächen;b 18er-Nachbarschaft: Voxel mit verbundenen Kanten; c 26er-Nachbarschaft:Voxel mit verbundenen Ecken.

Im dreidimensionalen Raum sind die Nachbarschaftsrelationen nochkomplexer. Nun gibt es drei Möglichkeiten, Nachbarschaften zu definie-ren. Es gibt Voxel mit verbundenen Flächen, Kanten und Ecken. DieseDefinitionen führen entsprechend zu 6er-, 18er- und 26er-Nachbarschaf-ten (Abb. 2.5). Auch hier müssen wir unterschiedliche Nachbarschaftenfür Objekte und Hintergrund definieren, um eine konsistente Definiti-on zusammenhängender Regionen zu erhalten. Objekte müssen als 6er-und der Hintergrund muss als 26er-Nachbarschaft definiert werden oderumgekehrt.

2.2.3 Diskrete Geometrie

Die diskrete Natur digitaler Bilder macht es notwendig, elementare geo-metrische Eigenschaften wie Distanz, Steigung einer Linie sowie Koordi-natentransformationen wie Translation, Rotation und Skalierung neu zudefinieren. Diese Größen sind für die Definition und Messung geometri-scher Parameter von Objekten in digitalen Bildern erforderlich.

Um die diskrete Geometrie diskutieren zu können, führen wir denGittervektor ein, der die Position eines Pixels beschreibt. Die folgendeDiskussion ist auf rechteckige Gitter beschränkt. Der Gittervektor in 2D-,3D- und 4D-Bildern bzw. Bildsequenzen ist definiert als

rm,n =[n∆xm∆y

], rl,m,n =

⎡⎢⎣ n∆xm∆yl∆z

⎤⎥⎦ , rk,l,m,n =

⎡⎢⎢⎢⎣n∆xm∆yl∆zk∆t

⎤⎥⎥⎥⎦ . (2.2)

Zur Messung von Entfernungen kann auch die euklidische Distanzvom kontinuierlichen Raum auf ein diskretes Gitter mit folgender Defi-


nition übertragen werden:

de(r,r′) = ‖r − r′‖ =[(n−n′)2∆x2 + (m−m′)2∆y2

]1/2. (2.3)

Für die Entfernungsmessung in höheren Dimensionen gelten entspre-chende Formeln. In Digitalbildern werden oft zwei weitere Maßsystemeverwendet. Die Blockdistanz

db(r,r′) = |n−n′| + |m−m′| (2.4)

gibt die Länge des Weges zwischen zwei Punkten des diskreten Gittersan, wenn man nur in horizontaler und vertikaler Richtung gehen kann.Dies entspricht einem Weg in einer 4er-Nachbarschaft. Die Schachbrett-distanz ist dagegen definiert als das Maximum der Entfernung in hori-zontaler und vertikaler Richtung:

dc(r,r′) = max(|n−n′|, |m−m′|). (2.5)

Für praktische Anwendungen (Vermessungsaufgaben etc.) ist jedoch nurdie euklidische Metrik von Bedeutung. Sie ist die einzige Metrik für Digi-talbilder, die die Isotropie des kontinuierlichen Raums bewahrt. Mit derBlockdistanz-Metrik sind z. B. Entfernungen in Richtung der Diagonalenlänger als bei der euklidischen Distanz. Die Kurve aller Punkte mit glei-cher Entfernung zu einem gegebenen Punkt ist kein Kreis, sondern eineRaute, die einem um 45° gedrehten Quadrat entspricht.

Die Translation auf einem diskreten Gitter ist nur in Vielfachen derPixel- oder Voxeldistanz definiert, was durch Addition eines Gittervek-tors tm′,n′ ausgedrückt werden kann:

r′m,n = rm,n + tm′,n′ . (2.6)

Ebenso ist eine Größenänderung nur für ganzzahlige Vielfache derGitterkonstanten möglich, indem nur jedes q-te Pixel auf jeder p-tenZeile verwendet wird. Da diese diskrete Skalierungsoperation nur einenTeil der Gitterpunkte benutzt, ist aber fraglich, ob das Bild damit nochkorrekt wiedergegeben wird. Eine Drehung (Rotation) um einen belie-bigen Winkel ist auf einem diskreten Gitter mit Ausnahme einiger we-niger Winkel nicht möglich, da sich alle Punkte des gedrehten Gittersmit denen des nicht gedrehten decken müssen. Auf einem rechteckigen,quadratischen und hexagonalen Gitter sind nur Drehungen um ein Viel-faches von 180°, 90° bzw. 60° möglich. Auch die korrekte Darstellungselbst einfacher geometrischer Objekte wie Linien und Kreise ist nichteinfach. Linien sind nur wohldefiniert für Winkel eines Vielfachen von45°. Ansonsten resultiert eine treppenartige Anordnung von Pixeln mitungleichen Stufen (Abb. 2.6).

Diese Begrenzungen der diskreten Geometrie bewirken Fehler in derPosition, Größe und Orientierung von Objekten. Die Auswirkungen die-ser Fehler für die nachfolgende Weiterverarbeitung müssen sorgfältiguntersucht werden (Kapitel 9).


Abbildung 2.6: Eine digitale Linie ist nur in Richtung der Achsen und Diagonalenwohldefiniert. In allen anderen Richtungen erscheint sie als treppenartige Folgevon Pixeln mit ungleichmäßigen Stufen).

2.2.4 Quantisierung

Zur Darstellung mit digitalen Zahlen muss die gemessene Bestrahlungs-stärke auf eine begrenzte AnzahlQ diskreter Grauwerte abgebildet wer-den. Dieser Prozess wird als Quantisierung bezeichnet. Die Anzahl derbenötigten Quantisierungsstufen kann unter zwei Kriterien diskutiertwerden.

Zum einen können wir argumentieren, dass das menschliche Augekeine Grauwertstufen erkennen sollte, ebenso wie einzelne Bildpunktein digitalen Bildern nicht wahrnehmbar sein sollten. Die Bilder in Ab-bildung 2.7 wurden mit 2 bis 16 Grauwertstufen quantisiert. Aus ihnenwird deutlich, dass bei zu wenigen Grauwerten falsche Kanten erzeugtwerden und die Erkennung von Objekten, die sich in ihren Grauwertennur wenig vom Untergrund unterscheiden, schwierig ist. Bei gedrucktenBildern genügen in der Regel 16 Grauwerte, während auf einem Moni-tor bei gleicher Auflösung noch die Grauwertstufen zu erkennen sind.Standardmäßig werden Bilddaten mit 8 Bit in 256 Grauwerten quanti-siert. Dies passt gut zur Architektur von Standardcomputern, die denHauptspeicher byteweise adressieren. Zudem ist diese Auflösung gutgenug, um einen kontinuierlichen Übergang von Grauwerten vorzutäu-schen, denn das Auflösungsvermögen des menschlichen visuellen Sys-tems beträgt nur etwa 2 %.

Das andere Kriterium orientiert sich an der Aufgabenstellung. Füreine einfache Anwendung mögen zwei Quantisierungsstufen genügen.Als Beispiele seien maschinelle Sehsysteme genannt, bei denen man dieObjekte gleichmäßig beleuchtet und vor einem homogenen Hintergrunderkennen und vermessen möchte. Andere Anwendungen, wie die Spek-troskopie oder Röntgenaufnahmen zur medizinischen Diagnosestellung,erfordern die Auflösung wesentlich geringerer Intensitätsunterschiede.In diesem Fall wäre die Standardauflösung (8 Bit) unzureichend.


a b

c d

Abbildung 2.7: Darstellung eines Bildes mit unterschiedlicher Anzahl von Quan-tisierungsstufen: a 16, b 8, c 4, d 2. Eine zu geringe Quantisierung erzeugtfalsche Kanten, und Objekte mit geringem Kontrast können teilweise oder ganzverschwinden).

2.2.5 Vorzeichenbehaftete Repräsentation von Bildern

Normalerweise wird die Helligkeit (Bestrahlungsstärke) als eine positive Größeaufgefasst. Also erscheint es als natürlich, sie in einer vorzeichenlosen 8-Bit-Repräsentation als Zahl im Bereich von 0 bis 255 darzustellen. Dies bringtjedoch Probleme, sobald wir mit den Bildern arithmetische Operationen durch-führen. Die Subtraktion zweier Bilder ist ein einfaches Beispiel, bei dem negati-ve Zahlen entstehen. Da negative Grauwerte nicht dargestellt werden können,erscheinen sie als hohe positive Werte (in der Zweierkomplementdarstellungist das höchste Bit auf eins gesetzt). Die Zahl −1 wird beispielsweise mit −1modulo 256 = 255 zum Grauwert 255.

Dies konfrontiert uns mit dem Problem zweier unterschiedlicher Darstellun-gen von Grauwerten als vorzeichenbehaftete oder vorzeichenlose 8-Bit-Zahlen.Entsprechend muss jeder Algorithmus in mehreren Versionen vorhanden sein,einer für Grauwerte ohne Vorzeichen, einer für vorzeichenbehaftete Grauwerteund weitere für gemischte Fälle, in denen z. B. vorzeichenlose Bilder mit vorzei-chenbehafteten Filterkoeffizienten gefiltert werden.


a b

Abbildung 2.8: Der Kontext bestimmt, mit welcher Helligkeit unser Sehsystemein Objekt wahrnimmt. Beide Quadrate sind gleich hell. a Das Quadrat auf demdunklen Hintergrund erscheint jedoch heller als das auf dem hellen Hintergrund.b Die zwei Objekte erscheinen nur gleich hell, wenn sie einander berühren.

Eine Lösung liegt darin, Grauwerte stets als vorzeichenbehaftete Zahlen zu be-handeln. In einer 8-Bit-Darstellung können vorzeichenlose Zahlen konvertiertwerden, indem von ihnen 128 subtrahiert wird:

q′ = (q − 128) mod 256, 0 ≤ q < 256. (2.7)

In dieser Darstellung entspricht die mittlere Grauwertintensität von 128 demGrauwert Null und niedrigere Grauwerte werden negativ. Somit werden Grau-werte in dieser Darstellung als Abweichung vom Mittelwert 128 aufgefasst.

Die bei dieser Operation entstehenden vorzeichenbehafteten Grauwerte könnenals solche gespeichert werden. Nur für die Bilddarstellung müssen die Grau-werte durch die umgekehrte Punktoperation wieder in vorzeichenlose Wertekonvertiert werden:

q = (q′ + 128) mod 256, −128 ≤ q′ < 128. (2.8)

Diese Addition ist identisch mit der in (2.7) durchgeführten Subtraktion, da alleBerechnungen modulo 256 durchgeführt werden.

2.2.6 Helligkeitsempfinden des menschlichen Sehsystems

Im Hinblick auf die Quantisierung ist es wichtig zu wissen, wie unserSehsystem Leuchtstärken wahrnimmt und welche Unterschiede es er-kennen kann. Die kleinen Quadrate in Abb. 2.8 mit gleicher Leuchtstärkeerscheinen heller auf einem dunklen als auf einem hellen Hintergrund,obwohl ihre absolute Helligkeit identisch ist. Diese optische Täuschungverschwindet nur, wenn sich die beiden Quadrate berühren.

Das Auflösungsvermögen des menschlichen Sehsystems hat eher ei-ne logarithmische als eine lineare Charakteristik. Das bedeutet, dasswir relative Helligkeitsunterschiede wahrnehmen können. In einem wei-ten Bereich von Luminanzwerten können wir relative Unterschiede vonetwa 2% unterscheiden. Dieser Grenzwert hängt von einer Anzahl vonFaktoren ab, insbesondere der räumlichen Frequenz (Wellenlänge) des


a b

Abbildung 2.9: Eine Szene mit hohem Kontrast, aufgenommen von einer CCD-Kamera mit linearem Kontrast und a einer kleinen bzw. b einer großen Blenden-öffnung.

Musters, das für das Experiment verwendet wird. Bei einer bestimmtenWellenlänge ist die Auflösung optimal.

Die oben beschriebenen Eigenschaften des menschlichen visuellenSystems unterscheiden sich deutlich von denen maschineller Systeme.Bei diesen werden typischerweise nur 256 Grauwerte aufgelöst. Damithat ein digitalisiertes Bild eine viel geringere Dynamik als Bilder, die derMensch wahrnimmt. Dies ist der Grund, warum die Qualität digitali-sierter Bilder, insbesondere von Szenen mit hohem Kontrast, für unsbedeutend schlechter ist als die der Bilder, die wir direkt sehen. In ei-nem digitalen Bild einer Szene, die mit einem linearen Bildsensor aufge-nommen wurde, sind entweder die hellen Bereiche überlaufen oder diedunklen Bereiche unterlaufen. Diese Problematik ist in Abb. 2.9 anhandeiner Szene mit hohem Kontrast (Blick auf einen Schreibtisch in RichtungFenster) illustriert.

Obwohl die relative Auflösung in den hellen Bildbereichen weit besserals 2 % ist, ist sie in den dunklen Bereichen deutlich niedriger. Bei einemGrauwert von 10 beträgt die Auflösung nur 10 %.

Eine Lösung zum Umgang mit großer Dynamik in Szenen finden wirbei Videosensoren, die die Bestrahlungsstärke E nicht linear, sondernunter Verwendung einer Exponentialfunktion in den Grauwert g konver-tieren:

g = Eγ. (2.9)

Der Exponent γ wird als der Gammawert bezeichnet. Üblicherweise hatγ einen Wert von 0,4. Mit dieser exponentiellen Konversion könnensich Kameras dem logarithmischen Charakter des menschlichen visu-ellen Systems annähern und eine deutliche Verstärkung des Kontrast-bereichs erreichen. Unter der Voraussetzung einer minimalen relativenAuflösung von 10 % und 256 Grauwerten ergibt sich mit γ = 1 ein Kon-


Abbildung 2.10: Ein Bild kann man sich aus Teilbildern zusammengesetzt den-ken, bei denen nur je ein Pixel ungleich null ist.

trastumfang von 25. Bei γ = 0.4 ist er mit einem Wert von 316 mehr alszwölfmal höher.

Viele wissenschaftliche Anwendungen benötigen jedoch eine linea-re Beziehung zwischen der Leuchtdichte des aufgenommenen Objektesund des Grauwertes, der in der Kamera daraus entsteht. Für solche An-wendungen muss daher der Gammawert auf eins gestellt werden. AnCCD-Kameras befindet sich oft ein Umschalter oder ein Trimmer, mitdem der Gammawert angepasst werden kann.

2.3 Wellenzahlraum und Fouriertransformation

2.3.1 Vektorräume

Abschnitt 2.2 beschäftigte sich mit der räumlichen Darstellung digita-ler Bilder. Damit war, ohne dass dies explizit erwähnt wurde, die Zu-sammensetzung eines Bildes aus einzelnen Bildpunkten gemeint. Mankann sich jedes Bild aus Basisbildern zusammengesetzt denken, bei de-nen jeweils nur ein Bildpunkt den Wert eins hat, während alle anderenBildpunkte den Wert null haben (Abb. 2.10). Wir bezeichnen solch einBasisbild mit einem Wert eins in Zeile m, Spalte n mit

m,nP : m,npm′,n′ =

1 m =m′ ∧n = n′0 sonst.

(2.10)

Damit kann jedes beliebige Bild aus den Basisbildern in (2.10) zusam-mengesetzt werden:

G =M−1∑m=0

N−1∑n=0

gm,n m,nP, (2.11)

wobei gm,n den Grauwert an Position m,n bezeichnet.

2.3 Wellenzahlraum und Fouriertransformation 43

Wir können uns leicht davon überzeugen, dass die Basisbilder m,nPeine orthonormale Basis bilden. Wir benötigen dazu ein inneres Produkt ,das dem Skalarprodukt für Vektoren entspricht. Das innere Produktzweier Bilder G und H ist definiert als

〈G |H 〉 =M−1∑m=0

N−1∑n=0

gm,nhm,n. (2.12)

Die Notation für das innere Produkt wird der Quantenmechanik entlehnt,um sie von der Matrixmultiplikation zu unterscheiden, die mit GH be-zeichnet wird. Aus (2.12) können wir direkt die Orthonormalitätsrelationfür die Basisbilder m,nP ableiten:

M−1∑m=0

N−1∑n=0

m′,n′pm,nm′′,n′′pm,n = δm′−m′′δn′−n′′ . (2.13)

Die Gleichung sagt, dass das innere Produkt zweier Basisbilder null ist,wenn zwei unterschiedliche Basisbilder eingesetzt werden. Dagegen istdas Skalarprodukt eines Basisbildes mit sich selbst eins. Die MN Basis-bilder spannen also einen M ×N-dimensionalen Vektorraum über demKörper der reellen Zahlen auf.

Die Analogie zu den bekannten zwei- und dreidimensionalen Vektor-räumen R2 und R3 hilft uns, die Überführung in andere Bilddarstellun-gen zu verstehen. Ein M ×N-Bild repräsentiert einen Punkt im M ×N-Vektorraum. Ändern wir das Koordinatensystem, verändert sich nichtdas Bild, sondern nur seine Koordinaten. Damit sehen wir die gleiche In-formation aus einem anderen Blickwinkel. Aus dieser grundlegendenTatsache ergeben sich zwei wichtige Schlussfolgerungen. Zum einensind alle Bilddarstellungen einander äquivalent und geben ein Bild voll-ständig wieder, und zum anderen gelangen wir über geeignete Koordi-natentransformationen von einer Bilddarstellung zu einer anderen unddurch die entsprechende inverse Transformation wieder zurück.

Aus der Vielfalt möglicher anderer Bilddarstellungen hat neben derOrtsdarstellung nur eine einzige andere überragende Bedeutung für dieBildverarbeitung gewonnen. Ihre Basisbilder sind periodische Muster.Die „Koordinatentransformation“, aus der sie resultieren, ist die Fourier-transformation. Abbildung 2.11 zeigt, wie dasselbe Bild, das in Abb. 2.10aus einzelnen Pixeln besteht, aus periodischen Mustern zusammenge-setzt ist.

Ein periodisches Muster ist zuerst durch den Abstand zwischen zweiMaxima bzw. die Wiederholungslänge oder die Wellenlänge λ (Abb. 2.12)charakterisiert. Die Richtung des Musters wird am besten durch einenVektor senkrecht zu den Linien konstanter Werte beschrieben. Gebenwir diesem Vektor k die Länge 1/λ

|k| = 1/λ, (2.14)


Abbildung 2.11: Die ersten 56 periodischen Muster, die Basisbilder der Fourier-transformation, aus denen das Bild in Abb. 2.10 zusammengesetzt ist.

1/k2

1/k1X1

X2

λ=1/| |kk

∆ λ ϕx = /2π

∆x

Abbildung 2.12: Beschreibung eines periodischen 2D-Musters durch die Wellen-länge λ, Wellenzahl-Vektor k, und die Phase ϕ.

so können Wellenlänge und -richtung durch einen Vektor, den Wellen-zahl-Vektor k, ausgedrückt werden. Die Komponenten von k = [k1, k2]T

geben direkt die Anzahl Wellenlängen pro Einheitslänge in die betref-fende Richtung wieder. Der Wellenzahlvektor k kann zur Beschreibungbeliebigdimensionaler periodischer Muster benutzt werden.

Zur vollständigen Beschreibung eines periodischen Musters fehlennoch zwei Angaben: die Amplitude r und die relative Position des Mus-ters im Ursprung des Koordinatensystems (Abb. 2.12). Diese ist durchden Abstand ∆x des ersten Maximums vom Ursprung gegeben. Da die-se Distanz maximal eine Wellenlänge beträgt, geben wir sie durch einenPhasenwinkel ϕ = 2π∆x/λ = 2πk∆x an (Abb. 2.12). Damit ist die voll-ständige Beschreibung eines periodischen Musters gegeben durch

r cos(2πkTx −ϕ). (2.15)

Diese Beschreibung ist jedoch mathematisch gesehen unschön. Um eineeinfache Zerlegung beliebiger Muster in periodische zu erreichen, soll-


te man die Grundmuster bei einer Verschiebung nur mit einem Faktormultiplizieren müssen. Das ist nur möglich mithilfe komplexer Zahleng = r exp(−iϕ) und der komplexen Exponentialfunktion exp(iϕ) =cosϕ + i sinϕ. Der Realteil von g exp(2π ikTx) ergibt dann den Aus-druck in (2.15):

(g exp(2π ikTx)) = r cos(2πkTx −ϕ). (2.16)

Auf diese Weise erfordert die einfache Zerlegung eines Signals in pe-riodische Muster die Erweiterung von reellen zu komplexen Zahlen. Einreelles Bild fassen wir dabei als ein komplexes mit einem verschwinden-den Imaginärteil auf.

Die nachfolgenden Abschnitte dieses Kapitels sind mathematischerNatur. Sie bilden die Basis der Bildrepräsentation und der Bildvorverar-beitung. Nach Einführung der Definition und grundlegender Eigenschaf-ten der diskreten Fouriertransformation diskutieren wir in Abschn. 2.3.4und 2.3.5 weitere Eigenschaften, die für die Bildverarbeitung relevantsind.

2.3.2 Eindimensionale Fouriertransformation

Zuerst betrachten wir die eindimensionale Fouriertransformation.

Definition 2.1 (1D-FT) Sei g(x) : R → C eine quadratintegrable Funkti-on, d. h.

∞∫−∞

∣∣g(x)∣∣2dx <∞. (2.17)

Dann ist die Fouriertransformierte von g(x), g(k), gegeben durch

g(k) =∞∫−∞g(x) exp (−2π ikx)dx. (2.18)

Die Fouriertransformation bildet den Vektorraum der quadratintegrablenFunktionen auf sich selbst ab. Die inverse Fouriertransformation vong(k) ergibt die Originalfunktion g(x):

g(x) =∞∫−∞g(k) exp (2π ikx)dk. (2.19)

Die Fouriertransformation können wir kompakter schreiben mithilfeder Abkürzung

w = e2π i (2.20)


und durch Umschreiben des Integrals als ein Skalarprodukt :

⟨g(x) |h(x)⟩ =

∞∫−∞g∗(x)h(x)dx. (2.21)

Das Symbol * bezeichnet das konjugiert Komplexe. Es ergibt sich dieKurzschreibweise

g(k) =⟨

wkx∣∣g(x)⟩ . (2.22)

Die Funktion wt können wir uns vorstellen als einen Vektor, der gegenden Uhrzeigersinn auf dem Einheitskreis in der komplexen Ebene rotiert.Die Variable t gibt die Anzahl der Umdrehungen an.

Manchmal ist es praktisch, die Fouriertransformation als einen Ope-rator zu schreiben:

g = Fg und g = F−1g. (2.23)

Eine Funktion und ihre Transformierte, ein Fouriertransformationspaar ,wird durch die Schreibweise g(x) • g(k) angegeben.

Bei der diskreten Fouriertransformation (DFT ) ist die Wellenzahl eineganze Zahl, die angibt, wie viele Wellenlängen in ein Intervall der LängeN passen.

Definition 2.2 (1D-DFT) Die DFT bildet einen geordneten N-Tupel kom-plexer Zahlen gn, den komplexwertigen Spaltenvektor

g = [g0, g1, . . . , gN−1

]T , (2.24)

auf einen anderen Vektor g eines Vektorraums mit derselben DimensionN ab:

gv = 1N

N−1∑n=0

gn exp(−2π inv

N

), 0 ≤ v < N. (2.25)

Die Rücktransformation ist gegeben durch

gn =N−1∑v=0

gv exp(

2π invN

), 0 ≤ n < N. (2.26)

Warum wir hier eine asymmetrische Definition der DFT benutzen, wirdin Abschn. 2.3.6 erläutert.

Wie bei der kontinuierlichen Fouriertransformation ist es nützlich,eine Abkürzung für den Kern der DFT zu benutzen (siehe (2.20)):

wN = w1/N = exp(

2π iN

). (2.27)


a

0

1

2

3

4

5

6

7

8

b0

1

2

3

4

5

6

7

8

Abbildung 2.13: Die ersten 9 Basisfunktionen der DFT für N = 16; a Realteil(Kosinusfunktion), b Imaginärteil (Sinusfunktion).

Auch die DFT kann als das Skalarprodukt des Vektors g mit einemSatz von N orthonormalen Basisvektoren aufgefasst werden:

bv = 1√N

[w0N,w

vN,w

2vN , . . . ,w

(N−1)vN

]T. (2.28)

Dann gilt

gv = 1N

N−1∑n=0

w−nvN gn = 1√N

⟨bv

∣∣g ⟩ = 1√NbvTg. (2.29)

Man beachte die zweite kompakte Schreibweise des Skalarprodukts mitdem hochgestellten T auf der rechten Seite der Gleichung, die die Bil-dung des konjugiert Komplexen des ersten Vektors mit einschließt. Glei-chung (2.29) bedeutet, dass sich der Koeffizient gv im Fourierraum durchProjektion des Vektors g auf den Basisvektor bv ergibt. Die N Basisvek-toren bv sind zueinander orthogonal und haben den Betrag eins:

bvTbv′ = δv−v′ =

1 v = v′0 sonst.

(2.30)

Daher bilden die bv eine Orthonormalbasis des Vektorraums, d. h.jeder Vektor des Vektorraums kann als eine Linearkombination dieser


Tabelle 2.1: Vergleich der kontinuierlichen Fouriertransformation (FT), der Fou-rierreihe (FS), der unendlichen diskreten Fouriertransformation (IDFT) und derdiskreten Fouriertransformation (DFT) in einer Dimension.

Typ Vorwärtstransformation Rückwärtstransformation

FT: x,k ∈ R g(k) =∞∫−∞g(x)w−kxdx g(x) =

∞∫−∞g(k)wkxdk

FS: x ∈ [0,∆x],v ∈ Z gv = 1

∆x

∆x∫0

g(x)w−vx/∆xdx g(x) =∞∑

v=−∞gvwvx/∆x

IDFT: n ∈ Z,k ∈ [0,1/∆x] g(k) =

∞∑n=−∞

gnw−nk∆x gn = ∆x1/∆x∫

0

g(k)wnk∆xdk

DFT: n,v ∈ ZN gv = 1N

N−1∑n=0

gnw−vnN gn =

N−1∑v=0

gvwvnN

Basisvektoren dargestellt werden. Die DFT berechnet die Projektionendes Vektors g auf alle Basisvektoren des Fourierraums, also die Kompo-nenten von g in Richtung der Basisvektoren.

In diesem Sinne kann die DFT als ein Spezialfall einer Koordinaten-transformation in einem N-dimensionalen Vektorraum verstanden wer-den. Mathematisch unterscheidet sich die DFT von bekannteren Koor-dinatentransformationen wie z. B. der Rotation in einem dreidimensio-nalen Vektorraum nur dadurch, dass es sich um einen Vektorraum überdem Körper komplexer statt reeller Zahlen handelt.

Real- und Imaginärteil der Basisvektoren sind abgetastete Sinus- undKosinusfunktionen unterschiedlicher Wellenlängen (Abb. 2.13). Der In-dex ν bezeichnet, wie oft die Wellenlänge der Funktion in das Intervall[0, N] passt. Der Basisvektor zur Wellenzahl null, b0, ist ein reeller, kon-stanter Vektor. Die Projektion auf diesen Vektor liefert den Mittelwertder Elemente des Vektors g multipliziert mit

√N .

Neben der kontinuierlichen und diskreten Fouriertransformation gibtes zwei weitere Formen, die oft in den Natur- und Ingenieurwissenschaf-ten benutzt werden. Die Fourierreihe (FS ) bildet eine Funktion in einemendlichen Intervall [0,∆x] auf eine unendliche Folge von komplexen Ko-effizienten ab. Umgekehrt bildet die unendliche diskrete Fouriertransfor-mation (IDFT ) eine unendliche Folge komplexer Zahlen auf ein endlichesIntervall [0,1/∆x] im Fourierraum ab. Deshalb ist es instruktiv, die DFTmit diesen Transformationen zu vergleichen (Tabelle 2.1).


2.3.3 Mehrdimensionale Fouriertransformation

Die Fouriertransformation kann leicht auf mehrdimensionale Signale er-weitert werden.

Definition 2.3 (Multidimensionale FT) Sei g(x) : RW → C eine quadrat-integrable Funktion, d. h.

∞∫−∞

∣∣g(x)∣∣2dWx = ⟨

g(x)∣∣g(x)⟩ = ∥∥g(x)∥∥2

2 <∞. (2.31)

Dann ist die Fouriertransformation von g(x), g(k) gegeben durch

g(k) =∞∫−∞g(x) exp

(−2π ikTx

)dWx =

⟨wx

Tk ∣∣g(x)⟩ (2.32)

und die inverse Fouriertransformation durch

g(x) =∞∫−∞g(k) exp

(2π ikTx

)dWk =

⟨w−x

Tk ∣∣g(k)⟩ . (2.33)

Das Skalarprodukt im Exponenten des Kerns xTkmacht den Kern derFouriertransformation separabel, d. h., er kann als das Produkt

wxTk =

W∏p=1

wkpxp (2.34)

geschrieben werden.Die diskrete mehrdimensionale Fouriertransformation wird am Bei-

spiel der 2D-DFT diskutiert; die Erweiterung auf höhere Dimensionen isteinfach.

Definition 2.4 (2D-DFT) Die 2D-DFT bildet komplexwertigeM ×N-Matri-zen auf komplexwertige M ×N-Matrizen ab:

gu,v = 1MN

M−1∑m=0

N−1∑n=0

gm,n exp(−2π imu

M

)exp

(−2π inv

N

)(2.35)

oder

gu,v = 1MN

M−1∑m=0

⎛⎝N−1∑n=0

gm,nw−nvN

⎞⎠ w−muM . (2.36)

In der zweiten Zeile wird die in (2.27) eingeführte Abkürzung verwendet.Analog zur 1D-DFT wird eine Matrix in einen Satz vonNM Basismatrizen


expandiert, die denM ×N-dimensionalen Vektorraum über dem Körperder komplexen Zahlen aufspannen. Die Basismatrizen haben die Form

Bu,v︸︷︷︸M×N

= 1√MN

⎡⎢⎢⎢⎢⎢⎢⎢⎣

w0

wuMw2uM...

w(M−1)uM

⎤⎥⎥⎥⎥⎥⎥⎥⎦

[w0,wvN,w

2vN , . . . ,w

(N−1)vN

]. (2.37)

In dieser Gleichung werden die Basismatrizen als ein äußeres Produkteines Spalten- und Zeilenvektors dargestellt, die die Basisvektoren der1D-DFT darstellen ((2.28)). Daran sieht man die Separabilität der 2D-DFT.

Auch die 2D-DFT können wir als Skalarprodukt

gu,v = 1√MN

⟨Bu,v |G

⟩(2.38)

schreiben, wobei das Skalarprodukt zweier komplexwertiger Matrizendefiniert ist als

〈G |H 〉 =M−1∑m=0

N−1∑n=0

g∗m,nhm,n. (2.39)

Die inverse 2D-DFT ist gegeben durch

gmn =M−1∑u=0

N−1∑v=0

gu,vwmuM wnvN = √MN⟨B−m,−n

∣∣∣G⟩. (2.40)

2.3.4 Eigenschaften der Fouriertransformation

In diesem Abschnitt diskutieren wir die wichtigsten Eigenschaften derkontinuierlichen und diskreten Fouriertransformation. Dabei legen wirden Schwerpunkt auf diejenigen Eigenschaften der FT, die am wichtigs-ten für die Bildverarbeitung sind. Zusammen mit einigen elementarenFouriertransformationspaaren (R5) bilden diese Eigenschaften (R4,R7) ein mächtiges Werkzeug, mit dem sich weitere Eigenschaften derFouriertransformation und die Transformation vieler Funktionen ein-fach ableiten lassen.

Periodizität. Der Kern der DFT zeigt eine charakteristische Periodizität :

exp(−2π i(n+ lN)

N

)= exp

(−2π in

N

),w(n+lN)N = wnN ∀ l ∈ Z. (2.41)

Die Definitionen der DFT begrenzen den Orts- und den Fourierraum aufeine endliche Anzahl von Werten. Wenn wir diese Begrenzung ignorie-ren und die Vorwärts- und Rücktransformationen für alle ganzen Zahlen


a

g0

g

g

g

g

gg

1

2

3

N-1N-2

N-3

b

Abbildung 2.14: Geometrische Interpretation der Periodizität der 1D- und 2D-DFT mit a dem Fourierring und b dem Fouriertorus.

berechnen, finden wir direkt aus den Definitionen in (2.38) und (2.40) die-selben Periodizitäten auch in den Funktionen im Orts- und Fourierraumwieder:

Wellenzahlraum gu+kM,v+lN = gu,v , ∀k, l ∈ ZOrtsraum gm+kM,n+lN = gm,n, ∀k, l ∈ Z. (2.42)

Diese Gleichungen beschreiben eine periodische Replikation in allen Rich-tungen in beiden Räumen über den ursprünglichen Definitionsbereichhinaus. Die Periodizität der DFT führt zu einer interessanten geome-trischen Interpretation. Im eindimensionalen Fall sind die RandpunktegN−1 und gN = g0 Nachbarn. Wir können diese Eigenschaft geome-trisch darstellen, wenn wir uns die Punkte des Vektors nicht auf einerendlichen Linie, sondern auf einem Kreis, dem Fourierring, angeordnetdenken (Abb. 2.14a). Diese Darstellung hat eine tiefere Bedeutung, wennwir die Fouriertransformation als einen Spezialfall der z-Transformationbetrachten [166, 167]. Im zweidimensionalen Raum müssen wir entspre-chend ein zweidimensionales Raster in x- und y-Richtung periodischschließen. Das führt zu einer Abbildung des Rasters auf den Fourierto-rus (Abb. 2.14b).

Symmetrie. Vier Arten von Symmetrien sind für die Fouriertransfor-mation von Bedeutung;

gerade g(−x) = g(x),ungerade g(−x) = −g(x),hermitesch g(−x) = g∗(x),antihermitesch g(−x) = −g∗(x)

(2.43)


Das Symbol ∗ bezeichnet die komplexe Konjugierte. Die hermitescheSymmetrie ist von Bedeutung, da die Kerne der FT (2.18) und DFT (2.25)hermitesch sind.

Jede Funktion g(x) kann in ihren geraden und ungeraden Anteil zer-legt werden durch

eg(x) = g(x)+ g(−x)2

und og(x) = g(x)− g(−x)2

. (2.44)

Auf diese Weise kann die Fouriertransformation in eine Kosinus- undeine Sinus-Transformation zerlegt werden:

g(k) = 2

∞∫0

eg(x) cos(2πkTx)dWx + 2i

∞∫0

og(x) sin(2πkTx)dWx. (2.45)

Daraus folgt unmittelbar, dass die Fouriertransformierte einer geradenbzw. ungeraden Funktion ebenfalls gerade bzw. ungerade ist. Die voll-ständigen Symmetriebeziehungen für die Fouriertransformation lauten:

reell • hermiteschimaginär • antihermiteschhermitesch • reellantihermitesch • imaginärgerade • geradeungerade • ungeradereell und gerade • reell und geradereell und ungerade • imaginär und ungeradeimaginär und gerade • imaginär und geradeimaginär und ungerade • reell und ungerade

(2.46)

Die DFT zeigt die gleichen Symmetrieeigenschaften wie die FT ((2.43)und (2.46)). Bei der Definition für gerade und ungerade Funktioneng(−x) = ±g(x) muss lediglich die kontinuierliche Funktion durch dieentsprechenden Vektor- (g−n = ±gn) oder Matrixelemente (g−m,−n =±gm,n) ersetzt werden. Wegen der Periodizität der DFT, können dieseSymmetrierelationen auch geschrieben werden als

g−m,−n = ±gm,n ≡ gM−m,N−n = ±gm,n (2.47)

mit dem Zeichen + für gerade und dem Zeichen − für ungerade Funk-tionen. Diese Umschreibung verschiebt das Symmetriezentrum vom Ur-sprung zu dem Punkt [M/2, N/2]T .

Die Symmetrieeigenschaften haben große Bedeutung für die prakti-sche Anwendung der Fouriertransformation. Ihre sorgfältige Beachtungerlaubt es, Speicherplatz und Rechenzeit zu sparen. Ein wichtiger An-wendungsfall sind reelle Bilder.


a

0

0

M/2M/2-1

M-1M-2

-1-2

-M/2

1

1 2 N/2-1 N/2

V

U

b

0

0

-N/2

M/2-1

-1

1

-M/2

1-1 N/2-1V

U

Abbildung 2.15: a Halbraum, wie er bei der überschreibenden Fouriertransfor-mation eines reellen Bildes berechnet wird; die Wellenzahl null ist in der linkenunteren Ecke; b FT mit der ergänzten fehlenden Hälfte und so dargestellt, dassdie Wellenzahl null im Zentrum liegt.

Reellwertige Vektoren benötigen nur halb so viel Speicherplatz wiekomplexwertige. Aus den Symmetriebeziehungen in (2.46) schließen wir,dass die DFT eines reellwertigen Signals hermitesch ist:

gn = g∗n • gN−v = g∗v ,gmn = g∗mn • gM−u,N−v = g∗uv. (2.48)

Von der komplexen DFT eines reellen Vektors muss daher nur die Hälfteder Werte gespeichert werden. Die andere Hälfte erhalten wir durchSpiegelung am Symmetriezentrum N/2. Daher benötigen wir für diekomplexwertige Fouriertransformierte gleich viel Speicherplatz wie fürden dazugehörigen reellen Vektor.

In zwei und mehr Dimensionen sind die Symmetrieeigenschaften et-was komplizierter zu handhaben. Wiederum ist die Fouriertransformier-te komplett durch einen Halbraum bestimmt. Jetzt gibt es aber mehre-re Möglichkeiten, den Halbraum auszuwählen. Das bedeutet, dass nureine Komponente des Wellenzahlvektors auf die positive Halbachse be-schränkt wird.

Die Fouriertransformierte eines reellen M ×N-Bildes können wir mitM Zeilen und N/2+1 Spalten darstellen (Abb. 2.15) unter der Annahme,dass N gerade ist. Leider werden N/2+ 1 Spalten benötigt, da die erste(m = 0) und letzte Spalte (m = M/2) nach (2.48) zu sich selbst symme-trisch sind. So scheint es auf den ersten Blick nicht möglich zu sein, einreelles Bild durch seine komplexe Transformation zu überschreiben, daeine Spalte mehr benötigt wird. Dies täuscht jedoch, da die erste undletzte Spalte aus Symmetriegründen reell sein müssen (g0,N−v = g∗0,vund gM/2,N−v = g∗M/2,v ). Deshalb kann der Realteil der Spalte M/2 imImaginärteil der Spalte 0 abgespeichert werden.


Bei reellen Bildsequenzen wird ebenfalls nur ein Halbraum für dieFouriertransformierte benötigt. Aus physikalischer Sicht ist es am sinn-vollsten, den Halbraum zu wählen, der die positiven Frequenzen enthält.Im Gegensatz zu Einzelbildern erhalten wir jetzt den vollen Wellenzahl-raum, da wir die räumlich identischen Wellenzahlvektoren k und −k alsin gegensätzliche Richtungen sich ausbreitende Strukturen unterschei-den können.

Separabilität. Der Kern der Fouriertransformation ist nach (2.34) sepa-rabel . Daher ist die Fouriertransformation separabler Funktionen eben-falls separabel:

W∏p=1

g(xp) •W∏p=1

g(kp). (2.49)

Da viele bedeutende multidimensionale Funktionen separabel sind, istdiese Eigenschaft wichtig zur effektiven Berechnung der Transformationmultidimensionaler Funktionen aus 1D-Transformationen.

Ähnlichkeit. Das Ähnlichkeitstheorem sagt aus, wie sich eine Fourier-transformierte bei einer Skalierung des Koordinatensystems verhält. Ineiner Dimension kann eine Funktion nur skaliert werden (x′ = ax). Inhöheren Dimensionen ist eine allgemeinere Transformation des Koordi-natensystems durch eine affine Transformation (x′ = Ax) möglich, d. h.,die neuen Basisvektoren sind eine Linearkombination der alten. EinenSonderfall stellt die Rotation des Koordinatensystems dar.

Theorem 2.1 (Ähnlichkeit) Sei a eine reelle Zahl ungleich null, A einereelle, invertierbare Matrix und R eine orthogonale Matrix, die eine Dre-hung des Koordinatensystems beschreibt (R−1 = RT , detR = 1). Danngelten die folgenden Ähnlichkeitsbeziehungen:

Skalar g(ax) • 1|a|W g(k/a),

Affine Transformation g(Ax) • 1detA

g((AT )−1k),

Drehung g(Rx) • g(Rk).

(2.50)

Wenn eine Funktion im Ortsraum gestaucht wird, so wird sie im Fourier-raum entsprechend gedehnt, und umgekehrt. Eine Drehung des Koordi-natensystems im Ortsraum bewirkt die gleiche Drehung des Koordina-tensystems im Fourierraum.

Das obige Ähnlichkeitstheorem kann nicht für die diskrete Fourier-transformation benutzt werden, da beliebige Skalierungen und Drehun-gen hier nicht möglich sind. Eine diskrete Funktion kann um einen ganz-zahligen Faktor K gedehnt werden (Aufwärtstastung), in dem die neu


entstehenden Punkte mit Nullen aufgefüllt werden:

(g↑K)n =gn/K n = 0, K,2K, . . . (N − 1)K)0 sonst.

(2.51)

Theorem 2.2 (Ähnlichkeit, diskret) Seig ein komplexwertiger Vektor mitN Elementen und K ∈ N. Dann ist die diskrete Fouriertransformation desaufwärts abgetasteten Vektors g↑K mit KN Elementen gegeben durch

g↑K • 1Kg mit gkN+v = gv . (2.52)

Eine Aufwärtsabtastung um den FaktorK bewirkt daher nur eineK-facheReplikation der Fouriertransformierten. In Gleichung (2.52) ist zu beach-ten, dass wegen der am Beginn dieses Abschnitts diskutierten Periodizi-tät der diskreten Fouriertransformierten gilt: gkN+v = gv .

Verschiebung. In Abschn. 2.3.1 diskutierten wir einige Eigenschaftender Basisbilder des Fourierraums, der komplexen Exponentialfunktionen

exp(2π ikTx

). Eine Verschiebung dieser Funktionen bewirkt die Multi-

plikation mit einem Phasenfaktor:

exp(2π i(x − x0)Tk

)= exp

(−2π ixT0k

)exp

(2π ikTx

). (2.53)

Als eine direkte Konsequenz der Linearität der Fouriertransformationkönnen wir das folgende Verschiebungstheorem formulieren:

Theorem 2.3 (Verschiebung) Die Fouriertransformierte vong(x) sei g(k).Dann hat g(x − x0) die Fouriertransformierte exp(−2π ixT0k)g(k).

Eine Verschiebung im Ortsraum verändert daher die Fouriertransfor-mierte nicht in der Amplitude, sondern nur in der Phase, wobei die Pha-senänderung −2πxT0k abhängig vom Wellenzahlvektor ist.

Das Verschiebungstheorem kann auch im Fourierraum angewendetwerden. Eine Verschiebung im Fourierraum, g(k − k0), moduliert einSignal im Ortsraum mit der Wellenzahl k0: exp(2π ikT0x)g(x).

Faltung. Die Faltung ist eine der bedeutendsten Operationen der Sig-nalverarbeitung. Für kontinuierliche Signale ist sie definiert durch

(g ∗ h)(x) =∞∫−∞h(x′)g(x − x′)dWx′. (2.54)

Bei der Signalverarbeitung ist die Funktion h(x) üblicherweise null au-ßer in einem kleinen Bereich um den Nullpunkt. Eine solche Funktionwird dann als Faltungsmaske bezeichnet. Die Faltung mit h(x) ergibt


eine neue Funktion g′(x), deren Werte eine Art gewichtete Mittelungvon g(x) in einer kleinen Umgebung um x sind. Das Signal wird durchdie Faltung mit h(x) in einer definierten Weise verändert. Es kann z. B.glatter werden. Deswegen spricht man auch von einer Filterung.

Ein- und mehrdimensionale diskrete Faltungen sind analog zur kon-tinuierlichen Faltung in (2.54) definiert durch

g′n =N−1∑n′=0

hn′gn−n′ , g′m,n =M−1∑m′=0

N−1∑n′=0

hm′n′gm−m′,n−n′ . (2.55)

Das Faltungstheorem für die FT und DFT besagt:

Theorem 2.4 (Faltung) Sei g(k) (g, G) die Fouriertransformierte vong(x)(g,G) und h(k) (h, H) die Fouriertransformierte von h(x), (h,H). Dannist h(k)g(k) (Nhg,MNHG) die Fouriertransformierte von h∗ g (h∗g,H ∗G):

FT: h(x)∗ g(x) • h(k)g(k),1D-DFT: h∗ g • N hg,2D-DFT: H ∗G • MN HG.

(2.56)

Eine Faltung zweier Funktionen im Ortsraum ist einer komplexen Mul-tiplikation im Fourierraum äquivalent. Umgekehrt entspricht auch eineFaltung im Fourierraum einer Multiplikation im Ortsraum. Mathema-tisch gesehen resultiert die Einfachheit der Faltung im Fourierraum ausder Tatsache, dass die Basisfunktionen des Fourierraums, die komple-

xen Exponentialfunktionen exp(2π ikTx

), die gemeinsamen Eigenfunk-

tionen aller Faltungsoperationen sind. Eine Faltung mit einer beliebigenFunktion lässt die Exponentialfunktion bis auf einen Faktor, den Eigen-wert , unverändert.

Aus dem Faltungstheorem ergeben sich unmittelbar die folgendenEigenschaften. Die Faltung ist

kommutativ h∗ g = g ∗ h,assoziativ h1 ∗ (h2 ∗ g) = (h1 ∗ h2)∗ g,distributiv bzgl. Addition (h1 + h2)∗ g = h1 ∗ g + h2 ∗ g.

(2.57)

Die Bedeutung der Faltung wird weiter unterstrichen durch die Tat-sache, dass zwei Klassen von Operationen, die auf den ersten Blick nichtnach Faltungsoperationen aussehen, nämlich die Verschiebung und al-le Ableitungsoperationen, ebenfalls als Faltungsoperationen betrachtetwerden können. In beiden Fällen wird die Fouriertransformierte nur miteinem komplexen Faktor multipliziert. Für die Verschiebung ergibt sichdies unmittelbar aus dem Verschiebungstheorem (Theorem 2.3). Die Fal-tungsmaske für einen Verschiebungsoperator S ist eine verschobene δ-Distribution:

S(s)g(x) = δ(x − s)∗ g(x) (2.58)


Für die partielle Ableitung einer Funktion im Ortsraum besagt dasAbleitungstheorem:

Theorem 2.5 (Ableitung) Sei g(x) für alle x differenzierbar und g(k)die Fouriertransformierte von g(x). Dann ist 2π ikpg(k) die Fourier-transformierte von ∂g(x)/∂xp:

∂g(x)∂xp

• 2π ikpg(k). (2.59)

Das Ableitungstheorem folgt unmittelbar aus der Definition der in-versen Fouriertransformation in (2.33) durch Vertauschung der Integra-tion mit der partiellen Ableitung.

Die Fouriertransformierte der ersten partiellen Ableitung in x1 Rich-tung ist 2π ik1. Die inverse Fouriertransformierte von 2π ik1, also die zu-gehörige Faltungsmaske, ist keine gewöhnliche Funktion, da 2π ik1 nichtquadratisch integrierbar ist, sondern die Ableitung der δ-Distribution:

2π ik • δ′(x) = dδ(x)dx

= lima→0

ddx

(exp(−πx2/a2)

a

)(2.60)

Die Ableitung der δ-Distribution existiert, wie alle Distributionen, nurals Grenzwert einer Sequenz von Funktionen, wie dies in der obigen Glei-chung gezeigt wird.

Mit diesem Wissen und den in (2.57) zusammengefassten Eigenschaf-ten können wir einige weitere wichtige Schlüsse ziehen. Da jede Fal-tungsoperation mit der Verschiebungsoperation vertauscht werden kann,ist jede Faltung eine verschiebungsinvariante Operation. Weiterhin er-halten wir dasselbe Ergebnis, wenn wir ein Signal zuerst differenzierenund dann falten oder diese Operationen in umgekehrter Reihenfolgedurchführen. Diese Eigenschaften sind hilfreich für ein tieferes Ver-ständnis von Bildverarbeitungsoperationen und für eine schnellere Be-rechnung von Faltungsoperationen.

Zentraler Grenzwertsatz. Der zentrale Grenzwertsatz ist bekannt we-gen seiner Bedeutung für die Wahrscheinlichkeitstheorie und Statistik[168]. Er spielt aber auch eine wichtige Rolle in der Signalverarbeitung,da er unter sehr allgemeinen Voraussetzungen aussagt, dass kaskadierteFaltungsoperationen zu einer Faltung mit der Gaußschen Glockenkurve(∝ exp(−ax2)) führen. Da die Fouriertransformierte der Gaußfunktionebenfalls eine Gaußfunktion ist (R6), bedeutet dies, dass bei fortge-setzter Faltung sowohl die Faltungsmaske als auch die Transferfunktiondie Form einer Gaußschen Glockenkurve annehmen.

Daher ist der zentrale Grenzwertsatz Ausdruck der zentralen Rol-le der Gaußfunktion für die Bildverarbeitung. Die notwendigen Bedin-gungen für die Gültigkeit des zentralen Grenzwertsatzes können unter-


schiedlich formuliert werden. Wir benutzen hier die Bedingungen aus[168] und stellen das Theorem in Bezug auf die Faltung dar.

Theorem 2.6 (Zentraler Grenzwertsatz) Gegeben seien N Funktionenhn(x) mit verschwindendem Mittelwert

∫∞−∞ xhn(x)dx = 0, der Varianz

σ 2n =

∫∞−∞ x2hn(x)dx und mit z = x/σ , σ 2 =∑N

n=1 σ 2n. Dann gilt

h = limN→∞

h1 ∗ h2 ∗ . . .∗ hN ∝ exp(−z2/2) (2.61)

unter der Voraussetzung, dass

limN→∞

N∑n=1

σ 2n →∞ (2.62)

und dass es eine Zahl α > 2 und eine endliche Konstante c gibt, sodass

∞∫−∞xαhn(x)dx < c <∞ ∀n. (2.63)

Das Theorem ist von großer praktischer Bedeutung, da — insbesonderewenn die Funktionenhn glatt sind — die Gaußkurve schon für sehr kleineWerte von N (z. B. 5) hinreichend genau approximiert wird.

Glattheit und Kompaktheit. Je glatter eine Funktion ist, desto kom-pakter ist ihre Fouriertransformierte. Diese allgemeine Regel lässt sichquantitativ fassen, indem wir die Glattheit durch die Anzahl von Ab-leitungen ausdrücken, die stetig sind, und die Kompaktheit durch dasasymptotische Verhalten für große Werte der Wellenzahl k: Wenn ei-ne Funktion g(x) und ihre ersten n − 1 Ableitungen stetig sind, dannfällt ihre Fouriertransformierte für große Wellenzahlen kmindestens mit|k|−(n+1) ab, d. h., lim|k|→∞ |k|ng(k) = 0. Als einfache Beispiele betrach-ten wir die Rechteck- und die Dreieckfunktion (R5). Die Rechteckfunk-tion ist unstetig (n = 0). Deswegen fällt ihre Fouriertransformierte, diesinc-Funktion, asymptotisch mit |k|−1 ab. Die Dreieckfunktion ist stetig,aber ihre erste Ableitung ist nicht stetig. Deswegen fällt ihre Fourier-transformierte, die sinc2-Funktion, steiler mit |k|−2 ab. In diese Überle-gungen können wir auch impulsartige Funktionen wie die δ-Distributioneinschließen, da die Ableitung einer unstetigen Funktion an den Unste-tigkeitsstellen impulsiv wird. Deswegen gilt: Wenn die nte Ableitungeiner Funktion impulsiv wird, dann fällt die Fouriertransformierte derFunktion asymptotisch mit |k|−n ab.

Die Beziehungen zwischen Glattheit und Kompaktheit können wir alseine Erweiterung der Reziprozität zwischen dem Orts- und Fourierraumauffassen. Was in einem Raum stark lokalisiert ist, hat eine große Aus-dehnung im anderen Raum und umgekehrt.


Unschärferelation. Die generelle Reziprozität zwischen Orts- und Fou-rierraum findet sich auch in einem anderen Theorem, der klassischenUnschärferelation, wieder. Das Theorem setzt die mittlere quadratischeBreite einer Funktion und ihrer Fouriertransformierten zueinander in Be-ziehung. Die mittlere quadratische Breite (∆x)2 ist definiert als

(∆x)2 =

∞∫−∞x2

∣∣g(x)∣∣2dx

∞∫−∞

∣∣g(x)∣∣2dx

−

⎛⎜⎜⎜⎜⎜⎜⎜⎝

∞∫−∞x

∣∣g(x)∣∣2dx

∞∫−∞

∣∣g(x)∣∣2dx

⎞⎟⎟⎟⎟⎟⎟⎟⎠

2

. (2.64)

Damit ist diese Größe die Varianz von∣∣g(x)∣∣2

und damit ein Maß fürdie Breite der Verteilung der Energie des Signals. Die Unschärferelationsagt aus:

Theorem 2.7 (Unschärferelation) Für das Produkt aus der Varianz (∆x)2von

∣∣g(x)∣∣2und der Varianz (∆k)2 von

∣∣g(k)∣∣2gilt die Ungleichung

∆x∆k ≥ 1/(4π). (2.65)

Aus den Beziehungen zwischen Kompaktheit und Glattheit und aus derUnschärferelation lassen sich einige Kriterien zur Konstruktion linearer(Faltungs-) Filteroperatoren ableiten.

2.3.5 Phase und Amplitude

Entsprechend den Ausführungen der vorangegangenen Abschnitte kanndie DFT als Koordinatentransformation in einem endlich-dimensionalenVektorraum betrachtet werden. Daher bleibt die Bildinformation voll-ständig erhalten, und aus der umgekehrten Transformation resultiertwieder das ursprüngliche Bild. Im Fourierraum betrachten wir das Bildlediglich aus einem anderen Blickwinkel. Jeder Punkt des Fourierraumsbeinhaltet zwei Informationen, die Amplitude und die Phase, d. h. die re-lative Position einer periodischen Struktur. Daraus stellt sich die Frage,ob die Phase oder die Amplitude die bedeutendere Information über dieStrukturen des Bildes enthält oder ob beide Anteile gleiche Bedeutunghaben.

Um diese Frage zu beantworten, führen wir ein einfaches Experi-ment durch. Abbildung 2.16a, b zeigt zwei Abbildungen, die eine miteinem Gebäude der Universität Heidelberg, die andere mit einigen Zei-len Text. Werden beide Bilder fouriertransformiert und dann Phase undAmplitude miteinander vertauscht und rücktransformiert, resultierenAbb. 2.16c, d. Das überraschende Ergebnis dieses Austausches ist, dass


a b

Amplitude Amplitude

Phase Phase

r eai aϕ r eb

i bϕ

r ebi aϕr ea

i bϕc d

Abbildung 2.16: Illustration der Bedeutung von Phase und Amplitude im Fou-rierraum für den Bildinhalt: a, b Originalbilder; c aus der Phase von Bild b undder Amplitude von Bild a zusammengesetztes Bild; d aus der Phase von Bild aund der Amplitude von Bild b zusammengesetztes Bild.

es die Phase ist, die den Bildinhalt beider Bilder dominiert. Beide Ab-bildungen enthalten Störungen, aber wesentliche Informationen sind er-halten.

Dieses Experiment zeigt, dass die Phase der Fouriertransformationwesentliche Informationen der Bildstruktur beinhaltet. Die Amplitudelässt nur erkennen, dass das Bild eine periodische Struktur enthält, abernicht wo. Diese wichtige Tatsache kann auch mit dem Verschiebungs-theorem (Theorem 2.3) gezeigt werden. Die Verschiebung eines Objektesim Ortsraum führt lediglich zu einer Verschiebung der Phase im Wel-lenzahlraum; die Amplitude ändert sich nicht. Wenn wir die Phase derFourierkomponente eines Objektes nicht kennen, wissen wir nicht, wiees aussieht oder wo es sich befindet.


Es wird auch deutlich, dass das Leistungsspektrum, d. h. die quadrier-te Amplitude der Fourierkomponenten (Abschn. 3.5.3), nur sehr wenigInformation enthält, da die Phaseninformation fehlt. Wenn die Grauwer-te mit der Amplitude eines physikalischen Prozesses, sagen wir einerharmonischen Oszillation, assoziiert sind, gibt das Leistungsspektrumlediglich die Energieverteilung mit der Wellenzahl wieder.

2.3.6 Alternative Definitionen

Leider werden in der Literatur verschiedene Definitionen der Fouriertransforma-tion benutzt, was leicht zu Verwirrung und Fehlern führt. Ein Grund dafür sinddie unterschiedlichen Definitionen des Wellenzahlvektors. Die Definition derWellenzahl als eine reziproke Wellenlänge (k = 1/λ) ist für die Signalverarbei-tung am nützlichsten, da die Wellenzahl auf diese Weise direkt die Anzahl derWellenlängen pro Einheitslänge angibt. In der Physik und der Elektrotechnik isteine Definition der Wellenzahl üblicher, die den Faktor 2π enthält: k = 2π/λ.Mit dieser Notation für die Wellenzahl kann die Fouriertransformation in zweiArten definiert werden, in der asymmetrischen Form

g(k) =⟨

exp(ikx)∣∣g(x)⟩ , g(x) = 1

2π

⟨exp(−ikx)

∣∣∣g(k)⟩ (2.66)

und in der symmetrischen Form

g(k) = 1√2π

⟨exp(ikx)

∣∣g(x)⟩ , g(x) = 1√2π

⟨exp(−ikx)

∣∣∣g(k)⟩ . (2.67)

Da alle drei Definitionen der Fouriertransformation gebräuchlich sind, passiertes leicht, dass Theoreme und Fouriertransformationspaare falsche Faktorenenthalten. Die Beziehungen zwischen den Transformationspaaren für die dreiDefinitionen lassen sich unmittelbar aus den Definitionen wie folgt herleiten:

k = 1/λ, (2.22) g(x) • g(k)k = 2π/λ, (2.66) g(x) • g(k/2π)k = 2π/λ, (2.67) g(x) • g(k/

√2π)/

√2π.

(2.68)

2.3.7 Praktische Anwendung der DFT

Einheiten. Bei der DFT sei nochmals auf das Problem der unterschiedlichenFaktoren in der Definition und deren anschauliche Interpretation hingewiesen.Neben der Definition in (2.29) sind zwei weitere üblich:

(a) gv = 1√N

N−1∑n=0

w−nvN gn • gn = 1√

N

N−1∑n=0

wnvN gv ,

(b) gv = 1N

N−1∑n=0

w−nvN gn • gn =

N−1∑n=0

wnvN gv ,

(c) gv =N−1∑n=0

w−nvN gn • gn = 1

N

N−1∑n=0

wnvN gv .

(2.69)


Die symmetrische Definition (a) ist mathematisch gesehen zwar die eleganteste,da sie bei der Hin- und Rücktransformation dem Skalarprodukt mit den ortho-normalen Basisvektoren in (2.28) und (2.29) entspricht. In der Praxis wird abermeistens die Definition (b) benutzt, da dann g0 unmittelbar den Mittelwert desVektors im Ortsraum darstellt, unabhängig von seiner Länge:

g0 = 1N

N−1∑n=0

w−n0N gn = 1

N

N−1∑n=0

gn. (2.70)

Deshalb wird in diesem Buch auch fast überall die Definition (b) benutzt werden.

Für die praktische Anwendung der DFT ist es wichtig zu wissen, in welchemräumlichen bzw. zeitlichen Abstand die Signale abgetastet wurden, um Fou-riertransformierte, die mit unterschiedlichen Abtastraten berechnet wurden,korrekt miteinander vergleichen zu können. Die Beziehung können wir amschnellsten sehen, indem wir das Fourierintegral in (2.18) durch eine Summeapproximieren und die Werte im Orts- und Fourierraum abtasten mit x = n∆x,k = v∆k und ∆x∆k = 1/N :

g(v∆k) =∞∫−∞g(x) exp (−2π iv∆kx)dx

≈N−1∑n=0

gn exp (−2π inv∆x∆k)∆x

= N∆x1N

N−1∑n=0

gn exp(−2π inv

N

)= N∆xgv.

(2.71)

Deshalb müssen die mit der DFT berechneten Fouriertransformierten mit demFaktorN∆x = 1/∆kmultipliziert werden, um diese auf ein Einheitsintervall derWellenzahl zu beziehen. Ohne diese Normierung sind die Fouriertransformier-ten auf das Intervall ∆k = 1/(N∆x) bezogen und unterscheiden sich damit beiunterschiedlichen Abtastraten.

Für zwei- und höherdimensionale Signale gelten entsprechende Beziehungen:

g(v∆k1, u∆k2) ≈ N∆xM∆yguv = 1∆k1∆k2

guv . (2.72)

Die gleiche Normierung muss für das Betragsquadrat (Energie) der Signale an-gewendet werden und nicht etwa für die quadrierten Faktoren aus (2.71). Dasergibt sich aus dem Rayleightheorem für kontinuierliche und diskrete Signale(R4, R7):

kontinuierl.:

∞∫−∞

∣∣g(x)∣∣2dx =

∞∫−∞

∣∣g(k)∣∣2dk,≈

N−1∑v=0

∣∣g(v∆k)∣∣2∆k

diskret:1N

N−1∑n=0

∣∣gn∣∣2 =N−1∑v=0

∣∣gv∣∣2 .

(2.73)

Das Rayleightheorem sagt aus, dass die Energie entweder im Orts- oder im Fou-rierraum integriert werden kann. Für diskrete Signale bedeutet dies, dass sich


a

k1k1

k2

bk

k1

2

kd

k kdln

Abbildung 2.17: Aufteilung des Fourierraums in a kartesische und b logarith-misch-polare Intervalle.

die mittlere Energie entweder durch Mittelwertbildung im Ortsraum oder durchAufsummieren im Fourierraum berechnen lässt (wenn wir die Definition (b) derDFT in (2.69) benutzen). Aus der Approximation des Integrals über die konti-nuierliche FT durch eine Summe über die DFT in (2.73) ergibt sich unmittelbar,dass

∣∣g(v∆k)∣∣2 ≈ ∣∣gv∣∣2 /∆k. Die Einheit der so bestimmten Betragsquadrateim Fourierraum ist ·/m−1 bzw. ·/Hz bei Zeitserien, wobei · für die Einheit desquadrierten Signals steht.

Dynamischer Bereich. Während es in den meisten Fällen ausreichend ist, einBild mit 256 Grauwerten, d. h. einem Byte pro Pixel wiederzugeben, benötigt dieFouriertransformierte eines Bildes einen wesentlich größeren dynamischen Be-reich. Typischerweise haben wir einen starken Abfall der Fourierkomponentenmit der Größe der Wellenzahl (Abb. 2.15). Demnach sind mindestens 16-Bit-Integer- oder 32-Bit-Fließkommazahlen notwendig, damit ein Bild im Fourier-raum ohne signifikanten Rundungsfehler dargestellt werden kann.

Die Ursache für dieses Verhalten ist nicht die Bedeutungslosigkeit hoher Wellen-zahlen in einem Bild. Wenn wir sie einfach weglassen, würde das Bild unscharfwerden. Dieser Abfall in der Amplitude wird dadurch verursacht, dass die relati-ve Auflösung zunimmt. Normalerweise denken wir an relative Auflösungen, dawir relative Entfernungsunterschiede besser als absolute wahrnehmen können.So können wir zum Beispiel leicht den Unterschied von 10 cm bei einer Streckevon einem Meter erkennen, nicht jedoch bei einem Kilometer. Wenn wir diesesPrinzip auf den Fourierraum anwenden, ist es besser, die fouriertransformiertenBilder (Spektren) in so genannten logarithmischen Polarkoordinaten darzustel-len (Abb. 2.17). In einem solchen Koordinatensystem unterteilen wir den Raumin Winkelintervalle und logarithmische k-Intervalle. Damit wachsen die Inter-vallflächen proportional zu k2. Um diesen Flächenzuwachs zu berücksichtigen,müssen wir die Fourierkomponenten in dieser Darstellung mit k2 multiplizie-


a

b

Abbildung 2.18: Repräsentation der Fouriertransformierten (Leistungsspektrum|Guv |2) des Bildes in Abb. 2.7 in a kartesischen Koordinaten und b logarithmi-schen Polarkoordinaten. Beide Spektren wurden mit k2 multipliziert und logarith-misch dargestellt. Die Grauwertskala umfasst 6 Dekaden (siehe auch Abb. 2.15).

ren: ∞∫−∞|g(k)|2dk1dk2 =

∞∫−∞k2|g(k)|2d lnkdϕ. (2.74)

Wenn wir annehmen, dass das Leistungsspektrum |g(k)|2 gleichmäßig über al-le Wellenzahlen in logarithmischen Polarkoordinaten verteilt ist, nimmt es inkartesischen Koordinaten mit k−2 ab.

Für die Darstellung von Leistungsspektren werden üblicherweise die Logarith-men der Grauwerte verwendet, um den hohen dynamischen Bereich zu kompri-mieren. Die obige Diskussion zeigt, dass eine Multiplikation mit k2 die Dynamikdes Spektrums deutlich reduziert. Die Darstellung in logarithmischen Polarko-ordinaten erlaubt außerdem eine weit bessere Auswertung der Richtungen derräumlichen Strukturen. Zudem sind die kleineren Wellenzahlen auf einen grö-ßeren Bereich gespreizt (Abb. 2.18).

2.4 Diskrete unitäre Transformationen

2.4.1 Allgemeine Eigenschaften

In den Abschnitten 2.3.1 und 2.3.2 haben wir gelernt, dass die diskrete Fou-riertransformation als lineare Transformation in einem Vektorraum betrachtetwerden kann. Damit ist sie nur ein Beispiel einer großen Klasse von Transfor-mationen, den unitären Transformationen. In diesem Kapitel diskutieren wir ei-nige allgemeine Eigenschaften der unitären Transformationen. Sie werden uns

2.4 Diskrete unitäre Transformationen 65

helfen, einen tieferen Einblick in die Grundlagen der Bildverarbeitung zu be-kommen. Ferner diskutieren wir weitere Beispiele unitärer Transformationen,die in der Bildverarbeitung Bedeutung gewonnen haben.

Unitäre Transformationen sind definiert für Vektorräume über dem Körper derkomplexen Zahlen, für die ein inneres Produkt oder Skalarprodukt definiert ist.Sowohl die kontinuierliche (2.22) als auch diskrete Fouriertransformation (2.29)benutzen zur Berechnung der Transformation das Skalarprodukt.

Das grundlegende Theorem für unitäre Transformationen lautet:

Theorem 2.8 (Unitäre Transformation) SeiV ein endlich-dimensionaler Vektor-raum mit innerem Produkt. Weiterhin seiU eine lineare bijektive Transformationvon V auf sich selbst. Dann sind die folgenden Aussagen äquivalent:

1. U ist unitär.

2. U erhält das innere Produkt, d. h.⟨g |h⟩ = ⟨

Ug |Uh⟩, ∀g,h ∈ V .

3. Die inverse Transformation zu U , U−1, ist die Adjungierte (transponierte undkonjugiert-komplexe Matrix) UT von U : UUT = I.

4. Die Zeilen- (und Spaltenvektoren) vonU bilden eine Orthonormalbasis des Vek-torraums V .

Diese Definition schließt bereits eine wichtigste Eigenschaft der unitären Trans-formationen ein, nämlich die Erhaltung des inneren Produktes. Dies beinhaltet,dass eine andere wichtige Eigenschaft, die Norm, ebenfalls erhalten bleibt:

‖g‖2 =⟨g

∣∣g ⟩1/2 = ⟨Ug

∣∣Ug ⟩1/2 . (2.75)

Wir können die Norm als Länge oder Größe des Vektors betrachten. Die Rotationin R2 oder R3 ist ein Beispiel für eine Transformation, bei der die Erhaltung derVektorlänge offensichtlich ist (vergleiche auch die Diskussion der homogenenKoordinaten in Abschn. 7.7).

Die Komposition zweier unitärer Transformationen U1U2 ist ihrerseits unitär.Da der Identitätsoperator I und die Umkehrung eines unitären Operators eben-falls unitär sind, bildet die Menge aller unitären Transformationen eine Gruppebezüglich der Komposition. Praktisch bedeutet dies, dass wir komplexe unitäreTransformationen aus einfacheren oder elementaren Transformationen zusam-mensetzen können.

Wir werden einige der Eigenschaften der unitären Transformationen, die imRahmen der diskreten Fouriertransformation diskutiert wurden, illustrieren.Zunächst betrachten wir die eindimensionale DFT in symmetrischer Definition(2.69):

gv = 1√N

N−1∑n=0

gnw−nvN .

Diese Gleichung kann als Multiplikation der N ×N-Matrix WN

(WN)nv = w−nvN

mit dem Vektor g betrachtet werden:

g = 1√NWN g. (2.76)


Explizit ist die DFT eines achtdimensionalen Vektors gegeben durch

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

g0

g1

g2

g3

g4

g5

g6

g7

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦= 1√

8

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

w08 w0

8 w08 w0

8 w08 w0

8 w08 w0

8

w08 w7

8 w68 w5

8 w48 w3

8 w28 w1

8

w08 w6

8 w48 w2

8 w08 w6

8 w48 w2

8

w08 w5

8 w28 w7

8 w48 w1

8 w68 w3

8

w08 w4

8 w08 w4

8 w08 w4

8 w08 w4

8

w08 w3

8 w68 w1

8 w48 w7

8 w28 w5

8

w08 w2

8 w48 w6

8 w08 w2

8 w48 w6

8

w08 w1

8 w28 w3

8 w48 w5

8 w68 w7

8

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

g0

g1

g2

g3

g4

g5

g6

g7

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

Beim Eintrag der Elemente in die Matrix wurde gleich die Periodizität des Kernsder DFT (2.41) genutzt, damit die Exponenten von W auf den Bereich zwischen0 und 7 begrenzt sind. Die Transformationsmatrix für die DFT ist symmetrisch(W =WT ), WT∗ ergibt die Rücktransformation.

Die zweidimensionale DFT lässt sich mit ähnlichen Gleichungen beschreiben,wenn wir die M ×N-Matrix auf einen MN-dimensionalen Vektor abbilden. Al-lerdings gibt es auch einen einfacheren Weg, wenn wir uns die in (2.37) beschrie-bene Separierbarkeit der Kerne der DFT zunutze machen. Unter Verwendungder M ×M-Matrix WM und der N ×N-Matrix WN können wir analog zur eindi-mensionalen DFT (2.76) folgendermaßen schreiben:

guv = 1√MN

M−1∑m=0

N−1∑n=0

gmn(WM)mu(WN)nv (2.77)

oder in Matrixnotation:

G︸︷︷︸M×N

= 1√MN

WMT︸︷︷︸

M×MG︸︷︷︸M×N

WN︸︷︷︸N×N

= 1√MN

WM GWN. (2.78)

Der Physiker wird sich an die theoretischen Grundlagen der Quantenmechanikerinnern, die im unendlich-dimensionalen Vektorraum mit innerem Produkt,dem Hilbertraum, formuliert werden. In der digitalen Bildverarbeitung könnenwir die Probleme, die mit unendlich-dimensionalen Vektorräumen verbundensind, vermeiden.

Auf die Diskussion der allgemeinen Eigenschaften folgen nun einige Beispie-le unitärer Transformationen, die in der Signal- und Bildverarbeitung benutztwerden. Ihre Bedeutung ist aber mit der der Fouriertransformation nicht ver-gleichbar.

2.4.2 Kosinus-, Sinus- und Hartley-Transformation

Es mag an der diskreten Fouriertransformation stören, dass reelle Bilder durchdie Transformation komplex abgebildet werden. Wir können zu einer reellenTransformation kommen, wenn wir die Zerlegung der komplexen DFT in einenreellen geraden und einen imaginären ungeraden Teil betrachten:

(WN)nv = cos(−2πnv

N

)+ i sin

(−2πnv

N

). (2.79)

2.4 Diskrete unitäre Transformationen 67

a0

2

1

3

4

5

6

7

b0

1

2

3

4

5

6

7

c0

1

2

3

4

5

6

7

Abbildung 2.19: Die Basisfunktionen eindimensionaler unitärer Transformatio-nen für N = 8: a Kosinustransformation, b Sinustransformation und c Hartley-transformation.

Weder der Kosinus- noch der Sinusteil kann als Transformationskern verwendetwerden, da diese Funktionen keine vollständige Basis des Vektorraums bilden.Kosinus- und Sinusfunktionen spannen nur die Unterräume der geraden bzw.ungeraden Funktionen des gesamten Vektorraums auf.Dieses Problem kann beseitigt werden, indem die Kosinus- und Sinustransforma-tion auf den positiven Halbraum im Orts- und Fourierraum beschränkt werden,weil dann die Symmetrieeigenschaften keine Rolle spielen:

cg(k) =∞∫0

g(x)√

2 cos(2πkx)dx • g(x) =∞∫0

cg(k)√

2 cos(2πkx)dk,

sg(k) =∞∫0

g(x)√

2 sin(2πkx)dx • g(x) =∞∫0

s g(k)√

2 sin(2πkx)dk.

(2.80)Für die entsprechenden diskreten Transformationen müssen Basisvektoren mitder fehlenden Symmetrie erzeugt werden, indem trigonometrische Funktionenmit jeweils der halben Wellenlänge hinzugefügt werden. Dieses Vorgehen istäquivalent zur Verdoppelung der Basiswellenlänge. Dementsprechend lautendie Basisfunktionen der Kosinus- und Sinustransformation für einen N-dimen-sionalen Vektor:

cnv =√

2N

cos(πnvN

), snv =

√2

N + 1sin

(π(n+ 1)(v + 1)

N + 1

). (2.81)

Abbildung 2.19a, b zeigen die Basisfunktionen der 1D-Kosinus- und 1D-Sinus-transformation. Man kann sich an den Funktionsgrafen gut veranschaulichen,dass die Basisfunktionen orthogonal zueinander sind. Bedingt durch die Ver-doppelung der Perioden, gibt es bei beiden Transformationen gerade und un-gerade Funktionen. Die Basisfunktionen mit jeweils der halben Wellenlängeergänzen die Funktionen mit der fehlenden Symmetrie.


Die Kosinustransformation hat für die Bilddatenkompression Bedeutung erlangt[108]. Sie gehört zum Standard-Kompressionsalgorithmus, der von der JointPhotographic Experts Group (JPEG) vorgeschlagen wurde.

Die Hartleytransformation (HT ) ist eine wesentlich elegantere Lösung als dieKosinus- oder Sinustransformation, um eine Transformation mit komplexenZahlen zu vermeiden. Durch Addition der Kosinus- und Sinusfunktion erhältman einen Kern, der keine Symmetrie aufweist,

cas(2πkx) = cos(2πkx)+ sin(2πkx) = √2 cos(2π(kx − 1/8)), (2.82)

und der daher für eine Transformation des gesamten Raums geeignet ist:

hg(k) =∞∫−∞g(x) cas(2πkx)dx • g(x) =

∞∫−∞

hg(k) cas(2πkx)dk. (2.83)

Die entsprechende diskrete Hartleytransformation (DHT ) lautet:

hgv = 1√N

N−1∑n=0

gn cas(2πnv/N) • gn = 1√N

N−1∑n=0

hgv cas(2πnv/N). (2.84)

Die Basisfunktionen für N = 8 zeigt Abb. 2.19c. Trotz aller Eleganz der Hart-leytransformation für reelle Bilddaten, weißt sie einige Nachteile gegenüber derFouriertransformation auf. Insbesondere gilt das einfache Verschiebungstheo-rem 2.3 der Fouriertransformation nicht mehr. Bei Verschiebungen kommt esvielmehr zur Vermischung der Basisfunktionen mit positiven und negativenWellenzahlen:

g(x − x0) • hg(k) cos(2πkx0)+ hg(−k) sin(2πkx0),gn−n′ • hgv cos(2πn′v/N)+ hgN−v sin(2πn′v/N). (2.85)

ähnliche Komplikationen treten bei dem Faltungstheorem für die Hartleytrans-formation auf (R8).

2.4.3 Hadamardtransformation

Die Basisfunktionen der Hadamardtransformation sind orthogonale binäre Mus-ter (Abb. 2.20a). Einige dieser Muster sind regelmäßige rechteckige Wellen, an-dere nicht. Die Hadamardtransformation zeichnet sich durch einen geringenRechenaufwand aus, da ihr Kern nur aus den Zahlen 1 und –1 besteht. Somitsind nur Additionen und Subtraktionen zur Berechnung notwendig.

2.4.4 Haartransformation

Die Basisvektoren aller bisherigen Transformationen waren globaler Natur, weildie Basisfunktionen sich grundsätzlich über den gesamten Vektor oder die gan-ze Bildfläche ausdehnen. Alle örtliche Information geht verloren. Wenn wir zumBeispiel zwei unabhängige Objekte in einem Bild haben, werden sie gleichzeitigin die globalen Muster zerlegt. Sie sind dann in der Transformation nicht mehrals individuelle Objekte erkennbar.

2.5 Schnelle Berechnung unitärer Transformationen 69

a

0

1

2

3

4

5

6

7

b

0

1

2

3

4

5

6

7

Abbildung 2.20: Die ersten 8 Basisfunktionen eindimensionaler unitärer Trans-formationen für N = 16: a Hadamardtransformation und b Haartransformati-on.

Die Haartransformation ist ein Beispiel einer unitären Transformation, welchelokale Information teilweise erhält, da ihre Basisfunktionen Impulspaare sind,die nur an der Position des Impulses ungleich null sind (Abb. 2.20b). Die Haar-transformation ist von Vorteil für die Auflösung der Position kleiner Strukturen.

Auch die Haartransformation ist wie die Hadamardtransformation vom Rechen-aufwand her effizient, da ihr Kern nur die Zahlen –1, 0 und 1 beinhaltet.

2.5 Schnelle Berechnung unitärer Transformationen

2.5.1 Zur Bedeutung schneller Algorithmen

Ohne einen schnellen Algorithmus zur Berechnung der diskreten Fouriertrans-formation wäre ihr Einsatz in der Bildverarbeitung nicht möglich. Wird (2.38)direkt eingesetzt, resultiert ein prohibitiv hoher Rechenaufwand. Jeder Punktdes transformierten Bildes erfordert N2 komplexe Multiplikationen und N2 − 1komplexe Additionen (ohne Berücksichtigung der Berechnung der Kosinus- undSinusfunktionen im Kern). Insgesamt sind N4 komplexe Multiplikationen undN2(N2 − 1) komplexe Additionen erforderlich. Das ergibt etwa 8N4 Gleitkom-maoperationen. Für ein 512× 512-Bild sind das 5 × 1011 Operationen. Ein 2-GHz-PentiumPro-Prozessor kann etwa 500 MFLOPS (million floating point ope-rations per second) leisten, wenn er in einer Hochsprache mit einem optimie-renden Compiler programmiert wird. Eine einzige Fouriertransformation ei-nes 512× 512-Bildes mit 5×1011 Rechenoperationen würde demnach ungefähr


1.000 s oder 0,3 h dauern. Das ist zu langsam, um praktisch nutzbar zu sein.Diese Zahlen zeigen die Notwendigkeit, einen geeigneten Algorithmus zu finden,der die Rechenzeit der DFT drastisch verkürzt. Effiziente Algorithmen sind inder Informatik ein zentrales Thema. Zur Entwicklung geeigneter Algorithmenmüssen wir die innere Struktur einer gegebenen Aufgabe, ihre Rechenkomple-xität untersuchen, um herauszufinden, wie sie mit einer minimalen Zahl vonOperationen gelöst werden kann.

Als instruktives Beispiel betrachten wir folgende einfache Suchaufgabe: EinFreund wohnt in einem Hochhaus mit N Stockwerken. Es gilt herauszufinden,in welchem Stockwerk seine Wohnung liegt. Jede unserer Fragen wird nur mit Jaoder Nein beantwortet. Wie viele Fragen benötigen wir, um herauszufinden, woder Freund wohnt? Der einfachste und direkteste Ansatz ist die Frage: „wohnter in Stockwerk n?“ Im besten Fall stimmt gleich unser erster Versuch. Es istjedoch wahrscheinlicher, dass wir falsch raten, sodass wir die gleiche Frage wie-der und wieder stellen müssen. Im schlechtesten Fall müssen wir genau N − 1Fragen stellen, im Mittel N/2. Mit jeder Frage können wir lediglich eine von NMöglichkeiten ausschließen, ein recht ineffektiver Ansatz.

Dagegen können wir mit der Frage: „wohnt er in der oberen Hälfte des Hauses?“bereits die Hälfte der Möglichkeiten mit nur einer Frage ausschließen. Nun wis-sen wir, ob er in der oberen oder unteren Hälfte der Stockwerke lebt. WeitereFragen können in der gleichen Art und Weise gestellt werden, indem die übriggebliebenen Möglichkeiten jeweils in zwei Hälften geteilt werden. Mit dieserStrategie reduzieren sich die Fragen erheblich. Ist die Zahl der Stockwerke einVielfaches von 2, sagen wir 2l, sind exakt l Fragen notwendig. Also brauchenwir für N Stockwerke ldN Fragen, wobei ld den Logarithmus zur Basis 2 be-zeichnet. Diese Strategie, die rekursiv zur effizienteren Lösung der Suchaufgabeeingesetzt wurde, wird Divide-And-Conquer -Strategie genannt.

Ein Maß für die Komplexität eines Problems mit der Problemgröße N (z. B. NKomponenten) ergibt sich daraus, wie der dominierende Term, der beim Zäh-len der notwendigen Operationen entsteht, von N abhängt. Diese Näherungist hilfreich, da für große N die Anzahl der Operationen von diesem Term mitder höchsten Potenz von N dominiert wird. Wir sprechen von einem Problemnullter Ordnung, O(N0), wenn die Anzahl der Operationen nicht von dieserGröße abhängt, oder von einem Problem linearer Ordnung, O(N1), wenn dieZahl der Berechnungen linear mit der Größe ansteigt. Die Komplexität der di-rekten Lösung des Suchproblems im obigen Beispiel ist O(N), die der Divide-And-Conquer-Strategie dagegen O(ldN).

2.5.2 Der 1D-Basis-2-FFT-Algorithmus

Schnelle Algorithmen für die Fouriertransformation werden allgemein abge-kürzt als FFT-Algorithmen (fast Fourier transform) bezeichnet. Zunächst be-trachten wir einen schnellen Algorithmus für die eindimensionale DFT. Neh-men wir an, dass die Dimension N des Vektors ein Vielfaches von zwei ist, alsoN = 2l. Da die direkte Lösung nach (2.29) die Komplexität O(N2) aufweist,erscheint es sinnvoll, die Divide-And-Conquer-Strategie anzuwenden. Könntedie Transformation in zwei Schritte mit zwei Vektoren der Länge N/2 aufgeteiltwerden, so würde sich die Anzahl der Operationen von N2 auf 2(N/2)2 = N2/2halbieren.


Alle Abtastpunkte Gerade Abtast-punkte

Ungerade Abtast-punkte

Abbildung 2.21: Zerlegung eines Vektors in zwei Vektoren, bestehend aus dengeraden bzw. ungeraden Abtastpunkten.

Ist diese Zerlegung der DFT prinzipiell möglich, so kann man sie sukzessiveldN-mal fortsetzen, bis schließlich ein Vektor der Länge 1 übrig bleibt, dessenDFT trivial ist, da keine Transformation mehr durchzuführen ist. Dieser Ansatzfunktioniert natürlich nur, wenn solch eine Zerlegung möglich und die Anzahlzusätzlicher Operationen für das Zusammenfügen der Teilergebnisse nicht vonhöherer Ordnung als O(N) ist.

Das Ergebnis der rekursiven Zerlegung ist aufschlussreich, denn wir müssenüberhaupt keine Fouriertransformation mehr durchführen. Der gesamte Algo-rithmus zur Berechnung der DFT wurde in rekursives Zusammensetzen vonTeilergebnissen überführt. Ist dieses Zusammensetzen eine Operation der Ord-nung O(N), dann ergibt sich für die gesamte Berechnung der DFT eine Ordnungvon O(N ldN), da ldN-mal die Teiltransformationen zusammengefügt werdenmüssen. Im Vergleich zur direkten Berechnung (O(N2)) bedeutet dies eine enor-me Einsparung an Rechenoperationen. Für N = 210 = 1024 reduzieren sie sichauf etwa ein Hundertstel. Wir teilen den Vektor in zwei Hälften, indem wirdie geradzahligen und die ungeradzahligen Elemente getrennt transformieren(Abb. 2.21):

gv =N−1∑n=0

gn exp(− 2π inv

N

)

=N/2−1∑n=0

g2n exp(− 2π i2nv

N

)+N/2−1∑n=0

g2n+1 exp(− 2π i(2n+1)v

N

)

=N/2−1∑n=0

g2n exp(− 2π inv

N/2

)+ exp

(− 2π iv

N

)N/2−1∑n=0

g2n+1 exp(− 2π inv

N/2

).

(2.86)

Die beiden Teilsummen stellen wieder eine DFT mit N′ = N/2 dar. Die zweiteSumme ist mit einem Phasenfaktor multipliziert, der nur von der Wellenzahl vabhängt. Dieser Phasenfaktor resultiert aus dem Verschiebungstheorem, da dieungeraden Elemente um einen Platz nach links verschoben wurden.

Dies soll an der Basisfunktion v = 1 für N = 8 illustriert werden (Abb. 2.21).Bei den ungeraden Abtastpunkten ist die Funktion um π/4 phasenverschoben.Genau diese Phasenverschiebung wird durch den Phasenfaktor

exp(−2π iv/N) = exp(−π i/4)

in (2.86) kompensiert.


Die Operationen zum Zusammenfügen der Teiltransformationsergebnisse sindjeweils eine komplexe Multiplikation und Addition, also von konstantem Auf-wand O(N1). Allerdings liefert die DFT über den halbierten Vektor nur N/2Werte, während die doppelte Anzahl Werte für den gesamten Vektor benötigtwird.

Wir müssen also nochmals gründlich nachdenken, ob die Zerlegung wirklichfunktioniert. Um zu sehen, wie die Zusammensetzung derN Werte funktioniert,zerlegen wir die DFT für den gesamten Vektor in zwei Teile und untersuchen dieWerte für v von 0 bis N/2− 1 und von N/2 bis N − 1 separat. Gleichzeitig ver-einfachen wir die Schreibweise für die DFT, indem wir die Fouriertransformierteüber die geraden und die ungeraden Abtastpunkte mit egv bzw. ogv abkürzen(even und odd).

Damit schreiben wir nun (2.86) neu, getrennt für die beiden Hälften. Für dieerste Hälfte können wir sofort die Zerlegung aus (2.86) verwenden. Für diezweite Hälfte, v′ = v+N/2, ändert sich lediglich der Phasenfaktor. Die Additionvon N/2 resultiert in einem Vorzeichenwechsel:

exp(−2π i(v +N/2)

N

)= − exp

(−2π iv

N

)

oderw−(v+N/2)N = −w−v

N .

Unter Verwendung dieser Symmetrie schreiben wir:

gv = egv +w−vN

ogv

gv+N/2 = egv −w−vN

ogv .

⎫⎬⎭ 0 ≤ v < N/2. (2.87)

Die Fouriertransformierten für die Indizes v und v + N/2 unterscheiden sichnur durch das Vorzeichen des zweiten Terms. Daher benötigen wir für die Zu-sammensetzung von zwei Termen lediglich eine komplexe Multiplikation. DerFFT-Algorithmus besteht nun in der sukzessiven Anwendung der Halbierungder Vektorlänge: Die beiden Transformationen der Vektoren der Länge N/2werden wieder in jeweils zwei Transformationen über die halbe Vektorlängeaufgeteilt. Es resultieren ähnliche Ausdrücke wie in (2.86) mit dem einzigenUnterschied, dass sich der Phasenfaktor auf exp[−(2π iv)/(N/2)] verdoppelthat. Die geraden und ungeraden Anteile des geraden Vektors enthalten diePunkte 0,4,8, · · · , N/2− 4 bzw. 2,6,10, · · · , N/2− 2.Im letzten Schritt zerlegen wir einen Vektor mit zwei Elementen in zwei Vek-toren mit je einem Element. Da die DFT eines Vektors der Länge 1 gleich derIdentitätsfunktion ist (2.29), sind keine weiteren Berechnungen notwendig.

Ist die Zerlegung abgeschlossen, können wir schrittweise (2.87) mit entspre-chenden Phasenfaktoren anwenden, um das Originalbild Schritt für Schritt inumgekehrter Richtung wieder aufzubauen. Im ersten Schritt erzeugen wir Vek-toren mit lediglich zwei Elementen. Wir benötigen also nur einen Phasenfaktorfür v = 0, der gleich 1 ist. Entsprechend hat der erste Aufbauschritt eine sehreinfache Form:

g0 = g0 + g1

g0+N/2 = g1 = g0 − g1.(2.88)


+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

g0 g0g0000 000g1

g1g1

001

001

g2 g2

g2

010 010g3

g3

g3

011

011

g4

g4

g4

100

100

g5 g5

g5

101 101

g6

g6

g6 110

110g7

g7g7111 111

-1

-1

-1

-1

-i

-i

-1

-1

i

i

W0

-W0

W-1

-W-1

W-2

-W-2

W-3

-W-3

g0

g4

g1

g5

g2

g6

g3

g7

^

^

^

^

^

^

^

^

Abbildung 2.22: Signalflussdiagramm des Basis-2-FFT-Algorithmus mit Zerle-gung im Zeitraum (radix-2 decimation-in-time FFT) für N = 8. Erläuterungen imText.

Der diskutierte Algorithmus ist ein Basis-2-FFT-Algorithmus mit Zerlegung imOrtsraum. Die einzelnen Schritte des FFT-Algorithmus sind in Abb. 2.22 in ei-nem Signalflussdiagramm für N = 8 zusammengestellt. Die linke Hälfte desDiagramms zeigt die schrittweise Zerlegung in Teiltransformationen unter Hal-bierung der Vektorlänge, die rechte Hälfte das Rechenschema für die Multi-plikation mit den Phasenfaktoren und die Addition der Teilvektoren zu einemVektor der Länge N . In der ersten Spalte ist der zu transformierende Vektordargestellt. Die zweite Spalte ist das Ergebnis des ersten Zerlegungsschrittes inzwei Vektoren. Die Vektoren mit den geraden bzw. ungeraden Elementen wer-den in die obere bzw. untere Hälfte separiert. Dieser Schritt wird wiederholt,bis sich Vektoren mit nur einem Element ergeben.

Bei dieser Zerlegung werden die Vektorelemente umsortiert. Das ist alles, wasin diesem Schritt geschieht; weitere Berechnungen sind nicht erforderlich. Wirkönnen das neue Ordnungsschema leicht verstehen, wenn wir die Indizes derVektoren als Dualzahlen darstellen. Im ersten Zerlegungsschritt ordnen wir dieElemente nach dem niedrigstwertigen Bit, zuerst die geraden Elemente (das Bitist null), dann die ungeraden Elemente (das Bit ist eins). Mit jedem weiterenZerlegungsschritt wird das Bit, das die Sortierung bestimmt, um einen Platznach links verschoben. Am Ende ergibt sich eine Sortierung, bei der die neueOrdnungszahl aus der alten durch bitweise Invertierung entstanden ist. DasElement mit dem Index 1 = 0012 wird zum Beispiel an Position 4 = 1002 seinund umgekehrt. Damit kann die Kette der Zerlegungsschritte in einer einzigenOperation erfolgen, einer Bitumkehroperation der Indizes. Diese Umsortierungnennt man Bitumkehr (engl. bit reversal).

In weiteren Schritten auf der rechten Seite des Signalflussdiagramms folgt diesukzessive Zusammensetzung zu Vektoren, deren Länge sich in jedem Schrittwieder verdoppelt. Die Zusammensetzung zu einem zweidimensionalen Vek-tor wird in (2.88) formuliert und in Abb. 2.22 mit Pfeilen und Punkten darge-stellt. Die Symbole haben folgende Bedeutung: Punkte repräsentieren eine Zahl,ein Element eines Vektors. Diese Punkte werden als Knoten des Signalflussdia-gramms bezeichnet. Die Pfeile übernehmen den Wert des Knotens, an dem sie


+ +

+ +

+

+ +

+ +

+

+

+

+

+

g0

000g1

001g2

010g3

011g4

100g5

101g6

110g7

111

g0

g0

g1

g1

g2

g2

g3

g3

g4

g4

g5

g5

g6

g6

g7

g7

g0

g0

000

000

g2

g2

010

010

g4

g4

100

100

g6

g6

110

110

g1

g1

001

001

g3

g3

011

011

g5

g5

101

101

g7

g7

111

111

g0

000g1

001g2

010g3

011g4

100g5

101g6

110g7

111

g0^

g4^

1

1

1

1

1

1

1

1

1

1

1

1

1 -1

Abbildung 2.23: Signalflussdiagramm der Berechnung von g0 und g4 mit demBasis-2 FFT-Algorithmus für einen achtdimensionalen Vektor.

beginnen; wir multiplizieren den Wert mit dem nahe dem Pfeil stehenden Faktorund übertragen das Produkt an den Knoten, an dem sie enden. Fehlt der mitdem Pfeil assoziierte Faktor, findet keine Multiplikation statt. Alle an einemKnoten ankommenden Werte werden aufsummiert. Der Wert eines Knotens istalso die Summe der aus der vorhergehenden Ebene übertragenen Werte.An der Grundoperation des FFT-Algorithmus sind nur je zwei Knoten beteiligt.Der untere Knotenwert wird mit einem Phasenfaktor multipliziert. Die Summeund die Differenz der beiden Knotenwerte werden dann entsprechend an denoberen bzw. unteren Knoten übertragen. Wegen des Überkreuzens der Signal-wege wird diese Operation als Butterfly-Operation bezeichnet.Einen tieferen Einblick in den FFT-Algorithmus erhalten wir, wenn wir die Be-rechnung eines einzelnen Elements zurückverfolgen. Abbildung 2.23 zeigt dieSignalwege für g0 und g4. In jeder Ebene verfolgen wir die Anzahl der Kno-ten zurück, die zur Berechnung eines Knotens beitragen. In der letzten Ebenesind alle Elemente beteiligt. Die Signalwege für g0 und g4 sind bis auf denletzten Schritt identisch. Dies demonstriert sehr schön die Effizienz des FFT-Algorithmus. Alle Phasenfaktoren der Signalwege für g0 sind eins. Wie aus(2.29) zu erwarten ist, enthält g0 die Summe aller Elemente des Vektors g,

g0 = [(g0 + g4)+ (g2 + g6)]+ [(g1 + g5)+ (g3 + g7)],

während im letzten Schritt für g4 die Addition durch eine Subtraktion ersetztwird:


g4 = [(g0 + g4)+ (g2 + g6)]− [(g1 + g5)+ (g3 + g7)].

In Abschn. 2.4 wurde bereits erwähnt, dass die DFT ein Beispiel einer unitärenTransformation ist, die üblicherweise durch Multiplikation mit einer unitärenMatrix berechnet wird. Was hat nun der FFT-Algorithmus in diesem Zusammen-hang für eine Bedeutung? Das Signalflussdiagramm in Abb. 2.22 zeigt, dass derVektor in mehreren Schritten transformiert wird. Die unitäre Transformations-matrix wird also in mehrere Teiltransformationsmatrizen aufgeteilt, die nach-einander angewandt werden. Betrachten wir den Algorithmus aus Abb. 2.22für N = 8, werden durch die Aufteilung der unitären Matrix in drei einfachereTransformationen unitäre Transformationen eingespart:

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

g0

g1

g2

g3

g4

g5

g6

g7

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1 0 0 0 1 0 0 00 1 0 0 0 w−1 0 00 0 1 0 0 0 w−2 00 0 0 1 0 0 0 w−3

1 0 0 0 –1 0 0 00 1 0 0 0 −w−1 0 00 0 1 0 0 0 −w−2 00 0 0 1 0 0 0 −w−3

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1 0 1 0 0 0 0 00 1 0 i 0 0 0 01 0 –1 0 0 0 0 00 1 0 –i 0 0 0 00 0 0 0 1 0 1 00 0 0 0 0 1 0 i0 0 0 0 1 0 –1 00 0 0 0 0 1 0 –i

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1 0 0 0 1 0 0 01 0 0 0 –1 0 0 00 0 1 0 0 0 1 00 0 1 0 0 0 –1 00 1 0 0 0 1 0 00 1 0 0 0 –1 0 00 0 0 1 0 0 0 10 0 0 1 0 0 0 –1

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

g0

g1

g2

g3

g4

g5

g6

g7

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

Diese Transformationsmatrizen stellen jeweils eine Ebene des FFT-Algorithmusdar. Diese Matrixzerlegung zeigt, dass der FFT-Algorithmus auch als eine Me-thode verstanden werden kann, unitäre Transformationsmatrizen in möglichstdünnbesetzte Teiltransformationsmatrizen zu zerlegen.

2.5.3 Kriterien für effiziente Algorithmen

Bezüglich der Zahl erforderlicher arithmetischer Operationen gibt es noch vieleandere schnellere und effektivere FFT-Algorithmen. Überwiegend basieren sieauf der Polynomalgebra und der Zahlentheorie. Eine detaillierte Besprechungdieser Algorithmen findet man bei Blahut [17]. Die bloße Anzahl arithmetischerOperationen ist jedoch nicht das einzige Maß für einen effizienten Algorithmus.Es müssen noch andere Faktoren berücksichtigt werden.

Der Zugriff auf Daten erfordert zusätzliche Operationen. Bedenken wir das ein-fache Beispiel der Addition zweier Vektoren. Neben der Addition werden folgen-de Operationen durchgeführt: Berechnung der Adressen der entsprechendenElemente, Einlesen der beiden Elemente in die Register und Zurückschreibendes Ergebnisses dieser Additionen in den Speicher. Je nach der Architektur derverwendeten Hardware können diese zusätzlichen Operationen mehr Zeit ver-brauchen als die eigentliche Addition. Also kann ein Algorithmus mit einemkomplizierten Zugriff auf die Vektorelemente zu einem beträchtlichen Zusatz-aufwand neben den arithmetischen Operationen führen. Daher kann ein einfa-


cher Algorithmus, der zwar mehr arithmetische Operationen, jedoch wenigerSpeicherzugriffe erfordert, effektiver sein.

Ein anderer Gesichtspunkt zur Bewertung von Algorithmen ist der erforderlicheSpeicherplatz. Dies betrifft nicht nur den Kode, sondern auch Speicherplatz fürZwischenergebnisse oder Konstantentabellen. Sehr effektiv ist zum Beispiel einso genannter In-Place-FFT-Algorithmus, der die Fouriertransformation eines Bil-des durchführen kann, ohne das Bild zwischenspeichern zu müssen. Oft hängenGeschwindigkeit und Speicherplatz zusammen. Viele Integer-FFT-Algorithmenberechnen z. B. zuerst die komplexen Phasenfaktoren wv

N und speichern sie instatisch angelegten Tabellen.

Die Effizienz von Algorithmen hängt in hohem Maß von der Architektur desComputers ab, auf dem sie implementiert werden. Wird eine Multiplikation ent-weder von der Software oder durch eine mikrokodierte Anweisung ausgeführt,ist sie viel langsamer als eine Addition oder ein Speicherzugriff, die direkt alsHardware-Funktionen implementiert sind. In diesem Fall ist das Kriterium ei-nes effizienten Algorithmus die möglichst geringe Zahl von Multiplikationen,auch um den Preis einer größeren Anzahl von Additionen oder eines komplexe-ren Speicherzugriffs. Solch eine Strategie hat allerdings auf modernen Hochge-schwindigkeits-Architekturen keinen Sinn, da Additionen und Multiplikationenjeweils nur einen Takt brauchen. Je schneller jedoch die Prozessoren arbei-ten, desto kritischer wird der Speicherzugriff. Schnelle Algorithmen müsseneffektive Speicherzugriffe realisieren. Es ist entscheidend, dass möglichst vieleRechenschritte mit denselben Daten ausgeführt werden. Da dies relativ kleineDatenmengen sind, können sie in einem schnellen Zwischenspeicher, dem sogenannten Cache, gehalten werden und müssen nicht ständig neu aus dem viellangsameren Hauptspeicher geholt werden.

Nach dieser detaillierten Diskussion des Algorithmus können wir nun die An-zahl der notwendigen Operationen abschätzen. In jedem Schritt der Zusam-mensetzung werden N/2 komplexe Multiplikationen und N komplexe Additio-nen durchgeführt. Insgesamt benötigen wirN/2 ldN komplexe Multiplikationenund N ldN komplexe Additionen.

Eine genauere Analyse zeigt, dass sogar noch mehr Multiplikationen eingespartwerden können. In den ersten beiden Schritten der Zusammensetzung werdennur triviale Multiplikationen mit 1 oder i durchgeführt (vgl. Abb. 2.22). In dendarauffolgenden Stufen nimmt die Zahl der trivialen Multiplikationen jeweilsauf die Hälfte ab.

Könnte unser Algorithmus alle trivialen Multiplikationen vermeiden, würde sichdie Zahl der Multiplikationen bis auf (N/2)(ldN − 3) reduzieren.

Der FFT-Algorithmus ist ein klassisches Beispiel eines schnellen Algorithmus.Die Reduktion der Berechnungszeit ist enorm. Für einen Vektor mit 512 Ele-menten werden, verglichen mit der direkten Methode nach (2.29), nur 1536 statt262 144 komplexe Multiplikationen benötigt. Damit reduziert sich die Anzahlder Multiplikationen auf 1/170.

Unter Verwendung des FFT-Algorithmus kann die diskrete Fouriertransformati-on nicht mehr als rechenintensive Operation bezeichnet werden, da sie nur we-nige Operationen pro Vektorelement erfordert. Ein Vektor mit 512 Elementenbenötigt lediglich 3 komplexe Multiplikationen und 8 komplexe Additionen proElement, was 12 reellen Multiplikationen und 24 reellen Additionen entspricht.


2.5.4 Basis-4-FFT-Algorithmus

Nachdem wir nun einen schnellen Algorithmus im Detail durchgearbeitet ha-ben, wissen wir immer noch nicht, ob dieser Algorithmus optimal ist oder ob esnoch effizientere Algorithmen gibt. Tatsächlich haben wir nur einen Spezialfallder Divide-And-Conquer-Strategie kennengelernt. Statt den Ausgangsvektor inzwei Teile zu zerlegen, hätten wir auch eine andere Aufteilung verwenden kön-nen, z. B. P Q-dimensionale Vektoren bei N = PQ. Solche Algorithmen werdenCooley-Tukey-Algorithmen genannt [17]. Eine oft verwendete Zerlegung ist derBasis-4-FFT-Algorithmus. Damit wird ein Vektor in vier Komponenten zerlegt:

gv =N/4−1∑n=0

g4nw−4nvN +w−v

N

N/4−1∑n=0

g4n+1w−4nvN

+ w−2vN

N/4−1∑n=0

g4n+2w−4nvN +w−3v

N

N/4−1∑n=0

g4n+3w−4nvN .

Zur Vereinfachung der Gleichungen benutzen wir ähnliche Abkürzungen wiefür den Basis-2-Algorithmus und bezeichnen die partiellen Transformationenmit 0g, · · · ,3 g. Unter Berücksichtigung der Symmetrie von wv

N ergeben sichdie Transformationen über jeweils ein Viertel des Vektors aus

gv = 0gv +w−vN

1gv +w−2vN

2gv +w−3vN

3gvgv+N/4 = 0gv − iw−v

N1gv −w−2v

N2gu + iw−3v

N3gv

gv+N/2 = 0gv −w−vN

1gv +w−2vN

2gv −w−3vN

3gvgv+3N/4 = 0gv + iw−v

N1gv −w−2v

N2gv − iw−3v

N3gv

oder, in Matrixschreibweise, aus⎡⎢⎢⎢⎣

gvgv+N/4gv+N/2gv+3N/4

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣

1 1 1 11 −i −1 i1 −1 1 −11 i −1 −i

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎣

0gvw−vN

1gvw−2vN

2gvw−3vN

3gv

⎤⎥⎥⎥⎦ .

Für diese Zerlegung werden 12 komplexe Additionen und 3 komplexe Multipli-kationen benötigt. Die Zahl der Additionen lässt sich weiter reduzieren, indemman die Matrix in zwei einfachere Teilmatrizen zerlegt:⎡

⎢⎢⎢⎣gv

gv+N/4gv+N/2gv+3N/4

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣

1 0 1 00 1 0 −i1 0 −1 00 1 0 i

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎣

1 0 1 01 0 −1 00 1 0 10 1 0 −1

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎣

0gvw−vN

1gvw−2vN

2gvw−3vN

3gv

⎤⎥⎥⎥⎦ .

Die erste Matrixmultiplikation führt zu Zwischenergebnissen, die im zweitenSchritt von mehreren Rechenoperationen genutzt werden können. Auf dieseWeise sparen wir vier Additionen. Bei einer sukzessiven Zerlegung gibt es jetztlog4N Stufen. Da bei der ersten Stufe wie beim Basis-2-Algorithmus nur tri-viale Multiplikationen anfallen und bei den weiteren Stufen nur bei 3/4 derPunkte multipliziert werden muss, ergeben sich insgesamt 3/4N(log4N − 1) =3/8N(ldN − 2) komplexe Multiplikationen und 2N log4N = NldN komplexeAdditionen. Während die Anzahl der Additionen gleich bleibt, reduzieren sichdie Multiplikationen im Vergleich zum Basis-2-Algorithmus um 25 %.


+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

g0

g4

g1

g5

g2

g6

g3

g7

^

^

^

^

^

^

^

^

g0000g1

001g2

010g3

011g4

100g5

101g6

110g7

111

g0

g1

g2

g3

g4

g5

g6

g7

g0000

g1001

g2010

g3011

g4100

g5101

g6110

g7111

W0

W-1

W-2

W-3

-W0

-W1

-W2

-W3

-1

-1

-1

-1

-ii

i-i

-1

-1

Abbildung 2.24: Signalflussdiagramm des Basis-2-FFT-Algorithmus für N = 8mit Zerlegung im Fourierraum.

2.5.5 Basis-2-FFT-Algorithmus mit Zerlegung im Fourierraum

Der FFT-Algorithmus mit Zerlegung im Fourierraum ist ein weiteres Beispieleines Cooley-Tukey-Algorithmus. Hier zerlegen wir den N-dimensionalen Ein-gangsvektor in zwei hintereinander liegende Blöcke. Dadurch wird der Vektorim Fourierraum in gerade und ungerade Komponenten zerlegt:

g2v =N/2−1∑n=0

(gn + gn+N/2)w−nvN/2

g2v+1 =N/2−1∑n=0

W−nN (gn − gn+N/2)w−nv

N/2 .(2.89)

Die rekursive Anwendung dieser Zerlegung bewirkt eine Bitumkehrung der Ele-mente im Ausgangsvektor, nicht jedoch im Eingangsvektor. Abbildung 2.24zeigt als Beispiel das Signalflussdiagramm für N = 8. Ein Vergleich mit demFlussdiagramm zur Zerlegung im Zeitraum (Abb. 2.22) macht deutlich, dasshier alle Schritte in umgekehrter Reihenfolge durchgeführt werden. Selbst dieelementare Butterfly-Operation (2.87) hat sich umgekehrt.

2.5.6 Mehrdimensionale FFT-Algorithmen

Generell gibt es zwei Möglichkeiten der Entwicklung schneller Algorithmen fürmehrdimensionale diskrete Fouriertransformationen. Zum einen können wir diemehrdimensionale DFT in 1D-DFT zerlegen und für diese schnelle Algorithmenverwenden. Zum anderen verallgemeinern wir den Ansatz für die Zerlegung von1D-FFT auf höhere Dimensionen. Wir zeigen Beispiele für beide Möglichkeiten.

Zerlegung in eindimensionale Transformationen. Aufgrund der Sepa-rierbarkeit des DFT-Kerns kann eine zweidimensionale in zwei eindimensionaleDFT zerlegt werden. Aus (2.38) erhält man

gu,v = 1√MN

M−1∑m=0

⎡⎣N−1∑n=0

gm,n exp(−2π inv

N

)⎤⎦ exp

(−2π imu

M

). (2.90)


0

0

0

0

1

1

1

1

0

0

0

0

1

1

1

1

0

0

0

0

1

1

1

1

0

0

0

0

1

1

1

1

2

2

2

2

3

3

3

3

2

2

2

2

3

3

3

3

2

2

2

2

3

3

3

3

2

2

2

2

3

3

3

3

Abbildung 2.25: Zerlegung einer Bildmatrix in vier Partitionen für den 2D-Basis-2-FFT-Algorithmus.

Die innere Summe stelltM 1D-DFT der Zeilen dar, die äußere die anschließendeTransformation der N Spalten. Die 2D-DFT lässt sich damit als Aufeinanderfol-ge zweier 1D-DFT ausführen.

Zeilentransformation gm,v = 1N

N−1∑n=0

gm,n exp(−2π inv

N

)

Spaltentransformation gu,v = 1M

M−1∑m=0

gm,v exp(−2π imu

M

).

Analog kann eine W -dimensionale DFT aus W eindimensionalen DFT zusam-mengesetzt werden.

Mehrdimensionale Zerlegung. Eine Zerlegung kann auch direkt in mehr-dimensionalen Räumen durchgeführt werden. Wir zeigen solch einen Algorith-mus am einfachen Fall eines zweidimensionalen Basis-2-Algorithmus mit Zerle-gung im Ortsraum.Wir zerlegen eineM ×N-Matrix in vier Teilmatrizen, indem wir nur jedes zweitePixel aus jeder zweiten Zeile verwenden (Abb. 2.25). Daraus ergibt sich⎡

⎢⎢⎢⎣gu,v

gu,v+N/2gu+M/2,v

gu+M/2,v+N/2

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣

1 1 1 11 −1 1 −11 1 −1 −11 −1 −1 1

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎣

0,0gu,vW−vN

0,1gu,vW−uM

1,0gu,vW−uM W−v

N1,1gu,v

⎤⎥⎥⎥⎦ .

Die G vorangestellten Exponenten bezeichnen die zugehörige Teiltransforma-tion. Der 2D-Basis-2-Algorithmus unterscheidet sich von der eindimensionalenVariante nur wenig. Wie beim 1D-Basis-4-Algorithmus (Abschn. 2.5.4) könnenwir die Anzahl der Additionen durch Faktorisieren der Matrix von 12 auf 8 re-duzieren:⎡

⎢⎢⎢⎣1 1 1 11 −1 1 −11 1 −1 −11 −1 −1 1

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣

1 0 1 00 1 0 11 0 −1 00 1 0 −1

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎣

1 1 0 01 −1 0 00 0 1 10 0 1 −1

⎤⎥⎥⎥⎦ .

Der 2D-Basis-2-Algorithmus einerN ×N-Matrix erfordert (3/4N2) ldN komple-xe Multiplikationen, d. h. 25 % weniger als die Trennung in zwei 1D-Basis-2-FFT.


Die mehrdimensionale Zerlegung hat jedoch den Nachteil, dass der Zugriff aufden Speicher komplexer ist als bei der eindimensionalen Fouriertransformati-on. Mit der Trennung in 1D-Transformationen erfolgt der Speicherzugriff lokal.Daraus resultiert eine höhere Cache-Trefferrate im Vergleich zum aufgeteiltenZugriff der mehrdimensionalen Zerlegung.

2.5.7 Fouriertransformation reeller Bilder

Bisher haben wir nur die Fouriertransformation komplexwertiger Signale be-sprochen. Die gleichen Algorithmen können auch für reellwertige Signale ein-gesetzt werden. Allerdings büßen sie an Effizienz ein, da die Fouriertransfor-mierte eines reellen Bildes hermitesch (Abschn. 2.3.4) und damit nur die Hälfteder Fourierkoeffizienten unabhängig ist. Das korrespondiert mit der Tatsache,dass die Hälfte des Signals, nämlich der Imaginärteil, null ist.

Es ist offensichtlich, dass bei der DFT reeller Daten die Rechengeschwindigkeitverdoppelt werden kann. Der einfachste Weg ist die gleichzeitige Berechnungzweier reeller 1D-Sequenzen. Dieses Konzept ist für DFT von Bildern leichtumzusetzen, da viele 1D-DFT berechnet werden müssen. Daher können wir dieerste Zeile x dem Realteil zuordnen und die zweite Zeile y dem Imaginärteil.Daraus entsteht der komplexe Vektor z = x + iy.

Die in Abschn. 2.3.4 diskutierten Symmetrieeigenschaften der DFT lassen daraufschließen, dass Real- bzw. Imaginärteil bei der Transformation in den hermite-schen bzw. antihermiteschen Teil des Fourierraums abgebildet werden. Alsoergeben sich die Fouriertransformierten der beiden reellen M-dimensionalenVektoren zu

xv = 1/2(zv + z∗N−v), iyv = 1/2(zv − z∗N−v). (2.91)

2.6 Übungsaufgaben

2.1: Räumliche Auflösung von Bildern

Darstellung von Bildern mit interaktiv einstellbarer Anzahl von Bildpunkten(dip6ex02.01).

2.2: Quantisierung von Bildern

Darstellung von Bildern mit interaktiv einstellbarer Anzahl von Quantisie-rungsstufen (dip6ex02.02).

2.3: Kontextabhängiges Helligkeitsempfinden

Interaktive Demonstration des kontextabhängigen Helligkeitsempfindensdes menschlichen visuellen Systems (dip6ex02.03).

2.4: Helligkeitsauflösung des menschlichen Auges

Interaktives Experiment zur Helligkeitsauflösung des menschlichen visuel-len Systems (dip6ex02.04).


2.5: Gammawert

Interaktive Einstellung des Gammawertes der Bilddarstellung (dip6ex02.05).

2.6: ∗Kontrastauflösung bei logarithmischer Sensorkennlinie

Welche relative Helligkeitsauflösung ∆g′/g′, bedingt durch die Digitalise-rung (∆g′ = 1), besitzt ein Bildsensor mit einer logarithmischen Kennlinieder Form

g′ = a1 logg − a0

und mit einem Kontrastumfang von 6 Dekaden bei 8 bzw. 10 Bit Auflö-sung? Dabei soll der minimale Grauwert auf g′ = 0 und der 106mal größeremaximale Grauwert auf g′ = 255 bzw. g′ = 1023 abgebildet werden.

2.7: Zerlegung in periodische Muster

Interaktive Demonstration zur Zerlegung eines Bildes in die darin enthalte-nen periodischen Grundmuster, d. h. die Basisfunktionen der Fouriertrans-formation (dip6ex02.06).

2.8: Fouriertransformation

Interaktives Tutorial zur Fouriertransformation (dip6ex02.07).

2.9: Kontrastumfang fouriertransformierter Bilder

Interaktives Tutorial zur Berechnung der Fouriertransformation und demKontrastumfang fouriertransformierter Bilder (dip6ex02.08).

2.10: Phase und Amplitude bei der Fouriertransformation

Interaktives Tutorial zur Bedeutung der Amplitude und der Phase fourier-transformierter Bilder (dip6ex02.9).

2.11: ∗Verschiebungstheorem der Fouriertransformation

Beweisen Sie das Verschiebungstheorem (Theorem 2.3, S. 55) der Fourier-transformation.

2.12: ∗∗Fouriertransformationspaare

Berechnen Sie die Fouriertransformierten von folgenden Funktionen im Orts-raum nur unter Benutzung der in R5 und R6 zusammengestellten Fou-riertransformationspaare und der Grundtheoreme der Fouriertransforma-


tion (Abschn. 2.3.4 und R4):

a)1√

2πσexp

(− x2

2σ 2

)

b)1

2πσxσyexp

(− x2

2σ 2x− y2

2σ 2y

)

c) cos2(k0x), sin2(k0x)

d) Λ(x) =

1− |x| |x| ≤ 1

0 sonst(Dreiecksfunktion)

e) cos(k0x) exp

(− (x − x0)2

2σ 2

)(Wellenpaket)

Bei einigen Funktionen gibt es mehrere Lösungswege. Geben sie an, welcheTheoreme benutzt wurden.

2.13: ∗DFT

Mit dieser Übungsaufgabe können Sie sich in einfacher Weise mit der eindi-mensionalen diskreten Fouriertransformation vertraut machen.1. Berechnen Sie die Basisfunktionen der DFT für Vektoren mit der Länge 4

und 8.2. Berechnen Sie die Fouriertransformierte des Vektors [4 1 2 1]T .3. Berechnen Sie die Fouriertransformierte des Vektors [1 4 1 2]T , um sich

das Verschiebungstheorem (Theorem 2.3, S. 55) zu veranschaulichen.4. Berechnen Sie die Fouriertransformierte des Vektors [4 0 1 0 2 0 1 0]T ,

um sich das diskrete Ähnlichkeitstheorem (Theorem 2.2, S. 55) zu veran-schaulichen.

5. Falten Sie den Vektor [4 1 2 1]T mit [2 1 0 1]T /4 und berechnen Sie dieFouriertransformierte des zweiten Vektors und des gefalteten Vektors,um sich das Faltungstheorem (Theorem 2.4, S. 56) zu veranschaulichen.

2.14: ∗∗Ableitungstheorem der DFT

Während sich fast alle Theoreme der kontinuierlichen FT leicht auf die dis-krete FT übertragen lassen (vergleiche R4 mit R7), gibt es Probleme mitdem Ableitungstheorem, da die Ableitung im Diskreten nur durch finite Dif-ferenzen approximiert werden kann. Beweisen Sie das Theorem für sym-metrische finite Differenzen der 1D-DFT

(gn+1 − gn−1)/2 • i sin(2πv/N)gv

und zeigen Sie, inwiefern der Ausdruck im Fourierraum eine Näherung desAbleitungstheorems der FT darstellt.

2.15: ∗∗Invariante Fouriertransformationspaare

Welche Funktionen sind unter der kontinuierlichen Fouriertransformationinvariant, d. h. ändern ihre Form bis auf Skalierungsfaktoren nicht? (Hin-weis: schauen Sie sich im Referenzteil R6 an.) Haben diese invarianten


Fouriertransformationspaare eine besondere Bedeutung für die Signalver-arbeitung?

2.16: ∗∗Symmetrien bei der Fouriertransformation

Beweisen Sie, dass bezüglich der Symmetrieeigenschaften von Fouriertrans-formationspaaren folgende Relationen gelten:

Ortsraum Fourierraum

hermitesch g(−x) = g(x) reell: g(k) = g(k)reell g(x) = g(x) hermitesch: g(−k) = g(k)reell und gerade reell und geradereell und ungerade imaginär und ungerade

separabel: g(x1)h(x2) separabel: g(k1)h(k2)rotationssymmetrisch g(|x|) rotationssymmetrisch g(|k|)

2.17: ∗∗∗Basis-3-FFT-Algorithmus

Hat ein Basis-3-FFT-Algorithmus die gleiche Ordnung an RechenoperationenO(N ldN) wie ein Basis-2- oder Basis-4-Algorithmus? Benötigt er mehr oderweniger Rechenoperationen?

2.18: ∗∗∗FFT reeller Signale

In Abschn. 2.5.7 wurde eine Methode gezeigt, wie man effektiv reelle Bil-der transformieren kann. Es gibt auch die Möglichkeit, das Zerlegungsprin-zip des Basis-2-FFT-Algorithmus (Abschn. 2.5.2, (2.86)) anzuwenden, indemman die geradzahligen Elemente eines reellen Vektors als den Real- und dieungeradzahligen Elemente als den Imaginärteil eines komplexen Vektorsder halben Länge des reellen Vektors auffasst.Zeigen Sie, wie aus der so interpretierten DFT des komplexen Vektors diedes reellen Vektors berechnet werden kann. (Diese Methode hat gegenüberder in Abschn. 2.5.7 geschilderten Methode den Vorteil, dass sie auch aufeinen einzelnen Vektor angewendet werden kann.)


Das klassische Lehrbuch über die Fouriertransformation — und immer nocheines der besten — ist Bracewell [19]. Eine erschöpfende Darstellung verschie-dener Transformationen finden sich in dem “Handbook on Transforms” vonPoularikas [174]. Für die Grundlagen der linearen Algebra, insbesondere dieunitären Transformationen, sei auf moderne Lehrbücher über lineare Algebraverwiesen, z. B. Jänich [111] oder Beutelsbacher [13].

Auch heute lohnt es sich noch, den historischen Zeitschriftenbeitrag von Cooleyund Tukey [32] zu lesen, der die Entdeckung der schnellen Fouriertransforma-tion beschreibt. Die Monografien von Blahut [17], Besslich und Lu [12] undMeyer-Bäse [154] behandeln diverse Algorithmen für die schnelle Fouriertrans-formation.


Wer sich generell für den Entwurf und die Analyse von Algorithmen interessiert,dem sei das klassiche Lehrbuch von Aho et al. [5] wärmstens empfohlen; es istimmer noch eine der klarsten und verständlichsten Darstellungen. Von denmoderneren Lehrbüchern ist das allerdings sehr umfangreiche Lehrbuch vonCormen et al. [33] empfehlenswert. Beide Lehrbücher behandeln auch die FFT.

3 Statistik

3.1 Einführung

Die digitale Bildverarbeitung kann als Teilbereich der digitalen Signal-verarbeitung betrachtet werden. Deshalb können alle Methoden zurAufnahme und Analyse von Messungen und ihren Fehlern auch auf dieBildverarbeitung angewandt werden. Insbesondere sind alle Messungen,die wir an einem Bild durchführen, wiez. B. die Bestimmung der Größeoder Position eines Objekts oder seines mittleren Grauwertes, nur sinn-voll, wenn wir auch die Messungenauigkeit abschätzen können. Diesegrundlegende Tatsache, die jedem Wissenschaftler und Ingenieur ver-traut ist, wurde in den Anfängen der Bildverarbeitung oft vernachlässigt.Die Verwendung empirischer statt wissenschaftlich fundierter Techni-ken machte realistische Fehlerabschätzungen unmöglich. Glücklicher-weise hat das Wissen in der Bildverarbeitung beträchtlich zugenommen.Heute stehen viele fundierte Techniken, die auch Fehlerabschätzungenermöglichen, zur Verfügung.

In diesem Zusammenhang ist es notwendig, zwei wichtige Klassenvon Fehlern zu unterscheiden. Der statistische Fehler beschreibt dieStreuung der Messwerte, wenn ein und dieselbe Messung wiederholt wird(Abb. 3.1). Die Breite der Verteilung der Messwerte ergibt ein geeignetesMaß für den statistischen Fehler und der Schwerpunkt der Verteilungden Mittelwert.

Die Abweichung des Mittelwerts vom tatsächlichen Wert kann jedochunabhängig von der statistischen Verteilung auftreten und über die sta-tistischen Fehlergrenzen hinausgehen. Solch eine Abweichung wird sys-tematischer Fehler genannt. Eng verwandt mit dem Unterschied zwi-schen systematischem und statistischem Fehler sind die Begriffe Präzi-sion und Genauigkeit . Eine präzise, aber ungenaue Messung liegt vor,wenn der statistische Fehler niedrig ist, der systematische Fehler jedochhoch (Abb. 3.1a). Im umgekehrten Fall, bei großem statistischem Fehlerund niedrigem systematischem Fehler, streuen die einzelnen Messungenweit, aber der Mittelwert liegt nahe dem tatsächlichen Wert (Abb. 3.1b).

Man erhält einfach — zumindest prinzipiell — eine Abschätzung desstatistischen Fehlers, indem man die gleiche Messung oft wiederholt.Schwerer ist es allerdings, systematische Fehler zu finden. Sie sind oftauf ein mangelndes Verständnis des Messaufbaus und des Messverfah-rens zurückzuführen. Unbekannte oder unkontrollierte Parameter, die


86 3 Statistik

DurchschnittswertDurchschnittswert

Einzelmessung

Einzel-messung

tatsächlicherWert

tatsächlicherWert

Präzise, aber un-genaue Messung

Unpräzise, aber ge-naue Messung

statistischeUnsicherheit

statistischeUnsicherheit

systematischer Fehler

a b

Abbildung 3.1: Illustration von a systematischem und b statistischem Fehler, dieGenauigkeit bzw. Präzision bei einer Messung angeben.

die Messprozedur beeinflussen, können leicht zu systematischen Feh-lern führen. Beispiele für systematische Fehler sind Kalibrierungsfehlerund Verschiebungen durch temperaturabhängige Parameter bei einemExperiment ohne Temperaturregelung.

In diesem Kapitel lernen wir, Bilddaten als statistische Größen bzw.Zufallsvariablen zu behandeln. Wir beginnen mit den statistischen Ei-genschaften des gemessenen Grauwerts an einem einzelnen Sensorele-ment oder Pixel in Abschn. 3.2. Dann können wir die statistischen Me-thoden, wie sie in allen wissenschaftlichen Gebieten angewendet werden,für Messungen einer einzelnen Größe benutzen. Diese Art der Statistikwird Statistik erster Ordnung genannt, da nur die Statistik an einem ein-zelnen Messpunkt betrachtet wird.

Bildverarbeitungsoperationen berechnen neue Größen aus den ge-messenen Grauwerten. Im einfachsten Fall wird bei so genannten Punkt-operationen der Grauwert nur an einem einzelnen Bildpunkt benutzt. Inkomplizierteren Fällen werden neue Bildpunkte aus den Grauwerten anvielen Bildpunkten berechnet. In jedem Fall müssen wir aber wissen, inwelcher Weise die statistischen Eigenschaften, insbesondere der statis-tische Fehler der neu berechneten Werte, von denen der Ausgangswerteabhängen. Mit anderen Worten, unsere Aufgabe ist es, die Fehlerfort-pflanzung durch die Bildverarbeitungsoperationen zu bestimmen. DieseFragen sind Gegenstand von Abschn. 3.3.

Im Abschn. 3.4 behandeln wir eine Reihe von für die Signalverar-beitung wichtigen Wahrscheinlichkeitsverteilungen. Im letzten Schrittwenden wir uns in Abschn. 3.5 zeitlichen und räumlichen Feldern vonZufallsvariablen, den stochastischen Prozessen, zu. Damit können wirstochastische Prozesse auch im Fourierraum untersuchen.

3.2 Zufallsvariable 87

3.2 Zufallsvariable

3.2.1 Wahrscheinlichkeitsdichte und Histogramm

Nehmen wir einen experimentellen Aufbau an, mit dem wir ein Objektaufnehmen. Die an einem bestimmten Punkt (Pixel) gemessene Größe inder Bildebene ist die Bestrahlungsstärke. Wegen der statistischen Naturdes beobachteten Prozesses ergibt jede Messung einen anderen Wert.

Das bedeutet, dass die beobachtete Strahlung nicht durch einen ein-zigen Wert, sondern durch eine Wahrscheinlichkeitsdichtefunktion (eng-lisch: probability density function, PDF) f(g) charakterisiert wird. DieseFunktion gibt, vereinfacht ausgedrückt, die Wahrscheinlichkeit an, mitder ein bestimmter Wert g beobachtet wird. Eine durch Zufallsprozessebestimmte Messgröße wie die Strahlung g wird als Zufallsvariable oderkurz ZV bezeichnet.

Im Folgenden diskutieren wir kontinuierliche und diskrete ZVn undWahrscheinlichkeiten parallel. Diskrete Wahrscheinlichkeiten werdenbenötigt, da nur diskrete Zahlen mit digitalen Computern verarbeitetwerden können. Diskrete Werte resultieren aus einem als Quantisierungbezeichneten Prozess (siehe Abschn. 2.2.4). Viele Formeln dieses Ab-schnitts enthalten kontinuierliche Ausdrücke auf der linken Seite undihre diskreten Gegenüber auf der rechten Seite der entsprechenden Glei-chungen. Im kontinuierlichen Fall wird ein bestimmter Grauwert im In-tervall g bis g + dg mit der Wahrscheinlichkeit f(g)dg gemessen. Imdiskreten Fall können wir nur eine endliche Zahl Q von Grauwerten gq(q = 1,2, . . . ,Q) mit der Wahrscheinlichkeit fq messen. Normalerweisewird der Grauwert eines Pixels in einem Byte gespeichert. In diesem Fallkönnen wir Q = 256 unterschiedliche Grauwerte messen. Da die Ge-samtwahrscheinlichkeit, einen beliebigen Grauwert zu beobachten, perDefinition eins ist, muss die Wahrscheinlichkeitsdichtefunktion folgen-de Bedingung erfüllen:

∞∫−∞f(g)dg = 1,

Q∑q=1

fq = 1. (3.1)

Die Stammfunktion der PDF

F(g) =g∫−∞f(g′)dg′, Fq =

q∑q′=1

fq′ (3.2)

wird Verteilungsfunktion genannt. Da die PDF eine nichtnegative Funk-tion ist, wächst die Verteilungsfunktion monoton von 0 auf 1 an.

Im Allgemeinen ist die Wahrscheinlichkeitsverteilung nicht von vorn-herein bekannt. Vielmehr wird sie aus Messungen abgeschätzt. Ist der

88 3 Statistik

beobachtete Prozess homogen, d. h. unabhängig von der Position der Pi-xel im Bild, gibt es einen einfachen Weg zur Abschätzung der Wahr-scheinlichkeitsdichte, das so genannte Histogramm.

Das Histogramm eines Bildes ist eine Liste (Vektor), die für jede Quan-tisierungsstufe ein Element aufweist. Jedes Element enthält die Anzahlder Pixel, deren Grauwert mit dem Index des Elements übereinstimmt.Histogramme können leicht berechnet werden für Daten beliebiger Di-mension. Zunächst setzen wir den ganzen Histogrammvektor auf null.Dann tasten wir alle Pixel des Bildes ab, nehmen den Grauwert als Indexder Liste und erhöhen das zugehörige Listenelement um eins. Der tat-sächliche Abtastalgorithmus hängt davon ab, wie das Bild gespeichertist.

Eine Abschätzung der Wahrscheinlichkeitsdichte ist auch für Bild-daten mit höherer Auflösung, z. B. 16-Bit-Bilder oder Fließkommabilder,möglich. Den Bereich möglicher Werte teilen wir dazu in Q gleich breiteIntervalle auf. Der Wert, der jedem Intervall zugeordnet wird, liegt in derMitte des Intervalls. Bei der Entscheidung, in welches Intervall ein Wertfällt, müssen wir aber die Intervallgrenzen benutzen. Wenn wir dieseUnterscheidung nicht machen, werden Werte wie z. B. der Mittelwert, diewir aus dem Histogramm berechnen, verfälscht.

3.2.2 Mittelwert, Varianz und Momente

Die beiden grundlegenden Parameter, die eine ZV g beschreiben, sindder Mittelwert µ (auch als Erwartungswert E(g) oder Eg bekannt) unddie Varianz. Der Mittelwert ist definiert als

µ =∞∫−∞gf(g)dg, µ =

Q∑q=1

gqfq. (3.3)

Der Mittelwert kann auch durch beliebig häufige Messung und Mitte-lung bestimmt werden, ohne dass die PDF explizit bekannt ist:

µ = limP→∞

1P

P∑p=1

gp. (3.4)

Da es unmöglich ist, eine unendliche Zahl von Messungen durchzufüh-ren, bleibt die Bestimmung des Mittelwertes über (3.4) eine Abschätzungmit einer gewissen Unsicherheit, die von der Form der PDF abhängt, d. h.vom Typ des Zufallsprozesses und von der Anzahl der Messwerte.

Die Varianz σ 2 = Varg = E ((g − µ)2) ist ein Maß dafür, wie weit die

gemessenen Werte vom Mittelwert abweichen:

σ 2 =∞∫−∞(g − µ)2f(g)dg, σ 2 =

Q∑q=1

(gq − µ)2fq. (3.5)

3.2 Zufallsvariable 89

Die Wahrscheinlichkeitsdichtefunktion kann genauer durch ähnlicheGrößen wie die Varianz charakterisiert werden, die Momente n-ter Ord-nung µn = E

((g − µ)n)

:

µn =∞∫−∞(g − µ)nf(g)dg, µn =

Q∑q=1

(gq − µ)nfq. (3.6)

Das erste, zentrale Moment ist — per Definition — null. Das zweite, µ2,entspricht der Varianz und das dritte Moment, die Schiefheit , µ3, ist einMaß für die Asymmetrie der PDF um den Mittelwert. Ist sie eine Funktionmit gerader Symmetrie, f(−(g−µ)) = f(g−µ), dann verschwinden dasdritte und alle anderen Momente ungerader Ordnung.

3.2.3 Funktionen von Zufallsvariablen

Jede Bildverarbeitungsoperation ändert die Werte g an den einzelnenBildpunkten. Im einfachsten Fall transformiert eine Funktion p: h =p(g) den Wert g in den Wert h. Eine solche Operation wird in der Bild-verarbeitung als Punktoperator bezeichnet (Abschn. 10.2). Da g eine ZVist, ist auch h eine, und wir müssen ihre PDF kennen, damit wir die statis-tischen Eigenschaften des Bildes nach Anwendung der Punktoperationbestimmen können.

Es ist offensichtlich, dass die PDF fh von h die gleiche Form wie diePDF fg von g hat, wenn p eine lineare Funktion h = a0 + a1g ist:

fh(h) = fg(g)|a1| = fg((h− a0)/a1)

|a1| . (3.7)

Dabei haben wir die Umkehrfunktion g = p−1(h) : g = (h − a0)/a1

benutzt, um g als Funktion von h zu schreiben.Aus (3.7) ist intuitiv klar, dass im allgemeinen Fall einer nichtlinea-

ren Funktion p(g) die Steigung a1 durch die erste Ableitung p′(g) vonp(g) ersetzt wird. Weitere Schwierigkeiten ergeben sich dann, wenndie Umkehrfunktion nicht eindeutig ist. Ein wichtiges Beispiel ist diequadratische Funktion h = g2, deren Umkehrfunktion die beiden Ästeg1,2 = ±

√h besitzt. In einem solchen Fall müssen zur Bestimmung der

PDF von h alle Äste der Umkehrfunktion berücksichtigt werden.

Theorem 3.1 (PDF der Funktion einer Zufallsvariablen) Sei fg die PDFder ZV g und p eine differenzierbare Funktion h = p(g). Dann besitztdie ZV h die PDF

fh(h) =S∑s=1

fg(gs)∣∣p′(gs)∣∣ , (3.8)

wobei gs die S Äste der mehrwertigen Umkehrfunktion h = p(g) darstellt.

90 3 Statistik

Eine monotone Funktion p hat eine einzige Umkehrfunktion p−1(h).Damit vereinfacht sich (3.8) zu

fh(h) = fg(p−1(h))∣∣p′(p−1(h))∣∣ . (3.9)

In der Bildverarbeitung taucht oft folgendes inverse Problem in Bezugauf PDFs auf. Das Signal g mit einer PDF soll so in ein Signal h transfor-miert werden, dass h eine spezifische PDF hat. Dieses inverse Problemhat eine überraschend einfache Lösung. Die Transformation

h = F−1h (Fg(g)) (3.10)

konvertiert die fg(g)-verteilte ZV g in die fh(h)-verteilte ZV h. Die Lö-sung ist besonders einfach für eine Transformation in ein Signal miteiner Gleichverteilung, da dann F−1 eine konstante Funktion ist undh = Fg(g).

Nun können wir den Mittelwert und die Varianz von Funktionen ei-ner ZV betrachten. Nach der Definition des Mittelwerts in (3.3) ist derMittelwert von h gegeben durch

Eh = µh =∞∫−∞hfh(h)dh. (3.11)

Wir können ihn auch direkt durch die Transformationsfunktion p(g)und die PDF fg(g) ausdrücken:

Eh = E (p(g)

) =∞∫−∞p(g)fg(g)dg. (3.12)

Intuitiv sind wir versucht anzunehmen, dass sich der Mittelwert vonh auch aus dem Mittelwert von g mit Eh = p(Eg) berechnen lässt. Dasist aber nur korrekt, wenn p eine lineare Funktion ist. Wir nehmen an,dass sich p(g) durch ein Polynom zweiter Ordnung annähern lässt:

p(g) = p(µg)+ p′(µg)(g − µg)+ p′′(µg)(g − µg)2/2+ . . . . (3.13)

Dann folgtµh ≈ p(µg)+ p′′(µg)σ 2

g/2. (3.14)

Diese Gleichung zeigt, dass µh ≈ p(µg) nur dann eine gute Näherung ist,wenn sowohl die Krümmung von p(g) als auch die Varianz von g kleinsind, d. h. die Funktion p in dem Intervall [µ − 3σ,µ + 3σ] gut durcheine lineare Funktion approximiert werden kann.

Die Varianz von h ergibt sich in Näherung erster Ordnung zu

σ 2h ≈

∣∣∣p′(µg)∣∣∣2σ 2g . (3.15)

3.3 Multiple Zufallsvariable 91

Dieser Ausdruck ist nur für lineare Funktionen p exakt.Die folgenden einfachen Beziehungen für den Mittelwert und die Va-

rianz ergeben sich ummittelbar aus den bisherigen Überlegungen in die-sem Abschnitt (a ist eine Konstante):

E(ag) = aEg, Var(ag) = a2 Varg, Varg = E(g2)− (Eg)2. (3.16)

3.3 Multiple Zufallsvariable

In der Bildverarbeitung haben wir es nicht nur mit einer, sondern mit(sehr) vielen Zufallsvariablen zu tun. In der Regel wird eine neue ZV vonZVn an vielen Bildpunkten berechnet. Daher ist es wichtig, die Statistikvon multiplen ZVn zu untersuchen. In diesem Abschnitt machen wirdazu den ersten Schritt und untersuchen die statistischen Eigenschaftenvon multiplen ZVn und von Funktionen von multiplen ZVn.

3.3.1 Gemeinsame Wahrscheinlichkeitsdichtefunktionen

Zuerst betrachten wir, wie wir die gemeinsamen statistischen Eigenschaf-ten mehrerer ZVn beschreiben können. Im Allgemeinen werden sichdiese für zwei ZVn g1 und g2 nicht durch deren individuelle PDFs f(g1)und f(g2) beschreiben lassen. Es ist vielmehr notwendig, eine gemeinsa-me Wahrscheinlichkeitsdichtefunktion f(g1, g2) zu definieren. Nur wennzwei ZVn unabhängig sind, d. h., wenn die Wahrscheinlichkeit, dass g1

einen bestimmten Wert annimmt, nicht von dem Wert von g2 abhängt,können wir die gemeinsame PDF als Produkt der individuellen PDFs, denmarginalen PDFs, beschreiben:

f(g1, g2) = fg1(g1)fg2(g2) g1, g2 unabhängig. (3.17)

Entsprechend ist für P ZVn gp, den Zufallsvektor g, die gemeinsa-me PDF gegeben durch f(g1, g2, . . . , gP) = f(g). P ZVn sind dann undnur dann unabhängig, wenn die gemeinsame PDF sich als Produkt dermarginalen PDFs schreiben lässt:

f(g) =P∏p=1

fgp(gp) gp unabhängig, p = 1, . . . , P . (3.18)

3.3.2 Kovarianz und Korrelation

Die Kovarianz gibt an, in welchem Maß die Fluktuationen zweier ZVn gpund gq zueinander in Beziehung stehen. In Erweiterung der Definitionder Varianz in (3.5), ist die Kovarianz definiert als

σpq = E((gp − µp)(gq − µq)

)= E(gpgq)− E(gp)E(gq). (3.19)

92 3 Statistik

Für P Zufallsvariablen bilden die Kovarianzen eine symmetrische P × P -Matrix, die Kovarianzmatrix Σ = covg. Die Diagonale dieser Matrix ent-hält die Varianzen der P ZVn.

Der Korrelationskoeffizient setzt die Kovarianz zweier ZVn in Bezie-hung zu den entsprechenden Varianzen:

cpq = σpqσpσq

mit |c| ≤ 1. (3.20)

Zwei ZVn gp und gq heißen unkorreliert , wenn die Kovarianz σpq nullist. Nach (3.19) und (3.20) gelten dann die folgenden Beziehungen fürunkorrelierte ZVn:

σpq = 0 cpq = 0 E(gpgq) = E(gp)E(gq) gp,gq unkorreliert.(3.21)

Aus der letzten Bedingung und (3.17) folgt, dass unabhängige ZVn un-korreliert sind.

Auf den ersten Blick scheint es, dass nur die statistischen Eigenschaf-ten von unabhängigen ZVn leicht zu behandeln sind. In diesem Fall müs-sen wir nämlich nur die marginalen PDFs der einzelnen Variablen undderen Mittelwerte und Varianzen betrachten. Im allgemeinen Fall dage-gen müssen wir die Abhängigkeiten der einzelnen ZVn untereinander,wie sie durch die Kovarianzmatrix Σ gegeben sind, berücksichtigen. Dadie Kovarianzmatrix aber symmetrisch ist, können wir immer ein Koor-dinatensystem, d. h. eine Linearkombination der ZVn, finden, in dem dieKovarianzmatrix diagonal und die ZVn damit unkorreliert sind.

3.3.3 Lineare Funktionen mehrerer Zufallsvariablen

In Erweiterung der Diskussion von Funktionen einer einzelnen ZV inAbschn. 3.2.3 können wir den Mittelwert einer Funktion multipler ZVnh = p(g1, g2, . . . , gP) direkt durch die gemeinsame PDF ausdrücken:

Eh =∞∫−∞p(g1, g2, . . . , gP)f (g1, g2, . . . , gP)dg1dg2 . . .dgP . (3.22)

Aus dieser allgemeinen Beziehung folgt, dass der Mittelwert jeder linea-ren Funktion

h =P∑p=1

apgp (3.23)

durch eine Linearkombination der Mittelwerte der ZVn gp gegeben ist:

E

⎛⎝ P∑p=1

apgp

⎞⎠ = P∑

p=1

apE(gp

). (3.24)

3.3 Multiple Zufallsvariable 93

Dies ist ein allgemein gültiges Ergebnis, das weder von der Unabhängig-keit der ZVn ausgeht noch von der PDF abhängt. Als Spezialfall enthältes die einfachen Beziehungen

E(g1 + g2) = Eg1 + Eg2, E(g1 + a) = Eg1 + a. (3.25)

Die Varianz von Funktionen multipler ZVn kann leider selbst im li-nearen Fall nicht so einfach berechnet werden. Sei g ein Vektor mit PZVn, h ein Vektor mit Q ZVn, der eine Linearkombination der P ZVn gist, M eine Q× P -Matrix der Koeffizienten und a ein Spaltenvektor mitQ Koeffizienten. Dann gilt

h =Mg + a mit E(h) =ME(g)+ a (3.26)

in Verallgemeinerung von (3.24). Falls P = Q, kann (3.26) als eine Koordi-natentransformation in einem P -dimensionalen Vektorraum aufgefasstwerden. Daher ist es nicht überraschend, dass sich die symmetrischeKovarianzmatrix wie ein Tensor zweiter Stufe transformiert [168]:

cov(h) =M cov(g)MT . (3.27)

Diese wichtige allgemeine Beziehung illustrieren wir anhand von dreiBeispielen.

Varianz des Mittelwerts von ZVn. Zuerst diskutieren wir die Berech-nung der Varianz des Mittelwertes g von P ZVn mit dem gleichen Mit-telwert und der gleichen Varianz σ 2. Weiter nehmen wir an, dass dieZVn unkorreliert sind. Dann sind die MatrixM und die Kovarianzmatrixcovg gegeben durch

M = 1P[1,1,1, . . . ,1] und cov(g) =

⎡⎢⎢⎢⎢⎢⎣σ 2 0 . . . 00 σ 2 . . . 0...

.... . .

...0 0 . . . σ 2

⎤⎥⎥⎥⎥⎥⎦ = σ

2I.

Eingesetzt in (3.27) ergibt sich

σ 2g =

1Pσ 2. (3.28)

Damit ist die Varianz des Mittelwerts σ 2g um den Faktor P kleiner als

die Varianz der Einzelwerte, und die Standardabweichung σg reduziertsich um den Faktor P−1/2. Das bedeutet, dass wir viermal mehr Messun-gen machen müssen, um die Standardabweichung des Mittelwertes zuhalbieren.

Das gilt aber nur für unkorrelierte ZVn. Falls die ZVn maximal kor-reliert sind (cpq = 1, σpq = σ 2), dann ergibt sich aus (3.27), dass dieVarianz des Mittelwerts gleich der Varianz der Einzelwerte ist. In die-sem Fall ist es nicht möglich, durch Mittelung die Varianz zu verringern.

94 3 Statistik

Varianz der Summe unkorrelierter ZVn mit ungleichen Varianzen.Wir betrachten P unkorrelierte ZVn mit ungleichen Varianzen σ 2

p undberechnen die Varianz der Summe der ZVn. Aus (3.25) wissen wir be-reits, dass der Mittelwert der Summe gleich der Summe der Mittelwerteist (auch für korrelierte ZVn). Aus (3.27) ergibt sich ohne irgendeine An-nahme über die PDFs, dass für unkorrelierte ZVn auch die Varianz derSumme gleich der Summe der Varianzen ist:

VarP∑p=1

gp =P∑p=1

Vargp. (3.29)

Linearkombination unkorrelierter ZVn. Als drittes Beispiel nehmenwir Q ZVn hq, die eine Linearkombination von P unkorrelierten ZVn gpmit gleichen Varianzen σ 2 sind:

hq = aTqg. (3.30)

Die Vektoren aTq bilden die Zeilen der Q× P -Matrix M in (3.26), und dieKovarianzmatrix von h ergibt sich aus (3.27) zu

cov(h) = σ 2MMT = σ 2

⎡⎢⎢⎢⎢⎢⎣aT1a1 aT1a2 . . . aT1aQaT1a2 aT2a2 . . . aT2aQ...

.... . .

...aT1aQ aT2aQ . . . aTQaQ

⎤⎥⎥⎥⎥⎥⎦ . (3.31)

Aus dieser Gleichung können wir zwei Dinge lernen. Zum einen ist dieVarianz der ZV hq gegeben durch aTqaq, d. h. die Summe der Quadrateder Koeffizienten:

σ 2(hq) = σ 2aTqaq. (3.32)

Zum Zweiten sind die ZVn hp und hq dann korreliert — obwohl dieZVn gp unkorreliert sind — wenn das Skalarprodukt der Koeffizienten-vektoren aTpaq nicht verschwindet, d. h., wenn diese nicht orthogonalsind. Daraus können wir die wichtige Schlussfolgerung ziehen, dassnur bei orthogonalen TransformationsmatrizenM in (3.26) unkorrelierteZVn unkorreliert bleiben. Bei orthonormalen Transformationen bleibenwegen aTqaq = 1 zusätzlich die Varianzen erhalten. Alle Transformatio-nen, die wir in Abschn. 2.4 kennen gelernt haben, also auch die Fourier-transformation (Abschn. 2.3), erfüllen diese Bedingung.

Für korrelierte ZVn können wir den wichtigen Schluss ziehen, dasssich durch eine geeignete Transformation M immer eine Linearkombi-nation der ZVn finden lässt, die unkorreliert ist. Dies folgt unmittel-bar aus dem elementaren Satz der linearen Algebra, dass sich jede sym-metrische Matrix durch eine geeignete Transformation, die so genannteHauptachsentransformation, diagonalisieren lässt [179, 238, 245]. Diese

3.4 Wahrscheinlichkeitsverteilungen 95

ausgezeichneten Linearkombinationen ep, die Eigenvektoren, stellen dieAchsen des Hauptachsensystems dar und es gilt

cov(h)ep = σ 2pep. (3.33)

Das bedeutet, dass sich die Matrix-Vektor-Multiplikation auf eine Vektor-Skalar-Multiplikation reduziert. Den Faktor nennt man den Eigenwert zudem Eigenvektor ep. Für die Kovarianzmatrix ist der pte Eigenwert dieVarianz σ 2

p in Richtung des Eigenvektors ep.

3.3.4 Nichtlineare Funktionen mehrerer Zufallsvariablen

Die Analyse der Varianz von Funktionen mehrerer ZVn können wir aufnichtlineare Funktionen verallgemeinern, wenn diese ausreichend linearum die Mittelwerte sind. Wie in Abschn. 3.2.3 entwickeln wir die nichtli-neare Funktion pq(g) in eine Taylorreihe um den Mittelwert:

hq = pq(g) ≈ pq(µ)+P∑p=1

∂pq∂gp

(gp − µp). (3.34)

Der Vergleich mit (3.26) zeigt, dass die Matrix M durch die Matrix

J =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

∂p1

∂g1

∂p1

∂g2. . .

∂p1

∂gP∂p2

∂g1

∂p2

∂g2. . .

∂p2

∂gP...

.... . .

...

∂pQ∂g1

∂pQ∂g2

. . .∂pQ∂gP

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(3.35)

ersetzt werden muss, die als Jacobi-Matrix der Transformation h = p(g)bekannt ist. Daher ist in erster Näherung die Kovarianz von h gegebendurch

cov(h) ≈ J cov(g)JT . (3.36)

3.4 Wahrscheinlichkeitsverteilungen

In den vorangegangenen Abschnitten haben wir eine Reihe von allgemei-nen Eigenschaften von Zufallsvariablen hergeleitet, für die kein Wissenüber die Wahrscheinlichkeitsverteilungen notwendig war. In diesem Ab-schnitt diskutieren wir eine Reihe von Wahrscheinlichkeitsverteilungen,die für die Bildverarbeitung von Bedeutung sind.

Als Einleitung betrachten wir die PDFs multipler ZVn. Dabei beschrän-ken wir uns auf zwei einfache Fälle. Zuerst behandeln wir die Addition

96 3 Statistik

zweier ZVn. Wenn zwei ZVn g1 und g2 unabhängig sind, dann ergibtsich die resultierende PDF bei additiver Superposition g = g1+g2 durchdas Faltungsintegral

pg(g) =∞∫−∞pg1(h)pg2(g − h)dh. (3.37)

Diese Eigenschaft resultiert aus der multiplikativen Natur von Wahr-scheinlichkeiten. Die Wahrscheinlichkeit pg(g), den Wert g zu mes-sen, ist das Produkt der Wahrscheinlichkeiten, die Werte g1 = h undg2 = g − h zu messen. Das Integral in (3.37) ist notwendig, damit wiralle Kombinationen berücksichtigen, deren Summe den Wert g ergibt.

Die gleiche Prozedur kann benutzt werden für das Produkt zweierZVn, wenn wir die Multiplikation durch die Bildung des Logarithmus ineine Addition überführen: lng = lng1 + lng2. Die PDF des Logarithmuseiner ZV kann mithilfe von (3.9) berechnet werden.

3.4.1 Poissonverteilung

Zuerst betrachten wir die Bildaufnahme. Ein Element eines Halbleiter-Bildsensors, das eine gewisse Bestrahlungsstärke empfängt, sammelt in-nerhalb einer vorgegebenen Belichtungszeit ∆t durch Photonenabsorp-tion im Mittel N Elektronen. Daher ist der mittlere Strom von Ladungs-trägern λ gegeben durch

λ = N∆t. (3.38)

Wegen der zufälligen Natur des Photonenstroms wird bei jeder Belich-tung eine etwas unterschiedliche Anzahl von Elektronen gesammelt wer-den. Ein Zufallsprozess, bei dem im Mittel λ∆t Ereignisse stattfinden,wird als Poissonprozess P(λ∆t) bezeichnet. Dieser hat die diskrete Wahr-scheinlichkeitsdichtefunktion (PDF)

P(λ∆t) : fn = exp(−λ∆t)(λ∆t)n

n!, n ≥ 0 (3.39)

mit dem Mittelwert und der Varianz

µ = λ∆t und σ 2 = λ∆t. (3.40)

Simulierte Bilder mit Poissonrauschen bei niedriger Bestrahlungsstär-ke zeigt Abb. 3.2. Für niedrige Mittelwerte ist die Poissonverteilung un-symmetrisch mit einer längeren Ausdehnung der Verteilung zu höherenWerten hin (Abb. 3.3a). Aber schon für moderate Mittelwerte (100), istdie Verteilung überraschend gut symmetrisch.

Ein typisches CCD-Sensorelement (Abschn. 1.7.1, R2) sammelt umdie 10000 oder mehr Elektronen durch die Absorption von Photonen.


a b

c d

Abbildung 3.2: Simulation von Bildern mit Poissonrauschen bei geringer Be-strahlungsstärke, bei denen während der Belichtungszeit maximal a 3, b 10,c 100 und d 1000 Ladungsträger gesammelt wurden. Am unteren Bildrand istein linearer Graukeil eingeblendet.

Daher ist die Standardabweichung bedingt durch das Photonenrauschenetwa 100 oder 1%. An dieser Zahl wird deutlich, dass selbst ein perfekterBildsensor, bei dem kein zusätzliches elektronisches Rauschen auftritt,einen beträchtlichen Rauschpegel aufweist.

Ein Poissonprozess hat die folgenden wichtigen Eigenschaften:

1. Die Standardabweichung σ ist nicht konstant, sondern wächst mitder Wurzel der Anzahl der Ereignisse. Daher ist das Rauschen sig-nalabhängig.

2. Nichtüberlappende Belichtungen sind statistisch unabhängige Ereig-nisse [168, Section. 3.4]. Das heißt, dass Bilder, die mit dem gleichenSensor, aber zu unterschiedlichen Zeiten aufgenommen wurden, un-abhängige ZVn sind.

3. Der Poissonprozess ist additiv. Die Summe zweier unabhängigerpoisson-verteilter ZVn mit den Mittelwerten µ1 and µ2 ist ebenfallspoisson-verteilt mit dem Mittelwert und der Varianz µ1 + µ2.

98 3 Statistik

a

0 0.5 1 1.5

0.2

0.4

0.6

0.8

13

10

100

1000

n/µ

b

0 2 4 6 8

0.05

0.1

0.15

0.2

0.25

Abbildung 3.3: a Poisson-Wahrscheinlichkeitsdichtefunktion P(µ) für die Mittel-werte µ = 3, 10, 100 und 1000. Die x-Achse ist in der Darstellung auf einenMittelwert von 1 normiert; P(λ∆t) wurde zur Normalisierung mit σ

√2π multi-

pliziert. b Diskrete Binomialverteilung B(8,1/2) mit einem Mittelwert von 4 undeiner Varianz von 2 und die korrespondierende Normalverteilung N(4,2).

3.4.2 Normal- und Binomialverteilung

Viele Prozesse mit kontinuierlichen ZVn können gut durch eine Normal-verteilung oder Gaußverteilung N(µ,σ) mit dem Mittelwert µ und derVarianz σ 2 beschrieben werden:

N(µ,σ) : f(g) = 1√2πσ

exp

(−(g − µ)

2

2σ 2

). (3.41)

Aus (3.41) sehen wir, dass die Normalverteilung durch die Angabe desMittelwerts und der Varianz vollständig beschrieben ist.

Das diskrete Analogon zur Normalverteilung ist die Binomialvertei-lung

B(Q,p) : fq = Q!q! (Q− q)!p

q(1− p)Q−q, 0 ≤ q < Q. (3.42)

Die natürliche ZahlQ ist die Anzahl möglicher Ergebnisse und bestimmtzusammen mit dem Parameter p ∈]0,1[ den Mittelwert und die Varianz:

µ = Qp und σ 2 = Qp(1− p). (3.43)

Schon für moderate Werte vonQ kommt die Binomialverteilung der Nor-malverteilung sehr nahe (Abb. 3.3b).

In Verallgemeinerung von (3.41) ist die gemeinsame PDF N(µ,Σ) fürmultiple ZVn, d. h. für den Zufallsvektor g mit dem Mittelwert µ und derKovarianzmatrix Σ, gegeben durch

N(µ,Σ) : f(g) = 1

(2π)P/2√

detΣexp

(−(g − µ)

TΣ−1(g − µ)2

). (3.44)

Auf den ersten Blick sieht dieser Ausdruck sehr komplex aus. Dasist er aber nicht. Wir müssen dazu lediglich berücksichtigen, dass die


a

-2

0 -2

0

2

00.20.40.60.8

1

2

b

-2

2-2

0

2

00.20.40.60.8

1

0

Abbildung 3.4: Bivariate Normalverteilungen: a zwei korrelierte ZVn mit σ 21 =

σ 22 = 1 und r12 = −0,5; b zwei unkorrelierte ZVn mit σ 2

1 = σ 22 = 1.

symmetrische Kovarianzmatrix eine Diagonalmatrix wird, wenn wir dasKoordinatensystem in ihr Hauptachsensystem drehen. Dann wird diegemeinsame PDF eine separable Funktion

f(g′) =P∏p=1

1

(2πσ 2p)1/2

exp

(−(g

′p − µp)22σ 2

p

)(3.45)

mit den Varianzenσ 2p entlang der Hauptachsen (Abb. 3.4a), und die Kom-

ponenten g′p des Zufallsvektors werden unabhängige ZVn.Für unkorrelierte ZVn mit gleicher Varianzσ 2 reduziert sich dieN(µ,Σ)-

Verteilung auf eine isotrope Normalverteilung N(µ, σ) (Abb. 3.4b):

N(µ, σ) : f(g) = 1(2πσ 2)P/2

exp

(−

∣∣(g − µ)∣∣2

2σ 2

). (3.46)

3.4.3 Zentraler Grenzwertsatz

Die große Bedeutung der Normalverteilung resultiert aus dem zentralenGrenzwertsatz (Theorem 2.6, S. 58), den wir in Bezug auf kaskadierte Fal-tungen schon in Abschn. 2.3.4 diskutierten. Hier sei kurz die Bedeutungfür Zufallsvariablen in der Bildverarbeitung herausgestrichen. Der zen-trale Grenzwertsatz sagt aus, dass die PDF einer Summe von ZVn untersehr allgemeinen Bedingungen, die bei der praktischen Anwendung inder Bildverarbeitung fast immer erfüllt sind, zu einer Normalverteilungtendiert. Wie schon in Abschn. 3.3 diskutiert, werdend in der Bildver-arbeitung oft gewichtete Summen von vielen ZVn gebildet. Deswegenhaben diese Variablen in der Regel eine Normalverteilung.

3.4.4 Andere Verteilungen

Trotz der Bedeutung der Normalverteilung sind in der Bildverarbeitungauch andere Verteilungen von Bedeutung. Sie tauchen vor allem dannauf, wenn ZVn durch nichtlineare Funktionen kombiniert werden.

100 3 Statistik

Als erstes Beispiel betrachten wir die Umwandlung von kartesischenin Polarkoordinaten. Dazu nehmen wir den Zufallsvektor g = [

g1, g2]T

mit unabhängigenN(0, σ)-verteilten Komponenten. Dann kann man zei-gen [168, Abschn. 6.3], dass der Betrag des Vektors r = (g2

1 , g22)1/2 und

der Winkel φ = arctan(g2/g1) unabhängige ZVn sind. Der Betrag hateine Rayleighverteilung

R(σ) : f(r) = rσ 2

exp

(− r 2

2σ 2

)für r > 0 (3.47)


µR = σ√π/2 und σ 2

R = σ 2 4−π2

. (3.48)

Der Winkel φ hat eine Gleichverteilung

f(φ) = 12π

. (3.49)

Zu einer Verallgemeinerung der Rayleighverteilung kommen wir, in-dem wir den Betrag eines P -dimensionalen Vektors betrachten. Dieserhat eine Chiverteilung mit P Freiheitsgraden

χ(P,σ) : f(r) = 2rP−1

2P/2Γ(P/2)σPexp

(− r 2

2σ 2

)für r > 0 (3.50)

mit dem Mittelwert

µχ = σ√

2 Γ(P/2+ 1/2)Γ(P/2)

≈ σ√P − 1/2 für P 1 (3.51)

und der Varianz

σ 2χ = σ 2P − µ2

χ ≈ σ 2/2 für P 1. (3.52)

Der Mittelwert der Chiverteilung wächst mit der Quadratwurzel von P ,während die Varianz fast konstant bleibt. Für eine hohe Anzahl vonFreiheitsgraden konvergiert die Chiverteilung schnell gegen die Normal-verteilung N(σ

√P/2− 1/2, σ/

√2) (Abb. 3.5a).

Die PDF des Betragsquadrats eines Vektors ist eine andere Funktion,da die Quadrierung eine nichtlineare Transformationsfunktion darstellt(Abschn. 3.2.3). Unter Benutzung von Theorem 3.1 kann die Chiquadrat-Verteilung mit P Freiheitsgraden berechnet werden als

χ2(P,σ) : f(r) = rP/2−1

2P/2Γ(P/2)σPexp

(− r

2σ 2

)für r > 0 (3.53)


µχ2 = σ 2P und σ 2χ2 = 2σ 4P. (3.54)


a

0 1 2 3 4 5 6

0.10.20.30.40.50.6 2 3

r

b

0 1 2 3

0.20.40.60.8

11.21.4 3

5

10

30

100

r/µ

Abbildung 3.5: a Chiverteilung mit 2 (Rayleighverteilung), 3 (Maxwellverteilung)und mehr Freiheitsgraden, wie angegeben; b Chiquadrat-Verteilung in einer nor-mierten Darstellung mit einem Mittelwert von 1 und Freiheitsgraden, wie ange-geben.

Die Summe der Quadrate von ZVn ist von besonderer Bedeutung, weildaraus der Fehler in der Bestimmung der Schätzung der Varianz durch

s2 = 1P − 1

P∑1

(gp − g)2 mit g = 1P

P∑1

gp (3.55)

berechnet werden kann. Die normalisierte Varianz

(P − 1)s2

σ 2=

P∑1

(gp − gσ

)2

(3.56)

besitzt eine Chiquadrat-Verteilung mit P − 1 Freiheitsgraden [168]. Da-her ist der Mittelwert der Schätzung der Varianz σ 2 (Schätzung ohneAbweichung) und die Varianz ist 2σ 4/(P−1). Für wenige Freiheitsgradezeigt die Chiquadrat-Verteilung signifikante Abweichungen von der Nor-malverteilung (Abb. 3.5b). Für mehr als 30 Freiheitsgrade ist sie aber inguter Näherung normal verteilt. Eine zuverlässige Messung der Varianzbenötigt viele Messungen. Mit P = 100 Freiheitsgraden ist die Standard-abweichung der Varianz immer noch etwa 20 % (die Standardabweichungder Standardabweichung ist mit 10 % nur halb so groß).

3.4.5 Rauschmodell für Bildsensoren

Nach der detaillierten Diskussion über Zufallsvariablen können wir nunabschließend ein einfaches Rauschmodell für Bildsensoren aufstellen. InAbschn. 3.4.1 haben wir festgestellt, dass das Photonensignal für eineinzelnes Sensorelement Poisson-verteilt ist. Außer bei sehr kleinenBestrahlungsstärken, wenn nur wenige Ladungsträger erzeugt werden,können wir jedoch die Poissonverteilung durch die NormalverteilungN(Qe,

√Qe) approximieren. Dabei ist Qe die Anzahl Elektronen, die

durch Absorption von Photonen in dem Sensorelement freigesetzt wur-den. Nicht jedes einfallende Photon löst ein Elektron aus. Der Bruchteil

102 3 Statistik

a

0 500 1000 1500 2000 2500 3000 3500 40000

100

200

300

400

500

600

700

800

900PixelflyQE/c204, 1.70 ms, low gain, 270xs3706

g

g2

b

0 50 100 150 200 2500.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8A602f/c066, 4.30 ms, gain 1

g

g2

Abbildung 3.6: Varianz des Rauschens aufgetragen gegen den Grauwert für aPixelfly QE von PCO mit Sony Interline-CCD ICX285AL, 12 Bit, σ0 = 2,2 (8 e−)und b Basler A602f mit Micron MT9V403 CMOS, 8 Bit, σ0 = 0,61 (91 e−) [100].

der Elektronen, die durch auf das Sensorelement einfallende Photonen(Qp) ausgelöst werden, wird als Quantenausbeute η bezeichnet:

η = QeQp

. (3.57)

Die Auslese- und Verstärkungselektronik addiert weitere Rauschquel-len. Für praktische Zwecke ist es jedoch nur wichtig zu wissen, dass die-se Rauschquellen in erster Näherung alle normal verteilt und unabhängigvom Photonenrauschen sind. Deswegen können wir für die erzeugtenLadungsträger und deren Varianzen schreiben

Q = Q0 +Qe und σ 2Q = σ 2

Q0+ σ 2

Qe. (3.58)

Wir nehmen an, dass die gesamte Elektronik linear ist, sodass am Endeein digitales Signal:

g = KQ (3.59)

erzeugt wird. Der Konversionsfaktor K ist dimensionslos und gibt dieGesamtverstärkung des Sensors in Bit/Ladungsträger an. Die Varianzdes digitalen Signals ergibt sich durch einfache Fehlerfortpflanzungs-rechnung nach (3.15) und (3.29), unter Benutzung der Tatsache, dassσ 2Qe = Qe (3.40), und von (3.59) zu

σ 2g = K2σ 2

Q0+K2σ 2

Qe = σ 20 +Kg. (3.60)

Gleichung (3.60) sagt einen linearen Anstieg der Varianz des Rauschensmit dem gemessenen Signal voraus. Messungen bestätigen generell die-ses einfache Modell (Abb. 3.6). Interessanterweise ist das Rauschen auch

3.5 Stochastische Prozesse und Felder 103

einmal für etwas gut. Der Verstärkungsfaktor K kann aus der σg(g)-Beziehung bestimmt werden, ohne dass man irgend etwas über die Sen-sorelektronik wissen muss.

3.5 Stochastische Prozesse und Felder

Unsere bisherigen Überlegungen zur Statistik haben in keiner Weise die zeitli-chen und räumlichen Beziehungen zwischen den einzelnen Punkten eines mul-tidimensionalen Signals berücksichtigt. Wenn wir dies tun wollen, so müssenwir das Signal (Bild, Bildsequenz) als Ganzes als eine statistische Größe betrach-ten. Das führt auf die Begriffe eines stochastischen Feldes für räumliche Datenund eines stochastischen Prozesses für Zeitserien.

Im Fall eines M ×N-Bildes besteht ein stochastisches Feld aus einer M ×N-Matrix von Zufallsvariablen. Das bedeutet, dass die gemeinsame PDF MN Va-riablen hat. Der Mittelwert des stochastischen Feldes ergibt sich wie bei einereinzelnen stochastischen Variablen, siehe (3.3), als Summe über alle möglichenZustände q des Systems:

Gm,n =QMN∑q=1

fq(G)Gq. (3.61)

In der Gleichung sind wir von Q Quantisierungsstufen ausgegangen. Damitkann jedes einzelne PixelQ verschiedene Zustände annehmen und das stochas-tischeM ×N-Feld in KombinationQMN Zustände Gq. Damit ist dieses allgemei-ne Konzept wegen der kombinatorischen Explosion der Anzahl der möglichenZustände völlig unbrauchbar. Daher sind wir gezwungen, einfachere Konzep-te zu finden, die es uns doch möglich machen, multidimensionale Signale alsstochastische Größen adäquat zu beschreiben. In diesem Abschnitt werden wireinen praktikablen Weg darstellen.

Wir beginnen mit der Bestimmung des Mittelwertes und der Varianz eines sto-chastischen Feldes. In derselben Weise wie für eine einzelne Zufallsvariable(siehe (3.55)) können wir den Mittelwert Gp durch P Messungen unter densel-ben Bedingungen durch Mittelung bestimmen als

G = 1P

P∑p=1

Gp. (3.62)

Ein solcher Mittelwert heißt Ensemble-Mittelwert . Analog ergibt sich ein Schätz-wert der Varianz, die Ensemble-Varianz, als

S2G =

1P − 1

P∑p=1

(Gp −G

)2. (3.63)

An dieser Stelle wissen wir schon den Mittelwert und die Varianz an jedemBildpunkt eines Bildes. Aus diesen Werten können wir eine Reihe interessanterSchlüsse ziehen. Wir können die Uniformität der beiden Größen unter gegebe-nen Bedingungen, wie z. B. einer konstanten, homogenen Beleuchtung, untersu-chen.

104 3 Statistik

3.5.1 Korrelation und Kovarianz

In einem zweiten Schritt können wir nun die Grauwerte zweier unterschiedlicherPositionen miteinander in Beziehung setzen. Ein Maß für die Korrelation vonWerten an verschiedenen Positionen im Bild ist die Autokorrelationsfunktion

Rgg(m,n;m′, n′) = GmnGm′n′ . (3.64)

Wie in (3.62) und (3.63) wird ein Ensemblemittel genommen. Die Autokorrelati-on ist meistens wenig brauchbar, da ein Bild bzw. Signal in der Regel aus einerÜberlagerung eines deterministischen Teils mit mittelwertfreiem Rauschen be-steht:

G′ = G+N, mit G′ = G und N′ = 0. (3.65)

Dann ist es nützlicher zur adäquaten Charakterisierung des Rauschen, den de-terministischen Mittelwert abzuziehen:

Cgg(m,n;m′, n′) = (Gmn −Gmn)(Gm′n′ −Gm′n′). (3.66)

Diese Funktion heißt Autokovarianzfunktion. Für m = m′ und n = n′ gibt siedie Varianz am Bildpunkt [m,n]T an, für alle anderen Werte die Kovarianz zwi-schen den Bildpunkten [m,n]T und [m′, n′]T , die in Abschn. 3.3.2 eingeführtwurde (3.19). Neu ist hier, dass die Autokovarianzfunktion nun die räumlichenBeziehungen zwischen verschiedenen Bildpunkten wiedergibt. Falls die Auto-kovarianz null ist, sind die entsprechenden Bildpunkte statistisch unkorreliert.

Die Autokovarianzfunktion, wie sie in (3.66) definiert wurde, ist immer nochunhandlich, da sie vierdimensional ist. Sinnvoll benutzen kann man sie nur,wenn lediglich eine kleine Anzahl von Bildpunkten miteinander korreliert sind,typischerweise nahe beieinander liegende Bildpunkte.

Die Zusammenhänge werden wesentlich einfacher, wenn die Statistik nicht ex-plizit von der Position der Bildpunkte abhängt. Wir sprechen dann von einemhomogenen stochastischen Feld . Dann wird die Autokovarianzfunktion verschie-bungsinvariant :

Cgg(m+ k,n+ l;m′ + k,n′ + l)= Cgg(m,n;m′, n′)= Cgg(m−m′, n−n′; 0,0)= Cgg(0,0;m′ −m,n′ −n).

(3.67)

Die letzten beiden Beziehungen erhalten wir mit (k, l) = (−m′,−n′) bzw. (k, l) =(−m,−n). Das bedeutet gleichzeitig, dass die Varianz Cgg(m,n;m,n) nichtmehr von der Position im Bild abhängt, sondern für alle Bildpunkte gleich ist.

Da nun die Autokovarianzfunktion nur noch von dem Abstand zwischen Punk-ten abhängt, reduziert sie sich von einer vier- auf eine zweidimensionale Funk-tion. Zum Glück sind viele stochastische Prozesse homogen. Wegen der Ver-schiebungsinvarianz kann die Autokovarianzfunktion für ein homogenes sto-chastisches Feld auch durch räumliche Mittelung gewonnen werden:

Cgg(m,n) = 1MN

M−1∑m′=0

N−1∑n′=0

(Gm′n′ −Gm′n′)(Gm′+m,n′+n −Gm′+m,n′+n). (3.68)

3.5 Stochastische Prozesse und Felder 105

Im Allgemeinen können wir nicht sicher sein, dass eine räumliche Mittelung zudemselben Ergebnis führt wie eine Mittelung über ein Ensemble. Ein stochasti-sches Feld, das diese Bedingung erfüllt, heißt ergodisch.

Eine weitere Schwierigkeit taucht bei der Indizierung auf. Sobald (m,n) ≠(0,0), sind die Indices in (3.68) größer als der Bereich der Matrix. Wie in Ab-schn. 2.3.4 dargestellt, können wir uns die Matrix aber periodisch fortgesetztdenken und sprechen dann von einer zyklischen Korrelation.

Abschließend illustrieren wir die Bedeutung der Autokovarianzfunktion an ei-nem einfachen Beispiel. Wir betrachten ein Bild mit einem deterministischenTeil, dem mittelwertfreies homogenes Rauschen überlagert wird, siehe (3.65).Wir nehmen weiter an, dass alle Bildpunkte statistisch unkorreliert sind. DerMittelwert ergibt dann den deterministischen Teil des Bildes und die Autokova-rianzfunktion verschwindet für alle Werte außer 0:

Cgg = σ 2 ooP oder Cgg(m,n) = σ 2δmδn. (3.69)

Am Nullpunkt ist die Autokovarianzfunktion gleich der Varianz des Rauschens,ansonsten ist sie null. Die Autokovarianzfunktion kann daher benutzt werden,um festzustellen, ob das Rauschen an Bildpunkten miteinander korreliert ist.Das ist von Bedeutung, da der Grad der Korrelation zwischen Bildpunkten diestatistischen Eigenschaften von Bildverarbeitungsoperationen beeinflusst (Ab-schn. 3.3.3).

In ähnlicher Weise, wie wir ein Bild mit sich selbst korrelieren, können wir auchzwei verschiedene Bilder G und H miteinander korrelieren. Das können so-wohl Bilder von verschiedenen Szenen als auch Bilder aus einer Sequenz, die zuverschiedenen Zeiten aufgenommen wurden, sein.

In Analogie zu (3.68) sind die Kreuzkorrelationsfunktion und die Kreuzkovari-anzfunktion definiert als

Rgh(m,n) = 1MN

M−1∑m′=0

N−1∑n′=0

Gm′n′Hm′+m,n′+n (3.70)

Cgh(m,n) = 1MN

M−1∑m′=0

N−1∑n′=0

(Gm′n′ −Gm′n′)(Hm+m′,n+n′ −Hm+m′,n+n′). (3.71)

Die Kreuzkorrelation ähnelt der Faltung (Abschn. 2.3.4, R7). Der einzige Un-terschied ist das Vorzeichen der Indizes (m′, n′) im zweiten Term.

3.5.2 Stochastische Felder im Fourierraum

Im letzten Abschnitt diskutierten wir stochastische Felder im Ortsraum. Da unsdie Bedeutung der Fouriertransformation für die Signalverarbeitung inzwischenhinreichend bekannt ist (Abschn. 2.3), wenden wir uns jetzt stochastischen Fel-dern im Fourierraum zu. Der Einfachheit halber beschränken wir uns auf deneindimensionalen Fall. Alle hier diskutierten Aussagen können aber auch aufhöhere Dimensionen erweitert werden.

Die Fouriertransformation benötigt komplexe Zahlen. Das verursacht aber kei-ne Probleme für die statistische Behandlung, da wir Real- und Imaginärteil alsunabhängige stochastische Variablen betrachten können. Die Definition des

106 3 Statistik

Mittelwertes ändert sich nicht, bei der Definition der Kovarianz müssen wir je-doch im Vergleich zu (3.19) eine kleine Änderung vornehmen:

Cpq = E((gp − µp)∗(gq − µq)

), (3.72)

wobei das Symbol ∗ die Bildung des konjugiert Komplexen angibt. Diese Defi-nition stellt sicher, dass die Varianz

σ 2p = E

((gp − µp)∗(gp − µp)

)(3.73)

eine reelle Zahl bleibt.

Die 1D-DFT bildet den Vektor g ∈ CN auf einen Vektor g ∈ CN ab. Die Kom-ponenten von g ergeben sich als Skalarprodukte mit den orthonormalen Basis-vektoren des Vektorraums CN (vergleiche (2.29) und (2.30)):

gv = bvTg mit bvTbv′ = δv−v′ . (3.74)

Daher sind die komplexen ZVn im Fourierraum nichts anderes als Linearkombi-nationen der ZVn im Ortsraum. Wenn wir annehmen, dass die ZVn im Ortsraumunkorreliert sind und die gleiche Varianz haben, d. h. ein homogenes stochas-tisches Feld darstellen, dann können wir eine weitreichende Schlussfolgerungziehen. Nach (3.74) sind die Vektoren bv senkrecht zueinander und haben denBetrag eins. Daher können wir aus den Überlegungen über Funktionen von mul-tiplen ZVn in Abschn. 3.3.3, speziell (3.32), schließen, dass die ZVn im Fourier-raum unkorreliert bleiben und die gleiche Varianz wie im Ortsraum haben.

3.5.3 Leistungsspektrum, Kreuzkorrelationsspektrum, Kohärenz

In Abschn. 3.5.1 haben wir gelernt, dass homogene stochastische Felder durchdie Auto- und Kreuzkorrelationsfunktion beschrieben werden. Nun betrachtenwir die entsprechenden Größen im Fourierraum.

Korrelation im Ortsraum entspricht einer Multiplikation mit der konjugiert kom-plexen Funktion im Fourierraum (R4):

GG •Pgg(k) = g(k)∗g(k) (3.75)

undGH •Pgh(k) = g(k)∗h(k). (3.76)

In diesen Gleichungen ist die Korrelation mit dem Symbol abgekürzt worden,ähnlich, wie wir die Faltung mit dem ∗ Symbol abkürzen. Wegen der einfache-ren Schreibweise sind die Funktionen im Fourierraum als kontinuierliche Funk-tionen geschrieben. Das entspricht dem Übergang zu unendlich ausgedehntenstochastischen Feldern (Abschn. 2.3.2, Tabelle 2.1).

Die Fouriertransformierte der Autokorrelationsfunktion ist das Leistungsspek-trum Pgg . Es ist eine reellwertige Funktion. Der Name kommt von der Tatsache,dass sie für physikalische Signale im Fourierraum die Verteilung der Energieüber die Wellenzahlen bzw. Frequenzen angibt, wenn das Quadrat der Signal-amplitude proportional zur Energie ist. Wird das Leistungsspektrum über meh-rere Bilder gemittelt, stellt es eine Summe der Quadrate unabhängiger ZVn dar.


Falls die ZVn im Ortsraum unkorreliert sind und eine Normalverteilung auf-weisen, dann hat das gemittelte Leistungsspektrum nach den Überlegungen inAbschn. 3.4.4 eine Chiquadrat-Verteilung.

Die Autokorrelationsfunktion eines Feldes unkorrelierter ZVn ist eine δ-Distri-bution (3.69), da sie überall außer am Nullpunkt verschwindet. Daher ist dasLeistungsspektrum konstant (R7). Diese Art von Rauschen wird als weißesRauschen bezeichnet.

Die Fouriertransformierte der Kreuzkorrelationsfunktion heißt Kreuzkorrela-tionsspektrum Pgh. Im Gegensatz zum Leistungsspektrum ist diese Funktionkomplexwertig. Der Real- und Imaginärteil werden als Co- bzw. Quad-Spektrumbezeichnet. Um die Bedeutung dieser Funktionen besser zu verstehen, ist essinnvoll, eine weitere Funktion, die Kohärenzfunktion Φ zu definieren:

Φ2(k) = |Pgh(k)|2Pgg(k)Phh(k)

. (3.77)

Die Kohärenzfunktion gibt an, wie ähnlich zwei Bilder sind. Um dies zu zei-gen, nehmen wir an, dass das Bild H eine verschobene Kopie des Bildes G ist:h(k) = g(k) exp(−ikxs). In diesem Fall ist die Kohärenzfunktion eins und dasKreuzkorrelationsspektrum Pgh vereinfacht sich zu

Pgh(k) = Pgg(k) exp(−ikxs). (3.78)

Da Pgg eine reellwertige Funktion ist, können wir die Verschiebung xs zwischenden beiden Bildern aus dem Phasenfaktor exp(−ikxs) berechnen.

Wenn es keine feste Phasenbeziehung für einen Wellenzahlvektor zwischen denbeiden Bildern gibt, dann erniedrigt sich die Kohärenz. Falls die Phasenver-schiebung von Bild zu Bild in einer Sequenz zufällig verteilt ist, dann zeigen dieVektoren der Kreuzkorrelationsfunktion in der komplexen Ebene in zufälligeRichtungen und addieren sich zu null. Nach (3.77) wird dann auch die Kohä-renz null.

3.6 Übungsaufgaben

3.1: Rauschen in Bildern und Bildsequenzen

Interaktive Simulation von Poissonrauschen, additivem normalverteiltemRauschen und multiplikativem normalverteiltem Rauschen; Berechnung desMittelwertes und der Varianz (dip6ex03.01).

3.2: ∗∗Poisson- und Normalverteilung

Ein Bildsensor empfängt eine räumlich und zeitlich konstante Bestrahlungs-stärke, sodass innerhalb der Belichtungszeit im Mittel 9 bzw. 100 Ladungs-träger erzeugt werden. Wir nehmen weiterhin an, dass der Sensor ideal ist,d. h. keinerlei elektronisch bedingtes Rauschen aufweist.

1. Wie hoch ist die Standardabweichung absolut und relativ zum Mittelwert(σ/µ) in beiden Fällen?

108 3 Statistik

2. Wie stark weicht die Poissonverteilung von einer Normalverteilung mitder gleichen Standardabweichung in beiden Fällen ab? Überprüfen Siedies an Hand der Werte der beiden Wahrscheinlichkeitsverteilungen fürµ −nσ mit n ∈ −3,−2,−1,0,1,2,3.

3.3: ∗Binomial- und Normalverteilung

Die Binomialverteilung B(Q,1/2) konvergiert mit wachsendem Q schnellgegen eine Normalverteilung. Prüfen Sie diese Aussage, indem Sie die Bino-mialverteilungen B(4,1/2) und B(8,1/2) für alle möglichen Werte mit einerNormalverteilung mit entsprechenden Mittelwerten und Varianzen verglei-chen.

3.4: ∗Gleichverteilung

Eine Zufallsvariable (ZV) sei mit konstanter Wahrscheinlichkeitsdichtefunk-tion zwischen den Werten g und g + ∆g verteilt. Die Wahrscheinlichkeit-dichte außerhalb dieses Intervall ist null. Berechnen Sie den Mittelwert unddie Varianz für diese ZV.

3.5: ∗∗Wahrscheinlichkeitsverteilungen, Mittelwert und Varianz

Gegeben sind zwei unabhängige, normalverteilte Zufallsvariablen (ZV), g1

und g2. Beide haben den Mittelwert µ = 0 und die Varianz σ 2 = 1. Berech-nen Sie die Wahrscheinlichkeitsdichtefunktion (PDF), den Mittelwert und dieVarianz folgender abgeleiteter ZVn:

1. h = g1 + g2

2. h = ag1 + b (a und b sind deterministische Konstanten)

3. h = g1 + g1

4. h = g21

5. h =√g2

1 + g22 (Betrag des Vektors

[g1 g2

]T)

6. h = arctan(g2/g1) (Winkel des Vektors[g1 g2

]T).

3.6: ∗Fehlerfortpflanzung

Gegeben sei eine Zufallsvariable (ZV) g mit dem Mittelwert g und der Va-rianz σ 2

g . Die PDF kennen Sie nicht. Berechnen Sie, falls möglich, die Vari-

anz und den relativen Fehler σh/h folgender abgeleiteter ZVn h unter derAnnahme, dass die Varianz klein genug ist, sodass die Nichtlinearität derFunktionen noch keine Rolle spielt:

1. h = g2

2. h = √g3. h = 1/g4. h = ln(g)

3.7: Zentraler Grenzwertsatz

Interaktive Simulation zum zentralen Grenzwertsatz (dip6ex03.02).


3.8: ∗∗Auswahl eines Bildsensors

In Abschn. 3.4.5 wurde ein einfaches lineares Rauschmodell für Bildsenso-ren betrachtet, das sich auch in der Praxis bewährt hat. Für Messungenstehen Ihnen zwei Kameras mit folgenden Kennlinien zur Verfügung:

Kamera A σ 2 = 1.0+ 0.1gKamera B σ 2 = 2.5+ 0.025g.

Beide Kameras sind digitale Kameras mit 12 Bit Auflösung, die damit Grau-werte g zwischen 0 und 4095 messen können. Beide haben eine Quanten-ausbeute von 0.5. Welche der beiden Kameras ist für folgende Aufgabenbesser geeignet:

1. Messung hoher Grauwerte mit möglichst guter relativer Auflösung

2. Messung möglichst geringer Helligkeiten.

Bestimmen Sie dazu die Standardabweichung beim höchsten digitalen Grau-wert (g = 4095) und beim Dunkelbild (g = 0) und die Anzahl der gemesse-nen Photonen, die der Standardabweichung des Rauschen des Dunkelbildsentsprechen.

3.9: ∗∗Kovarianzberechnung

Auf einem Zeilensensor mit 5 Sensorelementen werden in einer ersten Nach-verarbeitungsstufe die Signale benachbarter Elemente gemittelt (so genann-tes laufendes Mittel). Nach Abschn. 3.3.3 entspricht dies der linearen Trans-formation

h = 12

⎡⎢⎢⎢⎣

1 1 0 0 00 1 1 0 00 0 1 1 00 0 0 1 1

⎤⎥⎥⎥⎦g.

Berechnen Sie die Kovarianzmatrix von h unter der Annahme, dass g einVektor von 5 unkorrelierten ZVn mit gleicher Varianzσ 2 ist, und die Varianzdes Mittelwertes von h ((h1+h2+h3+h4)/4) und vergleichen Sie diese mitder Varianz des Mittelwertes von g ((g1+g2+g3+g4+g5)/5). AnalysierenSie die Ergebnisse!


Zur Einführung in die Statistik sei auf die Lehrbücher Beichelt [11], Behnen undNeuhaus [10] und Rice [184] verwiesen. Anspruchsvollere detailliertere Darstel-lungen finden sich bei Krickeberg und Ziezold [129] und Papoulis [168]. DasLehrbuch von Rosenfeld und Kak [192] gibt eine gute Einführung in stochasti-sche Prozesse mit Bezug zur Bildverarbeitung. Die Spektralanalyse wird nähervon Marple Jr. [148] behandelt.

4 Nachbarschaftsoperatoren

4.1 Grundlegende Eigenschaften und Zweck

4.1.1 Objekterkennung und Nachbarschaftsoperatoren

Eine Analyse der räumlichen Beziehungen der Grauwerte einer kleinenUmgebung liefert uns erste Hinweise für die Objekterkennung in Bildern.Nehmen wir als einfaches Beispiel eine Szene, die Objekte mit gleichmä-ßiger Strahlungsdichte enthält. Ändern sich die Grauwerte innerhalb ei-ner kleinen Nachbarschaft nicht, liegt sie innerhalb eines Objektes. Wennsich jedoch die Grauwerte signifikant verändern, liegt der Rand eines Ob-jektes innerhalb der Nachbarschaft. Auf diese Weise lassen sich Bereichekonstanter Grauwerte von Kanten unterscheiden.

Die Verarbeitung einzelner Pixel eines Bildes durch Punktoperationenallein liefert diese Informationen nicht. In Kapitel 10 sehen wir im De-tail, dass solche Operationen nur als erster Schritt der Bildverarbeitungsinnvoll sind, um inhomogene und nichtlineare Antworten des Bildsen-sors auszugleichen, interaktiv Bilder zu inspizieren und zu manipulierenoder den visuellen Eindruck zu verbessern.

Es sind neue Klassen von Operationen, Nachbarschaftsoperationen,notwendig, die Pixel einer kleinen Umgebung in richtiger Weise kombi-nieren und als Ergebnis ein neues Bild liefern. Nachbarschaftsoperatio-nen sind ein zentrales Werkzeug der ersten Stufe der Bildverarbeitung.Dies ist der Grund, warum wir in diesem Kapitel prinzipiell möglichenKlassen und ihre Eigenschaften diskutieren.

Das Ergebnis jeder Nachbarschaftsoperation ist wieder ein Bild, je-doch mit geändertem Inhalt. Zum Beispiel sollte eine Nachbarschafts-operation zur Detektion von Kanten hohe Werte für Pixel ergeben, die zueiner Objektkante gehören. Für alle Pixel, die innerhalb eines Objektesliegen, sollten dagegen, unabhängig von ihrem Grauwert, niedrige Werteerzeugt werden. Dieses einfache Beispiel zeigt auch, dass bei der Anwen-dung eines Nachbarschaftsoperators generell Information verloren geht.Wir können nicht mehr auf die ursprünglichen Grauwerte schließen. Ausdiesem Grund werden Nachbarschaftsoperationen auch Filter genannt.Filter extrahieren bestimmte interessierende Eigenschaften aus Bildern.Das Ergebnisbild wird daher Eigenschaftsbild genannt.

Operatoren, die benachbarte Pixel kombinieren, um ein neues Bild zuerzeugen, können vielfältige und komplexe Eigenschaften extrahieren:


112 4 Nachbarschaftsoperatoren

• Detektion einfacher lokaler Strukturen wie Kanten, Ecken, Linien undBereiche konstanter Grauwerte (Kapitel 12 und 13)

• Bestimmung von Bewegung in Bildfolgen (Kapitel 14)

• Texturanalyse (Kapitel 15)

• Rekonstruktion von Bildern, die mit indirekten Bildaufnahmetechni-ken wie der Tomografie erzeugt wurden (Kapitel 17)

• Restaurierung von Bildern, die durch fehlerhafte Fokussierung, Be-wegungsunschärfe oder ähnliche Fehler gestört sind (Kapitel 17)

• Korrektur von Störungen, die durch Fehler bei der Bildaufnahme oder-übertragung entstanden sind. Solche Fehler resultieren in verfälsch-ten Grauwerten einzelner weniger Pixel (Kapitel 17).

4.1.2 Allgemeine Definitionen

Ein Nachbarschaftsoperator N verknüpft durch eine geeignete Operati-on die Werte in einer Nachbarschaft um einen Punkt und schreibt dasErgebnis zurück an den Punkt. Diese Operation wird für alle Punkte desSignals durchgeführt.

Definition 4.1 (Kontinuierlicher Nachbarschaftsoperator) Ein kontinu-ierlicher Nachbarschaftsoperator bildet ein multidimensionales Signalg(x) auf sich selbst ab durch die Operation

g′(x) = N(g(x′),∀(x − x′) ∈M), (4.1)

wobei M ein kompaktes Gebiet ist.

Das Gebiet M wird als Maske, Fenster oder Strukturelement bezeich-net. Größe und Form von M beeinflussen die Nachbarschaftsoperationin soweit, dass sie die Eingangswerte aus g zur Berechnung von g′(x) be-stimmen. Diese liegen im Bereich M, dessen Bezugspunkt an den Punktx verschoben wurde. Damit ist die Nachbarschaftsoperation N selbstnoch nicht festgelegt. Sie kann jede beliebige Rechenvorschrift beinhal-ten. Aus Symmetriegründen ist die Form der Maske oft symmetrisch undder Bezugspunkt liegt im Symmetriezentrum.

Definition 4.2 (Diskreter Nachbarschaftsoperator) Ein diskreter Nach-barschaftsoperator bildet eine M ×N-Matrix auf sich selbst ab durch dieOperation

G′m,n = N(Gm′−m,n′−n,∀[m′, n′

]T ∈M), (4.2)

wobei M nun eine Menge von Punkten ist.

Ausdrücke, die äquivalent zu Def. 4.2 sind, können leicht für andere Di-mensionen aufgestellt werden. Auch wenn die Gleichungen (4.1) und(4.2) nicht die Rechenvorschrift für die Nachbarschaftsoperation ange-ben, so beschreiben sie doch die gemeinsame Struktur aller Klassen vonNachbarschaftsoperationen.

4.1 Grundlegende Eigenschaften und Zweck 113

4.1.3 Maskengröße und -symmetrie

Die erste Bestimmungsgröße einer Nachbarschaftsoperation ist die Grö-ße der Nachbarschaft. Wir müssen auch den Bezugspunkt relativ zu derNachbarschaft festlegen, an dem das Ergebnis der Nachbarschaftsopera-tion abgelegt wird. Aus Symmetriegründen ist der natürlichste Bezugs-punkt das Zentrum einer (2R + 1)× (2R + 1) großen Maske mit einerungeraden Anzahl von Punkten in alle Richtungen.

Masken mit einer geraden Anzahl von Punkten erscheinen wenigergeeignet, da es keinen Punkt gibt, der im Zentrum der Maske liegt. Fallsdas Ergebnis der Nachbarschaftsoperation aber an einen Punkt zurück-gegeben wird, der zwischen den Originalpunkten im Zentrum der Maskeliegt, kann es trotzdem sinnvoll sein, Masken mit einer geraden Anzahlvon Punkten zu benutzen. Dann ist allerdings das Ergebnisbild um einenhalben Abstand zwischen den Punkten in alle Richtungen verschoben.Wegen dieser Verschiebung dürfen wir nie Eigenschaftsbilder, die miteiner Maske mit einer geraden Anzahl von Punkten berechnet wurden,mit dem Ausgangsbild kombinieren. Dies würde zu erheblichen Fehlernführen. Bei paralleler Anwendung von mehreren Nachbarschaftsope-rationen und anschließender Kombination der Ergebnisse müssen alleMasken eine gerade oder ungerade Anzahl von Punkten in die gleicheRichtung aufweisen. Sonst fallen die Gitter der resultierenden Eigen-schaftsbilder nicht aufeinander.

4.1.4 Operatornotation

Es ist hilfreich, eine Operatornotation für Nachbarschaftsoperatoren ein-zuführen. Auf diese Weise können selbst komplex zusammengesetzteNachbarschaftsoperatoren verständlich geschrieben werden. Operato-ren werden mit kalligrafischen Buchstaben wie B,D,H ,S bezeichnet.Der Operator H transformiert das Bild G in das Bild G′: G′ = HG.Diese Notation kann für kontinuierliche und diskrete Signale beliebigerDimension benutzt werden und stellt eine darstellungsunabhängige No-tation von Signalverarbeitungsoperatoren dar.

Bei Hintereinanderausführung mehrerer Operatoren werden diese ein-fach hintereinander geschrieben, wobei der am weitesten rechts stehen-de Operator zuerst ausgeführt wird. Wiederholte Anwendung desselbenOperators wird mit einem Exponenten abgekürzt:

HH . . .H︸︷︷︸p-mal

=H p. (4.3)

Wird eine Folge von Operatoren auf ein einziges Bild angewendet, sokann dies weggelassen werden. Auf diese Weise können wir Operator-gleichungen ohne Zielobjekt schreiben. Weiter benutzen wir Klammern,


um in der üblichen Weise die Reihenfolge der Ausführung von Opera-toren zu steuern. So können auch Operatoreigenschaften in kompakterund leicht verständlicher Schreibweise geschrieben werden, z. B.

Kommutativität H1H2 =H2H1

Assoziativität H1(H2H3) = (H1H2)H3

Distributivität bei Addition (H1 +H2)H3 =H1H3 +H2H3

(4.4)

Andere Operatoren, wie z. B. die Addition können in diese Schreib-weise auch eingefügt werden. Mit nichtlinearen Operatoren müssen wiraber vorsichtig sein, da diese nicht mit linearen Operatoren vertauschbarsind. Deswegen muss die Reihenfolge der Operatorausführungen strikteingehalten und gegebenenfalls mit Klammern verändert werden.

Ein einfaches Beispiel für einen nichtlinearen Operator ist die punkt-weise Multiplikation zweier Bilder, ein dyadischer Punktoperator mitzwei Eingangsbildern. Wir bezeichnen ihn mit einem speziellen Symbol,einem zentrierten Punkt (·). Dieses Symbol ist notwendig, um die Mul-tiplikation von der Hintereinanderausführung von Operatoren zu unter-scheiden. Der Operator-Ausdruck B(Dp ·Dq) bedeutet z. B.: die Opera-torenDp undDq werden auf das gleiche Bild angewendet, die Ergebnis-bilder punktweise multipliziert und der Operator B auf das Produktbildangewendet. Ohne Klammern würde der Ausdruck BDp · Dq bedeu-ten: Der OperatorDq und die OperatorenkombinationDp undBwerdenauf das gleiche Bild angewendet und die Ergebnisse beider Operationenmiteinander multipliziert. Dyadische Operatoren werden in der Opera-torschreibweise immer nachrangig gegenüber monadischen Operatorenmit nur einem Eingangsbild behandelt: Zuerst werden alle monadischenOperatoren ausgeführt und dann die dyadischen. Um monadische Ope-ratoren klar von dyadischen unterscheiden zu können, kann auch derPlatzhalter “:” für die Objekte benutzt werden, auf die Operatoren ange-wendet werden. Dann schreibt sich der in dem Beispiel benutzte Opera-torenausdruck als B(Dp : ·Dq :).

In diesem Kapitel werden wir die zwei wichtigsten Klassen von Nach-barschaftsoperatoren diskutieren, die linearen verschiebungsinvarian-ten Filter (Abschn. 4.2) und die Rangordnungsfilter (Abschn. 4.3). Einespezielle Klasse von verschiebungsinvarianten Filtern, die rekursiven Fil-ter, werden im Abschn. 4.5 behandelt.

4.2 Lineare verschiebungsinvariante Filter

4.2.1 Diskrete Faltung

Zunächst konzentrieren wir uns auf die Frage, wie Grauwerte von Bild-punkten in kleinen Nachbarschaften miteinander verknüpft werden kön-

4.2 Lineare verschiebungsinvariante Filter 115

nen. Eine grundlegende Verknüpfungsart der Bildpunkte in einem Fens-ter erfolgt durch eine Operation, die jeden Bildpunkt im Bereich der Fil-termaske mit dem entsprechenden Wichtungsfaktor der Maske multipli-ziert, die Produkte addiert und die Summe an die Position des zentralenPixels schreibt:

g′mn =r∑

m′=−r

r∑n′=−r

hm′n′gm−m′,n−n′

=r∑

m′′=−r

r∑n′′=−r

h−m′′,−n′′gm+m′′,n+n′′ .(4.5)

In Abschn. 2.3.4 wurde die diskrete Faltung in (2.55) definiert als:

g′mn =M−1∑m′=0

N−1∑n′=0

hm′n′gm−m′,n−n′ (4.6)

Die Definitionen in (4.5) und (4.6) sind äquivalent, wenn wir die Peri-odizität im Ortsraum, wie sie durch (2.42) gegeben ist, berücksichtigen.Aus (2.42) schließen wir, dass negative Indizes durch positive mit derBeziehung

g−n = gN−n, g−n,−m = gN−n,M−m (4.7)

ersetzt werden können. Die Einschränkung der Summe in (4.5) berück-sichtigt die Tatsache, dass die Elemente der Matrix H außerhalb der we-nigen Punkte in der (2R + 1)× (2R + 1) Filtermaske null sind. Die Dar-stellung einer Filterung durch eine Filtermaske anstelle einer MatrixH istviel praktischer und gibt einen viel besseren Eindruck von der Wirkungs-weise der Filteroperation. Die folgende 3× 3-Filtermaske und M ×N-Matrix H sind z. B. äquivalent:

⎡⎢⎣ 0 −1 −2

1 0• −12 1 0

⎤⎥⎦ ≡

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

0• −1 0 . . . 0 11 0 0 . . . 0 20 0 0 . . . 0 0...

......

. . ....

...0 0 0 . . . 0 0−1 −2 0 . . . 0 0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦. (4.8)

W -dimensionale Filteroperationen können mit einer Vektorindizie-rung vereinfacht geschrieben werden:

g′n =R∑

n′=−Rh−n′gn+n′ (4.9)


mit n = [n1, n2, . . . , nW], R = [R1, R2, . . . , RW], wobei gn ein Elementeines W -dimensionalen Signals gn1,n2,...,nW ist. Die Notation für die Sum-men in dieser Gleichung ist eine Abkürzung für

R∑n′=−R

=R1∑

n′1=−R1

R2∑n′2=−R2

. . .RW∑

n′W=−RW. (4.10)

Mit der vektoriellen Indizierung können Ausdrücke wie Faltungssummenfür beliebigdimensionale Signale einfach geschrieben werden.

4.2.2 Symmetrien

In Bezug auf Symmetrien können wir zwei Klassen von Filtern unter-scheiden: Filter mit gerader und ungerader Symmetrie mit der Bedin-gung, dass in eine oder mehrere Richtungen gilt:

h−m,n = ±hmn oder hm,−n = ±hmn. (4.11)

Dabei stehen die Zeichen + und − für Filter mit gerader bzw. ungera-der Symmetrie. Mit dieser Definition können wir die Berechnung voneindimensionalen Filtern nach (4.5) vereinfachen zu:

gerade: g′mn = h0gm,n +r∑

n′=1

hn′(gm,n−n′ + gm,n+n′)

ungerade: g′mn =r∑

n′=1

hn′(gm,n−n′ − gm,n+n′).(4.12)

Die Summen laufen nur über die halbe Maske und schließen das zentralePixel aus. Dieses muss separat behandelt werden, da es keinen Symme-triepartner hat. Bei Filtern mit ungerader Symmetrie entfällt es, da esnach (4.11) null ist.

Im zweidimensionalen Fall sind die Gleichungen komplizierter, dadie Symmetrie in jeder Richtung separat betrachtet werden muss. Ein2D-Filter mit gerader Symmetrie in beide Richtungen vereinfacht sich zu

g′m,n = h00gnm

+r∑

n′=1

h0n′(gm,n−n′ + gm,n+n′)

+r∑

m′=1

hm′0(gm−m′,n + gm+m′,n)

+r∑

m′=1

r∑n′=1

hm′n′(gm−m′,n−n′ + gm−m′,n+n′

+gm+m′,n−n′ + gm+m′,n+n′).

(4.13)


0

1

2

-1

0

1

-2

-1

0

n+1nn 1_

m

m 1_

m+1*

0

1

2

-1

0

1

-2

-1

0

n

m

Abbildung 4.1: Illustration der diskreten Faltung mit einer 3× 3-Filtermaske.

2D-Filter können unterschiedliche Symmetrien in verschiedene Rich-tungen haben. Ein Filter, das horizontal ungerade und vertikal geradeist können wir schreiben als

g′m,n =r∑

n′=1

h0n′(gm,n−n′ − gm,n+n′)

+r∑

m′=1

r∑n′=1

hm′n′(gm−m′,n−n′ − gm−m′,n+n′

+gm+m′,n−n′ − gm+m′,n+n′).

(4.14)

Entsprechende Ausdrücke für höherdimensionale Filter sind noch kom-plizierter [99].

4.2.3 Berechnung von Faltungsoperationen

Die Faltung ist eine so bedeutende Operation, dass es lehrreich ist, ih-re Wirkungsweise im Detail zu studieren. Zunächst mögen in (4.5) dieMinuszeichen vor den Indices m′ und n′, die für die Maske bzw. dasBild stehen, verwirren. Sie bedeuten, dass wir entweder die Maske oderdas Bild an seinem Symmetriezentrum spiegeln, bevor wir die Maskeüber das Bild legen. (Wir lernen den Grund für diese Spiegelung inAbschn. 4.2.5 kennen.) Wollen wir das Ergebnis der Faltung am Punkt(m,n)T berechnen, zentrieren wir die gespiegelte Maske an diesem Punkt,führen die Faltung durch und schreiben das Ergebnis zurück auf die Po-sition (m,n)T (Abb. 4.1). Diese Operation wird für alle Pixel des Bildesdurchgeführt.

Nahe am Rand des Bildes, wenn der Bereich der Filtermaske über dieBildränder hinausgeht, kommen wir in Probleme, da uns einige Bildpunk-te fehlen. Der korrekte Weg zur Lösung dieses Problems entsprechendunseren Annahmen in Abschn. 2.3.4, insbesondere in Gleichung (2.42),ist die Berücksichtigung dessen, dass endliche Bildmatrizen als sich pe-riodisch wiederholende Strukturen betrachtet werden müssen. Also ver-wenden wir, wenn wir am linken Rand des Bildes angekommen sind, die


0

1

2

4

Abbildung 4.2: Bildfaltung durch zeilenweises Verschieben der Faltungsmaske.Bei den dunkel dargestellten Pixeln sind die Grauwerte bereits durch die Faltungs-summe ersetzt worden. Daraus folgt, dass die Grauwerte der dunklen Pixel, diezur Filtermaske gehören, in einem separaten Speicher aufgehoben werden müs-sen.

fehlenden Punkte vom rechten Bildrand. Dieser Vorgang wird zyklischeFaltung genannt. Nur dieser Faltungstyp reduziert sich — streng genom-men — auf eine Multiplikation im Fourierraum (Abschn. 2.3).

Praktisch wird dieser Ansatz selten gewählt, weil die periodische Fort-setzung nur ein untrennbar mit der Begrenzung des Bildausschnitts ver-bundenes Artefakt ist. Statt dessen fügen wir dem Bild einen Rand derhalben Breite der Filtermaske hinzu. In diesem Randbereich werden ent-weder Nullen benutzt, oder wir extrapolieren auf die eine oder andereWeise aus den Grauwerten am Rand des Bildes. Den einfachsten Extra-polationstyp haben wir, wenn wir die Grauwerte der Randpixel in denRandbereich schreiben. Obwohl bei diesem Ansatz generell weniger Stö-rungen an den Bildrändern auftreten als bei der zyklischen Faltung oderErgänzung mit Nullen, führt er zu Fehlern in einem Randbereich der Brei-te einer halben Filtermaske. Bei der Extrapolationsmethode werden dieKantenpixel überbetont.

Zusammenfassend können wir festhalten, dass keine der drei disku-tierten Methoden fehlerfreie Nachbarschaftsoperationen nahe dem Bild-rand ermöglicht. Daher ist der einzige Weg zu Fehlervermeidung, sicher-zustellen, dass die interessierenden Objekte im Bild weiter als die halbeGröße der größten Maske vom Rand des Bildes entfernt sind.

Gleichung (4.5) zeigt, dass keiner der bereits berechneten GrauwerteG′mn in die Berechnung der Grauwerte benachbarter Pixel mit einfließt.Deshalb geraten wir in Probleme, wenn wir das Ergebnis der Filteropera-tion ins gleiche Bild zurückschreiben wollen. Nehmen wir an, wir führendie Faltung Zeile für Zeile und von links nach rechts durch. Dann sinddie Grauwerte an allen Pixelpositionen oberhalb und links vom aktuel-


len Pixel bereits von den zuvor berechneten Ergebnissen überschrieben(Abb. 4.2). Daraus ergibt sich, dass wir die Grauwerte dieser Positionenzwischenspeichern müssen. Geeignete Algorithmen dazu sind bei Jähne[99] und Jähne et al. [104, Vol. 2, Chap. 5] beschrieben.

Die Anzahl der Elemente einer Maske wächst stark mit ihrer Größeund Dimension. Eine W -dimensionale Maske mit einer linearen Größevon R enthält RW Elemente. Je höher die Dimension, desto schnellerwächst die Anzahl der Elemente mit der Maskengröße. In multidimen-sionalen Signalen enthalten schon kleine Nachbarschaften hunderte bistausende von Elementen. Daher ist es eine Herausforderung, effizienteBerechnungsverfahren für Filteroperationen zu finden, die die Anzahlder Rechenoperation von O(RW) zu einer niedrigeren Ordnung reduzie-ren. Das bedeutet, dass die Anzahl der Rechenoperationen nicht mehrproportional zu RW , sondern mit einer niedrigeren Potenz von R wächst.Ein optimales Ergebnis wäre es, ein Rechenverfahren zu finden, bei demdie Anzahl der Rechenoperationen nur noch linear von der Maskengrö-ße abhängt (O(R1)), oder sogar unabhängig von der Maskengröße ist(O(R0)).

4.2.4 Linearität und Verschiebungsinvarianz

Linear ist ein Operator dann, wenn das Superpositionsprinzip gilt.

Definition 4.3 (Superpositionsprinzip) G und G′ seien zwei W -dimen-sionale komplexwertige Signale, a und b zwei komplexwertige Skalareund H ein Operator. Der Operator ist dann und nur dann linear, wenn

H (aG+ bG′) = aHG+ bHG′. (4.15)

Wir können Def. 4.3 auf die Überlagerung vieler Signale erweitern:

H⎛⎝∑kakGk

⎞⎠ =∑

kakHGk. (4.16)

Das Superpositionsprinzip besagt, dass wir komplexe Signale in ein-fachere Komponenten zerlegen können. Auf diese können wir danneinen linearen Operator anwenden und die resultierenden Ergebnissewieder zusammensetzen.

Eine andere wichtige Eigenschaft eines Operators ist die Verschie-bungsinvarianz (auch bekannt als Translationsinvarianz oder Homoge-nität ). Dieser Begriff besagt, dass die Antwort eines Operators nichtexplizit von der Position in einem Signal abhängt. Wenn wir ein Signalverschieben, ist das Ergebnis eines verschiebungsinvarianten Operatorsebenso verschoben. Wir können diese Eigenschaft eleganter formulierendurch die Definition eines Verschiebungsoperators mnS als

mnSgm′n′ = gm′−m,n′−n. (4.17)


Dann können wir einen verschiebungsinvarianten Operator folgender-maßen definieren:

Definition 4.4 (Verschiebungsinvarianz) Ein Operator ist verschiebungs-invariant dann und nur dann, wenn er mit dem VerschiebungsoperatorS vertauscht werden kann:

H mnS = mnSH . (4.18)

Von der Definition der Faltungsoperation in (4.5) und (4.9) könnenwir sofort schließen, dass sie sowohl linear als auch verschiebungsinva-riant ist. Einen solchen Operator nennt man daher einen linearen ver-schiebungsinvarianten Operator oder kurz LSI-Operator . Bei Zeitseriennennt man einen Operator mit der gleichen Eigenschaft auch linear undzeitinvariant (LTI ). Es sei angemerkt, dass auch der Verschiebungsope-rator mnS selbst ein LSI-Operator ist.

4.2.5 Punktantwort

Die Wirkungsweise von Faltungsoperationen ist wegen der Linearität undVerschiebungsinvarianz einfach zu verstehen. Wie in Abschn. 2.3.1 dis-kutiert, können wir uns jedes diskrete Bild (Signal) aus einzelnen Bild-punkten oder Basisbildern mnP (2.10) zusammengesetzt denken:

G =M−1∑m=0

N−1∑n=0

GmnmnP. (4.19)

Die Linearität besagt, dass wir einen Operator auf diese Basisbilderanwenden und dann die resultierenden Ergebnisbilder addieren können.Die Verschiebungsinvarianz bedeutet, dass das Ergebnis der Faltungs-operation für jedes der Basisbilder bis auf eine Verschiebung gleich ist.Das Resultat einer Filteroperation für ein beliebiges Bild ist damit voll-ständig durch die Antwort auf ein Basisbild bestimmt. Daher hat dieAntwort einer Faltungsoperation auf ein Punktbild eine besondere Be-deutung. Sie heißt Punktantwort oder abgekürzt nach dem englischenBegriff point spread function PSF . Bei Zeitserien heißt sie auch Impulsant-wort . Die Punktantwort eines Faltungsoperators ist mit der Faltungs-maske identisch und beschreibt ihn im Ortsraum vollständig:

p′mn =r∑

m′=−r

r∑n′=−r

h−m′,−n′ 00pm+m′,n+n′ = hm,n. (4.20)

Die Punktantwort zeigt die Wirkung der Faltung aus einem anderenaber äquivalenten Blickwinkel. Die Faltungssumme in (4.5) sagt, dassjeder Punkt sich aus einer Linearkombination von benachbarten Punk-ten zusammensetzt. Die Punktantwort sagt, dass sich jeder Pixel in dieNachbarschaft ausbreitet, wie es durch die Punktantwort beschriebenwird.


4.2.6 Transferfunktion

In Abschn. 2.3 haben wir diskutiert, dass ein Bild (Signal) auch im Fourier-raum dargestellt werden kann. Diese Repräsentation hat eine spezielleBedeutung für LSI-Operatoren, da die Faltung sich nach dem Faltungs-theorem (Theorem 2.4, S. 56) im Fourierraum auf eine Multiplikation re-duziert:

g ∗ h • Ng(h), G∗H • MNG(H) (4.21)

Die FaktorenN undMN resultieren aus der Definition der diskreten Fou-riertransformation nach (2.69)b. In die Definition der Transferfunktionschließen wir daher im Folgenden den Faktor N bzw. MN ein und er-setzen in allen künftigen Formeln für die Transferfunktion Nh durch h(bzw. MNH durch H).

Die Fouriertransformierte der Faltungsmaske oder PSF heißt Trans-ferfunktion (TF ) eines Filters. Wie die Punktantwort beschreibt sie inanschaulicher Weise die Wirkung einer Filteroperation. Für jeden Wel-lenzahlvektor gibt sie den Faktor an, mit dem die entsprechende periodi-sche Struktur durch die Filteroperation multipliziert wird. Dieser Faktorist eine komplexe Zahl (Abschn. 2.3.1). Daher erfährt eine periodischeStruktur nicht nur eine Änderung der Amplitude, sondern auch eine Pha-senverschiebung:

g′u,v = hu,vgu,v = rh exp(iϕh)rg exp(iϕg)

= rhrg exp[i(ϕh +ϕg)].(4.22)

Im zweiten Teil der Gleichung sind die komplexen Zahlen durch Betragund Phase dargestellt.

Die Symmetrie von Filtermasken (Abschn. 4.2.2) vereinfacht die Be-rechnung der Transferfunktion erheblich. In der Fouriertransformiertender PSF können symmetrische Terme zusammengefasst werden. Für ein1D-Filter mit gerader bzw. ungerader Symmetrie ergibt sich dann mit derDefinition der 1D-Fouriertransformation nach (2.69)b

hv =R∑

n′=−Rhn′ exp

(−2π inv

N

)(mit h−n′ = ±hn′)

= h0 +R∑

n′=1

hn′(

exp(−2π inv

N

)± exp

(2π invN

)).

(4.23)

Gleichung (4.23) kann weiter vereinfacht werden durch Einführungeiner kontinuierlichen skalierten Wellenzahl

k = 2v/N, mit −N/2 ≤ v < N/2. (4.24)

Diese skalierte Wellenzahl k liegt im Intervall [−1,1[. Eine Wellenzahlam Rande des Intervalls entspricht der maximalen Wellenzahl, die das


Abtasttheorem erfüllt (Abschn. 9.2.3). Schließlich benutzen wir noch dieEulergleichung exp(ix) = cosx + i sinx. (4.23) vereinfacht sich für 1D-Filter mit gerader und ungerader Symmetrie zu

gerade: h(k) = h0 + 2R∑

n′=1

hn′ cos(n′πk)

ungerade: h(k) = −2iR∑

n′=1

hn′ sin(n′πk).(4.25)

Die Transferfunktion einer (2R + 1)× (2R + 1)-Maske mit gerader ho-rizontaler und vertikaler Symmetrie ergibt sich in ähnlicher Weise zu

h(k) = h00

+ 2R∑

n′=1

h0n′ cos(n′πk1)+ 2R∑

m′=1

hm′0 cos(m′πk2)

+ 4R∑

m′=1

R∑n′=1

hm′n′ cos(n′πk1) cos(m′πk2).

(4.26)

Analoge Gleichungen gelten für andere Symmetriekombinationen. Al-le diese Gleichungen sind sehr nützlich, da sie die Beziehung zwischenden Koeffizienten einer Filtermaske und ihrer Transferfunktion herstel-len. Sie bilden die Basis für die Analyse aller Filter für spezielle Bildver-arbeitungsaufgaben, die in den Kapiteln 11 bis 15 behandelt werden.

4.2.7 Weitere Eigenschaften

In diesem Abschnitt diskutieren wir einige weitere Eigenschaften von Fal-tungsoperatoren, die für die Bild- und Signalverarbeitung nützlich sind.

Eigenschaft 4.1 (Kommutativität) LSI-Operatoren sind kommutativ:

HH′ =H′H . (4.27)

Die Reihenfolge, in der wir Faltungsoperatoren auf ein Bild anwenden,spielt daher keine Rolle. Diese Eigenschaft ist im Fourierraum leicht zubeweisen, da sich dort die Operationen auf kommutative Multiplikatio-nen reduzieren.

Eigenschaft 4.2 (Assoziativität) LSI-Operatoren sind assoziativ:

H′H′′ = H . (4.28)

Da LSI-Operationen assoziativ sind, können wir einzelne Operatoren zueinem komplexen Operator zusammensetzen. Ähnlich können wir ver-suchen, einen gegebenen komplexen Operator in einfachere Operatoren


zu zerlegen. Dies ist für eine effektive Implementierung von Faltungs-operatoren wesentlich. Als Beispiel betrachten wir den Operator⎡

⎢⎢⎢⎢⎢⎢⎣

1 4 6 4 14 16 24 16 46 24 36 24 64 16 24 16 41 4 6 4 1

⎤⎥⎥⎥⎥⎥⎥⎦ . (4.29)

Wir benötigen mit dieser Faltungsmaske 25 Multiplikationen und 24 Ad-ditionen pro Pixel. Es lässt sich jedoch leicht nachvollziehen, dass wirdiese Maske in eine eindimensionale horizontale und eine eindimensio-nale vertikale zerlegen können:⎡

⎢⎢⎢⎢⎢⎢⎣

1 4 6 4 14 16 24 16 46 24 36 24 64 16 24 16 41 4 6 4 1

⎤⎥⎥⎥⎥⎥⎥⎦ = [1 4 6 4 1]∗

⎡⎢⎢⎢⎢⎢⎢⎣

14641

⎤⎥⎥⎥⎥⎥⎥⎦ . (4.30)

Führen wir die Faltungen mit den kleineren Masken nacheinander durch,sind nur 10 Multiplikationen und 8 Additionen pro Bildpunkt erforder-lich. Filtermasken, die entlang der Achsen in eindimensionale Maskenzerlegt werden können, werden separierbare Masken genannt. Wir be-zeichnen eindimensionale Operatoren mit einem Index für die Achse.Dann können wir einen separierbaren Operator B im dreidimensionalenRaum folgendermaßen angeben:

B = BzByBx. (4.31)

Im Falle eindimensionaler Masken, die in orthogonale Richtungen zeigen,reduziert sich die Faltung auf ein äußeres Produkt. Separierbare Filtersind um so effizienter, je höher die Dimension des Raumes ist. Betrach-ten wir als Beispiel eine 9× 9× 9-Filtermaske. Eine direkte Implementie-rung würde 729 Multiplikationen und 728 Additionen pro Pixel kosten,während eine separierbare Maske derselben Größe nur 27 Multiplikatio-nen und 24 Additionen benötigt, also nur etwa 1/30 der Operationen.

Eigenschaft 4.3 (Distributivität über der Addition) LSI-Operatoren sinddistributiv über der Addition:

H′ +H′′ = H . (4.32)

Da LSI-Operatoren Elemente desselben Vektorraumes sind, in dem sieangewendet werden, können wir eine Addition der Operatoren als ele-mentweise Addition der Vektoren definieren. Wegen dieser Eigenschaftkönnen auch Operatoradditionen und -subtraktionen in die allgemeineOperatornotation integriert werden, die wir im Abschn. 4.1.4 eingeführthaben.


4.2.8 Fehlerfortpflanzung bei Filterung

In der Praxis werden Filter auf Messdaten angewendet, die Rauschen auf-weisen. Daher ist es wichtig zu wissen, wie sich die statistischen Para-meter der gefilterten Daten aus denen der Originaldaten ergeben. DieseFrage haben wir schon prinzipiell in Abschn. 3.3.3 gelöst. Die Kovarianz-matrix einer Linearkombination g′ = Mg eines Zufallsvektors g ergabsich nach (3.27) zu

cov(g′) =M cov(g)MT . (4.33)

Jetzt müssen wir dieses Ergebnis nur auf den speziellen Fall der Fal-tung anwenden. Wir beschränken unsere Überlegungen zunächst auf1D-Signale. Wir gehen dabei davon aus, dass die Kovarianzmatrix desSignals homogen ist, d. h. nur vom Abstand der Punkte und nicht ih-rer Position abhängt. Dann ist die Varianz für alle Elemente gleich σ 2.Ebenso sind die Werte auf den Nebendiagonalen alle gleich und die Ko-varianzmatrix nimmt die einfache Form

cov(g) =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

σ0 σ1 σ2 . . . . . .

σ−1 σ0 σ1 σ2 . . .

σ−2 σ−1 σ0 σ1 . . .... σ−2 σ−1 σ0 . . ....

......

.... . .

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

(4.34)

an, wobei der Index den Abstand zwischen den Punkten angibt und σ0 =σ 2. In der Regel werden die Kovarianzen mit wachsendem Pixelabstandkleiner. Oft haben wir es nur mit einer endlichen Zahl von Kovarianzenσp ungleich null zu tun. Bei statistisch unkorrelierten Pixeln ist nurσ0 = σ 2 ungleich null.

Da die Linearkombination in M nun durch eine Faltung beschriebenwird, hat diese die gleiche Form wie die Kovarianzmatrix. Für ein Filtermit 3 Koeffizienten ergibt sich M zu

M =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

h0 h−1 0 0 0 . . .

h1 h0 h−1 0 0 . . .

0 h1 h0 h−1 0 . . .

0 0 h1 h0 h−1 . . .

0 0 0 h1 h0 . . ....

......

......

. . .

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦. (4.35)

Von Randeffekten abgesehen, reduzieren sich damit die Matrixmulti-plikationen in (4.33) auf Faltungen. Dazu führen wir den Autokovarianz-

4.3 Rangordnungsfilter 125

vektor σ = [. . . , σ−1, σ0, σ1, . . .]T ein und können (4.33) dann schreiben

σ′ = −h∗σ∗ h = σ∗ −h∗ h = σ (h h), (4.36)

wobei −h die gespiegelte Faltungsmaske ist: −hn = h−n. Im letztenSchritt haben wir dabei die Faltung durch eine Korrelation ersetzt. Dabeikann die Faltung von σmit hh durch eine Korrelation ersetzt werden,da die Autokorrelationsfunktion einer reellen Funktion eine Funktionmit gerader Symmetrie ist.

Für unkorrelierte Messdaten ist der Autokovarianzvektor eine Del-tafunktion und der Autokovarianzvektor des Rauschens des gefiltertenVektors reduziert sich zu

σ′ = σ 2(h h). (4.37)

Für ein Filter mitR Koeffizienten sind nun 2R−1 Werte des Autokova-rianzvektors ungleich null geworden. Das bedeutet, dass im gefiltertenSignal Pixel mit einem Abstand von bis zu R− 1 nun miteinander korre-liert sind.

Da sich die Fehlerfortpflanzung bei der Faltung durch Korrelationenbeschreiben lässt, können wir auch direkt die Veränderung des Rausch-spektrums, d. h. des Leistungsspektrums des Rauschens, durch eine Fal-tungsoperation angeben. Dazu müssen wir lediglich (4.36) transformie-ren und das Korrelationstheorem beachten (R7). Dann erhalten wir

σ′ = σ (h h) • σ ′(k) = σ (k)∣∣∣h(k)∣∣∣2

. (4.38)

Damit ist das Rauschspektrum mit dem Betragsquadrat der Transfer-funktion der Faltungsoperation zu multiplizieren. Mit den (4.36) und(4.38) haben wir alles an der Hand, um die Veränderungen der statisti-schen Parameter eines Signals (Varianz, Autokovarianzmatrix und Leis-tungsspektrum des Rauschens) durch eine Filteroperation bestimmenzu können. Aus (4.38) folgt unmittelbar, dass (4.36) nicht nur für 1D-Signale, sondern auch für Signale beliebiger Dimension gilt.

4.3 Rangordnungsfilter

Die Überlegungen, wie Pixel kombiniert werden können, haben uns zudem mächtigen Konzept linearer verschiebungsinvarianter Systeme ge-führt. Damit haben wir aber noch nicht alles gelernt, was wir für diesenTyp von Bildverarbeitungsoperationen brauchen. Es gibt eine weitereKlasse von Operationen, die nach einem völlig anderen Prinzip arbeiten.

Eine Faltung mit einer Filtermaske kann durch Wichten und Addie-ren charakterisiert werden. Die Operation zur Kombination benachbar-ter Pixel, die wir jetzt betrachten, ist durch Vergleichen und Selektieren


n

m

n

m

34 37 36

33 36

36 32 35

39 33 32 35 36 31

35 33 34

34 34 32

32 36 35

33 31 36 34 31 32

36

sortierte Liste

Eingangsbild Ausgangsbild

34 37 36

33 36

36 32 35

39 33 32 35 36 31

35 33 34

34 34 32

32 36 35

33 31 36 34 31 32

98

35 36 36 36 37 9832 33 34

Abbildung 4.3: Illustration des Prinzips eines Rangordnungsfilters mit einem3× 3-Medianfilter.

charakterisiert. Solche Filter werden Rangordnungsfilter (englisch: rankvalue filter ) genannt. Sie sortieren alle Grauwerte der Pixel, die innerhalbder Filtermaske liegen, in aufsteigender Reihenfolge. Dieser Sortiervor-gang ist charakteristisch für alle Rangordnungsfilter. Sie unterscheidensich nur durch die Position in der Liste, von welcher der Grauwert ge-nommen und in das zentrale Pixel zurückgeschrieben wird. DiejenigeFilteroperation, die den Mittelwert selektiert, wird Medianfilter genannt.Abbildung 4.3 illustriert, wie ein Medianfilter funktioniert. Die Filter, diedas Minimum bzw. das Maximum selektieren, werden als Minimum- bzw.Maximumfilter bezeichnet.

Das Medianfilter ist ein nichtlinearer Operator. Der Einfachheit hal-ber betrachten wir einen eindimensionalen Fall mit einem dreielemen-tigen Medianfilter. Es ist einfach, zwei Vektoren zu finden, für die dasMedianfilter nicht linear ist. Zuerst wenden wir das Medianfilter auf dieSumme zweier Signale an und erhalten

M ([· · · 0 1 0 0 · · · ]+ [· · · 0 0 1 0 · · · ]) = [· · · 0 1 1 0 · · · ] .

Dann wenden wir das Medianfilter zuerst auf die beiden Komponentenan und addieren anschließend die beiden Ergebnisse:

M [· · · 0 1 0 0 · · · ]+M [· · · 0 0 1 0 · · · ] = [· · · 0 0 0 0 · · · ] .

Die beiden Rechenmethoden führen zu unterschiedlichen Ergebnissen.Das beweist, dass das Medianfilter nichtlinear ist.

Zwischen Faltungsfiltern und Rangordnungsfiltern bestehen einigesignifikante Unterschiede. Der Wesentlichste ist, dass Rangordnungs-filter zur Klasse der nichtlinearen Filter gehören. Demnach sind ihregrundlegenden Eigenschaften sehr viel schwerer zu verstehen. Da Rang-ordnungsfilter keine arithmetischen Operationen durchführen, sondern

4.4 LSI-Filter: Weitere Eigenschaften 127

Pixel selektieren, werden uns Rundungsprobleme nicht begegnen. DieseFilter bilden eine diskrete Menge von Grauwerten auf sich selbst ab.

4.4 LSI-Filter: Weitere Eigenschaften

4.4.1 Faltung, Linearität und Verschiebungsinvarianz

Im Abschn. 4.2.4 sahen wir, dass die Faltung ein linearer, verschiebungsinvari-anter Operator ist. Ist aber auch der Umkehrschluss wahr, dass jeder lineare,verschiebungsinvariante Operator ein Faltungsoperator ist? Diese Aussage wol-len wir in diesem Abschnitt beweisen.

Von unseren Überlegungen in Abschn. 4.2.5 her sind wir bereits mit der Punkt-oder Impulsantwort kontinuierlicher oder diskreter Operatoren vertraut. Hierführen wir die formale Definition der Punktantwort für einen Operator H aufeinem M ×N-dimensionalen Vektorraum ein:

H =H 00P. (4.39)

Nun können wir die Linearität (4.16) und Verschiebungsinvarianz (4.18) desOperators H und die Definition der Impulsantwort (4.39) verwenden, um dasErgebnis des Operators auf ein beliebiges Bild G im Ortsraum zu berechnen:

(HG)mn =⎡⎣H

⎡⎣M−1∑m′=0

N−1∑n′=0

gm′n′ m′n′P

⎤⎦⎤⎦mn

mit (4.16)

=⎡⎣M−1∑m′=0

N−1∑n′=0

gm′n′H m′n′P

⎤⎦mn

Linearität

=⎡⎣M−1∑m′=0

N−1∑n′=0

gm′n′H m′n′S 00P

⎤⎦mn

mit (4.17)

=⎡⎣M−1∑m′=0

N−1∑n′=0

gm′n′ m′n′SH 00P

⎤⎦mn

=⎡⎣M−1∑m′=0

N−1∑n′=0

gm′n′ m′n′SH

⎤⎦mn

mit (4.39)

=M−1∑m′=0

N−1∑n′=0

gm′n′hm−m′,n−n′ mit (4.17)

=M−1∑m′′=0

N−1∑n′′=0

gm−m′′,n−n′′hm′′,n′′m′′ =m−m′

n′′ = n−n′ .

Diese Berechnungen belegen, dass ein linearer verschiebungsinvarianter Ope-rator immer eine Faltungsoperation im Ortsraum ist. Es gibt keinen anderenOperatortyp, der sowohl linear als auch verschiebungsinvariant ist.


4.4.2 Inverse Operatoren

Können wir Filteroperationen umkehren? Diese Frage ist wichtig, da Bildverän-derungen wie Unschärfe durch Bewegung oder durch schlecht fokussierte Optikauch als Filteroperationen betrachtet werden können (Abschn. 7.6.1). Wenn eininverser Operator existiert und wenn wir die Punktantwort kennen, kann dasungestörte Original rekonstruiert werden. Das Problem der Umkehrung einerFilteroperation wird als Entfaltung oder inverse Filterung bezeichnet.

Betrachten wir die Filteroperation im Fourierraum, erkennen wir sofort, dass wirnur solche Wellenzahlen rekonstruieren können, für welche die Transferfunk-tion des Filters nicht verschwindet. In der Praxis sind wir wegen der Quanti-sierung der Grauwerte (Abschn. 9.5) und wegen des zusätzlichen Rauschens imBild weit mehr beschränkt. Wird eine Wellenzahl unter einen kritischen Wert,der vom Rauschen und von der Quantisierung abhängt, abgeschwächt, ist dasBild nicht mehr wiederherstellbar. Es ist klar, dass diese Bedingungen den Er-folg einer inversen Filterung beträchtlich reduzieren. Das Problem der inversenFilterung wird in Abschn. 17.5 weiter vertieft.

4.4.3 Eigenfunktionen

Als Nächstes interessiert uns die Frage, ob es spezielle Typen von Bildern Egibt, die, mit Ausnahme der Multiplikation mit einem Skalar, durch einen li-nearen verschiebungsinvarianten Operator nicht verändert werden. Es ist klar,dass solche Bilder eine besondere Bedeutung für lineare verschiebungsinvari-ante Operatoren haben müssen. Mathematisch ausgedrückt heißt das:

HE = λE. (4.40)

Ein Vektor (Bild), der (das) diese Bedingung erfüllt, wird Eigenvektor (Eigenbild)oder charakteristischer Vektor des Operators genannt. Der Skalierungsfaktor λist ein Eigenwert oder charakteristischer Wert des Operators.

Um die Eigenbilder linearer verschiebungsinvarianter Operatoren herauszufin-den, betrachten wir den Verschiebungsoperator S. Es ist offensichtlich, dass esfür reelle Bilder nur ein einfaches Eigenbild gibt, nämlich ein konstantes Bild.Für komplexe Bilder gibt es jedoch einen ganzen Satz von Eigenbildern. Dieswird klar, wenn wir die Verschiebungseigenschaft der komplexen Exponential-funktion

uvwmn = exp(

2π imuM

)exp

(2π invN

)(4.41)

betrachten, die gegeben ist durch

klS uvW = exp(−2π iku

M

)exp

(−2π ilv

N

)uvW . (4.42)

Die letzte Gleichung besagt direkt, dass die komplexe Exponentialfunktion uvWEigenfunktion des Verschiebungsoperators ist. Die Eigenwerte sind komplexePhasenfaktoren, die von den Wellenzahlindizes (u,v) und von der Verschie-bung (k, l) abhängen. Beträgt die Verschiebung eine Wellenlänge, also (k, l) =(M/u,N/v), reduziert sich der Phasenfaktor, wie erwartet, auf eins.

Nun wollen wir wissen, ob jeder lineare verschiebungsinvariante Operator solcheinen Satz von Eigenbildern besitzt. Tatsächlich haben alle LSI-Operatoren den

4.5 Rekursive Filter 129

gleichen Satz von Eigenbildern. Mithilfe des Faltungstheorems (Abschn. 2.3,Theorem 2.4, S. 56) können wir diese Aussage beweisen. Es besagt, dass eineFaltung eine punktweise Multiplikation im Fourierraum ist. Daher wird jedesElement der Bildrepräsentation im Fourierraum guv mit dem komplexen Ska-lar huv multipliziert. Jeder Punkt im Fourierraum repräsentiert ein Basisbilddes Fourierraums, nämlich die komplexe Exponentialfunktion uvW aus (4.41),multipliziert mit dem Skalar guv . Daher ist diese Funktion Eigenfunktion jedesFaltungsoperators. Die Eigenwerte sind damit die Elemente der Transferfunkti-on huv . Zusammenfassend können wir also schreiben:

H (Guv uvW) = huvguv uvW . (4.43)

Die Tatsache, dass die Eigenfunktionen der LSI-Operatoren die Basisfunktionendes Fourierraums sind, erklärt, warum sich die Faltung im Fourierraum durcheine einfache Multiplikation ausdrücken lässt, und unterstreicht die zentraleBedeutung der Fouriertransformation für die Bildverarbeitung.

4.5 Rekursive Filter

4.5.1 Einleitung

Da die Faltung eine rechenintensive Operation ist, ist es sinnvoll zu fragen, obnicht die Ergebnisse der Faltungsoperation an benachbarten Punkten in die Be-rechnung der Faltung für den nächsten Punkt mit einbezogen werden können.Auf diese Weise könnte es möglich sein, eine Faltung mit weniger Rechenope-rationen zu berechnen. Das könnte dazu führen, eine Faltung schneller undflexibler durchzuführen. Leider ist jedoch eine solche Filteroperation, ein re-kursives Filter , viel schwieriger zu verstehen und anzuwenden, vor allem inhöheren Dimensionen.

Um einen ersten Einblick zu gewinnen, betrachten wir ein ganz einfaches Bei-spiel. Das einfachste eindimensionale rekursive Filter, das wir uns denken kön-nen, hat die Form

g′n = αg′n−1 + (1−α)gn. (4.44)

Das Filter nimmt den Bruchteil 1−α von der vorangegangenen Berechnung undden Bruchteil α vom aktuellen Pixel. Damit arbeiten rekursive Filter im Gegen-satz zu nichtrekursiven in eine bestimmte Richtung, in unserem Beispiel vonlinks nach rechts. Für eine Zeitserie erscheint eine Vorzugsrichtung natürlich,da der augenblickliche Wert nur von vergangenen abhängen kann. Ein Filter, dasnur von früheren Werten des Signals abhängt, wird als kausales Filter bezeich-net. Für räumliche Signale gibt es jedoch keine Vorzugsrichtung, und damithaben kausale Filter keinen Sinn. Wir müssen daher Wege finden, um Filtermit gerader und ungerader Symmetrie, wie sie für die Bildverarbeitung benötigtwerden, aus rekursiven Filtern zu konstruieren.

Bei rekursiven Filtern ist die Punktantwort oder Impulsantwort nicht gleich derFiltermaske, sondern sie muss durch Rekursion berechnet werden. Aus (4.44)können wir die Punktantwort des Filters als Antwort des Filters auf die diskreteDeltafunktion

δn =

1 n = 0

0 n ≠ 0(4.45)


a

0 5 10 15 200

0.1

0.2

0.3

0.4

0.5

n

b

0 10 20 30 400

0.02

0.04

0.06

0.08

0.1

n

Abbildung 4.4: Punktantwort des rekursiven Filters g′n = αg′n−1+ (1−α)gn füra α = 1/2 und b α = 15/16.

berechnen (Abschn. 4.2.5). Durch wiederholte Anwendung von (4.44) erhaltenwir

g′−1 = 0, g′0 = 1−α, g′1 = (1−α)α, . . . , g′n = (1−α)αn. (4.46)

Diese Gleichung zeigt drei generelle Eigenschaften rekursiver Filter:

• Erstens ist die Punktantwort trotz einer endlichen Filtermaske unendlich aus-gedehnt (Abb. 4.4). Für |α| < 1 fällt sie exponentiell ab, wird aber nie exaktnull. Im Gegensatz dazu haben nichtrekursive Faltungsfilter immer eine end-lich ausgedehnte Punktantwort, die so lang ist wie die Filtermaske. Daherwerden diese beiden Typen von Filtern manchmal Finite Impulse Response-Filter (FIR-Filter ) bzw. Infinite Impulse Response-Filter (IIR-Filter ) genannt.

• FIR-Filter sind immer stabil . Ein stabiles Filter hat eine endliche Impulsant-wort. Das ist gleich bedeutend damit, dass für jedes endliche Signal dasFilterergebnis endlich ist. Im Gegensatz dazu kann die Punktantwort einesIIR-Filters unendlich sein. Die Stabilität eines rekursiven Filters hängt vonden Filterkoeffizienten ab. Das Filter in (4.44) ist instabil für |α| > 1, da danndie Punktantwort divergiert. In dem einfachen Fall von (4.44) ist es trivial,die Instabilität eines Filters zu erkennen. Im Allgemeinen ist dies jedoch vielschwieriger, insbesondere für höherdimensionale rekursive Filter.

• Jedes rekursive Filter kann ersetzt werden durch ein nichtrekursives Filter miteiner unendlich großen Maske, die der Punktantwort des rekursiven Filtersentspricht. Der Umkehrschluss ist nicht möglich. Für alle nichtrekursivenFilter mit endlicher Filtermaske gibt es z. B. kein entsprechendes rekursivesFilter.

4.5.2 Transferfunktion, z-Transformation und Filterstabilität

Nach diesem einführenden Beispiel können wir uns in allgemeiner Weise mit denrekursiven Filtern befassen. Bei rekursiven Filtern fließen immer die Ergebnissevorangegangener Berechnung in die aktuelle Berechnung ein. Dadurch werdensie direktional. Wir beschränken uns hier auf 1-D Filter. Die allgemeine Formel


eines von links nach rechts laufenden Filters lautet

g′n = −S∑

n′′=1

an′′g′n−n′′ +R∑

n′=−Rhn′gn−n′ (4.47)

Die Nachbarschaft des nichtrekursiven Teils (Koeffizienten h) ist symmetrischum den zentralen Punkt. Der rekursive Teil (Koeffizienten a) benutzt nur früherberechnete Werte. Ein solches Filter heißt kausal .

Wenn wir den rekursiven Teil des Filters auf die linke Seite der Gleichung stel-len, dann sehen wir, dass ein rekursives Filter folgender Differenzengleichungäquivalent ist, die auch unter dem Namen ARMA(S,R)-Prozess (autoregressivemoving average process) bekannt ist:

S∑n′′=0

an′′g′n−n′′ =R∑

n′=−Rhn′gn−n′ mit a0 = 1. (4.48)

Die Transferfunktion eines solchen Filters mit einem rekursiven und nichtre-kursiven Teil kann durch Anwendung der diskreten Fouriertransformation (Ab-schn. 2.3.2) unter Anwendung des Verschiebungstheorems (Theorem 2.3, S. 55)berechnet werden. Die Rechnung ergibt:

g′(k)S∑

n′′=0

an′′ exp(−2π in′′k) = g(k)R∑

n′=−Rhn′ exp(−2π in′k). (4.49)

Daher ergibt sich die Transferfunktion zu

h(k) = g′(k)g(k)

=

R∑n′=−R

hn′ exp(−2π in′k)

S∑n′′=0

an′′ exp(−2π in′′k)

. (4.50)

Die Eigenschaften der Transferfunktion werden durch die Nullstellen des Zäh-lers und Nenners bestimmt. Eine Nullstelle im nichtrekursiven Teil führt zueiner Nullstelle der Transferfunktion, d. h. einem Verschwinden der entspre-chenden Wellenzahl, während eine Nullstelle im rekursiven Teil zu einem Pol,d. h. einer unendlichen großen Transferfunktion führt.

Eine Bestimmung der Nullstellen und damit eine Analyse der Transferfunktionist in der Form von (4.50) nicht möglich. Sie bedarf einer Erweiterung, die ähn-lich der von reellen zu komplexen Zahlen bei der Einführung der Fouriertrans-formation (Abschn. 2.3.2) ist. Sowohl der Nenner als auch der Zähler enthaltenPolynome mit der komplexen Exponentialfunktion exp(2π ik) der Form

S∑n=0

an (exp(−2π ik))n . (4.51)

Diese haben den Betrag eins und liegen damit auf dem Einheitskreis in der kom-plexen Ebene. Die Nullstellen des Polynoms müssen aber nicht auf dem Einheits-kreis liegen, sondern können eine beliebige komplexe Zahl sein. Deshalb ist es


sinnvoll, die Polynome so zu erweitern, dass sie die gesamte komplexe Ebeneausfüllen. Dies ist möglich durch den Ausdruck z = r exp(2π ik), der einenKreis mit dem Radius r in der komplexen Ebene beschreibt.

Mit dieser Erweiterung erhalten wir Polynome der komplexen Zahl z. Dannkönnen wir den Fundamentalsatz der Algebra anwenden, der besagt, dass jedesPolynom vom Grad N in N Faktoren zerlegt werden kann, die die Nullstellenenthalten:

N∑n=0

anzn = aNzNN∏n=1

(1− rnz−1

). (4.52)

Mit Hilfe von (4.52) kann der rekursive und der nichtrekursive Anteil der Poly-nome in der Transferfunktion in folgende Produkte zerlegt werden:

S∑n=0

anz−n = z−SS∑

n′=0

aS−n′zn′ =

S∏n=1

(1− dnz−1

),

R∑n=−R

hnz−n = z−R2R∑n′=0

hR−n′zn′ = h−RzR

2R∏n=1

(1− cnz−1

).

(4.53)

Damit können wir die Transferfunktion mit z = exp(2π ik) schreiben als

h(z) = h−RzR

2R∏n′=1

(1− cn′z−1)

S∏n′′=1

(1− dn′′z−1)

. (4.54)

Jeder der Faktoren cn′ und dn′′ ist eine Nullstelle des entsprechenden Polynoms(z = cn′ oder z = dn′′ ).Die Integration des Faktors r in die erweiterte Transferfunktion führt zu einerErweiterung der diskreten Fouriertransformation, der z-Transformation, die de-finiert ist durch

g(z) =∞∑

n=−∞gnz−n. (4.55)

Die z-Transformation von gn kann als die Fouriertransformation der erweiter-ten Folgegnr−n betrachtet werden [138]. Die z-Transformation ist der Schlüsselzum Verständnis eindimensionaler rekursiver Filter. Sie ist das diskrete Gegen-stück zur Laplacetransformation. Eine detaillierte Darstellung der z-Transfor-mation ist bei Oppenheim und Schafer [166, 167] und Poularikas [174] zu finden;die 2D-z-Transformation ist in Lim [138] behandelt.

Nun schauen wir uns die Transferfunktion genauer an. Die Zerlegung der Trans-ferfunktion in ein Produkt ist ein großer Vorteil, da wir jeden Faktor als ein ei-genes Filter betrachten können und damit jedes beliebig komplizierte rekursiveFilter in viele einfache, hintereinander ausführbare Filter zerlegt haben. DieseFaktoren haben die Form

fn(k) = 1− dn exp(−2π ik). (4.56)

Da die Impulsantwort des Filters reell ist, muss die Transferfunktion hermiteschsein, d. h. f(−k) = f∗(k). Das kann nur der Fall sein, wenn die Nullstellen


dn reell sind oder wenn es Paare konjugiert komplexer Nullstellen gibt (dn′′ =d∗n′ ). Daraus können wir sofort schließen, dass es nur zwei grundlegende Typenrekursiver Filter gibt, das Relaxationsfilter und das Resonanzfilter . Sie werdenim Detail in den Abschn. 4.5.5 und 4.5.6 diskutiert.

4.5.3 Höherdimensionale rekursive Filter

Rekursive Filter können auch für höherdimensionale Signale geschrieben wer-den mit ähnlichen Gleichungen wie in (4.47). Ebenso ergeben sich für die Trans-ferfunktion und die z-Transformation ähnliche Gleichungen wie in (4.50). Es istjedoch im Allgemeinen nicht möglich, die z-Transformation höherdimensiona-ler rekursiver Filter wie in (4.54) zu faktorisieren [138]. Aus (4.54) können wirsofort schließen, dass es möglich ist, separierbare Filter zu zerlegen, da danndie höherdimensionalen Polynome Produkte von 1D-Polynomen sind. Wegendieser inhärenten mathematischen Probleme werden wir uns im Folgenden aufrekursive 1D-Filter beschränken.

4.5.4 Symmetrische rekursive Filter

Kausale rekursive Filter sind nützlich für die Echtzeitverarbeitung von Zeitseri-en. Für die Verarbeitung räumlicher Signale sind sie jedoch wenig sinnvoll. Esgibt kein „vorher“ und „nachher“ bei räumlichen Daten. Schlimmer noch ist diesignalabhängige Verschiebung, die mit kausalen rekursiven Filtern einhergeht.Mit einem einzigen rekursiven Filter ist es unmöglich, mit einer reellen gera-den Transferfunktion einen so genannten nullphasigen Filter zu konstruieren.Daher müssen wir mehrere rekursive Filter miteinander kombinieren. DieseKombination sollte entweder in einem Filter mit gerader Symmetrie und reellerTransferfunktion resultieren, das sich für die Glättung eignet, oder in einemFilter mit ungerader Symmetrie und rein imaginärer Transferfunktion, das sichzur Änderungsdetektion eignet (Abschn. 2.3.4).

Wir beginnen mit einem kausalen 1D-Filter, dessen Transferfunktion wir in denReal- und Imaginärteil zerlegen:

+h(k) = a(k)+ ib(k). (4.57)

Das hochgestellte “+” soll angeben, dass das Filter in positive Richtung aus-geführt wird. Die Transferfunktion des gleichen Filters, das aber in die ent-gegengesetzte Richtung läuft, hat eine ähnliche Transferfunktion. Wegen derRichtungsumkehr muss k durch −k ersetzt werden. Da die Transferfunktioneiner reellen PSF hermitesch ist (Abschn. 2.3.4), muss gelten, dass a(−k) = a(k)und b(−k) = −b(k), und wir erhalten

−h(k) = a(k)− ib(k). (4.58)

Bei Umkehrung der Laufrichtung des Filters ändert nur der Imaginärteil derTransferfunktion sein Vorzeichen.

Wir haben nun drei Möglichkeiten, die beiden Transferfunktionen (4.57) und(4.58) miteinander zu kombinieren, sodass wir entweder eine rein reelle oder


a

log k~

31/32

15/16

7/8.3/4

.1/2

b

-1/2

-1/4

k~

-1/16

-1/8

Abbildung 4.5: Transferfunktion des Relaxationsfilters g′n = αg′n∓1 + (1−α)gnhintereinander in Vorwärts- und Rückwärtsrichtung angewandt für a positiveund b negative Werte von α, wie angegeben.

rein imaginäre Transferfunktion erhalten:

Addition: eh(k) = 12

(+h(k)+ −h(k)

)= a(k),

Subtraktion: oh(k) = 12

(+h(k)− −h(k)

)= ib(k),

Multiplikation: h(k) = +h(k)−h(k) = a2(k)+ b2(k).

(4.59)

Addition und Multiplikation (Hintereinanderausführung) des nach rechts undlinks laufenden Filters ergeben ein Filter mit reeller Transferfunktion und gera-der Symmetrie. Die Subtraktion führt zu einem Filter mit ungerader Symmetrieund einer rein imaginären Transferfunktion.

4.5.5 Relaxationsfilter

Das in Abschn. 4.5.1 besprochene einfache rekursive Filter

g′n = a1g′n∓1 + h0gn mit a1 = α, h0 = (1−α) (4.60)

mit der Punktantwort

±r±n =(1−α)αn n ≥ 0

0 sonst(4.61)

ist ein Relaxationsfilter . Die Transferfunktion des Filters, das in Vorwärts- oderRückwärtsrichtung läuft, ergibt sich aus (4.50) mit (4.60) unmittelbar zu

±r (k) = 1−α1−α exp(∓π ik)

mit α ∈ R. (4.62)

Die Transferfunktion (4.62) ist komplex und kann in Real- und Imaginärteil auf-geteilt werden:

±r (k) = 1−α1− 2α cosπk+α2

[(1−α cosπk)∓ iα sinπk

]. (4.63)


R

Ui C U0Ui U0black box

RL

Ui C U0

a b c

Abbildung 4.6: Analoges Filter für Zeitserien. a Schwarzer-Kasten-Modell: EinSignal Ui wird am Eingang eines unbekannten Systems angelegt und das Aus-gangssignal Uo gemessen. b Ein Widerstands-Kondensator-Schaltkreis als einfa-ches Beispiel eines analogen Tiefpassfilters. c Gedämpfter Schwingkreis beste-hend aus einer Induktivität L, einem Widerstand R und einer Kapazität C .

Nach (4.59) können wir daraus die Transferfunktion r für das resultierendesymmetrische Filter berechnen, wenn wir das Relaxationsfilter hintereinandervorwärts und rückwärts laufen lassen:

r (k) = +r (k)−r (k) = (1−α)21− 2α cosπk+α2

= 1

(1+ β)− β cosπk(4.64)

mit

β = 2α(1−α)2 und α = 1+ β− √

1+ 2ββ

.

Nach (4.61) ist das Relaxationsfilter stabil für |α| < 1. Die Konstante β mussdaher in dem Interval ] − 1/2,∞[ liegen. Die Transferfunktion ist eins für dieWellenzahl 0 und kann für kleine Wellenzahlen mit einer Taylorreihenentwick-lung approximiert werden durch

r (k) ≈ 1− α(1−α)2 (πk)

2 + α((1+ 10α+α2)12(1−α2)2

(πk)4. (4.65)

Für positive α ist das Filter ein Glättungsfilter (Tiefpass, Abb. 4.5a). Die Stärkeder Glättung kann durch den Parameter α eingestellt werden. Wenn α gegen 1geht, wird die Glättungsdistanz unendlich. Für negative α verstärkt das Filterhohe Wellenzahlen (Abb. 4.5b).

Dieses Filter ist das diskrete Analogon zu der Differenzialgleichung erster Ord-nung y+τy = 0, die einem diskreten Relaxationsprozess mit einer Einstellzeitτ = −∆t/ lnα entspricht.

Ein Beispiel dafür ist ein einfacher Schaltkreis bestehend aus einer Hinterein-anderschaltung eines Widerstands R und eines Kondensators mit der KapazitätC (Abb. 4.6b). Die Differenzialgleichung für dieses Filter ergibt sich aus derKirchhoffschen Stromsummenregel. Der Strom durch den Widerstand mit derSpannungsdifferenz Ui−Uo muss gleich dem Strom sein, der in den Kondensa-tor fließt. Da dieser proportional zu der zeitlichen Änderung des Potenzials Uoist, erhalten wir folgende Differenzialgleichung erster Ordnung:

Ui −UoR

= C ∂Uo∂t

(4.66)

mit der Zeitkonstante τ = RC .


a

0 0.2 0.4 0.6 0.8 10

1

2

3

4

5

6

78

15/16

7/8

3/4

1/2

~k

b

0 0.2 0.4 0.6 0.8 1-3.5

-3

-2.5

-2

-1.5

-1

-0.515/16

7/8

3/41/2

π / 2

π

ϕ

~k

Abbildung 4.7: a Betrag und b Phasenverschiebung der Transferfunktion desResonanzfilters nach (4.67) für k0 = 1/4 und Werten für r wie angegeben.

4.5.6 Resonanzfilter

Der zweite grundsätzliche Typ eines rekursiven Filters, der sich aus der Dis-kussion der Transferfunktion in Abschn. 4.5.2 ergab, hat ein Paar konjugiertkomplexer Nullstellen r exp(±iπk0). Daher lautet die Transferfunktion für einvorwärts- und rückwärts laufendes Filter

±s(k) = 1

(1− r exp(iπk0) exp(∓iπk))(1− r exp(−iπk0) exp(∓iπk))

= 1

1− 2r cos(πk0) exp(∓iπk)+ r 2 exp(∓2iπk).

(4.67)

Die zweite Zeile zeigt, dass das rekursive Filter die Koeffizienten h0 = 1, a1 =−2r cos(πk0) und a2 = r 2 hat:

g′n = gn + 2r cos(πk0)g′n∓1 − r 2g′n∓2. (4.68)

Aus der Transferfunktion (4.67) schließen wir, dass das Filter ein Bandpassfil-ter ist mit einer Durchlasswellenzahl von ±k0 (Abb. 4.7). Für r = 1 hat dieTransferfunktion zwei Pole bei k = ±k0.

Nach Oppenheim und Schafer [167] ergibt sich die Punktantwort zu

h±n =⎧⎪⎨⎪⎩

rn

sinπk0sin[(n+ 1)πk0] n ≥ 0

0 n < 0. (4.69)

Damit verhält sich das Filter wie ein gedämpfter Oszillator. Der Parameterk0 gibt die Wellenzahl der Oszillation an und der Parameter r die Dämpfung(Abb. 4.8). Das Filter ist nur stabil, wenn r ≤ 1.

Wenn wir dieses Filter hintereinander vor- und rückwärts laufen lassen, ergibtsich ein Filter mit reeller Transferfunktion s(k) = +s(k)−s(k):

s(k) = 1(1− 2r cos[π(k− k0)]+ r 2

)(1− 2r cos[π(k+ k0)]+ r 2

) . (4.70)


a

0 5 10 15 20-1

-0.75

-0.5

-0.25

0

0.25

0.5

0.75

1

n

b

0 10 20 30 40-1

-0.75

-0.5

-0.25

0

0.25

0.5

0.75

1

n

Abbildung 4.8: Punktantwort des rekursiven Resonanzfilter nach (4.68) füra k0 = 1/4, r = 3/4 und b k0 = 1/4, r = 15/16.

Die Transferfunktion können wir normalisieren, sodass der maximale Wert beider Durchlasswellenzahl eins wird, indem wir den nicht rekursiven Filterkoeffi-zienten h0 = (1 − r 2) sin(πk0) setzen. Dann ergibt sich folgende modifizierteRekursionsgleichung:

g′n = (1− r 2) sin(πk0)gn + 2r cos(πk0)g′n∓1 − r 2g′n∓2. (4.71)

Aus Symmetriegründen werden die Filterkoeffizienten besonders einfach, wenndie Resonanzwellenzahl k0 = 1/2. Dann sind nur noch zwei Filterkoeffizientenungleich null:

g′n = (1− r 2)gn − r 2g′n∓2 = gn − r 2(gn + g′n∓2), (4.72)

und die Transferfunktion vereinfacht sich zu

s(k) = (1− r 2)2

1+ r 4 + 2r 2 cos(2πk). (4.73)

Bei k = 1/2 erreicht die Transferfunktion den maximalen Wert von 1 und beik = 0 und k = 1 den minimalen Wert [(1− r 2)/(1+ r 2)]2.

Das Resonanzfilter ist das diskrete Analogon zu einem gedämpften harmoni-schen Oszillator wie der LRC-Schaltkreis in Abb. 4.6c, der mit folgender Diffe-renzialgleichung zweiter Ordnung beschrieben werden kann:

y + 2τy +ω20y = 0. (4.74)

Die Kreisfrequenz ω0 und die Dämpfungskonstante τ des Oszillators sind mitden Parametern des diskreten Resonanzfilters, r und k0, durch folgende Bezie-hungen verknüpft [99]:

r = exp(−∆t/τ) und k0 =ω0∆t/π. (4.75)

4.5.7 LSI-Filter und Systemtheorie

Das letzte Beispiel des gedämpften Oszillators illustriert, dass eine enge Bezie-hung zwischen diskreten Filteroperationen und analogen physikalischen Syste-men besteht. Digitale Filter spiegeln damit reale physikalische Prozesse wieder.


Sie modellieren, wie das entsprechende System auf ein gegebenes Eingangssi-gnal g reagieren würde. Tatsächlich werden wir diese Äquivalenz bei der Dis-kussion der Bilderzeugung in Kapitel 7 nutzen und sehen, dass die Bildauf-nahme mit einem homogenen optischen System vollkommen durch eine Punkt-antwort definiert wird und dass der Bildaufnahmeprozess damit durch eineFaltung beschrieben werden kann. Optische Abbildungen zusammen mit phy-sikalischen Systemen wie elektrischen Filtern und Oszillatoren aller Art könnenals physikalische Realisierungen eines abstrakten Prozesses oder Systems be-trachtet werden. Solche Systeme heißen lineare verschiebungsinvariante Syste-me (englisch: linear shift-invariant system oder kurz LSI ).

Diese Verallgemeinerung ist für die Bildverarbeitung sehr hilfreich, da wir so-wohl Bilderzeugung als auch Bildverarbeitung als Faltungsoperation mit dengleichen Formeln beschreiben können. Zusätzlich können die beobachteten Bil-der aus einem physikalischen Prozess stammen, der durch ein lineares ver-schiebungsinvariantes System modelliert werden kann. Die Methode, mit derherausgefunden wird, wie das System arbeitet, kann mithilfe des Modells desschwarzen Kastens (black box) illustriert werden (Abb. 4.6a).

Dieser Begriff steht für Systeme, deren inneren Aufbau oder — physikalischausgedrückt — Gesetze wir nicht kennen. Wir können solche Systeme unter-suchen, indem wir mit bestimmten Eingangssignalen testen und ihre Antwortdurch Messung von Ausgangssignalen beobachten. Stellt sich heraus, dass dasSystem linear ist, wird es vollständig durch eine Impulsantwort beschrieben.

Viele biologische und medizinische Experimente werden auf diese Weise durch-geführt. Biologische Systeme sind normalerweise so komplex, dass Forscher siemit Signalen stimulieren und die Antworten untersuchen, um ihre Funktions-weise herauszufinden und dafür Modelle aufzustellen. Ausgehend von solchenModellen können dann detaillierte Untersuchungen zur Funktion des Systemsdurchgeführt werden. Auf diese Weise wurden viele Eigenschaften biologischervisueller Systeme entdeckt. Vorsicht ist jedoch geboten, denn ein Modell istnicht die Realität. Es spiegelt nur die Aspekte wieder, die wir mit den angeleg-ten Signalen testen.

4.6 Übungsaufgaben

4.1: Generelle Eigenschaften von Faltungsoperatoren

Interaktive Demonstration der allgemeinen Eigenschaften linearer verschie-bungsinvarianter Filter (dip6ex04.01).

4.2: ∗1D-Faltung

Untersuchen Sie die folgenden 1D-Faltungsmasken:

a) 1/4[1 2 1]b) 1/4[1 0 2 0 1]c) 1/16[1 2 3 4 3 2 1]d) 1/2[1 0 − 1]e) [1 − 2 1]f ) [1 0 − 2 0 1]


Beantworten Sie die folgenden Fragen:1. Welche Symmetrie weisen die Faltungsmasken auf?2. Berechnen Sie die Transferfunktionen. Versuchen Sie, die Transferfunk-

tion unter Ausnutzung von trigonometrischen Formeln für halbe bzw.doppelte Winkel mit einer möglichst einfachen Formel wiederzugeben!

3. Prüfen Sie die berechneten Transferfunktionen, indem Sie die Maske aufeine konstante Grauwertstruktur (k = 0)

. . . 1 1 1 1 1 1 . . . ,

eine Grauwertstruktur mit maximal möglicher Wellenzahl (k = 1)

. . . 1 − 1 1 − 1 1 − 1 1 . . .

und eine Stufenkante

. . . 0 0 0 0 0 1 1 1 1 1 . . .

anwenden.

4.3: ∗∗2D-Faltung

Beantworten Sie die gleichen Fragen wie bei Aufgabe 4.2 für die folgenden2D-Faltungsmasken:

a)1

16

⎡⎢⎣ 1 2 1

2 4 21 2 1

⎤⎥⎦ , b)

18

⎡⎢⎣ 1 2 1

0 0 0−1 −2 −1

⎤⎥⎦ ,

c)14

⎡⎢⎣ 1 2 1

2 −12 21 2 1

⎤⎥⎦ , d)

14

⎡⎢⎣ 1 0 −1

0 0 0−1 0 1

⎤⎥⎦ .

Prüfen Sie, welche der Masken separabel ist, oder auf andere Art- und Weiseauf die in Aufgabe 4.2 genannten 1D-Faltungsmasken zurückgeführt wer-den kann. Sie sparen sich dadurch viel Rechenaufwand.

4.4: ∗Kommutativität und Assoziativität der Faltung

Rechnen Sie durch Anwendung der Faltungsmasken a) und d) aus Aufga-be 4.2 auf eine Stufenkante

. . . 0 0 0 0 0 1 1 1 1 1 . . .

nach, ob die Faltung kommutativ und assoziativ ist.

4.5: ∗Faltungsmasken mit gerader Anzahl von Koeffizienten

Auch bei Filtern mit einer geraden Anzahl (2R) von Filterkoeffizienten kannman Filter mit gerader und ungerader Symmetrie definieren, wenn man sichdas Faltungsergebnis auf Zwischengitterplätze geschrieben denkt. Die Fal-tungsmaske kann dann geschrieben werden als

[h−R, . . . , h−1, h1, . . . , hR].

Im Referenzteil (R11) werden die Formeln für die Transferfunktionen die-ser Filter für gerade und ungerade Symmetrie angegeben.


1. Beweisen Sie diese Formeln aus der allgemeinen Formel für die Transfer-funktion (4.23), indem Sie eine Verschiebung um eine halbe Gitterkon-stante anwenden.

2. Berechnen Sie die Transferfunktionen der beiden elementaren Faltungs-masken [1 1]/2 (Mittelwert zweier benachbarter Punkte) und [1 − 1](Differenz zweier benachbarter Punkte).

4.6: ∗∗ Manipulationen von Faltungsmasken

Untersuchen Sie, wie sich die Transferfunktion einer (2R + 1)-Faltungsmaskeverändert, wenn man die Koeffizienten in folgender Weise ändert:

1. Komplementärfilterh′n = δn − hn

Beispiel: Aus [1 1 1]/3 wird [−1 2 − 1]/32. Teilweise Vorzeichenumkehr

h′n =hn n gerade

−hn n ungerade.

Beispiel: Aus [1 2 1]/4 wird [−1 2 − 1]/43. Streckung

h′n =hn/2 n gerade

0 n ungerade

Beispiel: Aus [1 2 1]/4 wird [1 0 2 0 1]/4

4.7: ∗∗∗Inverse Operatoren zu Faltungen

Gibt es inverse Operatoren zu den folgenden Faltungsoperatoren?

a) 1/6[1 4 1]b) 1/4[1 2 1]c) 1/3[1 1 1]

Ist der inverse Operator (siehe Abschn. 4.4.2) wieder ein Faltungsoperator?Wenn ja, welche spezielle Struktur hat er?

4.8: ∗∗Veränderung der Statistik von 1D-Signalen durch Faltung

Berechnen Sie den Autokovarianzvektor einer unkorrelierten Zeitserie mitkonstanter Varianz σ 2 der einzelnen Elemente, die mit den Faltungsmas-ken a), d) und e) aus Aufgabe 4.2 gefaltet wurden. Interpretieren Sie dieErgebnisse, insbesondere die Varianz der Elemente der gefalteten Zeitserie.

4.9: Rekursive Relaxationsfilter

Interaktive Demonstration rekursiver Relaxationsfilter (dip6ex04.02).

4.10: Rekursive Resonanzfilter

Interaktive Demonstration rekursiver Resonanzfilter (dip6ex04.03).


4.11: ∗∗Stabilität rekursiver Filter

1. Welche der folgenden rekursiven Filter (Abschn. 4.5) sind stabil?

a) g′n = −1/4g′n−1 + 5/4gnb) g′n = 5/4g′n−1 − 1/4gnc) g′n = −1/4g′n−2 + 3/4gnd) g′n = −5/4g′n−2 − 1/4gn

Beantworten Sie die Frage durch Berechnung der Punktantwort.

2. Berechnen und skizzieren Sie die Transferfunktionen der Filter.

4.12: ∗∗Physikalische Systeme und rekursive Filter

Physikalische Systeme kann man als Realisierung rekursiver Filter auffas-sen. Berechnen Sie die Punktantworten (Impulsantwort) und Transferfunk-tionen folgender physikalischer Systeme

1. Zwei hintereinandergeschalteter elektrischer Tiefpassfilter mit einem Wi-derstand R und einer Kapazität C .

2. Ein Federpendel mit der Masse m, der Federkonstante D (K = Dx) undeinem Reibungskoeffizienten k (K = kdx/dt).

4.13: ∗∗ Bandpassfilter

Konstruieren Sie ein Bandpassfilter, das folgende Eigenschaft haben soll:

1. Die Durchlasswellenzahl soll die Wellenzahl k = 0.5.

2. Die Breite des Durchlassbereiches soll einstellbar sein.

Das Filter soll sowohl mit einem rekursiven als auch mit einem nicht rekursi-ven Filter konstruiert werden. (Hinweis: Betrachten Sie als Ausgangspunktfür die nicht-rekursive Implementierung die Transferfunktion des Filters[-1 0 2 0 1]/4. Wie können Sie dieses Filter benutzen, um einen engerenDurchlassbereich zu erhalten?)


Die klassischen Konzepte der diskreten Signalverarbeitung, insbesondere derrekursiven Filter, und die z-Transformation werden in einer Reihe von Standard-lehrbüchern behandelt, z. B. Kammeyer und Kroschel [114], Oppenheim undSchafer [167] oder Proakis und Manolakis [177]. Eine Abhandlung über zweidi-mensionale rekursive Filter ist in Lim [138] zu finden. Auch für die Grundlagender Systemtheorie gibt es viele gute Lehrbücher, wie z. B. Unbehauen [225]. Diemehrdimensionale und nichtlineare Systemtheorie wird von Unbehauen [226]behandelt. Nichtlineare Filter, insbesondere Medianfilter, werden von Huang[93] und Pitas und Venetsanopoulos [173] detailliert dargestellt.

5 Multiskalenrepräsentation

5.1 Skalen in der Signalverarbeitung

5.1.1 Einleitung

Die in Kapitel 4 diskutierten Nachbarschaftsoperationen können nur derAusgangspunkt für die Bildanalyse sein, da sie lediglich lokale Merkmalein der Größenordnung von höchstens einigen Pixeln extrahieren. Es istklar, dass Bilder auch großskalige Information enthalten. Zu ihrer Ex-traktion benötigen wir entsprechend größere Filtermasken. Allerdingserhöht sich der Rechenaufwand bei der Verwendung großer Filtermas-ken beträchtlich. Nutzen wir eine Maske der Größe RW in einem W -dimensionalen Bild, ist die Zahl der Rechenoperationen proportional zuRW . Eine Verdoppelung der Größe führt also zu einem Anstieg der Zahlder Rechenoperationen auf das Vier- und Achtfache bei zwei- bzw. drei-dimensionalen Bildern. Bei um den Faktor 10 größeren Skalen steigt dieZahl der Operationen bei zweidimensionalen Bildern um den Faktor 100und bei dreidimensionalen um den Faktor 1000.

Der starke Anstieg des Rechenaufwandes ist nur der oberflächlicheAusdruck eines viel tiefer liegenden Problems. Dies sei an einer einfa-chen Aufgabe, der Detektion von Kanten und Linien bei unterschiedli-chen Auflösungen, verdeutlicht. Dazu verwenden wir dieselbe Bildzeile,glätten sie jedoch unterschiedlich stark (Abb. 5.1). Dann definieren wirdie zugehörige Skala als die Distanz, über die das Bild geglättet wurde,und analysieren die Grauwertunterschiede benachbarter Punkte.

Zunächst untersuchen wir Grauwertunterschiede bei hoher Auflö-sung mit einer Schrittweite von nur einem Pixel (Abb. 5.1a, b). Bei dieserfeinen Skala werden die Grauwertunterschiede durch das Hintergrund-rauschen in der Bildzeile dominiert. Damit können Grauwertänderungendurch Kontrastunterschiede zwischen den Objekten und dem Hinter-grund nur schwer bestimmt werden. Dieses Problem hat seinen Grundin einer Skalenfehlanpassung: Die Grauwerte ändern sich über größereDistanzen, welche die Operatoren, die sie detektieren sollen, nicht erfas-sen.

Betrachten wir dagegen das Bild bei niedriger Auflösung, sehen wir,dass der Helligkeitsunterschied zum Hintergrund beträchtlich kleinerist. Daher können auch in diesem Fall die Linien nicht optimal detektiertwerden. Außerdem verschmelzen die beiden eng nebeneinander liegen-


144 5 Multiskalenrepräsentation

a

0 50 100 150 200 250100

120

140

160

180

200

220b

0 50 100 150 200 250-60

-40

-20

0

20

40

60

c

0 50 100 150 200 250100

120

140

160

180

200

220d

0 50 100 150 200 250-40-30-20-10010203040

e

0 50 100 150 200 250100

120

140

160

180

200

220f

0 50 100 150 200 250-20-15-10-505101520

Abbildung 5.1: Linien und Kanten bei a hoher, c mittlerer und e geringer Auflö-sung. b, d und f Differenz benachbarter Punkte zur Detektion von Kanten in a,c bzw. e.

den Linien im linken Teil zu einem Objekt. Bei einer Auflösung jedoch,die der Breite der Linien entspricht, lassen sie sich optimal detektieren(Abb. 5.1c, d). Hier ist das Rauschen deutlich geringer als bei der fei-nen Skala (Abb. 5.1a), und der Kontrast zwischen Linie und Hintergrundbleibt im Gegensatz zu Abb. 5.1e erhalten.

Dieses Beispiel zeigt, dass die Detektion bestimmter Merkmale in ei-nem Bild von der richtigen Skala abhängt. Diese wiederum hängt natür-lich von den charakteristischen Größen im zu detektierenden Objekt ab.Für die optimale Verarbeitung muss ein Bild also in unterschiedlichenSkalen vorliegen, was eine Darstellung in mehreren Auflösungsstufenvoraussetzt. In diesem Kapitel betrachten wir zunächst die Beziehungzwischen der räumlichen und der Wellenzahl-Darstellung von Bildernunter dieser Perspektive (Abschn. 5.1.2). Anschließend wenden wir unsin Abschn. 5.2 effizienten Mehrgitterdarstellungen wie der Gaußpyrami-de (Abschn. 5.2.2) und der Laplacepyramide (Abschn. 5.2.3) zu. Dannführen wir den Skalenraum als ein Konzept mit einem kontinuierlichen

5.1 Skalen in der Signalverarbeitung 145

Skalenparameter ein, diskutieren, wie er durch einen Diffusionsprozesserzeugt wird, und beschreiben seine grundlegenden Eigenschaften (Ab-schn. 5.3).

5.1.2 Räumliche und Wellenzahldarstellung

In Kapitel 2 haben wir die Darstellung von Bildern im Orts- und Wellen-zahlraum im Detail besprochen. In diesem Abschnitt werden wir beideFormen unter dem Aspekt der Erzeugung einer Skalenraumdarstellungeines Bildes betrachten.

Stellen wir ein Bild auf einem Gitter im Ortsraum dar, haben wir keineInformation über die Wellenzahlen in einem Bildpunkt. Wir kennen diePosition mit der Genauigkeit der Gitterkonstanten ∆x, aber die örtlicheWellenzahl an dieser Position kann im Bereich der möglichen Wellenzah-len zwischen 0 und M∆k = 2πM/∆x liegen.

Genau umgekehrt ist es bei der Wellenzahldarstellung. Jedes Pixelrepräsentiert eine Wellenzahl in der höchstmöglichen Wellenzahlauflö-sung bei einer gegebenen Bildgröße. Jede Information über die Positionim Raum ist jedoch verloren gegangen, da ein Punkt im Wellenzahlraumeine periodische Struktur repräsentiert, die über das gesamte Bild ver-teilt ist.

Diese Überlegungen zeigen, dass die Darstellung eines Bildes entwe-der im Orts- oder im Wellenzahlraum zwei gegensätzliche Extreme dar-stellt. Entweder haben wir eine optimale räumliche oder aber eine opti-male Wellenzahlauflösung, die jeweils entgegengesetzte Information istjedoch nicht mehr vorhanden. Was wir für eine Bilddarstellung im Ska-lenraum benötigen, ist eine Art Kombination beider Darstellungen, dieeine Trennung in unterschiedliche Wellenzahlbereiche (Skalen) erlaubtund dennoch die räumliche Auflösung so weit wie möglich erhält.

5.1.3 Lokale Fouriertransformation

Eine Möglichkeit, eine kombinierte Orts-/Wellenzahldarstellung zu er-reichen, ist die lokale Fouriertransformation. Wie die Bezeichnung aus-drückt, wird die Fouriertransformation nicht auf das gesamte Bild an-gewandt, sondern nur auf einen Bereich, der bei der Multiplikation desBildes mit einer Fensterfunktionw(x) entsteht. Die Fensterfunktion hatein Maximum bei x = 0 und geht monoton mit wachsendem |x| gegennull. Das Maximum der Fensterfunktion wird an jedem Punkt x positio-niert und eine lokale Fouriertransformation für jeden Punkt berechnet:

g(x,k0) =∞∫−∞g(x′)w(x′ − x) exp

(−2π ik0x′))

dx′2. (5.1)


Das Integral in (5.1) sieht fast wie ein Faltungsintegral aus ((2.54), R4).Um es in ein Faltungsintegral zu konvertieren, nutzen wir, dassw(−x) =w(x) und stellen den zweiten Teil von (5.1) um:

w(x′ − x) exp(−2π ik0x′

)= w(x − x′) exp

(2π ik0(x − x′)

)exp (−2π ik0x)) .

(5.2)

Dann können wir (5.1) als Faltung schreiben:

g(x,k0) = (g(x)∗w(x) exp (2π ik0x)) exp (−2π ik0x) . (5.3)

Die lokale Fouriertransformation entspricht also einer Faltung mit ei-nem komplexen Faltungskern w(x) exp(2π ik0x), mit Ausnahme einesPhasenfaktors exp(−2π ik0x). Unter Verwendung des Verschiebungs-theorems (Theorem 2.3, S. 55, R4) kann die Transferfunktion des Fal-tungskerns zu

w(x) exp (2π ik0x) • w(k− k0) (5.4)

berechnet werden. Das bedeutet, dass die Faltung ein Bandpassfilter miteinem Maximum bei der Wellenzahl k0 ist. Die Breite des Bandpassesist zur Breite der Fensterfunktion umgekehrt proportional. Auf dieseWeise stehen die Ortsraum- und die Wellenzahlauflösung miteinanderin Beziehung. Betrachten wir als Beispiel eine Gaußsche Fensterfunktionund die zugehörige Transferfunktion (R4, R5)

exp

(− x2

2σ 2x

) • 1√

2πσxexp

(−2π2k2σ 2

x

). (5.5)

Daher ist das Produkt der Varianzen im Orts- und im Wellenzahlraum(σ 2k = 1/(4πσ 2

x)) eine Konstante: σ 2xσ

2k = 1/(4π)). Dies stellt die klas-

sische Unschärferelation (Theorem 2.7, S. 59) dar. Sie besagt, dass dasProdukt der Varianzen jedes Fouriertransformationspaares größer odergleich 1/(4π) ist. Da die Gaußsche Fensterfunktion das theoretische Mi-nimum erreicht, ist sie optimal; eine bessere Wellenzahlauflösung lässtsich bei vorgegebener örtlicher Auflösung nicht erreichen.

5.2 Mehrgitterrepräsentation

5.2.1 Einführung

Wenn man Signale in unterschiedlichen Skalen verarbeiten will, dannkann dies am effektivsten in einer Mehrgitterdarstellung erfolgen. Diezugrunde liegende Idee ist einfach. Während die Darstellung feiner Ska-len die volle Auflösung erfordert, reicht für grobe Strukturen eine nied-rigere Auflösung. Dies führt zu einer Folge von Bildern, die von Stufe

5.2 Mehrgitterrepräsentation 147

zu Stufe immer kleiner werden. In den folgenden beiden Abschnittenwerden wir die Gaußpyramide (Abschn. 5.2.2) und die Laplacepyramide(Abschn. 5.2.3) diskutieren. In diesem Kapitel werden wir lediglich einigegrundlegende Ideen betrachten. Die zugehörigen Algorithmen werden inAbschn. 11.5 diskutiert, nachdem wir Glättungsfilter im Detail kennengelernt haben.

Gauß- und Laplacepyramide sind Beispiele von Mehrgitterdatenstruk-turen, die schon in den frühen 80er Jahren in die Bildverarbeitung ein-geführt wurden. Sie haben seitdem eine beträchtliche Beschleunigungvieler Bildverarbeitungsalgorithmen bewirkt.

5.2.2 Gaußpyramide

Wollen wir die Größe eines Bildes reduzieren, können wir das Bild nichteinfach abtasten, indem wir z. B. jeden zweiten Bildpunkt in jeder zwei-ten Zeile nehmen. Würden wir das tun, würde das Abtasttheorem miss-achtet (Abschn. 9.2.3). Zum Beispiel würde eine Struktur, die im Origi-nalbild dreimal pro Wellenlänge abgetastet wird, im nächsten Bild nuranderthalbmal abgetastet werden. Es würde sich ein fehlerhaftes Musterergeben, wie wir in Abschn. 9.1 besprechen werden. Also müssen wir si-cherstellen, dass alle weniger als viermal pro Wellenlänge abgetastetenStrukturen durch ein passendes Glättungsfilter unterdrückt werden. Fürdie Erzeugung eines Skalenraums bedeutet das, dass die Größenreduk-tion mit einer angemessenen Glättung Hand in Hand gehen muss.

Allgemein kann die Anforderung an das Glättungsfilter folgenderma-ßen formuliert werden:

B(k) = 0 ∀kp ≥ 1rp, (5.6)

wobei rp die Abtastrate in Richtung der p-ten Koordinate ist.Die kombinierte Glättung und Größenreduktion bei der Berechnung

der (q + 1)-ten Pyramidenebene aus der q-ten Ebene kann mit einemeinzigen Operator ausgedrückt werden, wenn wir die folgende Notationverwenden:

G(0) = G, G(q+1) = B↓2G(q). (5.7)

Die Zahl hinter dem ↓ im Index bezeichnet die Abtastrate. Die nullteEbene ist das Originalbild.

Die durch mehrmalige Anwendung dieses Operators erhaltene Bild-serie wird als Gaußpyramide bezeichnet. Von einer Ebene zur nächstennimmt die Auflösung auf die Hälfte ab, und die Größe des Bildes redu-ziert sich entsprechend. Wir können uns diese Bildserie, wie in Abb. 5.2gezeigt, in Form einer Pyramide angeordnet vorstellen.

Die Pyramide hat einen überraschend geringen Speicherbedarf. Wennwir die Bildung einer Pyramide aus einem W -dimensionalen Bild mit M


a b

Abbildung 5.2: Gaußpyramide: a schematische Darstellung; die Quadrate desSchachbrettes entsprechen Bildpunkten; b Beispiel.

Bildpunkten in jeder Koordinatenrichtung betrachten, beträgt die Ge-samtzahl der Bildpunkte bei einer Abtastrate von zwei

MW(

1+ 12W

+ 122W + . . .

)< MW 2W

2W − 1. (5.8)

Bei einem zweidimensionalen Bild erfordert die gesamte Pyramide ledig-lich 1/3 mehr Speicherplatz als das Originalbild, bei einem dreidimen-sionalen Bild sogar nur 1/7 mehr. Ebenso effektiv ist die Berechnungder Pyramide. Dasselbe Glättungsfilter wird auf jede Ebene der Pyrami-de angewandt. Damit erfordert die Berechnung der gesamten Pyramidelediglich 4/3 der Rechenoperationen für ein zweidimensionales und 8/7derjenigen für ein dreidimensionales Bild.

Die Pyramide bringt große Skalen in den Bereich lokaler Nachbar-schaftsoperationen mit kleinen Kernen. Zudem sind diese Operationeneffizient zu berechnen. Wenn die Pyramide einmal berechnet ist, könnenwir Nachbarschaftsoperationen mit großen Skalen in den oberen Ebenender Pyramide durchführen. Diese sind aufgrund der kleineren Bildgrößesehr viel effizienter als bei feineren Skalen.

Die Gaußpyramide stellt eine Serie von tiefpassgefilterten Bildern dar,bei denen die Grenzwellenlänge von Ebene zu Ebene auf die Hälfte (eineOktave) abnimmt. Damit verbleiben nur zunehmend gröbere Details imBild (Abb. 5.2). Um den gesamten Bereich der Wellenzahlen zu umspan-nen, sind nur wenige Pyramidenebenen erforderlich. Aus einem N ×N-Bild können wir eine Pyramide mit maximal ldN + 1 Ebenen berechnen.Das kleinste Bild besteht aus nur einem Bildpunkt.


_

_

_

Abbildung 5.3: Konstruktion der Laplacepyramide (rechts) aus einer Gaußpyra-mide (links) durch Berechnung der Differenzbilder zweier aufeinander folgenderBilder der Gaußpyramide.

5.2.3 Laplacepyramide

Aus der Gaußpyramide können wir einen anderen Pyramidentyp berech-nen: die Laplacepyramide, der zu einer Sequenz von bandpassgefilter-ten Bildern führt. Im Gegensatz zur Fouriertransformation führt dieLaplacepyramide lediglich zu einer groben Wellenzahlzerlegung ohneRichtungszerlegung. Alle Wellenzahlen innerhalb des Bereiches von un-gefähr einer Oktave (Faktor 2) sind unabhängig von ihrer Richtung ineiner Ebene der Pyramide enthalten. Wegen der gröberen Wellenzahl-auflösung bleibt eine gute räumliche Auflösung erhalten. Jede Ebeneder Pyramide enthält nur zueinander passende Skalen, die einige Ma-le (zwei- bis sechsmal) pro Wellenlänge abgetastet werden. Auf dieseWeise stellt die Laplacepyramide eine effiziente Datenstruktur dar, dieden durch die Unschärferelation (Abschn. 5.1.3 und Theorem 2.7, S. 59,)gesetzten Grenzen des Produktes zwischen Wellenzahl und räumlicherAuflösung gut angepasst ist.

Um dies zu erreichen, müssen zwei Ebenen der Gaußpyramide von-einander subtrahiert werden. Dafür muss das Bild in der gröberen Ebenezuerst expandiert werden. Diese Operation wird von dem Expansions-operator ↑2 durchgeführt. Wie beim reduzierenden Glättungsoperator


(5.7) wird der Grad der Expansion durch die Zahl nach dem ↑-Zeichen imIndex angegeben. Die Expansion ist beträchtlich schwieriger als die Grö-ßenreduktion, da die fehlende Information interpoliert werden muss.Zur Vergrößerung um den Faktor zwei in allen Richtungen muss zu-nächst jeder zweite Bildpunkt in jeder Zeile interpoliert werden unddann jede zweite Zeile. Die Interpolation wird im Detail in Abschn. 10.5diskutiert. Mit der eingeführten Notation können wir die Erzeugung derp-ten Ebene der Laplacepyramide folgendermaßen schreiben:

L(p) = G(p)− ↑2 G(p+1), L(P) = G(P). (5.9)

Die Laplacepyramide ist ein effektives Schema für eine Bandpasszer-legung eines Bildes. Die zentrale Wellenzahl wird von Ebene zu Ebenehalbiert. Das letzte Bild der Laplacepyramide, L(P), ist ein tiefpassgefil-tertes Bild G(P), in dem nur die gröbsten Strukturen enthalten sind.

Die Laplacepyramide hat den bedeutenden Vorteil, dass das Original-bild aus der Bildsequenz der Laplacepyramide rasch wieder hergestelltwerden kann, indem die Bilder rekursiv expandiert und aufsummiertwerden. Die zugehörige Rekursion ist die Inversion der Rekursion in(5.9). Bei einer Laplacepyramide mit p+1 Ebenen ist die Ebene p (dieZählung beginnt mit null!) die (p+1)-te Ebene der Gaußpyramide. Die(p−1)-te Ebene der Gaußpyramide lässt sich dann mit

G(P) = L(P), G(p−1) = L(p−1)+ ↑2 Gp (5.10)

rekonstruieren. Beachten Sie, dass dies lediglich eine Umkehrung desKonstruktionsschemas der Laplacepyramide ist. Das bedeutet, dass einfehlerbehafteter Interpolationsalgorithmus für die Expansion des Bildesnur die Laplacepyramide beeinflusst, aber nicht die Rekonstruktion derGaußpyramide aus der Laplacepyramide, da derselbe Algorithmus ver-wendet wird.

Die Rekursion in (5.10) wird mit niedrigeren Ebenen wiederholt, biswieder die Ebene 0, also das Originalbild, erreicht ist. Wie Abb. 5.3 veran-schaulicht, werden während des Rekonstruktionsprozesses zunehmendfeinere Details sichtbar. Wegen der Möglichkeit der fortschreitenden Re-konstruktion von Details wurde die Laplacepyramide auch zur Bildkom-pression benutzt. Heute stehen jedoch effiziente Kompressionsschema-ta auf der Basis einer Wavelettransformation zur Verfügung, die auf ei-nem ähnlichen Prinzip wie die Laplacepyramide beruhen [2, 30].

5.2.4 Richtungszerlegung auf Pyramiden

Bei mehrdimensionalen Signalen ist eine Richtungszerlegung genauso wichtigwie eine Skalenzerlegung. Dazu sind Richtungsfilter notwendig. Idealerweisesollte sich die Richtungskomponenten, wie bei der Laplacepyramide die einzel-nen Ebenen, zu dem Gesamtsignal aufaddieren. Eine kombinierte Zerlegung in


0 x y

1

2

Abbildung 5.4: Die erste drei Ebenen der Richtungszerlegung auf einer Pyramidedes Bildes Abb. 5.6a: die Zeilen zeigen die Ebenen 0, 1 und 2, the Spalten jeweilsL, Lx , Ly nach (5.12) und (5.13).

eine Pyramide und Richtungskomponenten ist unter dem Namen pyramidaleRichtungszerlegung bekannt [96]. Im Allgemeinen ist eine solche Zerlegung einschwieriges Filterdesign-Problem. Daher illustrieren wir diese Zerlegung hiernur mit einem einfachen Schema mit zwei Richtungskomponenten auf jederPyramidenebene.

Die Glättung wird mit einem separierbaren Glättungsfilter durchgeführt. EinFilter (Bx) glättet nur in die x-Richtung, das andere (By ) in die y-Richtung.Dann ergibt sich die nächsthöhere Ebene der Gaußpyramide wie in (5.7) als

G(q+1) =↓2 BxByG(q). (5.11)

Die Laplacepyramide ist

L(q) = G(q)− ↑2 G(q+1). (5.12)

Die beiden Richtungskomponenten lauten

L(q)x = 1/2(G(q)− ↑2 G(q+1) − (Bx −By)G(q)),L(q)y = 1/2(G(q)− ↑2 G(q+1) + (Bx −By)G(q)).

(5.13)


Aus (5.13) ist sofort klar, dass sich Lx und Ly zur isotropen Laplacepyramideaufaddieren: L = Lx +Ly . Beispielbilder mit den ersten 3 Ebenen einer pyrami-dalen Richtungszerlegung zeigt Abb. 5.4.

5.3 Skalenräume

Die Gauss- und Laplacepyramide sind effektive aber leider auch inflexible Mehr-gitter-Datenstrukturen. Der Skalenparameter ändert sich von Stufe zu Stufenur um den festen Faktor zwei. Eine feinere Skaleneinteilung ist nicht mög-lich. In diesem Abschnitt diskutieren wir eine allgemeinere Datenstruktur, denSkalenraum, der einen kontinuierlichen Skalenparameter ermöglicht.

Wie wir am Beispiel der gefensterten Fouriertransformation im vorigen Ab-schnitt gesehen haben, führt die Einführung einer charakteristischen Skala zueiner neuen Koordinate bei der Darstellung von Bilddaten. Der neue Skalenpa-rameter neben der räumlichen Auflösung wird mit ξ bezeichnet und charakte-risiert die aktuelle Auflösung der Bilddaten. Die Datenstruktur, die aus einerFolge von Bildern mit unterschiedlichen Auflösungen besteht, wird als Skalen-raum bezeichnet. Wir schreiben g(x, ξ) für den Skalenraum des Bildes g(x).Im nächsten Abschnitt (Abschn. 5.3.1) diskutieren wir zunächst den physika-lischen Prozess der Diffusion. Diese kann zur Erzeugung eines Skalenraumesdienen. Dann besprechen wir in Abschn. 5.3.2 die allgemeinen Eigenschaftenvon Skalenräumen.

5.3.1 Erzeugung von Skalenräumen durch Diffusion

Die Erzeugung eines Skalenraumes erfordert einen Prozess, der Bilder kontrol-liert unscharf machen kann. Diffusion ist ein Transportprozess, der zum Aus-gleich von Konzentrationsunterschieden führt. Diffusionsprozesse führen inder Physik beim Transport von Wärme, Materie und Momenten zu einem im-mer weiter reichenden räumlichen Konzentrationsausgleich. Wenn wir die Zeitmit dem Skalenparameter ξ identifizieren, erzeugt der Diffusionsprozess einenSkalenraum.

Um einen Diffusionsprozess auf ein multidimensionales Signal mitW Dimensio-nen anzuwenden, betrachten wir den Grauwert g als Konzentration einer che-mischen Substanz. Das Elementargesetz der Diffusion besagt, dass die Fluss-dichte j der Richtung des Konzentrationsgradienten∇g entgegengerichtet undihm proportional ist:

j = −D∇g, (5.14)

wobei die Konstante D als Diffusionskoeffizient bezeichnet wird. Mit der Konti-nuitätsgleichung

∂g∂t+∇j = 0 (5.15)

ergibt sich die instationäre Diffusionsgleichung zu

∂g∂t

=∇(D∇g). (5.16)

5.3 Skalenräume 153

Für den Fall eines homogenen Diffusionsprozesses, bei dem D unabhängig vonder Position ist, reduziert sich die Gleichung auf

∂g∂t

= D∆g, wobei ∆ =W∑w=1

∂2

∂x2w

(5.17)

der Laplaceoperator ist. Wir können leicht zeigen, dass die allgemeine Lö-sung dieser Gleichung äquivalent zu einer Faltung mit einer Glättungsmaskeist. Letztendlich führen wir eine Fouriertransformation im Raum durch underhalten mithilfe von Theorem 2.5, S. 57

∂g(k)∂t

= −4π2D|k|2g(k) (5.18)

und damit eine Reduzierung der Gleichung zu einer linearen Differenzialglei-chung erster Ordnung mit der allgemeinen Lösung:

g(k, t) = exp(−4π2D|k|2t)g(k,0), (5.19)

wobei g(k,0) das fouriertransformierte Bild zum Zeitpunkt null ist.

Die Multiplikation eines Bildes im Fourierraum mit der Gaußfunktion in (5.19)entspricht einer Faltung mit der gleichen Funktion, jedoch mit reziproker Breite(Theorem 2.4, S. 56, R4 und R6). Also ist

g(x, t) = 1[2πσ 2(t)]W/2

exp

(− |x|2

2σ 2(t)

)∗ g(x,0) (5.20)

mitσ(t) =

√2Dt. (5.21)

Die letzte Gleichung zeigt, dass der durch die Standardabweichung σ ausge-drückte Glättungsgrad zeitlich nur mit der Quadratwurzel zunimmt. Dahersetzen wir den Skalenparameter ξ gleich dem Quadrat der Standardabweichung:

ξ = 2Dt. (5.22)

Wichtig ist, dass diese Formulierung des Skalenraums für Bilder beliebiger Di-mensionen gilt, also auch auf Bildsequenzen ausgedehnt werden kann. DerSkalenparameter ist nicht mit der Zeit identisch, obwohl wir einen in der Zeitfortschreitenden physikalischen Diffusionsprozess zur Herleitung benutzt ha-ben. Berechnen wir eine Skalenraumrepräsentation einer Bildsequenz, ist esnützlich, die Zeitkoordinate mit einer charakteristischen Geschwindigkeit u0

zu skalieren, sodass sie dieselbe Dimension wie die räumlichen Koordinatenhat:

t′ = u0t. (5.23)

Wir fügen diese Koordinate zu den räumlichen Koordinaten hinzu und erhalteneinen neuen Koordinatenvektor

x = [x1, x2, u0t]T oder x = [x1, x2, x3, u0t]T . (5.24)

Ebenso können wir den Wellenzahlvektor um eine skalierte Frequenz erweitern:

k = [k1, k2, ν/u0]T oder k = [k1, k2, k3, ν/u0]T . (5.25)


a b

c d

Abbildung 5.5: Skalenräume einiger eindimensionaler Signale: a Kanten undLinien, b ein periodisches Muster, c ein zufälliges Signal und d Zeile 10 aus demBild in Abb. 11.6a. Die vertikale Koordinate ist der Skalenparameter ξ.

Mit (5.24) und (5.25) können alle zuvor abgeleiteten Gleichungen, z. B.(5.19) und(5.20), auch auf Skalenräume von Bildsequenzen angewandt werden. Bei dis-kreten Räumen ergibt sich die Skalierung der Zeitachse automatisch durch dieräumlichen und zeitlichen Abtastintervalle: u0 = ∆x/∆t.

Abbildung 5.5 veranschaulicht den Skalenraum einiger charakteristischer eindi-mensionaler Signale: verrauschte Kanten und Linien, ein periodisches Muster,ein zufälliges Signal sowie eine Bildzeile. Diese Beispiele machen die allgemei-nen Eigenschaften von Skalenräumen klar. Mit steigendem Skalenparameter ξverschwimmen die Signale und immer mehr Details gehen verloren. Diese Eigen-schaft lässt sich am einfachsten aus der Transferfunktion der Skalenraumdar-stellung in (5.19) ableiten. Die Transferfunktion ist immer positiv und nimmtmit steigendem Skalenparameter ξ für alle Wellenzahlen monoton ab. Das be-deutet, dass keine Strukturen verstärkt werden, sondern alle Strukturen werdenmit zunehmendem ξ gedämpft, kleinere Strukturen immer schneller als gröbe-re. Im Grenzfall ξ →∞ konvergiert der Skalenraum gegen ein Bild mit dem Mit-telwert als konstantem Grauwert. Ein bestimmtes Merkmal existiert nur übereinen bestimmten Skalenbereich hinweg. In Abb. 5.5a können wir sehen, dassKanten und Linien verschwinden und zwei Objekte zu einem verschmelzen.


a b

c d

Abbildung 5.6: Skalenraumdarstellung eines zweidimensionalen Bildes: a Ori-ginalauflösung und ein Skalenparameter σ von b 1, c 2 und d 4.

Bei zweidimensionalen Bildern ergibt eine kontinuierliche Darstellung des Ska-lenraums eine dreidimensionale Datenstruktur. Deshalb zeigt Abb. 5.6 einzelneBilder für unterschiedliche Skalenparameter ξ.

5.3.2 Allgemeine Eigenschaften eines Skalenraums

In diesem Abschnitt diskutieren wir einige allgemeine Eigenschaften von Skalen-räumen. Genauer ausgedrückt, wollen wir wissen, welche Bedingungen von ei-nem Filterkern, der einen Skalenraum erzeugt, erfüllt sein müssen. Zwei grund-legende Forderungen werden uns beschäftigen. Zunächst dürfen mit steigen-dem Skalenparameter keine neuen Details hinzugefügt werden. Aus Sicht derInformationstheorie können wir sagen, dass der Informationsgehalt im Signalmit dem Skalenparameter kontinuierlich abnehmen sollte. Die zweite Eigen-schaft hängt mit dem allgemeinen Prinzip der Skaleninvarianz zusammen. Dasbedeutet im Wesentlichen, dass wir bei einem beliebigen Skalenparameter imSkalenraum mit der Glättung des Signals beginnen können, um denselben Ska-lenraum zu erhalten. Wir werden hier nur einige grundlegende Gedanken überdiese elementaren Eigenschaften besprechen, jedoch keine Beweise führen. Füreine ausführliche Behandlung der Skalenraumtheorie sei auf die Monografie vonLindeberg [139] verwiesen.


Der lineare, homogene und isotrope Diffusionsprozess hat nach (5.20) den Fal-tungskern

B(x, ξ) = 12πξ

exp

(−|x|

2

2ξ

)(5.26)

sowie nach (5.19) die Transferfunktion

B(k, ξ) = exp(−4π2|k|2ξ/2). (5.27)

In diesen Gleichungen haben wir unter Verwendung von (5.22) die explizite Zeit-abhängigkeit durch den Skalenparameter ξ ersetzt. Den Operator, der den Ska-lenraum erzeugt, können wir auf unabhängige Weise durch

B(ξ) (5.28)

darstellen. Die Eigenschaft des Skalenraums, dass die Information mit ξ ab-nimmt, kann mathematisch auf unterschiedliche Weisen formuliert werden. Wirverwenden hier das Minimum-Maximum-Prinzip. Es besagt, dass lokale Extrem-werte nicht verstärkt werden dürfen. Damit darf der Grauwert an einem lokalenMaximum nicht zunehmen und an einem Minimum nicht abnehmen. Dies istfür einen Diffusionsprozess eine sofort verständliche Eigenschaft. Stellen wiruns einen Wärmetransportprozess vor, so kann eine heiße Stelle nicht heißerwerden und ein kühler Punkt nicht kühler. Der Gaußsche Kern (5.26) erfüllt dasMinimum-Maximum-Prinzip.

Die zweite wichtige Eigenschaft des Skalenraums betrifft die Skaleninvarianz.Wir wollen den Prozess mit einem beliebigen Skalenparameter beginnen undtrotzdem den gleichen Skalenraum erhalten. Diese Eigenschaft können wir fol-gendermaßen formulieren:

B(ξ2)B(ξ1) = B(ξ1 + ξ2). (5.29)

Diese Gleichung besagt, dass die Glättung des Skalenraums mit der Skala ξ1

durch einen Operator mit der Skala ξ2 äquivalent ist der Anwendung des Ska-lenraumoperators mit der Skala ξ1+ξ2 auf das Originalbild. Alternativ könnenwir sagen, dass die Darstellung bei einer gröberen Auflösung ξ2 aus einer Dar-stellung mit einer feineren Auflösung ξ1 berechnet werden kann, indem wir

B(ξ2) = B(ξ2 − ξ1)B(ξ1) mit ξ2 > ξ1 (5.30)

anwenden. Aus (5.26) und (5.27) lassen sich (5.29) und (5.30) leicht verifizieren.In der Mathematik werden die Eigenschaften (5.29) und (5.30) als Halbgruppen-Eigenschaft bezeichnet.

Wir können uns fragen, welche Kerne zur Erzeugung von Skalenräumen exis-tieren, die sowohl das Minimum-Maximum-Prinzip als auch die Halbgruppenei-genschaft erfüllen. Die Antwort mag überraschen. Der Gaußsche Kern ist dereinzige Faltungskern, der beide Kriterien erfüllt und zusätzlich isotrop und ho-mogen ist [139]. Diese Eigenschaft gibt dem Gaußschen Faltungskern und — wiewir später sehen werden — seinem diskreten Gegenüber, dem Binomialkern, ei-ne besondere Bedeutung für die Bildverarbeitung. Dies werden wir näher inAbschn. 11.4 betrachten.


a b

Abbildung 5.7: Skalenraum eines 1D-Signals mit unterschiedlichen Wellenzah-len, berechnet mit a einem Binomialfilter und b einem Rechteckfilter. Der Ska-lenparameter läuft von oben nach unten.

Es ist immer hilfreich, ein Gegenbeispiel zu diskutieren. Der einfachste Glät-tungskern für ein W -dimensionales Bild — bekannt als das laufende Mittel —ist das Rechteckfilter

R(x, ξ) = 1ξW

W∏w=1

Π(xwξ

)(5.31)

mit der Transferfunktion

R(k, ξ) =W∏w=1

sin(kwξ/2)kwξ/2

. (5.32)

Dieser Kern erfüllt weder das Minimum-Maximum-Prinzip noch die Halbgrup-peneigenschaft. Abbildung 5.7 vergleicht Skalenräume eines periodischen Sig-nals mit variierenden Wellenzahlen, die mit einem Gauß- und einem Recht-eckfilter erzeugt wurden. In Abb. 5.7b wird deutlich, dass der Rechteckfilterdas Minimum-Maximum-Prinzip nicht erfüllt, da Strukturen verschwinden, aberdann wieder erscheinen.

5.3.3 Quadratische und exponentielle Skalenräume

Trotz der mathematischen Brillanz der Erzeugung von Skalenräumen mit ei-nem Gaußschen Faltungskern muss ein wesentlicher Nachteil dieses Ansatzesbeachtet werden. Die Standardabweichung der Glättung nimmt nur mit derQuadratwurzel der Zeit zu (5.21). Daher ist der Skalenparameter ξ nur zumQuadrat der Standardabweichung proportional. Das Ergebnis ist eine nichtli-neare Skalenkoordinate. Während die Glättung bei feinen Skalen rasch erfolgt,wird sie bei größeren Skalen zunehmend langsamer.

Für dieses Problem gibt es eine einfache Lösung. Wir brauchen einen Diffusi-onsprozess, bei dem die Diffusionskonstante mit der Zeit zunimmt. Zunächstdiskutieren wir einen Diffusionskoeffizienten, der linear mit der Zeit zunimmt.Dieser Ansatz resultiert in folgender Diffusionsgleichung:


∂g∂t

= D0t∆g. (5.33)

Eine räumliche Fouriertransformation ergibt

∂g(k)∂t

= −4π2D0t|k|2g(k). (5.34)

Diese Gleichung hat die allgemeine Lösung

g(k, t) = exp(−2π2D0t2|k|2)g(k,0), (5.35)

die einer Faltung im Ortsraum äquivalent ist. Also ist

g(x, t) = 12πD0t2

exp

(− |x|2

2D0t2

)∗ g(x,0). (5.36)

Aus diesen Gleichungen können wir den Faltungskern und die Transferfunktionin derselben Form wie in (5.26) und (5.27) schreiben mit der einzigen Ausnahme,dass für den Skalenparameter gilt:

ξq = D0t2. (5.37)

Nun ist die Standardabweichung für die Glättung des zeitlich linear anwach-senden Diffusionsprozesses proportional zur Zeit. Da der Skalenparameter ξqproportional dem Quadrat der Zeit ist, bezeichnen wir diesen Skalenraum alsden quadratischen Skalenraum. Dieser modifizierte Skalenraum erfüllt immernoch das Minimum-Maximum-Prinzip und die Halbgruppen-Eigenschaft.

Für eine noch schnellere Glättung können wir einen exponentiellen Skalenraumkonstruieren, d. h. einen Skalenraum, bei dem der Logarithmus des Skalenpara-meters linear mit der Zeit zunimmt. Wir verwenden dafür einen Diffusionsko-effizienten, der exponentiell mit der Zeit wächst:

∂g∂t

= D0 exp(t/τ)∆g. (5.38)

Wiederum erhalten wir einen Faltungskern und eine Transferfunktion wie in(5.26) und (5.27), diesmal jedoch mit dem Skalenparameter

ξl = 2D0τ exp(t/τ). (5.39)

5.3.4 Differenzielle Skalenräume

Das Interesse an differenziellen Skalenräumen resultiert aus der Tatsache, dasswir optimale Skalen für die Verarbeitung von Bildeigenschaften selektieren wol-len. In einem differenziellen Skalenraum wird die Veränderung des Bildes mitder Skala dargestellt. Wir verwenden die Transferfunktion des Skalenraumker-nes aus (5.27), der auch für quadratische und logarithmische Skalenräume gilt.Die allgemeine Lösung für den Skalenraum kann im Fourierraum als

g(k, ξ) = exp(−2π2|k|2ξ)g(k,0) (5.40)


geschrieben werden. Differenzieren dieses Signals nach dem Skalenparameterξ ergibt

∂g(k, ξ)∂ξ

= −2π2|k|2 exp(−2π2|k|2ξ)g(k,0) = −2π2|k|2g(k, ξ). (5.41)

Die Multiplikation mit −|k|2 ist einer räumlichen Ableitung zweiter Ordnung,dem Laplaceoperator , äquivalent (R4). Also können wir im Ortsraum schrei-ben:

∂g(x, ξ)∂ξ

= 12∆g(x, ξ). (5.42)

Gleichungen (5.41) und (5.42) zeigen eine grundlegende Eigenschaft des diffe-renziellen Skalenraums. Dieser ist einer Ableitung zweiter Ordnung mit demLaplaceoperator äquivalent und führt daher zu einer isotropen Bandpasszerle-gung des Bildes. Die Transferfunktion bei der Skala ξ ist

−2π2|k|2 exp(−2π2|k|2ξ). (5.43)

Für kleine Wellenzahlen ist die Transferfunktion proportional zu −|k|2. Sieerreicht bei

k2max =

2ξ

(5.44)

ein Maximum und fällt dann exponentiell ab.

5.3.5 Diskrete Skalenräume

Die Konstruktion diskreter Skalenräume erfordert eine Diskretisierung der Dif-fusionsgleichung. Wir beginnen mit einer Diskretisierung der eindimensionalenDiffusionsgleichung:

∂g(x, ξ)∂ξ

= D∂2g(x, ξ)∂x2

. (5.45)

Die Ableitungen werden folgendermaßen durch diskrete Differenzen ersetzt:

∂g(x, ξ)∂ξ

= g(x, ξ +∆ξ)− g(x, ξ)∆ξ

∂2g(x, ξ)∂x2

= g(x +∆x, ξ)− 2g(x, ξ)+ g(x −∆x, ξ)∆x2

.

(5.46)

Dies führt zu folgendem Iterationsschema zur Berechnung eines diskreten Ska-lenraums mit ε = D∆ξ/∆x2:

g(x, ξ +∆ξ) = εg(x +∆x, ξ)+ (1− 2ε)g(x, ξ)+ εg(x −∆x, ξ) (5.47)

oder in diskreten Koordinaten (ξ → i, x → n):

i+1gn = ε ign+1 + (1− 2ε) ign + ε ign−1. (5.48)

Lindeberg [139] zeigt, dass diese Iteration genau dann zu einem diskreten Ska-lenraum führt, der das Minimum-Maximum-Prinzip und die Halbgruppen-Eigen-schaft erfüllt, wenn

ε ≤ 1/4. (5.49)


Der Grenzfall von ε = 1/4 resultiert in der besonders einfachen Iteration

i+1gn = 1/4 ign+1 + 1/2 ign + 1/4 ign−1. (5.50)

Hier wird jeder Schritt der Skalenraumberechnung durch eine räumliche Glät-tung des Signals mit der Maske B2 = [1 2 1] /4 bestimmt. Wir können den all-gemeinen Operator zur Erzeugung eines Skalenraums aus (5.47) auch mit demFaltungsoperator B formulieren. In der Operatornotation, die in Abschn. 4.1.4eingeführt wurde, ergibt sich ein Iterationsschritt zur Skalenraumerzeugung als

(1− ε)I + εB2 mit ε ≤ 1, (5.51)

wobei I den Identitätsoperator bezeichnet. Dieser Ausdruck ist von Bedeutung,denn er kann direkt für höhere Dimensionen erweitert werden, indem B2 durcheinen entsprechenden höherdimensionalen Glättungsoperator ersetzt wird. DieFaltungsmaske B2 ist die einfachste Maske aus der Klasse der binomialen Glät-tungsfilter, die in Abschn. 11.4 im Detail diskutiert werden.

5.4 Übungsaufgaben

5.1: Pyramiden

Interaktive Demonstration zur Generierung von Gauß- und Laplacepyrami-den mit verschiedenen Glättungsfiltern (dip6ex05.01).

5.2: ∗∗Glättungsfilter für Gaußpyramide

In den ersten Arbeiten über Pyramiden von Burt und Adelson [25] und Burt[24] wurden Glättungsfilter mit 5 Koeffizienten benutzt, darunter die Filter

[1 4 6 4 1]/16, [1 2 3 2 1]/9,

die nacheinander in horizontaler und vertikaler Richtung angewendet wur-den.1. Erfüllen diese Filter die in (5.6) genannte Bedingung, dass die Transfer-

funktion für k1 > 1/2 oder k2 > 1/2 null ist?2. Ist es für ein Filter mit begrenzter Punktantwort überhaupt möglich, diese

Bedingung exakt zu erfüllen?

5.3: ∗∗Konstruktion der Laplacepyramide

Zur Konstruktion der Laplacepyramide wäre auch folgendes zu (5.9) alter-native Konstruktionsschema denkbar:

L(p) = G(p) − BG(p), G(p+1) =↓2 BG(p), L(P) = G(P).Von der pten Stufe der Gaußpyramide wird einfach ein geglättetes Bild ohneUnterabtastung abgezogen. Die Unterabtastung wird erst zur Berechnungder (p + 1)ten Stufe der Gaußpyramide Vorgenommen.1. Wie sieht die zu (5.10) äquivalente Gleichung zur Rekonstruktion der

Gaußpyramide aus der Laplacepyramide aus?2. Sehen Sie Nach- bzw. Vorteile gegenüber dem durch (5.9) und (5.10) be-

schriebenen Verfahren?


5.4: ∗∗∗Pyramide mit feinerer Skaleneinteilung

Ein Problem der konventionellen Pyramiden besteht darin, dass die Bild-größe in jede Richtung von Stufen zu Stufe mindestens um einen Faktor2 verringert wird. In manchen Anwendungen würde man sich eine feinereSkalenzerlegung wünschen.Wie ließe sich eine Pyramide erzeugen, bei der sich die Bildgröße in beideRichtungen von Stufe zu Stufe nicht um den Faktor 2, sondern nur um denFaktor

√2 verkleinert?

(Hinweis: Dazu muss ein Schema gefunden werden, mit dem jedes zweitePixel bei einem 2D-Bild ausgewählt wird.)

5.5: Skalenraum

Interaktive Demonstrationen zum Skalenraum und seiner Eigenschaften(dip6ex05.02).

5.6: ∗∗Diskreter Skalenraum mit Rechteckfilter

Ein diskreter Skalenraum soll durch Rechteckfilter (laufender Mittelwert)mit wachsender Filterlänge aufgebaut werden, wobei die Filterlänge ξ =2R + 1 der Skalenraumparameter ξ sei soll. Beantworten Sie folgende Fra-gen:

1. Ist das Minimum-Maximum-Prinzip erfüllt?

2. Gilt die Skaleninvarianz (Halbgruppeneigenschaft) für diese Filteropera-tionen

R(ξ1)R(ξ2) = R(ξ1 + ξ2)?


Die Mehrgitter-Bildverarbeitung wurde Anfang der ’80er Jahre entwickelt. Eineschöne Zusammenstellung der frühen Arbeiten findet sich bei Rosenfeld [191].Die äquivalente Entwicklung für Zeitserien, die Multiraten-Signalverarbeitung,wird in dem Lehrbuch von Fliege [59] beschrieben. Die Monografie von Linde-berg [139] befasst sich ausführlich mit der linearen Skalenraumtheorie. Nichtli-neare Skalenräume einschließlich inhomogener und anisotroper Diffusion wer-den von Weickert [237] behandelt. Die aktuellen Entwicklungen der Skalen-raumanalyse können anhand der Tagungsbände der alle zwei Jahre stattfinden-den internationalen Scale-Space-Konferenzen verfolgt werden: 1997 [218], 1999[163], 2001 [120], 2003 [73] und 2005 [121].

Teil II

Bildaufnahme undVorverarbeitung

6 Quantitative Visualisierung

6.1 Einleitung

Ein Bildaufnahmesystem sammelt die von Objekten ausgesandte Strah-lung und macht diese damit sichtbar. Strahlung besteht entweder aus ei-nem Fluss von Partikeln oder aus elektromagnetischen oder akustischenWellen. Maschinelles Sehen im klassischen Sinne nimmt Szenen und Be-leuchtung, wie sie sind, während in industriellen und wissenschaftlichenApplikationen eingesetzte Sehsysteme einen anderen Ansatz erfordern.Hier besteht die erste Aufgabe darin, eine quantitative Beziehung zwi-schen der interessierenden Objekteigenschaft und der emittierten Strah-lung herzustellen. Diese Bemühungen zielen darauf ab, dass sich dieinteressierende Objekteigenschaft mit möglichst geringen durch andereParameter verursachten Störeinflüssen eindeutig als Funktion der emp-fangenen Strahlungsdichte darstellt.

Abbildung 6.1 illustriert, wie sowohl der einfallende als auch der vomObjekt in Richtung Kamera emittierte Strahl durch zusätzliche Prozessebeeinflusst werden kann: Die Position des Objekts kann durch Brechungdes emittierten Strahls verschoben werden. Nicht vom beobachteten Ob-jekt selbst verursachte Streuung und Absorption des einfallenden unddes emittierten Strahls führen zu einer Abschwächung des Strahlungs-flusses und damit zu einer Verfälschung des Abbildes. Die sorgfälti-ge Anordnung aller Komponenten zur Bildaufnahme muss sicherstel-len, dass diese zusätzlichen Einflüsse minimiert werden und dass diegemessene Strahlung die betrachtete Objekteigenschaft korrekt wieder-gibt. Selbst in Fällen, in denen wir keinen Einfluss auf die Beleuchtungoder das Bildaufnahmesystem haben, bleibt immer noch die sorgfältigeWahl des Strahlungstyps und des Wellenlängenbereichs.

Zur Abbildung von Objekten und Objekteigenschaften können wir ei-ne Fülle optischer Eigenschaften wie Eigenemission, induzierte Emission(Fluoreszenz), Reflexion, Brechung, Absorption und Streuung von Strah-lung einsetzen (Abschn. 1.2 und 6.4). Diese Phänomene hängen von denoptischen Eigenschaften des Objektmaterials und von der Oberflächen-struktur des Objekts ab. Im Wesentlichen können wir unterscheidenzwischen oberflächenbezogenen Effekten, die durch die Diskontinuitätoptischer Eigenschaften an der Oberfläche verursacht werden, und volu-menbezogenen Effekten.


166 6 Quantitative Visualisierung

einfallender Strahl

Streuung

AbsorptionBrechung

(beobachtetes) Objektdurch Reflexion, Brechung, Emission,Absorption oder Streuung

(von Lichtquelle)

Streuung

austretender Strahl(zur Kamera)

BrechungAbsorption

Beleuchtungspfad Beobachtungspfad

Abbildung 6.1: Schematische Darstellung der Interaktion zwischen Strahlungund Materie bei der Objektvisualisierung. Die Beziehung zwischen der von derLichtquelle zur Kamera emittierten Strahlung und dem Objekt kann durch Streu-ung, Absorption und Brechung des einfallenden und des emittierten Strahls ge-stört werden.

Die Komplexität des Prozesses der quantitativen Visualisierung hängtstark von der gegebenen Bildverarbeitungsaufgabe ab. Wenn das Ziel le-diglich eine präzise geometrische Vermessung von Objekten ist, genügtes, wenn die Objekte gleichmäßig beleuchtet werden und sich klar vomHintergrund absetzen. In diesem Fall ist es nicht notwendig, quantitati-ve Beziehungen zwischen den Objekteigenschaften und der in RichtungKamera emittierten Strahlung herzustellen.

Wenn wir jedoch bestimmte Objekteigenschaften wie Dichte, Tem-peratur, Oberflächenkonzentration oder die Konzentration einer chemi-schen Substanz messen wollen, muss die exakte Beziehung zwischender selektierten Eigenschaft und der emittierten Strahlung bekannt sein.Ein einfaches Beispiel ist die Detektion eines Objektes nach seiner Farbe,d. h. die spektrale Abhängigkeit des Reflexionskoeffizienten.

Bei den meisten Anwendungen ist allerdings die Beziehung zwischenden interessierenden Parametern und der emittierten Strahlung nichtdirekt einsichtig. Auf Satellitenbildern können zum Beispiel urbane Be-reiche, Wälder, Flüsse, Seen und landwirtschaftliche Regionen leicht er-kannt werden. Aber anhand welcher Eigenschaften unterscheiden wirsie? Und noch wichtiger, warum erscheinen sie so auf den Bildern?

Entsprechendes gilt für die allgemeine medizinische Frage nach pa-thologischen Veränderungen, deren Diagnose aufgrund von Bildern ge-stellt wird. Eine verlässliche Entscheidung erfordert ein solides Ver-ständnis der Beziehung zwischen den biologischen Parametern, die eine

6.2 Radiometrie, Photometrie, Spektroskopie und Farbe 167

pathologische Veränderung definieren, und ihrer Erscheinungsform inentsprechenden Bildern.

Zusammenfassend können wir festhalten, dass die Beantwortung vonzwei Fragen für einen erfolgreichen Aufbau eines Bildaufnahmesystemsessenziell sind:

1. Wie hängt die Strahlungsdichte (emittierte Energiestromdichte proRaumwinkel) des beobachteten Objekts von den interessierenden Ob-jektparametern und den Beleuchtungsbedingungen ab?

2. Wie hängt die Bestrahlungsstärke (einfallende radiative Energiestrom-dichte) auf der Bildebene, die das optische System einsammelt, vonder Strahlungsdichte des Objekts ab?

Dieses Kapitel beschäftigt sich mit der ersten Frage, die zweite wird inAbschn. 7.5 behandelt.

6.2 Radiometrie, Photometrie, Spektroskopie und Farbe

6.2.1 Radiometrische Begriffe

Radiometrie beschreibt und misst Strahlung und ihre Interaktion mit Ma-terie. Wegen der dualen Natur der Strahlung beziehen sich die radiome-trischen Begriffe entweder auf Energie oder auf Teilchen. Bei elektroma-gnetischer Strahlung sind die Teilchen Photonen (Abschn. 6.3.4). Wennes erforderlich ist, für radiometrische Begriffe zwischen den beiden Ty-pen zu unterscheiden, werden die beiden Indizes e und p verwendet.

Radiometrie ist eigentlich kein schwieriges Gebiet. Verwirrung hatjedoch die sehr unterschiedliche, ungenaue und oft sogar falsche Ver-wendung der Begriffe gestiftet. Zudem wird Radiometrie in der Ausbil-dung seltener und weniger detailliert berücksichtigt als andere Themender Optik.

Damit ist das Wissen über die Radiometrie weniger verbreitet. GuteKenntnisse der Radiometrie sind für die Bildaufnahme wichtig. Geome-trische Optik sagt uns lediglich, wo ein Abbild eines Objektes lokalisiertist, während wir mithilfe der Radiometrie berechnen können, wie vielStrahlungsenergie von einem Objekt mit einem bestimmten Abbildungs-system aufgenommen wird.

Strahlungsenergie. Strahlung kann, da sie eine Form von Energie ist,Arbeit verrichten. Ein Körper, der Strahlung absorbiert, erwärmt sich.Strahlung kann elektrische Ladungen in einem für die Detektion vonStrahlung geeignetem Material freisetzen. Strahlungsenergie wird mitQ bezeichnet und hat die Einheit Joule (Ws) oder wird durch die Anzahlvon Photonen angegeben.


Z

A

XY

R

Z

dA

XY

dΩ

θ

φ

a b

Kugel

Abbildung 6.2: a Definition des Raumwinkels. b Definition der Strahldichte unddes Strahlungsflusses, die pro Oberflächenstück dA emittiert werden, projiziertin Fortpflanzungsrichtung und pro Raumwinkel Ω.

Strahlungsfluss. Der Energiefluss der Strahlung, d. h. die Energie proZeiteinheit, ist der Strahlungsfluss; er wird mit Φ bezeichnet:

Φ = dQdt. (6.1)

Diese Beziehung ist wichtig zur Beschreibung der Gesamtenergie, dievon einer Lichtquelle pro Zeiteinheit emittiert wird. Sie wird in Joule/s(J/s), Watt (W) oder Photonen pro s (s−1) gemessen.

Strahlungsflussdichte. Der Strahlungsfluss pro Einheitsfläche ist un-ter der Bezeichnung Bestrahlungsstärke E oder StrahlungsflussdichteMbekannt:

Bestrahlungsstärke E = dΦdA0

, Strahlungsflussdichte M = dΦdA0

. (6.2)

Die Bestrahlungsstärke E ist der Strahlungsfluss, der auf eine Oberflä-che pro Einheitsfläche trifft, z. B. auf einen Sensor, der Strahlungsenergiein ein elektrisches Signal umwandelt. Die Einheit der Bestrahlungsstärkeist Wm−2, oder Photonen pro m2 und s (m−2s−1). Dieselbe Größe wirdStrahlungsflussdichte genannt und mit M gekennzeichnet, wenn eineOberfläche (z. B. Lichtquelle) Strahlung emittiert.

Raumwinkel. Der Begriff des Raumwinkels ist äußerst wichtig für einVerständnis der räumlichen Verteilung von Strahlung. Stellen wir unseine kleine Lichtquelle als Zentrum einer Kugel vom Radius R vor, dieStrahlen konusförmig aussendet (Abb. 6.2a). Die Grenzen des Konus be-schreiben einen Bereich A der Kugel. Der Raumwinkel (Ω) wird in Stera-dian (sr) gemessen und ist der Bereich A dividiert durch das Quadrat des


Radius (Ω = A/R2). Obwohl Steradian eine dimensionslose Größe ist, istes ratsam, sie explizit zu verwenden, wenn ein radiometrischer Begriff,der sich auf einen Raumwinkel bezieht, mit dem korrespondierendennicht gerichteten Begriff verwechselt werden kann. Der Raumwinkel ei-ner ganzen Kugel ist 4π und der einer Halbkugel 2π .

Strahlungsstärke. Der von einer Lichtquelle ausgesandte Strahlungs-fluss pro Raumwinkel wird Strahlungsstärke I genannt:

I = dΦdΩ

. (6.3)

Es ist offensichtlich, dass dieser Ausdruck nur Sinn hat bei der Beschrei-bung von Punktlichtquellen, z. B. wenn die Distanz von der Quelle vielgrößer ist als ihre Ausmaße. Die Strahlungsstärke ist außerdem hilfreichbei der Beschreibung von Lichtstrahlen.

Strahlungsdichte. Bei einer ausgedehnten Lichtquelle ist der Strah-lungsfluss pro Einheitsfläche und pro Raumwinkel eine wichtige Größe(Abb. 6.2b):

L = d2ΦdAdΩ

= d2ΦdA0 cosθ dΩ

. (6.4)

Strahlung kann entweder von einer Oberfläche emittiert werden, durchsie hindurchgehen oder auf ihr auftreffen. Die Strahlungsdichte L hängtvom Einfallswinkel θ auf der Oberfläche (Abb. 6.2b) und vom Azimutwin-kelφ ab. Bei einer ebenen Oberfläche sind θ ∈ [0, π/2] undφ ∈ [0,2π].Wichtig ist zu beachten, dass die Strahlungsdichte auf eine Einheitsflächein der Ausbreitungsrichtung (dA = dA0 · cosθ) bezogen wird. Damit er-höht sich die effektive Fläche, von der Strahlung emittiert wird, mit demEinfallswinkel. Die Einheiten für energiebezogene und photonenbezoge-ne Strahlung sind Wm−2sr−1 und s−1m−2sr−1.

Besonders die einfallende Strahlung wird oft als Helligkeit bezeich-net. Dieser Begriff sollte jedoch nicht verwendet werden, da er sehrzur Verwechslung von Strahlungsdichte und Bestrahlungsstärke beige-tragen hat. Obwohl beide Größen die gleiche Dimension haben, ist ihreBedeutung unterschiedlich. Die Strahlungsdichte L beschreibt die Win-kelverteilung von Strahlung, während die Bestrahlungsstärke E die aufeinem Oberflächenelement einfallende Strahlung über einen Raumwin-kelbereich in allen Richtungen, in denen das Oberflächenelement Strah-lung empfangen kann, integriert:

E =∫Ω

L(θ,φ) cosθ dΩ =π/2∫0

2π∫0

L(θ,φ) cosθ sinθ dθ dφ. (6.5)

Der Faktor cosθ entsteht aus der Tatsache, dass die Strahlungsdichteauf eine Einheitsfläche senkrecht zur Ausbreitungsrichtung bezogen de-


finiert wird (Abb. 6.2b), während die Bestrahlungsstärke sich auf die Ein-heitsfläche parallel zur Oberfläche bezieht.

6.2.2 Spektroradiometrie

Da jede Interaktion von Materie und Strahlung von der Wellenlänge oderFrequenz der Strahlung abhängt, ist es notwendig, alle radiometrischenGrößen als Funktion der Wellenlänge zu behandeln. Daher beziehen wirall diese Größen auf ein Einheitsintervall der Wellenlänge. Alternativkönnen auch Einheitsintervalle von Frequenzen oder Wellenzahlen ver-wendet werden. Die Wellenzahl gibt die Anzahl Wellenlängen pro Ein-heitsintervall an (siehe (2.14) und Abschn. 2.3.6). Um die verschiedenenspektralen Größen voneinander zu unterscheiden, geben wir die Abhän-gigkeiten explizit an, z. B. L(λ), L(ν) und L(k).

Die im vorangegangenen Abschnitt diskutierte Radiometrie misst dieEigenschaften der Strahlung in Energieeinheiten oder Anzahl von Pho-tonen. Die Photometrie setzt diese Größen in Bezug zur Antwort desmenschlichen Auges auf die Strahlung. Die Photometrie hat zweierlei Be-deutung für die wissenschaftliche Bildaufnahme: Zunächst ermöglichtsie einen quantitativen Zugang zu radiometrischen Größen, wie sie vomAuge wahrgenommen werden. Weiter dient sie als Modell zur Beschrei-bung der Antwort eines beliebigen Strahlensensortyps, der zur Konver-tierung von Bestrahlungsstärke in ein elektrisches Signal eingesetzt wird.Der Schlüssel zum Verständnis der Photometrie ist die Betrachtung derspektralen Empfindlichkeit des menschlichen Auges. Ansonsten bein-haltet Photometrie nichts Neues.

6.2.3 Spektrale Abtastmethoden

Die spektroskopische Bildaufnahme ist im Prinzip ein sehr mächtigesWerkzeug zur Identifikation von Objekten und ihren Eigenschaften, dafast alle optischen Materialkonstanten von der Wellenlänge der Strah-lung abhängen. Der Nachteil der spektroskopischen Bildaufnahme ist,dass eine zusätzliche Koordinate hinzukommt und dass sich dadurchdie Datenmenge entsprechend erhöht. Daher ist es wichtig, das Spek-trum mit einer Minimalzahl von Abtastpunkten zu messen, die ausreicht,eine gegebene Aufgabe zu erfüllen. Wir beschreiben hier mehrere Mess-strategien und diskutieren unter diesem Gesichtspunkt auch das Farb-sehen des Menschen als eine Form spektraler Messung.

Linienabtastung ist eine Methode, bei der pro Kanal nur ein schmalerBereich des Spektrums aufgenommen wird (Abb. 6.3a). Sie wird verwen-det, wenn Prozesse aufzunehmen sind, die mit Emission oder Absorptionbei bestimmten Spektrallinien zusammenhängen. Ein Kanal „sieht“ nureine spezifische Wellenlänge und ist unempfindlich gegenüber allen an-deren Wellenlängen, soweit sich ein solch enger Bandpassfilter technisch


λ λ λλ λλ λ λ1 1 12 23 3 2

1 2 3 1 2 312

Abbildung 6.3: Beispiele für die spektrale Abtastung: a Linienabtastung;b Bandabtastung; c Abtastung nach einem bestimmten Modell des spektralenBereiches, hier für eine einzige Spektrallinie unbekannter Wellenlänge.

realisieren lässt. Auf diese Weise kann ein sehr spezifischer Effekt odereine bestimmte chemische Substanz aufgenommen werden. Allerdingsist diese Technik nicht geeignet, die Gesamtstrahlung von Objekten ab-zuschätzen, da sie für die meisten Wellenlängen unempfindlich ist.

Bandabtastung ist die geeignete Technik (Abb. 6.3b), wenn die Ge-samtstrahlung in einem bestimmten Wellenlängenbereich gemessen wer-den soll und trotzdem noch eine gewisse Wellenlängenauflösung erfor-derlich ist. Idealerweise haben die einzelnen Bänder eine konstante Emp-findlichkeit und schließen direkt aneinander an. Bandabtastung sorgtfür eine optimale Auflösung mit wenigen Kanälen, erlaubt allerdings kei-ne Unterscheidung der Wellenlängen innerhalb eines Bandes. Die spek-trale Auflösung, die mit dieser Abtastmethode erreicht werden kann, istbegrenzt auf die Breite der spektralen Bänder der Sensoren.

In vielen Fällen ist es möglich, ein Modell der spektralen Strahlung ei-nes bestimmten Objektes aufzustellen. Dann kann eine bessere Technikder spektralen Abtastung gewählt werden, die im Wesentlichen nichtbestimmte Wellenlängen abtastet, sondern die Parameter des Modells.Diese Technik wird als modellbasierte spektrale Abtastung bezeichnet.

Wir werden diesen generellen Ansatz anhand eines einfachen Bei-spiels illustrieren. Es zeigt eine Methode zur Messung der mittleren Wel-lenlänge und des gesamten Strahlungsflusses einer beliebigen Spektral-verteilung φ(λ) innerhalb eines bestimmten Wellenzahlbereiches. Diegesuchten Größen werden folgendermaßen definiert:

φ = 1λ2 − λ1

λ2∫λ1

φ(λ)dλ und λ =λ2∫λ1

λφ(λ)dλ/λ2∫λ1

φ(λ)dλ . (6.6)

In der zweiten Gleichung wird die spektrale Verteilung mit der Wellenlän-ge λ multipliziert. Daher benötigen wir einen Sensor mit einer Empfind-lichkeit, die linear mit der Wellenzahl variiert. Wir versuchen es mit zwei


Sensorkanälen der folgenden linearen spektralen Sensitivität (Abb. 6.3c):

R1(λ) = λ− λ1

λ2 − λ1R0 =

(12+ λ

)R0

R2(λ) = R0 − R1(λ) =(

12− λ

)R0,

(6.7)

wobei R die wellenlängenabhängige Empfindlichkeit des Sensors ist undλ die normalisierte Wellenlänge

λ =(λ− λ1 + λ2

2

)/(λ2 − λ1). (6.8)

λ ist null in der Mitte und±1/2 an den Rändern des Wellenzahlintervalls.Die Summe der Sensitivität der beiden Kanäle ist unabhängig von der

Wellenlänge, während die Differenz direkt proportional zur Wellenlängeist und zwischen −R0 für λ = λ1 und R0 für λ = λ2 variiert:

R′1(λ) = R1(λ)+ R2(λ) = R0

R′2(λ) = R1(λ)− R2(λ) = 2λR0.(6.9)

Daher ergibt das Summensignal der beiden Sensoren R1 und R2 eineMessung des totalen Strahlungsflusses, während sich die mittlere Wel-lenlänge aus 2λ = (R1 − R2)/(R1 + R2) berechnen lässt. Außer diesenbeiden Größen liefern die beiden Sensoren aber keine weiteren Detailsüber die spektrale Verteilung der gemessenen Strahlung.

6.2.4 Farbsehen

Das menschliche Sehsystem reagiert nur auf elektromagnetische Strah-lung der Wellenlängen zwischen 360 und 800 nm. Selbst bei Individuenmit normaler Sehkraft ist die spektrale Empfindlichkeit aber gewissenSchwankungen unterlegen. Der sichtbare Bereich des elektromagneti-schen Spektrums (Licht, Abb. 6.6) ist also nicht exakt zu definieren.

Auf der Retina (Netzhaut) des Auges, auf die ein Bild projiziert wird,befinden sich hauptsächlich zwei Arten von Rezeptoren, Stäbchen undZapfen. Photopigmente in den äußeren Segmenten der Rezeptoren ab-sorbieren Strahlung. Die absorbierte Energie wird dann in neurale elek-trochemische Signale konvertiert, die an nachgeschaltete Neuronen, denSehnerv und das Gehirn weitergeleitet werden. Die Zapfen besitzen dreiverschiedene Photopigmente. Sie sind damit für drei unterschiedlicheSpektralbereiche empfindlich und ermöglichen dadurch das Farbsehen(Abb. 6.4b). Zapfensehen ist nur aktiv bei mittleren und hohen Beleuch-tungsstärken und wird daher auch photopisches Sehen genannt. Bei nied-rigen Beleuchtungsstärken sind nur die Stäbchen aktiv. Daher wird dieseSehform auch skotopisches Sehen genannt.


a

400 500 600 7000

0.2

0.4

0.6

0.8

1

λ[nm]

b

400 450 500 550 600 650 7000

0.2

0.4

0.6

0.8

1

λ[ ]nm

RGB

Abbildung 6.4: a Relative spektrale Empfindlichkeit eines „durchschnittlichen“menschlichen Auges, wie sie 1980 von der CIE bei mittleren bis hohen (photopi-sches Sehen V(λ), durchgezogene Linie) und bei niedrigen Beleuchtungsstärken(skotopisches Sehen V ′(λ), gestrichelte Linie) festgelegt wurde; Daten aus [132].b Relative spektrale Empfindlichkeit der Zapfen der menschlichen Retina nachDeMarco et al. [40].

Auf den ersten Blick erscheint die quantitative Messung der spektra-len Empfindlichkeit des Auges unmöglich, da wir uns nur auf einen sub-jektiven Eindruck, wie das menschliche Auge „Strahlung sieht“, stützenkönnen. Und doch kann die spektrale Empfindlichkeit gemessen wer-den, indem wir ausnutzen, dass das Auge sehr empfindlich auf Hellig-keitsunterschiede reagiert. Aufgrund extensiver Untersuchungen an vie-len Probanden hat die internationale Lichtkommission (CIE) 1924 einenStandard für die spektrale Empfindlichkeit des menschlichen Beobach-ters unter photopischen Bedingungen definiert. Dieser Standard wurdespäter mehrmals leicht revidiert. Abbildung 6.4a zeigt die 1980 festge-legten Werte. Die Kurve der relativen spektralen Empfindlichkeit für dasskotopische Sehen V ′(λ) ist von der Form her ähnlich, jedoch ist dasMaximum von etwa 555 nm auf 510 nm verschoben (Abb. 6.4a).

Physiologische Messungen können nur eine relative spektrale Funk-tion der Lichtausbeute ergeben. Es ist also notwendig, für Lichtgrößeneine eigene Einheit zu definieren. Diese Einheit, die Candela, ist eine vonsieben Grundeinheiten des internationalen Einheitensystems (SystèmeInternationale oder SI). Die Candela ist definiert als die Lichtstärke einermonochromatischen Lichtquelle mit einer Frequenz von 5,4 · 1014 Hzund einer Strahlungsstärke von 1/683 W/sr. Der krumme Faktor 1/683hat historische Gründe und rührt daher, dass die Candela früher unab-hängig von radiometrischen Größen definiert wurde.

Mit dieser Definition der Lichtstärke und der Fähigkeit des Auges,kleine Veränderungen der Helligkeit zu erkennen, kann die Lichtstär-ke einer beliebigen Lichtquelle gemessen werden, indem sie mit einerStandardlichtquelle verglichen wird. Bei diesem Ansatz ist jedoch dieMessung der Lichtstärke von dem individuellen Beobachter abhängig.Deshalb ist es besser, eine spektrale Standardlichtausbeutefunktion zu


verwenden. Dann kann jede photometrische Größe aus der ihr entspre-chenden radiometrischen Größe berechnet werden:

Qv = 683lmW

780 nm∫380 nm

Q(λ)V(λ)dλ photopisch,

Qv′ = 1754lmW

780 nm∫380 nm

Q(λ)V ′(λ)dλ skotopisch,

(6.10)

wobei V(λ) die spektrale Lichtausbeute für das Tagsehen ist (photo-pisch). Eine Liste aller photometrischen Größen und ihrer Strahlungsä-quivalente findet sich in Anhang A (R15). Die Einheit des Lichtstroms,der zum Strahlungsfluss (EinheitW ) äquivalenten photometrischen Grö-ße, ist Lumen (lm).

Das Farbsehen des Menschen kann mit den Begriffen der oben disku-tierten spektralen Abtasttechniken als ein Gemisch von Bandpassabtas-tung und modellbasiertem Abtasten betrachtet werden. Für das Farb-empfinden stehen dem Auge drei Typen von Photopigmenten in den alsZapfen bezeichneten Photorezeptoren der Retina zur Verfügung. Die-se Photopigmente haben unterschiedliche spektrale Empfindlichkeiten(Abb. 6.4b). Sie umfassen Spektralbänder mit maximalen Sensitivitätenbei 445 nm, 535 nm bzw. 575 nm, die sich jedoch beträchtlich über-lappen. Im Gegensatz zu unseren Modellbeispielen sind die drei Sen-sorkanäle ungleich breit und können nicht einfach in linearen Bezugzueinander gebracht werden. Tatsächlich ist die Farbempfindlichkeitdes menschlichen Auges ungleichmäßig, sodass die damit verbunde-nen Nichtlinearitäten die wissenschaftliche Untersuchung des Farbse-hens ziemlich schwierig machen. An dieser Stelle werden nur einigegrundlegende Tatsachen besprochen, soweit sie zum Verstehen von Far-ben nötig sind.

Mit drei Farbsensoren spannen Farbsignale einen 3D-Raum auf. Je-der Punkt in diesem Raum repräsentiert eine Farbe. Es ist klar, dassviele spektrale Verteilungen, so genannte metamere Farbreize oder kurzMetamere, auf einen Punkt im Farbraum abgebildet werden können. Ge-nerell können wir das Signal si, das ein Sensor mit einer spektralen Emp-findlichkeit Ri(λ) erzeugt, schreiben als

si =∫Ri(λ)φ(λ)dλ. (6.11)

Die von drei Sensoren für Primärfarben erzeugten Tripel werden oft Tri-stimulus genannt.

Im Zentrum der Farbenlehre (Colorimetrie) steht ein System, mit demFarben als Linearkombinationen von Grund- oder Primärfarben wieder-gegeben werden können. Ein Satz von drei spektralen Verteilungenφj(λ)


repräsentiert einen Satz von Primärfarben und resultiert in einem Vek-tor von Antworten, die durch die Matrix P folgendermaßen beschriebenwerden können:

pij =∫Ri(λ)φj(λ)dλ. (6.12)

Jeder Vektor pj = (p1j, p2j, p3j) repräsentiert den Tristimulus derPrimärfarben im 3D-Farbraum. Dann ist offensichtlich, dass nur Farbendargestellt werden können, die eine Linearkombination der Basisvekto-ren pj sind:

s = Rp1 +Gp2 + Bp3 mit 0 ≤ R,G, B ≤ 1, (6.13)

wobei die Koeffizienten mit R, G und B für die drei Primärfarben Rot,Grün und Blau bezeichnet werden. Nur wenn die drei Basisvektoren pjorthogonal sind, können alle Farben als Linearkombination der Basis-vektoren wiedergegeben werden. Ein mögliches und technisch leicht zurealisierendes Primärfarbensystem sind die monochromen Farben Rot,Grün und Blau mit 700 nm, 546,1 nm und 435,8 nm, wie sie 1931 von derCIE festgelegt wurden. Wir benutzen im Folgenden das Bildschirmpri-märfarbensystem nach der europäischen EBU-Norm, mit rotem, grünemund blauem Phosphor (Leuchtstoff) als Grundfarben, da dies die üblicheMethode ist, Farbbilder auf RGB-Farbmonitoren darzustellen.

Aus der signifikanten Überlappung der Spektralantworten der dreiZapfentypen in der Retina, insbesondere im grünen Bereich (Abb. 6.4b),wird offensichtlich, dass es keinen Satz physikalischer Primärfarben gibt,der alle möglichen Farben des 3D-Farbraumes darstellen kann. Die Far-ben, die wiedergegeben werden können, liegen innerhalb des Parallelepi-peds, das von den drei nichtorthogonalen Basisvektoren der Primärfar-ben gebildet wird. Je mehr die Primärfarben miteinander korreliert sind(d. h., je kleiner der Winkel zwischen zwei von ihnen ist), desto geringerist der Farbraum, der durch sie repräsentiert werden kann. Mathema-tisch gesehen haben Farben, die nicht durch ein Gemisch von Primärfar-ben dargestellt werden können, zumindest einen negativen Koeffizientenin (6.13).

Eine Komponente im 3D-Farbraum ist die Intensität. Wird ein Farb-vektor mit einem Skalar multipliziert, ändert sich zwar seine Intensität,nicht jedoch seine Farbe. So können alle Farben über die Intensität nor-malisiert werden. Diese Operation reduziert den 3D-Farbraum auf eine2D-Farbebene oder auch Farbenkarte:

r = RR +G + B , g = G

R +G + B , b = BR +G + B (6.14)

mitr + g + b = 1. (6.15)

Es ist ausreichend, nur die beiden Komponenten r und g zu verwen-den. Die dritte Komponente ergibt sich dann aus b = 1 − r − g nach


a

-1,5 -1 -0,5 0 0,5 1 1,5

-0,5

0

0,5

1

1,5

2

2,5

ge

rot

orange590

gelb

570

grün

re

500

w

b

-1,5 -1 -0,5 0 0,5 1-1

-0,5

0

0,5

1

1,5

2

v

u

Linie konstanterFarbsättigung

rot

orange

gelb

grün

blue

500

570

590

610

w

c

0 0,2 0,4 0,6 0,8 10

0,2

0,4

0,6

0,8

500

blau

Be

Purpurline

w

Ge

grün

570gelb

590orange

610Re

rot

x

y

Abbildung 6.5: Farbenkarte, dargestellt im a rg-Farbraum; b uv-Farbraum; cxy-Farbraum; die grauen Dreiecke umschließen die Farben, die durch additiveFarbmischung aus den Primärfarben R, G und B erzeugt werden können.

(6.15). Damit sind alle Farben, die durch die drei Primärfarben R, G undB repräsentiert werden können, auf ein Dreieck im rg-Raum beschränkt(Abb. 6.5a). Wie bereits erwähnt, können einige Farben nicht durch diePrimärfarben dargestellt werden. Die Grenze der möglichen Farben wirddurch alle sichtbaren monochromatischen Farben von Tiefrot bis Blau ge-geben. Die Linie der monochromatischen Farben bildet eine u-förmigeKurve im rg-Raum. Da alle Farben, die auf einer geraden Linie zwischenzwei Farben liegen, durch additive Mischung dieser beiden erzeugt wer-den können, bildet die von der u-förmigen Spektralkurve und der gera-den Mischlinie zwischen ihren beiden Enden für blaue und rote Farbe(Purpurlinie) berandete Fläche den Raum aller möglichen Farben.

Um negative Farbkoordinatenwerte zu vermeiden, wird oft ein neu-es Farbkoordinatensystem mit virtuellen Primärfarben gewählt, d. h. mitPrimärfarben, die keiner physikalischen Farbe entsprechen. Dieses Farb-system ist als XYZ-Farbsystem bekannt und derart konstruiert, dass esgerade die Kurve monochromatischer Farben mit nur positiven Koeffizi-

6.3 Wellen und Teilchen 177

enten enthält (Abb. 6.5c). Es wird durch die folgende lineare Koordina-tentransformation beschrieben:⎡

⎢⎣ XYZ

⎤⎥⎦ =

⎡⎢⎣ 0,490 0,310 0,200

0,177 0,812 0,0110,000 0,010 0,990

⎤⎥⎦

⎡⎢⎣ RGB

⎤⎥⎦ . (6.16)

Die Rücktransformation vom XYZ-Farbsystem in das RGB-Farbsystemergibt sich durch die Invertierung der Matrix in (6.16).

Die bisher diskutierten Farbsysteme haben mit der Farbempfindungdes Menschen nicht direkt zu tun. Aus den rg- oder xy-Werten kön-nen wir nicht direkt Farben wie Grün oder Blau erzeugen. Zu einer na-türlichen Beschreibung von Farben gehört neben der Leuchtstärke oderBeleuchtungsstärke (Intensität ) der Farbtyp wie Grün oder Blau (Farbton)und die Reinheit der Farbe (Sättigung). Aus einer reinen Farbe könnenwir jeden Sättigungsgrad erzeugen, indem wir sie mit Weiß mischen.

Farbton und Sättigung können aus Farbenkarten durch einfache Ko-ordinatentransformationen extrahiert werden. Der Bezugspunkt ist derWeißpunkt in der Mitte des Diagramms (Abb. 6.5b). Wenn wir von die-sem Punkt eine Linie zu einer reinen (monochromatischen) Farbe ziehen,entsteht eine Mischlinie für eine reine Farbe mit Weiß. Sie ist daher eineLinie mit konstantem Farbton. Von diesem Weißpunkt zur reinen Far-be nimmt die Sättigung linear zu. Der Weißpunkt ist im rg-Diagrammdurch w = [1/3,1/3]T gegeben.

Ein Farbsystem, das sein Zentrum im Weißpunkt hat, wird Farbdif-ferenzsystem genannt. Von einem Farbdifferenzsystem können wir zueinem Farbton-Sättigungs-Farbsystem (englisch: hue, saturation, inten-sity, HSI) gelangen, indem wir ein polares Koordinatensystem verwen-den. Dann ist der Radius proportional zur Sättigung und der Winkel zumFarbton (Abb. 6.5b).

Soweit ist die Farbwissenschaft einfach. Alle Schwierigkeiten entste-hen aus der Tatsache, dass ein Farbsystem für Bildschirme und Druckersowie für die Übertragung durch Fernsehsignale optimiert werden muss.Probleme entstehen auch bei der Korrektur der ungleichen Farbauflö-sung des menschlichen visuellen Systems, die in den Farbenkarten sicht-bar wird (Abb. 6.5). Diese Probleme haben zu einer verwirrenden Vielfaltunterschiedlicher Farbsysteme geführt.

6.3 Wellen und Teilchen

Wir können drei verschiedene Arten von Strahlung unterscheiden: elektroma-gnetische Wellen, Partikelstrahlung aus Atomen oder subatomaren Teilchen undakustische Wellen. Auf den ersten Blick erscheint es, dass diese drei Strahlungs-arten sehr verschieden sind. Sie haben aber eine Reihe von Eigenschaften ge-meinsam im Hinblick auf die Bildgewinnung. Zum Ersten können Objekte durch


jede Art von Strahlung abgebildet werden, die von ihnen ausgestrahlt und voneinem geeigneten Bildaufnahmesystem detektiert wird.Zum Zweiten weisen alle drei Strahlungsarten einen wellenartigen Charakterauf, auch die Partikelstrahlung. Die Wellenlänge λ der Strahlung ist definiert alsdie Entfernung für eine Oszillation der Schwingung in der Ausbreitungsrichtungder Welle. Die Wellenlänge bestimmt auch die maximal mögliche Auflösungeines optischen Systems. Eine einfache Faustregel besagt, dass nur Strukturen,die größer als die Wellenlänge sind, von einem Bildaufnahmesystem aufgelöstwerden können.Da es sehr verschiedenartige Strahlung gibt, ist es offensichtlich, dass wir auchsehr verschiedene Eigenschaften von Objekten abbilden können. Um ein Bild-aufnahmesystem sachgemäß aufzubauen, sind daher ein paar grundlegendeKenntnisse über die verschiedenen Strahlungsarten notwendig. Diese zu ver-mitteln, ist der Zweck dieses Abschnitts.

6.3.1 Elektromagnetische Wellen

Elektromagnetische Strahlung besteht aus alternierenden elektrischen und ma-gnetischen Feldern. Bei einer elektromagnetischen Welle stehen diese Feldersenkrecht aufeinander und senkrecht zur Ausbreitungsrichtung. Eine Welle istdurch ihre Frequenz ν und Wellenlänge λ charakterisiert. Im Vakuum brei-ten sich alle elektromagnetischen Wellen mit der gleichen Geschwindigkeit, derLichtgeschwindigkeit c ≈ 3 × 108 ms−1 aus. Die Ausbreitungsgeschwindigkeitverknüpft die Wellenlänge λ und die Frequenz ν einer elektromagnetischen Wel-le durch

λν = c. (6.17)

Die Frequenz wird in Anzahl Schwingungen pro Sekunde (Hz oder s−1) und dieWellenlänge in Meter (m) angegeben.Abbildung 6.6 zeigt, dass elektromagnetische Wellen den enormen Frequenz-und Wellenlängenbereich von 24 Dekaden umfassen. Nur ein winziger Aus-schnitt von weniger als einer Oktave mit einer Wellenlänge von etwa 400–700 nmist Licht , der Teil der elektromagnetischen Wellen, für die das menschliche Au-ge empfindlich ist. Die in Abb. 6.6 gezeigte Klassifizierung ist etwas künstlich.Sie ist größtenteils historisch bedingt durch die Art, wie die elektromagnetischeStrahlung erzeugt bzw. detektiert wird.Bei Ausbreitung in Materie wechselwirken elektromagnetische Wellen mit denelektrischen Ladungen, elektrischen Strömen und den elektrischen und magne-tischen Feldern des Mediums. Trotz dieser vielfältigen Wechselwirkungen bleibtdie grundlegende Natur der Wellen erhalten. Es wird lediglich die Ausbreitungs-geschwindigkeit verlangsamt und die Welle wird gedämpft.Den einfachsten Fall stellt ein isotropes Medium dar, das linear auf die Störun-gen der durchlaufenden elektromagnetischen Welle reagiert. Dann kann derEinfluss des Mediums durch den komplexen Brechungsindex η = n + iχ be-schrieben werden. Der Realteil n, der gewöhnliche Brechungsindex, gibt dasVerhältnis der Lichtgeschwindigkeit c zur Ausbreitungsgeschwindigkeit u imMedium wider: n = c/u. Die imaginäre Komponente von η, χ, gibt die Dämp-fung der Wellenamplitude an.Im Allgemeinen hängt der Brechungsindex von der Frequenz bzw. Wellenlängeab. Daher ist die Ausbreitungsgeschwindigkeit nicht mehr konstant, sondern


10

10

10

10

1010

10

10

10

10

10

10

10

10

3

2

6

9

_3

_6

_9

_12

_15

12

15

18

21

24

1

10

10

6

3 1km

1m

1mm

1µm

1A

1nm

1pm

1fm

10

10

10

3

6

9

1

10

10_12

10_9

10_6

_3

Sichtbar (Licht)

Weich

Hart

Infrarot (IR)

Röntgen-strahlen

Gammastrahlen

Ultraviolett (UV)

2 ELF

3 VF

4 VLF

5 LF

6 MF

7 HF

8 VHF

9 UHF

10 SHF

11 EHF

50 Hz

20 kHz

Kosmische Strahlen

Band

Frequenz[Hz]

Wellen-länge[m]

Photonen-energie

[eV]

1MeV

1GeV

1 GHz

1 MHz

IR Spek-troskopie

UV/Vis Spektroskopie

Hörbare akustische Frequenzen

Kernspinresonanz

Elektronen-Spinresonanz

Molekulare Rotation

3K Kosmische Hintergrundstrahlung

Radio-wellen

Mikro-wellen

Molekulare VibrationWärmestrahlung bei Umgebungs-temperaturen (300 K)

Elektronischer Übergangäußerer Elektronen

Photoelektrischer Effekt, elektroni-scher Übergang innerer Elektronen

Durchmesser von AtomenGitterkonstante von Festkörpern

0,5 MeV Ruheenergie des Elektrons

Compton-Streuung

8 MeV Bindungsenergie/Nukleon1 MeV Paarerzeugung

0,946 GeV RuheenergieProton, Neutron

Abbildung 6.6: Das elektromagnetische Spektrum mit Wellenlängen-, Frequenz-und Photonenenergieskalen.


wellenlängenabhängig. Dieser Effekt wird Dispersion genannt und die Wellenwerden als dispersiv bezeichnet.

Der Brechungsindex und die Absorption sind die beiden elementaren optischenParameter eines für elektromagnetische Wellen durchlässigen Materials. ImKontext der Bildgewinnung können sie dazu dienen, ein Material zu identifi-zieren oder einen physikalischen Parameter, der einen dieser Parameter beein-flusst.

Elektromagnetische Wellen sind generell ein lineares Phänomen. Das bedeutet,dass wir jedes komplexe Wellenmuster in elementare, wie planare harmonische,Wellen zerlegen können. Umgekehrt können wir zwei oder mehr elektromagne-tische Wellen überlagern und sicher sein, dass die Resultierende immer nocheine gültige Welle ist.

Dieses Überlagerungsprinzip bricht nur für Wellen mit sehr hohen Feldstärkenin Materie zusammen. Dann kann die Wechselwirkung mit dem Medium nichtmehr durch lineare Gleichungen beschrieben werden und wir betreten das kom-plizierte Gebiet der nichtlinearen Optik. Solche Phänomene treten nur mit sehrintensiven Lichtquellen wie Lasern auf. Ein typisches nichtlineares Phänomenist die Frequenzverdoppelung von Licht. Dieser Effekt wird häufig benutzt, umdie Frequenz eines Laserstrahls zu verdoppeln und damit seine Wellenlänge zuhalbieren. Aus der Sicht der quantitativen Visualisierung bieten nichtlineareoptische Effekte ein weites Spektrum an neuen Möglichkeiten, um spezifischeEffekte und Materialeigenschaften sichtbar zu machen.

6.3.2 Polarisation

Das Superpositionsprinzip kann verwendet werden, um die Polarisation elek-tromagnetischer Wellen zu erläutern. Polarisation ist durch die Ausrichtungdes elektrischen Feldvektors E definiert. Schwingt dieser Vektor in nur einerEbene, dann liegt eine linear polarisierte Welle vor. Elektromagnetische Wellensind nicht generell polarisiert. Um diesen allgemeinen Fall zu diskutieren, be-trachten wir zwei Wellen, die sich in z-Richtung bewegen und deren elektrischeFeldstärken in x- bzw. y-Richtung stehen. Die Amplituden E1 und E2 seiengleich, und φ sei die Phasendifferenz zwischen den beiden Wellen. Bei φ = 0ist der resultierende elektromagnetische Feldvektor auf eine Ebene beschränkt.Der Winkel φ dieser Ebene wird für die x-Achse gegeben durch

φ = arctanE2

E1. (6.18)

Ein anderer Spezialfall tritt auf, wenn φ = ±90° ist und E1 = E2. Solche Wel-len werden zirkular polarisiert genannt. Hier rotiert der elektrische Feldvektormit einer Umdrehung pro Wellenperiode um die Richtung, in der sich die Wellefortpflanzt. Der generelle Fall, wenn die Phasendifferenz nicht ±90° ist und dieAmplituden beider Komponenten nicht gleich sind, wird elliptisch polarisiertgenannt. Auch in diesem Fall dreht sich der Vektor E um die Richtung, in dersich die Welle bewegt, aber diesmal beschreibt die Amplitudenvariation eine El-lipsenbahn. Wichtig ist, dass jeder Polarisationstyp auch aus einem rechts- undlinkszirkularen Strahl zusammengesetzt werden kann. Links- und rechtszirku-lare Strahlen derselben Amplitude resultieren z. B. in einem linear polarisierten


Strahl. Die Richtung der Polarisationsebene hängt von der Phasenverschiebungzwischen den beiden zirkular polarisierten Strahlen ab.

6.3.3 Kohärenz

Ein wichtiger Begriff bei elektromagnetischen Wellen ist die Kohärenz. ZweiStrahlen werden als kohärent bezeichnet, wenn eine systematische Beziehungzwischen den Phasen ihrer elektromagnetischen Feldvektoren besteht. Ist dieseBeziehung zufällig, wird die Strahlung als inkohärent bezeichnet. Es ist offen-sichtlich, dass sich die Superposition inkohärenter Strahlung von der kohären-ter Strahlung unterscheidet. Im Falle kohärenter Strahlung können störendeInterferenzen auftreten. Wellen können einander in bestimmten Bereichen, indenen die Phasenverschiebung 180° beträgt, auslöschen.

Normale Lichtquellen sind inkohärent. Sie erzeugen nicht eine einzige konti-nuierliche ebene Welle, sondern Wellenpakete kurzer Wellenlänge ohne festePhasenbeziehung. Laser sind dagegen kohärente Lichtquellen.

6.3.4 Photonen

Elektromagnetische Strahlung ist neben den Wellenerscheinungen durch Eigen-schaften von Teilchen charakterisiert. Elektromagnetische Energie tritt nur indiskreten Energiestufen auf. Für eine gegebene Frequenz muss sie ein ganz-zahliges Vielfaches von hν sein, wobei h die Plancksche Konstante oder dasWirkungsquantum ist:

E = hν. (6.19)

Ein elektromagnetisches Quantum wird Photon genannt.

Bei jeder Interaktion zwischen Strahlung und Materie, sei es Absorption oderEmission von Strahlung, kann Energie nur in Einheiten dieser Quanten ausge-tauscht werden. Die Energie des Photons wird oft in Elektronenvolt (eV) ange-geben. Das ist die kinetische Energie, die ein Elektron aufnimmt, wenn es durchdie Potenzialdifferenz von einem Volt beschleunigt wird. Ein Photon für gelbesLicht hat z. B. eine Energie von ungefähr 2 eV. Abbildung 6.6 zeigt auch die Pho-tonenenergieskala in eV. Je höher die Frequenz elektromagnetischer Strahlungist, desto deutlicher wird die Partikelnatur, da die einzelnen Quanten energie-reicher werden. Die Energie von Photonen kann größer werden als die Energie,die mit der Ruhemasse elementarer Partikel assoziiert ist. Es ist dann möglich,dass elektromagnetische Energie spontan in Masse, nämlich in Form eines Par-tikelpaars konvertiert wird. Obwohl ein Photon keine Ruhemasse hat, ist einImpuls mit ihm assoziiert, weil das Photon sich mit Lichtgeschwindigkeit fort-bewegt und damit eine endliche Energie besitzt. Der Impuls p wird gegebendurch

p = h/λ. (6.20)

Die Quantisierung der Energie elektromagnetischer Wellen ist für die Bildauf-nahme wichtig, da genügend sensitive Strahlungsdetektoren die Absorption ein-zelner Photonen messen können. Solche Geräte werden Photonenzähler ge-nannt. Damit beträgt die kleinste detektierbare Energiemenge hν . Die Anzahlvon Photonen, die pro Zeiteinheit gezählt werden, ist eine Zufallsvariable miteiner Poissonverteilung (Abschn. 3.4.1). Wenn im Mittel N Photonen in einem


Zeitintervall gezählt werden, dann ist die Standardabweichung der Poissonver-teilung σN =

√N . Man muss also 10.000 Photonen zählen, um den Strahlungs-

fluss mit einer relativen Standardabweichung von 1 % messen zu können.

6.3.5 Teilchenstrahlung

Im Gegensatz zu elektromagnetischen Wellen bewegt sich Teilchenstrahlungmit geringerer Geschwindigkeit als Licht, da die Partikel eine Ruhemasse be-sitzen. In Bezug auf die Bildaufnahme stellen Elektronen die wichtigste Teil-chenstrahlung dar. Sie wird auch Betastrahlung genannt und von bestimmtenradioaktiven Isotopen ausgesandt. Ebenfalls bedeutend sind die positiv gela-denen Kerne des Wasserstoffatoms, die Protonen, die Kerne des Heliumatoms(Alphastrahlung), welche eine doppelt positive Ladung haben, und die Neutro-nen.

Teilchenstrahlung besitzt auch einen Wellencharakter. Wellenlänge λ und Fre-quenz ν stehen in direkter Beziehung zur Energie und zum Impuls der Teilchen:

ν = E/h Bohrsche Frequenzbedingung,λ = h/p de-Broglie-Beziehung. (6.21)

Diese Beziehungen entsprechen denen des Photons (6.19) und (6.20). Die Bedeu-tung für die Bildgebung liegt in der Tatsache, dass ihre Teilchen typischerweiseStrahlung viel kürzerer Wellenlänge als sichtbares Licht haben. Elektronen miteiner Energie von etwa 20 keV haben zum Beispiel eine Wellenlänge von 10−11 moder 10 pm. Dies ist etwa 1/50 000 der Wellenlänge des Lichts. Da die Auflö-sung jedes bildgebenden Systems — mit Ausnahme von Nahfeldsystemen — inder Größenordnung der Wellenlänge der Strahlung liegt (Abschn. 7.6.3), habenBildsysteme, die auf Elektronen basieren (Elektronenmikroskop), potenziell einviel höheres Auflösungsvermögen als jedes Lichtmikroskop.

6.3.6 Akustische Wellen

Anders als elektromagnetische Wellen benötigen akustische oder elastische Wel-len einen Träger. Akustische Wellen pflanzen elastische Verformungen fort.Durch isotropen Druck werden so genannte longitudinale akustische Wellen er-zeugt. Sie bewirken eine uniforme Kompression und damit eine Deformation inFortpflanzungsrichtung der Welle. Die lokale Dichte ρ, der lokale Druck p unddie lokale Geschwindigkeit v werden mit der Wellengleichung

∂2ρ∂t2

= u2∆ρ,∂2p∂t2

= u2∆p mit u = 1√ρ0βad

(6.22)

beschrieben. Dabei ist u die Schallgeschwindigkeit , ρ0 die statische Dichte undβad die adiabatische Kompressibilität . Letztere ist die relative Volumenände-rung bei gleichmäßiger Druckänderung unter der Bedingung, dass kein Wärme-austausch stattfindet:

βad = − 1V

dVdP. (6.23)

Gleichung (6.22) setzt auf universelle Weise die Schallgeschwindigkeit mit denelastischen Eigenschaften des Mediums in Beziehung. Je niedriger Dichte und

6.4 Wechselwirkung zwischen Strahlung und Materie 183

Kompressibilität sind, desto höher ist die Schallgeschwindigkeit. AkustischeWellen bewegen sich viel langsamer als elektromagnetische. Ihre Geschwin-digkeit in Luft, Wasser und Eisen bei 20°C beträgt 344 m/s, 1485 m/s bzw.5100 m/s. Eine hörbare Schallwelle mit 3 kHz hat in Luft eine Wellenlänge vonetwa 10 cm. Akustische Wellen mit viel höherer Frequenz, so genannter Ultra-schall , kann kleine Wellenlängen bis hinunter in den Mikrometerbereich haben.Mit geeigneten akustischen Linsen ist dann Ultraschallmikroskopie möglich.

Wenn wir Schall oder Ultraschall für Abbildungszwecke benutzen, so müssenwir beachten, dass die Ausbreitung von Schall in Festkörpern viel komplizierterist als in Flüssigkeiten oder Gasen. Zum Ersten sind Festkörper nicht isotropund die Elastizität kann nicht mehr als skalare Kompressibilität beschriebenwerden. An ihre Stelle tritt ein Elastizitätstensor. Zum Zweiten können durchScherkräfte auch transversale akustische Wellen erzeugt werden, bei denen dieDeformation wie bei elektromagnetischen Wellen senkrecht zur Fortpflanzungs-richtung verläuft. Schallwellen breiten sich daher in Festkörpern mit verschie-denen Modi und unterschiedlichen Geschwindigkeiten aus.

Trotz dieser komplexen Zusammenhänge ist die Schallgeschwindigkeit nur vonder Dichte und den elastischen Eigenschaften des Mediums abhängig. Deshalbzeigen akustische Wellen in der hier betrachteten Näherung der Kontinuums-mechanik, also für Wellenlängen, die viel größer sind als Abstände von Atomen,keine Dispersion. Wellen mit unterschiedlichen Frequenzen breiten sich dahermit der gleichen Geschwindigkeit aus. Dies ist eine wichtige Tatsache für Tech-niken akustischer Bildgebung.

6.4 Wechselwirkung zwischen Strahlung und Materie

Die Wechselwirkung zwischen Strahlung und Materie ist die Grundlage für jedeabbildende Technik. Grundsätzlich können zwei Klassen der Wechselwirkungunterschieden werden (Abb. 6.7). Die erste Klasse steht im Zusammenhang mitDiskontinuitäten optischer Eigenschaften am Übergang zwischen zwei unter-schiedlichen Materialien. Die zweite Klasse bezieht sich auf Volumen und hängtvon den optischen Materialkonstanten ab. In diesem Abschnitt geben wir einekurze Zusammenfassung der wichtigsten Arten der Wechselwirkungen. Damitsoll ein Überblick über die vielfältigen Möglichkeiten der Messung von Materi-aleigenschaften mit bildaufnehmenden Techniken gegeben werden.

6.4.1 Thermische Emission

Emission von elektromagnetischen Strahlen erfolgt bei allen Temperaturen undist damit eine allgegenwärtige Form der Interaktion zwischen Materie und elek-tromagnetischer Strahlung. Die Ursache für die spontane Emission elektroma-gnetischer Strahlung ist die thermische Molekularbewegung, die mit der Tem-peratur steigt. Bei der Emission von Strahlung wird thermische Energie in elek-tromagnetische Strahlen umgewandelt. Nach dem Gesetz der Energieerhaltungkühlt sich die Materie dabei ab.

Es gibt eine obere Grenze thermischer Emission. Nach den Gesetzen der Ther-modynamik muss der Anteil der Strahlung, der bei einer bestimmten Wellen-länge absorbiert wurde, wieder abgestrahlt werden. Damit liegt die obere Emis-


a

θe

L( )λ ,θ ,φ2 e eL( )λ,θ ,φe e E( )λ1

1

2

Oberflächen-emission

Stimulierte Emission Reflexion Brechung

θθθ

θ

n

n2

1ieθe

b

L(λ,Θ ,Φ )e e

L(λ ,Θ ,Φ )e eE( )λ

E( )λ

α λ( )ds

dEE = - ( )dsα λ

E( )λ

VolumetrischeEmission

StimulierteEmission

Absorption Brechung

Gradient desBrechungsindex

Streuung Drehung derPolarisations-ebene(optische Aktivität)

1 e

Frequenz-verdoppelung und-verdreifachung

NichtlinearerEffekt,Zwei-Photonen-prozesse

λ 1

λ 2

λ 3

Abbildung 6.7: Prinzipielle Möglichkeiten der Wechselwirkung zwischen Strah-lung und Materie: a an der Oberfläche eines Objektes, d. h. aufgrund der Dis-kontinuität optischer Eigenschaften; b volumenbezogen.

sionsgrenze bei einem Absorptionsvermögen von eins. Ein Stoff mit perfektemAbsorptionsvermögen — und maximaler Emission — wird schwarzer Körpergenannt.

Die korrekte theoretische Beschreibung der Strahlung eines schwarzen Körpersdurch Planck im Jahre 1900 erforderte die Annahme, dass Emission und Absorp-tion von Strahlung in diskreten Energiequanten E = hν erfolgen. Die spektraleStrahlung eines schwarzen Körpers mit der absoluten Temperatur T beträgt(Abb. 6.8)

Le(ν, T) = 2hν3

c2

1

exp(hνkBT

)− 1

, Le(λ, T) = 2hc2

λ5

1

exp(

hckBTλ

)− 1

(6.24)

mit

h = 6,6262 · 10−34 Js Plancksche Konstante,kB = 1,3806 · 10−23 J/K Boltzmann Konstante undc = 2,9979 · 108 ms−1 Lichtgeschwindigkeit im Vakuum.

(6.25)


Abbildung 6.8: Spektrale Strahldichte eines schwarzen Körpers bei verschiede-nen absoluten Temperaturen T , doppelt logarithmisch aufgetragen. Die dünneLinie markiert die Wellenlänge der maximalen Emission als Funktion der absolu-ten Temperatur.

Die Strahlung eines schwarzen Körpers hat die wichtige Eigenschaft, dass dieStrahlungsdichte nicht richtungsabhängig ist. Solch ein Strahler wird Lambert-scher Strahler genannt. Damit ist die spektrale Strahlungsflussdichte (konstan-te Strahlungsdichte integriert über eine Halbkugel) π -mal höher als die Strah-lungsdichte:

Me(λ, T) = 2πhc2

λ5

1

exp(

hckBTλ

)− 1

. (6.26)

Die totale Strahlungsflussdichte eines schwarzen Körpers, integriert über alleWellenlängen, ist nach dem Gesetz von Stefan und Boltzmann proportional zuT 4:

Me =∞∫0

Me(λ)dλ = 215

k4Bπ5

c2h3T 4 = σT 4, (6.27)

wobei σ ≈ 5,67·10−8Wm−2K−4 die Stefan-Boltzmann-Konstante ist. Die Wellen-länge der maximalen Emission eines schwarzen Körpers wird durch das Wien-sche Gesetz beschrieben:

λm ≈ 2.898 · 10−3KmT

. (6.28)

Die maximale Strahlungsflussdichte bei Raumtemperatur (300 K) liegt im Infra-rotbereich bei etwa 10µm, bei 3000 K (Glühlampe) liegt sie im nahen Infrarotbei 1µm.


a

0 5 10 15 200

0.2

0.4

0.6

0.8

1

1.2Le

0

10

30

40

20

mW

cm msr2µ

λ µm

b

3 3.5 4 4.5 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Le

0

10

20

40

30

λ µm

mW

cm msr2µ

Abbildung 6.9: Strahldichte eines schwarzen Körpers bei Temperaturen zwi-schen 0 und 40°C im Wellenlängenbereich a 0–20µm und b 3–5µm.

Reale Objekte emittieren weniger Strahlung als ein schwarzer Körper. Das Ver-hältnis der Ausstrahlung eines realen Körpers zur Ausstrahlung eines schwar-zen Körpers wird (spezifische) Emissivität ε genannt und ist abhängig von derWellenlänge.

Die Strahlung im Infrarot - und Mikrowellenbereich kann verwendet werden, umBilder der Temperaturverteilung von Objekten aufzunehmen. Diese Anwen-dung wird Thermografie genannt. Die thermische Bildaufnahme wird dadurchkompliziert, dass reale Objekte keine perfekten schwarzen Körper sind, son-dern teilweise Strahlung ihrer Umgebung reflektieren. Hat ein Objekt die Emis-sivität ε, resultiert der Teil 1 − ε der empfangenen Strahlung aus der Objekt-umgebung. Dies verfälscht die Temperaturmessung. Unter der vereinfachtenAnnahme, dass die Umgebung eine konstante Temperatur Te hat, können wirden Einfluss der reflektierten Umgebungsstrahlung auf die Temperaturmessungabschätzen. Die Gesamtstrahlung E, die das Objekt abgibt, beträgt

E = εσT 4 + (1− ε)σT 4e . (6.29)

Diese Strahlung wird interpretiert, als ob sie von einem schwarzen Körper mitder vorgetäuschten Temperatur T ′ herrühren würde:

σT ′4 = εσT 4 + (1− ε)σT 4e . (6.30)

Nach T ′ aufgelöst, ergibt sich

T ′ = T(ε+ (1− ε)T

4eT 4

)1/4

. (6.31)

Innerhalb der Grenzen kleiner Temperaturdifferenzen (∆T = Te − T T) re-duziert sich (6.31) auf

T ′ ≈ εT + (1− ε)Te oder T ′ − T ≈ (1− ε)∆T . (6.32)

Aus dieser vereinfachten Gleichung schließen wir, dass eine 1 %ige Abweichungvon ε von eins in einem Temperaturfehler von 0,01 K pro 1 K Unterschied derObjekttemperatur zur Umgebungstemperatur resultiert. Selbst bei einem fast


a

0 10 20 30 40

0.2

0.4

0.6

0.8

1

Temperatur [oC]

Le/Le(40oC)

3

4

5

810

1412

b

0 10 20 30 40

1.5

2

3

5

7

10

Temperatur [oC]

1412

10

8

5

4

3

dLe/dTLe

[%]

Abbildung 6.10: Relative photonenbasierte Strahlungsdichte im Temperatur-bereich zwischen 0 und 40°C und bei Wellenlängen in µm, wie angegeben: abezogen auf die Strahlungsdichte bei 40°C; b relative Änderung in Prozent proGrad.

perfekten schwarzen Körper wie der Wasseroberfläche mit einer mittleren Emis-sivität von 0,97 führt dies zu beträchtlichen Fehlern bei der absoluten Tempe-raturmessung. Die tatsächliche Temperatur eines klaren Himmels kann leicht80 K kälter als eine 300 K warme Wasseroberfläche sein und damit zu einemFehler von -0,03 · 80 K = -2,4 K bei der Temperaturmessung führen. DieserFehler kann nach (6.31) und (6.32) korrigiert werden, wenn die mittlere Um-gebungstemperatur bekannt ist. Ebenso sind relative Temperaturmessungenfehlerbehaftet, wenn auch weniger deutlich. Wenn wir von einer konstantenUmgebungstemperatur im Bereich (Te − T) T ausgehen, können wir aus(6.32) schließen, dass

∂T ′ ≈ ε∂T für (Te − T) T . (6.33)

Das bedeutet, dass die gemessenen Temperaturunterschiede um den Faktor εkleiner sind, als in Wirklichkeit.

Andere Korrekturfaktoren müssen angewandt werden, wenn Strahlung auf demWeg vom Objekt zum Detektor signifikant absorbiert wird. Ist die Entfernungzwischen Objekt und Kamera groß, wie bei Infrarotaufnahmen der Erde vonFlugzeugen oder aus dem Weltraum, ist es wichtig, einen Wellenlängenbereichmit minimaler Absorption zu wählen.

Die beiden wichtigsten atmosphärischen Fenster liegen bei 3-5µm (mit einemscharfen Absorptionsmaximum um 4,2µm, das auf CO2 zurückzuführen ist)und bei 8-12µm. Abbildung 6.9 zeigt die Strahlung eines schwarzen Körpers beiUmgebungstemperaturen zwischen 0 und 40 °C in Wellenlängenbereichen von0-20µm und 3-5µm. Obwohl das Strahlungsmaximum bei 10 µm und dort etwa20mal höher als bei 4µm liegt, ist die relative Veränderung der Strahlung mitder Temperatur bei 4µm viel größer als bei 10 µm. Dieser Effekt ist genauer inAbb. 6.10 gezeigt. Dort ist die Strahlungsdichte relativ zu der Strahlungsdichte


a b

c d

Abbildung 6.11: Beispiele für Wärmebilder: a Gebäude, aufgenommen an einemkalten Wintertag, b Straßenszene, c Blick in einen PC und e Person mit Feuerzeug.

bei 40°C und die relative Änderung der Strahlungsdichte pro Grad (∂L/∂T)/Lals Funktion der Temperatur aufgetragen. Während sich die Strahlung bei 20 °Cbei einer Wellelänge von 10 µm nur um etwa 1,7 %/K ändert, ändert sie sich beieiner Wellenlänge von 4 µm um etwa 4 %/K. Diese höhere relative Sensitivitätbedingt den Vorteil des Wellenlängenbereiches 3-5µm für die Messung kleinerTemperaturunterschiede, obwohl die absolute Strahlung viel kleiner ist.

In Abb. 6.11 illustrieren einige Bilder die Anwendung der Thermografie.

6.4.2 Brechung, Reflexion und Transmission

Am Übergang zwischen zwei optischen Medien wird der übertragene Strahlnach dem Snellius-Brechungsgesetz gebrochen, d. h., er ändert seine Richtung(Abb. 6.12a):

sinθ1

sinθ2= n2

n1, (6.34)


a

θ1

θ2

einfallenderStrahl

Oberflächennormale

gebrochenerStrahl

n1

n >n2 1

b

θ1 θ1

θ2 θ2

θ2

θ3 = θ1

einfallend

reflektiert

reflektiert

einmal gebrochen

zweimal gebrochen

n1

n >n2 1

n <n1 2

Abbildung 6.12: a Ein Strahl ändert seine Richtung am Übergang zwischen zweioptischen Medien mit einem unterschiedlichen Brechungsindex. b Parallel pola-risiertes Licht wird vollständig gebrochen und nicht reflektiert, wenn der Winkelzwischen dem reflektierten und dem gebrochenen Strahl 90° betragen würde.Diese Bedingung gilt beim Übergang sowohl von optisch dünneren als auch vonoptisch dickeren Medien.

wobei θ1 der Einfallswinkel und θ2 der Brechungswinkel ist. Brechung ist dieBasis für transparente optische Elemente (Linsen), die ein Abbild eines Objekteserzeugen können. Das bedeutet, dass alle Strahlen, die von einem Punkt desObjektes emittiert werden und durch das optische Element wandern, in einemPunkt der Bildebene konvergieren.

Eine spiegelnde Oberfläche reflektiert Licht gerichtet. Licht, dass in Richtung(θi,φi) einfällt, wird in Richtung (θi,φi +π ) reflektiert. Das bedeutet, dass derReflexionswinkel gleich dem Einfallswinkel ist und dass der einfallende und derreflektierte Strahl sowie die Oberflächennormale in einer Ebene liegen. Das Ver-hältnis des reflektierten Strahlungsflusses zum an der Oberfläche einfallendenFluss wird Reflexionskoeffizient ρ genannt.

Spiegelnde Reflexion tritt nur bei glatten Oberflächen auf. Eine Oberfläche musswegen der wellenähnlichen Natur elektromagnetischer Strahlung für spiegelndeReflexion nicht perfekt glatt sein. Es genügt, wenn die restliche Rauheit deutlichkleiner ist als die Wellenlänge.

Der Reflexionskoeffizient ρ hängt vom Einfallswinkel, von den Brechungsindi-zes n1 und n2 der beiden aufeinander treffenden Medien und von der Polari-sation der Strahlung ab. Licht wird parallel bzw. senkrecht polarisiert genannt,wenn der elektrische Feldvektor parallel bzw. senkrecht zur Einfallsebene ist,welche die Einfallsrichtung, die Reflexionsrichtung und die Oberflächennormaleenthält.

Der Reflexionskoeffizient ist durch die Fresnel-Gleichungen gegeben, für parallelpolarisiertes Licht durch

ρ‖ = tan2(θ1 − θ2)tan2(θ1 + θ2)

, (6.35)


a

0 20 40 60 800

0.2

0.4

0.6

0.8

1ρ

⊥

||

θ1 °

b

0 10 20 30 400

0.2

0.4

0.6

0.8

1

ρ

⊥

||

θ1 °

Abbildung 6.13: Reflexion am Übergang a von Luft (n1 = 1,00) in BK7-Glas(n2 = 1,517) und b von BK7-Glas in Luft für parallel- (‖), senkrecht- (⊥) undunpolarisiertes einfallendes Licht.

für senkrecht polarisiertes Licht durch

ρ⊥ = sin2(θ1 − θ2)sin2(θ1 + θ2)

(6.36)

und für unpolarisiertes Licht (siehe Abb. 6.13) durch

ρ = ρ‖ + ρ⊥2

, (6.37)

wobei θ1 der Einfallswinkel und θ2 der Ausfallswinkel ist, die beide über dasSnellius-Gesetz in Beziehung zueinander stehen.

Bei senkrechtem Einfall (θ1 = 0) hängt die Reflexion nicht von der Polarisationab:

ρ = (n1 −n2)2

(n1 +n2)2= (n− 1)2

(n+ 1)2mit n = n1/n2. (6.38)

Wie in Abb. 6.13 illustriert, wird parallel polarisiertes Licht bei einem bestimm-ten Winkel (Brewsterwinkel θb) überhaupt nicht reflektiert. Diese Bedingung isterfüllt, wenn gebrochene und reflektierte Strahlen senkrecht zueinander stehenwürden (Abb. 6.12b):

θb = arcsin1√

1+n21/n

22

. (6.39)

Tritt ein Strahl in ein Medium mit niedrigerem Brechungsindex ein, wird dasLicht total reflektiert, wenn der Einfallswinkel größer als der kritische Winkelθc ist:

θc = arcsinn1

n2mit n1 < n2. (6.40)

Dieses Phänomen wird Totalreflexion genannt.

6.4.3 Raue Oberflächen

Die meisten natürlichen und auch technischen Objekte reflektieren Licht nichtdirekt, sondern zeigen eine diffuse Reflexion. Der Grund sind mikroskopische


Unebenheiten, die, abhängig von der Neigung der einzelnen reflektierenden Flä-chen, Licht in verschiedene Richtungen reflektieren. Die Winkelverteilung derrückgestreuten Strahlung kann sehr unterschiedlich sein. Einige Materialien er-zeugen starke Vorwärtsstreuung, während andere nahezu gleichmäßig in alleRichtungen streuen. Es gibt auch eine Art gemischter Reflexion, die teilwei-se spiegelnd ist durch Reflexion an der glatten Oberfläche und teilweise diffusaufgrund von Rückstreuung aus tieferen Schichten. In diesem Fall dringt Lichtteilweise in das Objekt ein und wird an optischen Inhomogenitäten gestreut.Ein Teil des gestreuten Lichtes verlässt das Objekt wieder und verursacht dif-fuse Reflexion. Werden mit der Kamera Objekte aufgenommen, die nicht selbstStrahlung emittieren, aber einfallendes Licht passiv reflektieren, ist es notwen-dig zu wissen, wie das Licht reflektiert wird.

Allgemein kann die Beziehung zwischen emittierter und einfallender Strahlungals Verhältnis der Strahlung, die unter dem Polarwinkel θe und dem Azimut-winkel θe emittiert wird, und der Bestrahlungsstärke θi ausgedrückt werden.Dieses Verhältnis wird bidirektionale Reflexionsverteilungsfunktion oder Refle-xionsverteilung genannt, da sie vom Winkel sowohl der einfallenden als auchder austretenden Strahlung abhängt:

f(θi,φi, θe,φe) = Le(θe,φe)Ei(θi,φi)

. (6.41)

Bei einem perfekten Spiegel (spiegelnde Reflexion) ist f überall null, mit Aus-nahme von θi = θe und φe = π +φi, also

f(θi, θe) = δ(θi − θe) · δ(φe −π −φi). (6.42)

Das andere Extrem ist ein perfekt streuendes Material, das einfallende Strah-lung unabhängig vom Einfallswinkel gleichmäßig in alle Richtungen reflektiert.Solch eine Oberfläche wird Lambertscher Strahler oder Lambertscher Reflek-tor genannt. Die Strahlung dieser Oberflächen ist unabhängig von der Betrach-tungsrichtung:

Le = 1πEi oder f(θi,φi, θe,φe) = 1

π. (6.43)

6.4.4 Absorptionsvermögen und Transmissivität

Strahlung, die sich in Materie bewegt, wird mehr oder weniger absorbiert undin unterschiedliche Energieformen umgewandelt, insbesondere in Wärme. DieAbsorption in einer dünnen Schicht dx ist proportional zur Strahlungsenergie.Daher gilt:

dI(λ)dx

= −α(λ,x)I. (6.44)

Der Absorptionskoeffizient α ist eine Eigenschaft des Mediums und hängt vonder Wellenlänge der Strahlung ab. Er ist eine reziproke Länge mit der Einheitm−1. Durch Integration von (6.44) können wir die Abschwächung der Strahlungauf dem Weg von 0 bis x berechnen:

I(x) = I(0) · exp(−

∫ x0α(λ,x′)dx′

), (6.45)


oder, wenn das Medium homogen ist (α ist unabhängig von der Position x′):

I(x) = I(0) exp(−α(λ)x). (6.46)

Die exponentielle Abschwächung von Strahlung in einem homogenen Medium,wie sie durch (6.46) ausgedrückt wird, wird oft als Lambert-Beer-Bouguer-Gesetzbezeichnet. Danach wird Strahlung nach einem Weg von 1/α auf 1/e ihresursprünglichen Wertes abgeschwächt.

Das Wegintegral über den Absorptionskoeffizienten

τ(x1, x2) =∫ x2

x1

α(x′)dx′ (6.47)

resultiert in einer dimensionslosen Größe, die als optische Dichte bezeichnetwird. Die optische Dichte ist ein logarithmischer Ausdruck der Strahlungsab-schwächung und bedeutet, dass entlang des Wegs von Punkt x1 zu Punkt x2 dieStrahlung auf e−τ abgeschwächt wurde.

Wenn Strahlung durch zusammengesetzte Medien dringt, ist — zumindest beibestimmten Wellenlängen — oft nur eine chemische Substanz für die Strah-lungsabschwächung verantwortlich. Also ist es sinnvoll, den Absorptionskoef-fizienten auf die Konzentration dieser Substanz zu beziehen:

α = ε · c, [ε] =[

lmol m−1

], (6.48)

wobei c die Konzentration in Mol/l ist. ε ist der so genannte molare Absorpti-onskoeffizient . Die einfache lineare Beziehung (6.48) ist für einen weiten Bereichvon Strahlungsstärken gültig, jedoch nicht bei sehr hohen Intensitäten, z. B. beiLaserstrahlen. An dieser Stelle treten wir in die Welt nichtlinearer optischerPhänomene ein.

Da der Absorptionskoeffizient eine individuelle Eigenschaft chemischer Sub-stanzen ist, kann er bei Bildverarbeitungsanwendungen dazu verwendet wer-den, chemische Stoffe zu identifizieren und ihre Konzentration zu messen.

Der Begriff Transmissionskoeffizient steht für den Anteil der Strahlung, der übrigbleibt, nachdem die Strahlen einen bestimmten Weg im Medium zurückgelegthaben. Der Begriff Transmissivität und der Transmissionskoeffizient werden oftverwechselt. Im Gegensatz zur Transmissivität bezieht sich der Transmissions-koeffizient auf eine einzelne Oberfläche und steht für den Anteil der Strahlung,der nicht reflektiert wird, sondern in das Medium eintritt.

6.4.5 Streuung

Die Abschwächung der Strahlung durch Streuung kann ähnlich wie der Strah-lungsverlust durch Absorption beschrieben werden:

β(λ) = −1I

dI(λ)dx

. (6.49)

Der Streukoeffizient β ist eine reziproke Länge mit der Einheit m−1. Wird Strah-lung sowohl durch Absorption als auch durch Streuung abgeschwächt, könnenbeide Effekte im Extinktionskoeffizienten κ(λ) zusammengefasst werden:

κ(λ) = α(λ)+ β(λ). (6.50)


Obwohl Streuung der Absorption zu ähneln scheint, ist sie ein viel schwieri-geres Phänomen. Gleichung (6.50) kann nur verwendet werden, wenn sich dieStrahlung der einzelnen Streuzentren an einem beliebigen Punkt, weit entferntvon den Partikeln, inkohärent addiert. Die Komplexität der Streuung hängt mitder Tatsache zusammen, dass gestreute Strahlung (ohne zusätzliche Absorpti-on) nicht verloren geht. Gestreutes Licht kann mehr als einmal gestreut werden.Daher kann ein Teil von ihm mehr als einmal wieder in den Originalstrahl eintre-ten. Die Wahrscheinlichkeit, dass Strahlung auf einer bestimmten Wegstreckemehr als einmal gestreut wird, steht in direktem Zusammenhang mit der totalenAbschwächung durch Streuung entlang dem Weg des Strahls und damit mit deroptischen Dichte τ . Ist τ kleiner als 0.1, werden weniger als 10 % der Strahlunggestreut.Der gesamte Anteil gestreuten Lichts und die Analyse der Winkelverteilung stehtin Beziehung zu den optischen Eigenschaften des streuenden Mediums. Daherwird die Streuung durch optische Unregelmäßigkeiten des Mediums verursacht.Für die weitere Diskussion nehmen wir an, dass kleine kugelförmige Partikel mitdem Radius r und dem Brechungsindex n in ein optisch homogenes Mediumeingebettet sind.Die Streuung an einem Teilchen wird durch den Wirkungsquerschnitt oder Streu-querschnitt beschrieben. Er ist das Verhältnis des Flusses, der durch das Teil-chen weggenommen wird, zum einfallenden Fluss:

σs = φs/φπr 2. (6.51)

Der Streuquerschnitt hat die Einheit einer Fläche. Er kann als effektive Streu-fläche des Partikels, der den einfallenden Strahlungsfluss vollständig streut, be-trachtet werden. Daher wird der WirksamkeitsfaktorQs definiert als Wirkungs-querschnitt, bezogen auf die geometrische Querschnittsfläche des Teilchens:

Qs = σs/(πr 2). (6.52)

Die Winkelverteilung der gestreuten Strahlung wird durch den differenziellenWirkungsquerschnitt dσs/dΩ definiert, der Strahlungsflussdichte, die pro Ein-heitsraumwinkel gestreut wird. Der totale Wirkungsquerschnitt ist das Integralüber alle Raumwinkel des differenziellen Wirkungsquerschnittes:

σs =∫

dσsdΩ

dΩ. (6.53)

Das Verhältnis zwischen dem Streukoeffizienten β (6.49) und dem Wirkungs-querschnitt ergibt sich durch folgende Überlegungen. Die Anzahl der streuen-den Teilchen pro Einheitsvolumen sei ρ. Damit entspricht der Wirkungsquer-schnitt aller Teilchen der Fläche ρ ·σ . Diese Fläche, verglichen mit der Einheits-fläche, ergibt den Anteil der Fläche, die den einfallenden Lichtfluss streut, undist damit identisch mit dem Streukoeffizienten β:

β = ρσ. (6.54)

Die Streuung durch kleine Partikel wird entscheidend durch das Verhältnis derPartikelgröße zur Wellenlänge der Strahlung, ausgedrückt in der dimensions-losen Partikelgröße q = 2πr/λ = 2πrk, beeinflusst. Ist q 1 (Rayleigh-Streuung), haben wir eine sehr schwache Streuung proportional zu λ−4:

σs/πr 2 = 83q4

∣∣∣∣∣n2 − 1n2 + 2

∣∣∣∣∣ . (6.55)


Bei q 1 kann die Streuung durch geometrische Optik beschrieben werden.Reflektiert ein Partikel die einfallende Strahlung vollständig, ist der Wirkungs-querschnitt gleich dem geometrischen Querschnitt (σs/πr 2 = 1) und der dif-ferenzielle Wirkungsquerschnitt konstant (isotrope Streuung, dσ/dΩ = r 2/2).Dagegen ist die Streuung bei Partikeln der Größe etwa einer Wellenlänge derStrahlung (Mie-Streuung) durch Beugungs- und Interferenzeffekte des Lichts,das von den unterschiedlichen Teilen der Partikeloberfläche gestreut wird, sehrkomplex. Der differenzielle Wirkungsquerschnitt variiert stark mit dem Streu-ungswinkel und ist hauptsächlich vorwärts gerichtet, während die Rayleigh-Streuung eher isotrop ist.

6.4.6 Optische Aktivität

Optisch aktive Stoffe rotieren die Polarisationsebene elektromagnetischer Strah-lung. Die Drehung ist proportional zur Konzentration des optisch aktiven Ma-terials c und der Wegstrecke d:

ϕ = γ(λ)cd. (6.56)

Die Konstante γ ist die spezifische Drehung und hat die Einheiten [m2 mol] oder[cm2 g−1]; sie ist sehr von der Wellenlänge der Strahlung abhängig. Generell istdie spezifische Drehung signifikant größer bei kurzen Wellenlängen.

Zwei gut bekannte optisch aktive Materialien sind Quarzkristalle und Zuckerlö-sung. Die optische Aktivität kann — einschließlich der Messung der Abhängig-keit von der Wellenlänge — dazu verwendet werden, chemische Stoffe zu iden-tifizieren und ihre Konzentration zu messen. In Bezug auf die Visualisierunghat die optische Aktivität eine weitere Bedeutung, da sie durch verschiedene ex-terne Einflüsse induziert werden kann, darunter durch elektrische (Kerr-Effekt )und magnetische Felder (Faraday-Effekt ).

6.4.7 Lumineszenz

Lumineszenz ist die Emission von Strahlung aus Materialien, die aus einem Über-gang von einem angeregten in einen niedrigeren Energiezustand resultiert. AlsFluoreszenz bezeichnet man Lumineszenz, die unmittelbar (im Bereich von Na-nosekunden) nach der Anregung auftritt, während der Begriff Phosphoreszenzfür die verzögerte Lumineszenz (Millisekunden bis Minuten) verwendet wird.

Lumineszenz ist ein sehr vielseitiger Prozess, da er durch verschiedene Prozes-se ausgelöst werden kann. Bei der Chemolumineszenz wird die Energie, die zurErzeugung des angeregten Zustandes notwendig ist, bei einer chemischen Reak-tion freigesetzt. Chemolumineszenz hat normalerweise eine niedrige Effizienz(d. h., die Anzahl der Photonen, die pro reagierendem Molekül emittiert wer-den, ist niedrig) im Bereich von 1 % oder weniger. Flammen sind das klassischeBeispiel für einen Chemolumineszenzprozess niedriger Effizienz. Biolumines-zenz ist Chemolumineszenz in lebenden Organismen. Leuchtkäfer und das Glü-hen mariner Mikroorganismen sind bekannte Beispiele dafür. Beim Leuchtkäferwird Luciferin enzymatisch oxidiert. Im Gegensatz zu den meisten Chemolu-mineszenzprozessen setzt diese Reaktion fast 100 % der chemischen Energie inStrahlungsenergie um.


100

80

60

40

20

02 4 6 8 10 12 14

PBA

-Flu

ore

szen

z[r

elat

ive

Einhei

ten]

O -Konzentration in mg/l2

Abbildung 6.14: Tilgung (Quenching) der Fluoreszenz von Pyrenbuttersäuredurch gelösten Sauerstoff: Messungen und Fit mit der Stern-Vollmer-Gleichung(gestrichelte Linie) [157].

Biolumineszenzprozesse spielen bei vielen biologischen Prozessen eine Rolle.Die bildliche Erfassung solcher Prozesse erlangt bei der Untersuchung bioche-mischer Reaktionen eine immer größere Bedeutung.

Ein anderes anspruchsvolles Werkzeug in der Biochemie ist die Markierung vonBiomolekülen mit Fluoreszenzfarbstoffen. Heute können sogar einzelne Chro-mosomen oder Gensequenzen mit Fluoreszenzfarbstoffen markiert werden.

Lumineszenzvorgänge konkurrieren stets mit anderen Prozessen, die den ener-getischen Zustand der Moleküle herabsetzen, ohne Strahlung zu emittieren. Einbekanntes Beispiel dafür ist die strahlenlose Energieübertragung beim Zusam-menstoß von Molekülen.

Einige Molekülformen, insbesondere elektronegative Moleküle wie Sauerstoff ,inaktivieren angeregte Zustände bei Molekülkollisionen mit hoher Effizienz. Die-ser Prozess heißt Tilgung oder Quenching. Die Anwesenheit von Quench-Mo-lekülen bewirkt eine Abschwächung oder Auslöschung der Fluoreszenz. Daherkann die Fluoreszenzstrahlung zur Messung der Konzentration von tilgendenMolekülen verwendet werden. Die Abhängigkeit der Fluoreszenzintensität vonder Konzentration dieser Moleküle ist in der Stern-Vollmer-Gleichung formu-liert:

LL0= 1

1+ kcq . (6.57)

Dabei ist L die Fluoreszenzstrahlung, L0 die Fluoreszenzstrahlung ohne Til-gung, cq die Konzentration des tilgenden Moleküls und k die Tilgungskonstante,die von der Lebensdauer des Fluoreszenzstadiums abhängt. Effiziente Tilgungerfordert, dass der angeregte Zustand eine ausreichende Lebensdauer hat.

Ein guter Fluoreszenzfarbstoff zur Messung der Tilgung durch gelösten Sau-erstoff ist Pyrenbuttersäure (PBA) [229]. Die relative Fluoreszenzintensität vonPBA als Funktion der Konzentration des gelösten Sauerstoffs ist in Abb. 6.14 ge-zeigt [158]. Fluoreszenz wird durch einen gepulsten Stickstofflaser bei 337 nmstimuliert. Die Veränderung der Fluoreszenz ist relativ gering, aber ausreichendzur zuverlässigen Messung der Konzentration gelösten Sauerstoffs.


6.4.8 Dopplereffekt

Ein Geschwindigkeitsunterschied zwischen der Strahlungsquelle und dem Emp-fänger bewirkt, dass der Empfänger eine andere Frequenz misst, als die Quelleemittiert hat. Dieses Phänomen wird als Dopplereffekt bezeichnet. Die Fre-quenzverschiebung ist dem Geschwindigkeitsunterschied direkt proportional:

νr = c − uTr kc − uTs kνs oder ∆ν = νr − νs = (us − ur )Tk

1− uTs k/c , (6.58)

wobei k = k/ |k|, νs die Frequenz der Quelle, νr die Frequenz, die am Empfän-ger gemessen wird, k die Wellenzahl der Strahlung und c die Fortpflanzungs-geschwindigkeit der Strahlung ist. us und ur sind die Geschwindigkeiten vonQuelle und Empfänger relativ zum Medium, in dem sich die Welle fortpflanzt.Nur die Geschwindigkeitskomponente in Richtung zum Empfänger bewirkt eineFrequenzverschiebung.

Bewegt sich die Quelle zum Empfänger (us Tk > 0), nimmt die Frequenz zu, dadie Wellenfronten schneller aufeinander folgen. Eine kritische Grenze ist über-schritten, wenn sich die Quelle mit mehr als der Fortpflanzungsgeschwindigkeitder Strahlung bewegt. Dann folgt die Strahlung der Quelle hinterher.

Bei kleinen Geschwindigkeiten relativ zur Wellenfortpflanzungsgeschwindigkeitist die Frequenzverschiebung der relativen Geschwindigkeit zwischen Quelleund Empfänger direkt proportional:

∆ν = (us − ur )k. (6.59)

Die relative Frequenzverschiebung ∆ω/ω ist direkt durch das Verhältnis derGeschwindigkeitsdifferenz zwischen Quelle und Empfänger in Richtung desEmpfängers zur Wellenfortpflanzungsgeschwindigkeit gegeben:

∆νν= (us − ur )T

ck. (6.60)

Bei elektromagnetischen Wellen ist die Geschwindigkeit relativ zu einem „Me-dium“ nicht relevant. Aus der Relativitätstheorie ergibt sich die Frequenz zu:

νr = νsγ(1− uT k/c) mit γ = 1√

1− (|u| /c)2 . (6.61)

Für kleine Geschwindigkeiten ergibt sich ebenfalls die Beziehung (6.59) mit u =us − ur . In diesem Fall können akustische und elektromagnetische Wellen inBezug auf die Frequenzverschiebung, die sich aufgrund einer Relativbewegungzwischen Quelle und Empfänger ergibt, gleich behandelt werden.

6.5 Übungsaufgaben

6.1: ∗Radiometrische Größen

Welche radiometrischen Größen beschreiben folgende Prozesse:

1. die insgesamt von einer Lichtquelle ausgesandte Strahlungsleitung,

2. die von einer Lichtquelle pro Flächeneinheit und Raumwinkel ausgesand-te Strahlungsleitung,


3. die pro Flächen- und Zeiteinheit empfangene Strahlungsenergie einesBildsensors und

4. die pro Flächeneinheit empfangene Strahlungsenergie eines Bildsensorsinnerhalb der Belichtungszeit?

6.2: ∗Bestrahlungsstärke

Eine Lichtquelle, die auf einer ebenen Flächen montiert ist, strahlt isotropeinen Strahlungsfluss von 1 Watt in den gesamten Halbraum aus. WelchenBruchteil davon empfängt ein 10× 10µm2 großes Bildsensorelement, das1 m von der Lichtquelle entfernt ist? Wie groß ist die Bestrahlungsstärkedes Bildsensorelements?

6.3: ∗Farbmischung

Können reine (monochromatische) Farben durch additive Mischung der dreiGrundfarben rot, grün und blau erzeugt werden?

6.4: ∗Metamere Farben

Ein Farbsensor habe drei Farbkanäle rot, grün und blau mit einer spektralenEmpfindlichkeit, die der Linienabtastung (Abb. 6.3a) und der Bandabtastung(Abb. 6.3b) in Abschn. 6.2.3 entsprechen. Geben Sie für beide Sensorenmindestens drei möglichst verschiedene spektrale Verteilungen an, die dengleichen Farbeindruck ergeben.

6.5: ∗Farbkreis

Warum empfinden wir in einer Darstellung der Farben auf einem Farbkreisvon den Farben rot über gelb, grün, blau und wieder zurück einen konti-nuierlichen Übergang und nicht einen Sprung von blau auf rot, so wie erphysikalisch durch die Wellenlänge gegeben ist?

6.6: ∗Objekteigenschaften und Strahlung

Welche Parameter der von einem Objekt ausgesandten und von einer Kame-ra aufgenommenen Strahlung können uns Aussagen über die Eigenschaftendes Objekts geben?

6.7: ∗∗Photonen

Wie viele Photonen empfängt ein 10× 10µm2 großes Bildsensorelement,das mit einer Bestrahlungsstärke E = 0.1 mW/cm2 (etwa 1/1000 der di-rekten Bestrahlung mit Sonnenlicht) 1 ms lang bestrahlt wird? (Hinweis:die zur Lösung der Aufgabe benötigte Planck-Konstante h hat den Wert6.626 · 10−34 Js.)


Dieses Kapitel behandelt eine Vielfalt von Themen, die nicht zentral für dieBildverarbeitung, jedoch unerlässlich für die korrekte Bildaufnahme sind. ZumAuffrischen oder Erweitern der Kenntnisse über elektromagnetische Wellen sei


auf einige der klassischen Lehrbücher verwiesen, z. B. Niedrig [162], Czichos[35, B.III], F. S. Crawford [49], Hecht [83] oder Towne [222].

Die Wechselwirkung zwischen Strahlung und Materie im Hinblick auf die Fern-erkundung wird von Stewart [216] und Drury [45] behandelt. Einen Einblick inBildaufnahmetechniken quer durch das gesamte elektromagnetische Spektrumgibt Richards [185]. Die Thematik der Wärmebildaufnahme ist inzwischen eineigenes Arbeitsgebiet geworden, mit dem sich zahlreiche Monografien befassen,z. B. Gaussorgues [64] und Holst [88].

Eine gute Beschreibung des Farbsehens im Hinblick auf die Bildverarbeitung istin Pratt [175] und Wendland [240] zu finden. Die praktischen Aspekte der Pho-tometrie und Radiometrie behandelt das “Handbook of Applied Photometry”von DeCusaris [38].

Die älteste Anwendung der quantitativen Visualisierung ist die Strömungsvisua-lisierung. Einen faszinierenden Einblick mit vielen Bildbeispielen gibt der “Atlasof Visualization” von Nakayama und Tanida [160].

7 Bildaufnahme

7.1 Einleitung

Die Bildaufnahme umfasst drei wichtigste Aspekte. Der erste betrifftdie Geometrie: Wo finden wir ein Objekt in einem Bild? Alle Bildauf-nahmetechniken projizieren den dreidimensionalen Raum auf die eineoder andere Weise auf eine zweidimensionale Bildebene. Daher kann dieBildaufnahme vereinfacht als Projektion aus dem drei- in den zweidimen-sionalen Raum betrachtet werden. Damit verbunden ist der Verlust ei-ner Koordinate. Dies ist sicherlich ein wesentlicher Informationsverlust.Wir erleben jedoch ständig und unbewusst, dass unser visuelles Systemuns einen dreidimensionalen Eindruck unserer Umgebung vermittelt, derausreicht, uns darin zurechtzufinden und mit ihr zu interagieren. Tech-nisch gesehen, rekonstruiert das visuelle System die dreidimensionaleWelt aus zweidimensionalen Bildern. Die Leichtigkeit, mit der dies er-folgt, mag zu der Annahme verleiten, es sei eine einfache Aufgabe. Wiewir aber in Kapitel 8 und 17 sehen, ist dies nicht der Fall.

Der zweite Aspekt betrifft die Radiometrie. Wie „hell“ ist ein abge-bildetes Objekt, und wie hängt die Helligkeit im Bild von den optischenEigenschaften des Objektes und des aufnehmenden Systems ab? Die Ra-diometrie eines Abbildungssystems wird in Abschn. 7.5 behandelt. Fürdie Grundlagen der Radiometrie sei auf Abschn. 6.2 verwiesen.

Der dritte Aspekt ist schließlich: Was geschieht mit einem Bild, wennwir es als eine Matrix digitaler Zahlen darstellen, um es mit einem Digi-talrechner zu verarbeiten? Inwiefern limitieren die Prozesse Digitalisie-rung und Quantifizierung, die ein kontinuierliches Bild in ein digitalesumwandeln, die Bildauflösung oder erzeugen Artefakte? Diese Fragenwerden in Kapitel 9 behandelt.

7.2 Welt- und Kamerakoordinaten

7.2.1 Definition

Zur Beschreibung der Lage der Objekte im 3D-Raum gibt es zwei Mög-lichkeiten (Abb. 7.1). Das erste Koordinatensystem, das so genannteWeltkoordinatensystem X′ = [

X′1, X′2, X

′3

]T, ist auf die betrachtete Sze-

ne bezogen. Die Koordinaten X′1 und X′2 beschreiben die horizontalen


200 7 Bildaufnahme

T

optische Achse

Kamerakoordinaten

Weltkoordinaten

X1

X2

X3

X'1

X'2

X'3

Abbildung 7.1: Welt- und Kamerakoordinatensysteme: Durch Rotation um denUrsprung und eine Translation T kann das Weltkoordinatensystem in das Kame-rakoordinatensystem überführt werden.

Positionen und X′3 die vertikale Position. In manchen Situationen ist eineSchreibweise ohne indizierte Koordinaten sinnvoller: X′ = [X′, Y ′, Z′]T .Beide Schreibweisen werden in diesem Buch verwendet.

Ein zweites, das Kamerakoordinatensystem X = [X1, X2, X3]T , ist mitder sich bewegenden Kamera verknüpft. Die X3-Achse fällt mit der opti-schen Achse des Kamerasystems (Abb. 7.1) zusammen. Physikern sindsolche Betrachtungen vertraut, da physikalische Phänomene in verschie-denen Koordinatensystemen diskutiert werden. So wird z. B. in der Me-chanik Bewegung in Bezug auf zwei Beobachter, einen ruhenden undeinen sich mit dem Objekt bewegenden, studiert.

Der Übergang von Welt- zu Kamerakoordinaten wird durch eine Trans-lation und eine Rotation beschrieben. Zuerst wird der Ursprung des Welt-koordinatensystems über den Translationsvektor T in den Ursprung desKamerakoordinatensystems geschoben (Abb. 7.1). Dann wird die Ori-entierung des verschobenen Weltkoordinatensystems durch Rotationenum entsprechende Achsen so geändert, dass es mit dem Kamerakoor-dinatensystem zusammenfällt. Mathematisch kann die Translation miteiner Vektorsubtraktion und die Rotation mit einer Multiplikation desKoordinatenvektors mit einer Matrix beschrieben werden:

X = R(X′ − T ). (7.1)

7.2.2 Rotation

Die Rotation eines Koordinatensystems hat zwei wichtige Eigenschaften.Sie verändert die Länge oder Norm eines Vektors nicht, und sie belässtdas Koordinatensystem orthogonal. Eine Transformation mit diesen Ei-genschaften wird in der linearen Algebra eine orthonormale Transfor-mation genannt.

Die Koeffizienten einer Transformationsmatrix haben eine intuitiveBedeutung. Dies wird klar, wenn wir Einheitsvektoren Ep in Richtung

7.2 Welt- und Kamerakoordinaten 201

der Koordinatenachse transformieren. Mit E1 erhalten wir z. B.

E′1 = AE1 =⎡⎢⎣ a11 a12 a13

a21 a22 a23

a31 a32 a33

⎤⎥⎦

⎡⎢⎣ 1

00

⎤⎥⎦ =

⎡⎢⎣ a11

a21

a31

⎤⎥⎦ . (7.2)

Die Spalten der Transformationsmatrix geben die Koordinaten der Ba-sisvektoren im neuen Koordinatensystem an. Damit ist es einfach, dieBedingung der Orthonormalität zu formulieren, die die RotationsmatrixR erfüllen muss:

RTR = I oder3∑

m=1

rkmrlm = δk−l, (7.3)

wobei I die Einheitsmatrix ist, deren Elemente auf der Hauptdiagonaleneins und sonst null sind. Mit (7.2) besagt diese Gleichung ganz einfach,dass die transformierten Basisvektoren orthogonal bleiben:

E′kTE′l = δk−l. (7.4)

In Gleichung (7.2) bleiben drei von neun Matrixelementen unabhän-gig. Unglücklicherweise erweist sich die Beziehung zwischen den Ma-trixelementen und drei Parametern zur Beschreibung der Rotation alsrecht komplex und nichtlinear. Eine Möglichkeit, dieses Problem zu lö-sen, ergibt sich mit den drei Eulerschen Rotationswinkelnφ, θ,ψ. In derLiteratur werden die Eulerschen Winkel leider nicht einheitlich definiert.Wir folgen dem mathematischen Standardansatz, verwenden rechtshän-dige Koordinatensysteme und zählen die Rotationswinkel entgegen demUhrzeigersinn positiv. Die Rotation des verschobenen Weltkoordinaten-systems in das Kamerakoordinatensystem wird in drei Schritte zerlegt(siehe Abb. 7.2, [68].

1. Rotation um die X′3-Achse um den Winkel φ, X′′ = RφX′:

Rφ =⎡⎢⎣ cosφ sinφ 0− sinφ cosφ 0

0 0 1

⎤⎥⎦ (7.5)

2. Rotation um die X′′1 -Achse um den Winkel θ, X′′′ = RθX′′:

Rθ =⎡⎢⎣ 1 0 0

0 cosθ sinθ0 − sinθ cosθ

⎤⎥⎦ (7.6)

3. Rotation um die X′′′3 -Achse um den Winkel ψ, X = RψX′′′:

Rψ =⎡⎢⎣ cosψ sinψ 0− sinψ cosψ 0

0 0 1

⎤⎥⎦ (7.7)

202 7 Bildaufnahme

aX'' = X'

3 3

X''2

X'

X'

X''

2

1

1

φ

b

X'''

X''X''' =

2

11

X'

X'

X'''

X'

2

3

3

1

φ

θ

c

X

X'

X'

X

X'

X

2

2

3

3

1

1

θ

ψφ

Abbildung 7.2: Rotation von Weltkoordinaten X′ in Kamerakoordinaten X unterVerwendung der drei Eulerschen Winkel φ,θ und ψ mit aufeinanderfolgendenRotationen um die X′3-, X′′1 - und X′′′3 -Achsen.

Die Kaskadierung der drei RotationenRψ,Rθ undRφ ergibt die Matrix⎡⎣ cosψ cosφ− cosθ sinφ sinψ cosψ sinφ+ cosθ cosφ sinψ sinθ sinψ− sinψ cosφ− cosθ sinφ cosψ − sinψ sinφ+ cosθ cosφ cosψ sinθ cosψ

sinθ sinφ − sinθ cosφ cosθ

⎤⎦.

Die inverse Transformation von Kamera- in Weltkoordinaten wirddurch die Transposition dieser Matrix gegeben. Da die Matrixmultiplika-tion nicht kommutativ ist, ist die Rotation ebenfalls nicht kommutativ.Es ist also wichtig, die Reihenfolge, in der die Rotationen durchgeführtwerden, einzuhalten.

Für infinitesimal kleine Drehwinkel ε ist die Rotation jedoch kommu-tativ. Dann gilt cos ε ≈ 1 und sin ε ≈ ε. Dieser Grenzfall hat praktischeBedeutung, da geringfügige Verdrehungen häufig vorkommen. Eine Ro-tation um die X3-Achse kann damit folgendermaßen beschrieben wer-den:

X = RεX′ =⎡⎢⎣ 1 ε 0−ε 1 0

0 0 1

⎤⎥⎦X′ oder

X1 = X′1 + εX′2X2 = X′2 − εX′1X3 = X′3

.

Als Beispiel betrachten wir den Punkt[X′1,0,0

]T. Dieser wird nach der

Näherungsformel in den Punkt[X′1,−εX′1,0

]Tgedreht. Die korrekte Po-

sition ist dagegen[X′1 cos ε,−X′1 sin ε,0

]T. Wenn wir die trigonometri-

schen Funktionen in eine Taylorreihe dritter Ordnung entwickeln, ergibt

sich ein Positionsfehler von[1/2ε2X′1,−1/6ε3X′1,0

]T. Ausgehend von

einem 512× 512-Bild (X′1 < 256 für eine zentrierte Rotation) und einemmaximal akzeptierbaren Fehler von 1/20 Pixel, muss ε kleiner als 0,02oder 1,15 ° sein. Dies ist immer noch eine signifikante Rotation, da diesam Rand der Bildzeilen einen vertikalen Versatz um bis zu ±εX′1 = ±5Pixel bedeutet.

7.3 Ideale Abbildung: die Zentralprojektion 203

Abbildung 7.3: Bilderzeugung mit der Lochkamera.

7.3 Ideale Abbildung: die Zentralprojektion

7.3.1 Das Lochkameramodell

Die grundlegenden Aspekte der Abbildungsgeometrie eines optischenSystems lassen sich am Lochkameramodell erläutern. Das bildgebendeElement dieser Kamera ist eine infinitesimal kleine Lochblende (Abb. 7.3).Nur der vom Punkt [X1, X2, X3]T des Objektes ausgehende Lichtstrahl,der durch die Lochblende geht, trifft die Bildebene im Punkt [x1, x2,−d′]T.Dadurch wird in der Bildebene ein Bild erzeugt. Die Beziehung zwischenden 3D-Welt- und den 2D-Bildkoordinaten [x1, x2]T ist gegeben durch:

x1 = −d′X1

X3, x2 = −d

′X2

X3. (7.8)

Die Weltkoordinaten parallel zur Bildebene werden also mit dem Fak-tor d′/X3 skaliert. Die Bildkoordinaten [x1, x2]T enthalten daher nurVerhältnisse der Weltkoordinaten, aus denen sich weder die Entfernungeines Gegenstandes noch seine Größe bestimmen lässt.

Eine Gerade im dreidimensionalen Raum wird immer auf eine Geradein der Bildebene projiziert. Das kann man sich ohne Rechnung geome-trisch veranschaulichen. Alle Strahlen, die von einer Geraden ausgehen,gehen durch die Lochblende, den Zentralpunkt. Sie liegen also auf einerEbene, die durch die Gerade im Raum und den Zentralpunkt festgelegtwird. Diese Ebene schneidet sich mit der Bildebene wiederum in einerGeraden.

Alle Objektpunkte, die auf einem durch die Lochblende gehendenStrahl liegen, werden auf einen Punkt in der Bildebene abgebildet. Ineiner Szene mit mehreren transparenten Objekten werden daher die Ob-jekte aufeinander projiziert und die dreidimensionale Struktur der Szenekann nicht mehr rekonstruiert werden. Selbst die Form einzelner Objek-te ist nicht mehr erkennbar. Dieses Beispiel zeigt, wieviel Informationdurch die Projektion einer 3D-Szene auf eine 2D-Bildebene verloren geht.

204 7 Bildaufnahme

Objekt 1Objekt 2

verdeckter Bereich

verdeckte Oberfläche

Projektions-zentrum

optische Achse

Abbildung 7.4: Okklusion von tieferliegenden Objekten und an Oberflächen beider Zentralprojektion.

In natürlichen Bildszenen kommen aber hauptsächlich undurchsich-tigen Objekte vor. Hier reduziert sich der 3D-Raum auf im Raum liegendeOberflächen, die mit zwei 2D-Funktionen g(x1, x2) und X3(x1, x2) an-stelle einer allgemeinen 3D-Grauwertfunktion g(X1, X2, X3) beschriebenwerden können. Die Oberfläche wird vollständig auf die Bildebene proji-ziert, solange nicht mehr als ein Punkt der Oberfläche auf dem gleichenZentralstrahl liegt. Ansonsten bleiben Teile der Oberfläche unsichtbar.Dieser Effekt wird als Okklusion bezeichnet. Den okkludierten 3D-Raumkönnen wir sichtbar machen, wenn wir eine Punktlichtquelle an der Posi-tion der Lochblende installieren (Abb. 7.4). Dann liegen die unsichtbarenBereiche der Szene im Schatten der Objekte, die der Kamera näher sind.

Bei Szenen ohne Okklusionen brauchen wir lediglich die Tiefeninfor-mation X3(x1, x2), um die 3D-Struktur einer Szene vollständig zu re-konstruieren. Eine Möglichkeit — die wir auch in unserem Sehsystemfinden — ist das Stereosehen, d. h. das Betrachten einer Szene mit zweiSensoren von unterschiedlichen Standpunkten aus (Abschn. 8.2.1).

7.3.2 Projektive Abbildung

Die Bildaufnahme mit einer Lochkamera ist im Wesentlichen eine per-spektivische Projektion, da alle Strahlen durch einen Zentralpunkt, dieLochblende, gehen müssen. Damit ist das Lochkameramodell sehr ähn-lich einer Abbildung mit penetrierenden Strahlen wie Röntgenstrahlen,die von einer Punktquelle emittiert werden (Abb. 7.5). In diesem Fall liegtdas Objekt zwischen dem Zentralpunkt und der Bildebene.

Die Abbildungsgleichung entspricht mit Ausnahme des VorzeichensGleichung (7.8):

⎡⎢⎣ X1

X2

X3

⎤⎥⎦ −→

[x1

x2

]=

⎡⎢⎢⎢⎣d′X1

X3

d′X2

X3

⎤⎥⎥⎥⎦ (7.9)

7.4 Reale Abbildung 205

Abbildung 7.5: Perspektivische Projektion mit Röntgenstrahlen.

Die mit der Bildweite skalierten Bildkoordinaten werden verallgemei-nerte Bildkoordinaten genannt:

x1 = x1

d′, x2 = x2

d′. (7.10)

Verallgemeinerte Bildkoordinaten sind dimensionslos und werden durcheine Tilde gekennzeichnet. In dem System, in dem ein Objekt beobach-tet wird, entsprechen sie dem Tangens des Winkels zur optischen Achse.Diese Koordinaten berücksichtigen explizit die Grenzen der Projektionauf die Bildebene. Denn von diesen Koordinaten können wir nicht auf ab-solute Positionen schließen. Wir wissen lediglich den Winkel, unter demein Objekt auf die Bildebene projiziert wird. (Dies ist eine auch in derAstronomie verwendete Methode.) Damit reduziert sich die allgemeineAbbildungsgleichung (7.9) der perspektivischen Projektion auf

X =⎡⎢⎣ X1

X2

X3

⎤⎥⎦ → x =

⎡⎢⎢⎢⎣X1

X3

X2

X3

⎤⎥⎥⎥⎦ . (7.11)

Für optische Systeme müssen wir lediglich ein Minuszeichen ergänzenoder, geometrisch betrachtet, das Bild an seinem Koordinatenursprungspiegeln.

7.4 Reale Abbildung

7.4.1 Geometrie eines realen optischen Systems

Das Modell der Lochkamera vereinfacht die Abbildungsverhältnisse ei-nes optischen Systems zu sehr. Sie erzeugt ein Bild eines Objektesin jeder Entfernung, während ein reales optisches System ein scharfesBild nur von einem Objekt in einem gewissen Entfernungsbereich ab-bildet. Glücklicherweise kann die Geometrie der Abbildung selbst fürkomplizierte optische Systeme mit einer geringfügigen Änderung immer

206 7 Bildaufnahme

Abbildung 7.6: Ein optisches System als schwarzer Kasten.

d'

x

F

X

P P F1 1 2 2

ffd

Objekt BildoptischesSystem

Abbildung 7.7: Modellierung der optischen Abbildung durch die Hauptpunkte P1

and P2 und die Brennpunkte F1 and F2. Das System erzeugt ein Bild im Abstandd′ hinter F2 von einem Objekt, das einen Abstand d von F1 hat.

noch durch eine perspektivische Projektion modelliert werden, wie diesin Abb. 7.6 und 7.7 illustriert wird. Die Fokalebene muss durch zweiHauptebenen ersetzt werden. Die beiden Hauptebenen schneiden dieoptische Achse in den Hauptpunkten. Ein Strahl, der die erste Hauptebe-ne erreicht, verlässt das optische System von der zweiten Hauptebeneohne Winkel- und Höhenversatz (Abb. 7.6). Der Abstand zwischen denbeiden Hauptebenen modelliert auf diese Weise die axiale Ausdehnungdes optischen Systems.

Wie in Abb. 7.6 dargestellt, sind die Strahlen zwischen den beidenHauptebenen immer parallel. Ein Strahl parallel zur optischen Achse,der von links bzw. rechts in das optische System eintritt, geht durch denzweiten bzw. ersten Brennpunkt. Für praktische Zwecke sind folgendeDefinitionen nützlich: Die effektive Brennweite oder einfach Brennwei-te eines optischen Systems ist die Strecke zwischen dem Hauptpunktund dem dazugehörigen Brennpunkt. Die objektseitige und bildseitigeBrennpunkt-Schnittweiten sind die Entfernungen von der letzten Linsen-fläche zu den jeweiligen Brennpunkten.


Die Beziehung zwischen den Positionen des Objekts und des dazu-gehörigen Bildes sind besonders einfach, wenn wir die Entfernungen zuden jeweiligen Brennpunkten angeben (Abb. 7.7),

dd′ = f 2. (7.12)

Diese Beziehung heißt Newtonsche Abbildungsgleichung. Die besser be-kannte Gaußsche Abbildungsgleichung benutzt die Entfernungen zu denjeweiligen Hauptpunkten:

1d′ + f +

1d+ f =

1f

(7.13)

7.4.2 Lateraler und axialer Abbildungsmaßstab

Der laterale Abbildungsmaßstab ml eines optischen Systems ist das Ver-hälnis der Bildgröße x zur Objektgröße X:

ml = xX= fd= d′

f= f + d′f + d . (7.14)

Der laterale Abbildungsmaßstab ml ist proportional zu d′: d′ = fmlund umgekehrt proportional zu d: d′ = f/ml. Damit lassen sich bei vor-gegebenem Abbildungsmaßstab sehr einfach die Entfernung zum Objektund die Entfernung der Bildebene von der Fokalebene (Objektivauszugd′) bestimmen. Drei Beispiele zur Illustration: Objekt im Unendlichen(ml = 0): d′ = 0, Verkleinerung um Faktor 10 (ml = 1/10): d′ = f/10,1:1-Abbildung: (ml = 1): d′ = d = f .

Eine weniger bekannte Größe ist der axiale Abbildungsmaßstab, derdie Positionen der Bild- und Objektebene zueinander in Beziehung setzt.Daher gibt der axiale Abbildungsmaßstab den Abbildungsmaßstab inRichtung der optischen Achse wieder. Er gibt an, wie weit wir die Bil-debene verschieben müssen, wenn wir die Objektebene um eine gewisseStrecke verschieben. Im Gegensatz zum lateralen Abbildungsmaßstabist der axiale nicht konstant entlang der optischen Achse. Deswegenkann er nur im Grenzfall kleiner Verschiebungen definiert werden. Wirgehen daher von geringfügig verschobenen Objekt- und Bildpositionend + ∆X3 und d′ − ∆x3 aus uns setzen sie in (7.12) ein. Eine Taylorrei-henentwicklung erster Ordnung in ∆X3 and ∆x3 ergibt dann unter derAnnahme, dass ∆X3 d und ∆x3 d′)

∆x3

∆X3≈ d′

d(7.15)

und der axiale Abbildungsmaßstab ma ergibt sich zu

ma ≈ d′

d= f 2

d2= d′2

f 2=m2

l . (7.16)

208 7 Bildaufnahme

a

∆x3d'

ε

Tiefenschärfe

Objekt Blende

Bild

b

Schärfentiefe

BlendeObjekt Bild

Unschärfekreis

Abbildung 7.8: Illustration der a bildseitigen und b objektseitigen Schärfetiefemit einem Objekt, das auf der optischen Achse liegt.

7.4.3 Schärfentiefe

Die Abbildungsgleichungen (7.12) und (7.13) beziehen die Positionen vonObjekt und Bild aufeinander. Wenn die Bild- oder Objekteben leicht ver-schoben werden, wird immer noch ein Bild generiert, es wird aber leichtunscharf. Der Grad der Unschärfe hängt von den Abweichungen zu denPositionen ab, die durch die Abbildungsgleichungen gegeben sind.

Das Konzept der Schärfentiefe beruht auf der Tatsache, dass ein ge-wisses Maß an Unschärfe die Bildqualität nicht beeinträchtigt.

Für digitale Bilder ist die Größe der Sensorelemente ein natürlichesMaß für eine akzeptable Unschärfe, da kleinere Strukturen sowieso nichtaufgelöst werden können. Wir berechnen die Unschärfe im Rahmen dergeometrischen Optik für einen Punkt auf der optischen Achse (Abb. 7.8a).Auf der Bildebene wird der Punkt im Objektraum auf einen Punkt abge-bildet. Mit wachsendem Abstand wird er zu einer immer größeren Schei-be mit dem Radius ε verschmiert. Unter Benutzung der Blendenzahl nfeines optischen Systems als Verhältnis der Brennweite zur Apertur 2reines Objektivs

nf = f2r

(7.17)


können wir den Radius des Unschärfekreises ausdrücken als

ε = 12nf

ff + d′∆x3, (7.18)

wobei ∆x3 die Entfernung von der scharfeingestellten Bildebene ist. DerBereich von Positionen der Bildebene [d′−∆x3, d′+∆x3], für die der Ra-dius des Unschärfekreise kleiner als ε ist, heißt bildseitige Schärfentiefe.Gleichung (7.18) kann nach ∆x3 aufgelöst werden

∆x3 = 2nf

(1+ d

′

f

)ε = 2nf (1+ml)ε, (7.19)

wobeiml der in (7.14) definierte laterale Vergrößerungsmaßstab ist. Glei-chung (7.19) zeigt die wichtige Rolle der Blendenzahl und des Abbil-dungsmaßstabs für die Schärfentiefe. Nur diese beiden Parameter be-stimmen sie für ein vorgegebenes ε.

Für die praktische Anwendung ist die objektseitige Schärfentiefe vongrößerer Bedeutung. Sie ist definiert als der Bereich von Objektentfer-nungen für die der Radius des Unschärfekreises auf der Bildebene kleinerals ε ist bei einer vorgegebenen Position der Bildebene (Abb. 7.8b). Aus(7.12) und (7.19) erhalten wir

d±∆X3 = f 2

d′ ∓∆x3= f 2

d′ ∓ 2nf (1+ml)ε. (7.20)

Im Grenzfall ∆X3 d ergibt sich aus (7.20)

∆X3 ≈ 2nf · 1+ml

m2lε. (7.21)

Wenn der objektseitige Schärfentiefebereich unendlich entfernte Objek-te einschließt, dann ergibt sich die minimale Entfernung für scharf ab-gebildete Objekte zu

dmin = f 2

4nf (1+ml)ε≈ f 2

4nfε. (7.22)

Eine typische hochauflösende CCD-Kamera hat Sensorelemente derGröße 10× 10µm. Daher setzen wir den Radius des Unschärfekreisesauf 5µm. Bei einem Objekt mit der Blende 2 und einer Brennweite von15 mm ergibt sich aus (7.21) eine objektseitige Schärfentiefe von ± 0.2 mbei einem Objektabstand von 1.5 m (ml = 0.01) und nach (7.22) könnenObjekte von etwa 5 m bis zu einer unendlichen Entfernung scharf abge-bildet werden. Diese Beispiele zeigen, dass wir bei entfernten Objektenselbst bei kleinen Blendenzahlen noch hohe objektseitige Schärfentie-fenbereiche erhalten.

210 7 Bildaufnahme

a

F

F

2

2

1

1normale Abbildung

Objekt optisches System Bild

P = P

Blende

Innere Wand

bVorderer

Querschnitt

Abbildung 7.9: a Divergierende Abbildung mit einer Blende in der Hauptebene;b Telezentrische Abbildung mit einer Blende im bildseitigen Brennpunkt. In derrechten Abbildung wird illustriert wie eine kurze zylindrische Röhre, deren Achsemit der optischen Achse zusammenfällt, durch das jeweilige System abgebildetwird.

Bei hohen Abbildungsmaßstäben, wie in der Mikroskopie, ist die ob-jektseitige Schärfentiefe sehr gering. Mit ml 1 ergibt sich aus (7.21):

∆X3 ≈2nfεml

. (7.23)

Bei einer 50-fachen Vergrößerung (ml = 50) und nf = 1 erhalten wireine sehr kleine objektseitige Schärfentiefe von nur 0.2µm.

Generell ist festzuhalten, dass das Konzept der Schärfentiefe, wie wires hier diskutiert haben, nur im Grenzfall der geometrischen Optik gilt.Es kann daher nur benutzt werden, solange der Radius des Unschärfe-kreises deutlich größer ist als die durch Beugung oder Aberrationen desoptischen Systems bewirkte Unschärfe (Abschn. 7.6.3).

7.4.4 Telezentrische Abbildung

Bei einem gewöhnlichen optischen System tritt ein konvergierendes Licht-bündel ein. Dieser Umstand hat negative Konsequenzen für optischeVermessungen (Abb. 7.9a). Das Objekt erscheint größer, wenn es weni-ger weit von dem Objektiv entfernt ist, und kleiner, wenn es weiter davonentfernt ist. Da der Abstand des Objekts nicht aus seinem Bild geschlos-sen werden kann, muss entweder seine Entfernung genau bekannt sein,oder Messfehler sind unvermeidlich.


Die Repositionierung der Blende vom bildseitigen Hauptpunkt zumbildseitigen Brennpunkt löst dieses Problem und verändert das Abbil-dungssystem in ein telezentrisches (Abb. 7.9b). Durch die Verlagerungder Blende in den Brennpunkt wird der Hauptstrahl , das ist der Strahldurch das Zentrum der Blende, parallel zur optischen Achse im Objekt-raum. Damit bewirken kleine Änderung in der Objektposition keine Grö-ßenänderung in der Abbildung. Das Objekt wird natürlich um so un-schärfer abgebildet, je weiter es von der scharf eingestellten Objektebe-ne entfernt ist. Das Zentrum des Unschärfekreises ändert jedoch seinePosition nicht.

Telezentrische Objektive haben ein große Bedeutung in der Bildver-arbeitung erlangt. Ihr Nachteil ist natürlich, dass der Durchmesser destelezentrischen Objektivs mindestens so groß wie das zu vermessendeObjekt sein muss. Damit wird die präzise optische Vermessung großerTeile sehr teuer.

Abbildung 7.9 zeigt, wie ein Zylinder, dessen Achse mit der optischenAchse des Objektivs zusammenfällt, mit einem gewöhnlichen und ei-nem telezentrischen Objektiv abgebildet wird. Das gewöhnliche Objektivsieht die Endfläche des Zylinders und die innere Wand, das telezentri-sche nur die Endfläche.

Telezentrische Objektive illustrieren die Bedeutung von Blenden inder Konstruktion optischer Systeme, eine Tatsache, die oft nicht genü-gend berücksichtigt wird.

7.4.5 Geometrische Verzerrungen

Ein reales Linsensystem weicht von der perfekten Zentralprojektion ab.Sehr offensichtlich sind die tonnen- oder kissenförmigen Verzeichnun-gen von Quadraten, die mit einfachen sphärischen Linsen beobachtetwerden können. Auch bei korrigierten Linsensystemen lassen sich dieseVerzeichnungen nicht vollständig unterdrücken. Dies ist bei Betrach-tung der Symmetrie leicht verstehbar. Da Linsensysteme zylindersym-metrisch sind, wird ein mit der optischen Achse konzentrischer Kreiszwar als Kreis abgebildet, aber mit einem verfälschten Radius (radialeVerzeichnung). Diese Verzeichnung lässt sich durch folgende Gleichunggut approximieren:

x′ = x1+ k3|x|2 . (7.24)

Je nachdem, ob k3 positiv oder negativ ist, werden tonnen- oder kissen-förmige Verzerrungen in Abbildungen von Quadraten beobachtet. Bei ei-nem handelsüblichen Objektiv beträgt die Abweichung im Randbereichdes Sensors einige Bildpunkte (Pixel).

Werden die Verzerrungen mit (7.24) korrigiert, so kann man den ma-ximalen Bildfehler auf 0,06 Bildpunkte verringern [134]. Diese starke

212 7 Bildaufnahme

Korrektur und die stabile Geometrie moderner CCD-Sensoren ermögli-chen den Einsatz von CCD-Kameras für subpixelgenaue Vermessungs-aufgaben ohne Benutzung teurer Messobjektive. Lenz [135] beschreibtweitere Einzelheiten, welche die Genauigkeit geometrischer Messungenmit CCD-Sensoren beeinflussen.

Verzerrungen treten auch auf, wenn nichtplanare Oberflächen aufeine Bildebene projiziert werden, wie es bei Satellitenbildern und Luft-aufnahmen der Fall ist. Die Korrektur geometrischer Verzerrungen inBildern ist damit ein wichtiger Faktor bei der Fernerkundung und Photo-grammetrie [186]. Eine exakte Korrektur der geometrischen Verzerrun-gen erfordert eine subpixelgenaue Verschiebung von Bildpunkten. Wirwerden dieses Problem später in Abschn. 10.5 behandeln, nachdem wirdie Grundlagen dafür erarbeitet haben.

7.5 Radiometrie der Abbildung

Es genügt nicht, nur die Abbildungsgeometrie zu kennen. Berücksich-tigt werden muss auch, in welchem Verhältnis die Bestrahlungsstärke inder Bildebene und die Strahlungsdichte des abgebildeten Objekts stehenund welche Parameter eines optischen Systems dieses Verhältnis beein-flussen. Grundlagen der Radiometrie und insbesondere die Begriffe zurBeschreibung von Strahlungseigenschaften finden sich in Abschn. 6.2.

Auf dem Weg der Strahlung von einer Lichtquelle zur Bildebene findeteine ganze Kette von Prozessen statt (siehe Abb. 6.1). Hier konzentrie-ren wir uns auf den Beobachtungspfad, d. h. darauf, wie die vom abzubil-denden Objekt emittierte Strahlung vom Abbildungssystem eingefangenwird.

7.5.1 Objektstrahlungsdichte und Bildhelligkeit

Ein Teil der von einem Objekt ausgesandten Strahlung wird von einemoptischen System aufgenommen (Abb. 7.10). Nehmen wir an, dass dasObjekt ein homogener Lambertscher Strahler mit der StrahlungsdichteL ist. Die Blendenöffnung des optischen Systems erscheint, vom Objektaus gesehen, unter einem bestimmten Raumwinkel Ω. Der projizierteringförmige Blendenbereich ist πr 2 cosθ in einer Entfernung von (d +f)/ cosθ. Damit trifft nach (6.4) ein Strahlungsfluss

Φ = AΩL = Aπr2 cos3 θ

(d+ f)2 L (7.25)

auf das optische System. Die Strahlung, die von der in die Objektebeneprojizierten Fläche A, A/cosθ, ausgeht, wird auf die Fläche A′ abge-bildet. Daher muss der Strahlungsfluss Φ zur Berechnung der Bestrah-

7.5 Radiometrie der Abbildung 213

lungsstärke noch durch A′ geteilt werden. Nach (7.14) ist das Flächen-verhältnis

A/ cosθA′

= 1

m2l= (f + d)2(f + d′)2 . (7.26)

Weiter nehmen wir an, dass das optische System eine Transmissivität that. Damit ergibt sich durch Einsetzen von (7.26) in (7.25) die folgendeBeziehung zwischen Objektstrahlungsdichte und Bestrahlungsstärke:

E′ = ΦA′= tπ

(r

f + d′)2

cos4 θ L. (7.27)

Diese Beziehung besagt, dass die Bestrahlungsstärke eines Bildes zurObjektstrahlungsdichte proportional ist. Dies ist die Grundlage für dieLinearität der optischen Abbildung. Wir können das optische System mitzwei einfachen Begriffen beschreiben: seiner (gesamten) Transmissivitätt und dem Verhältnis des Blendenradius zur Entfernung des Bildes vomersten Hauptpunkt. Für weit entfernte Objekte d f , d′ f , reduziertsich (7.27) auf

E′ = tπ cos4 θ4n2

fL, d f . (7.28)

Dabei ist nf die Blende (7.17). Dieser Term ist für reale optische Syste-me nur eine Näherung. Wird ein Teil der einfallenden Strahlung durchzusätzliche Blenden oder begrenzte Linsendurchmesser abgeschnitten,ist der Abfall bei großen Winkeln θ noch steiler. Auf der anderen Seitekann ein sorgfältiges Positionieren der Blende den Abfall unter cos4 θdrücken. Da auch die Restreflexion der Linsenoberfläche vom Einfalls-winkel abhängt, wird der tatsächliche Abfall stark vom Aufbau des op-tischen Systems beeinflusst. Experimentell wird er am besten mithilfeeiner Kalibrierung bestimmt.

7.5.2 Invarianz der Strahlungsdichte

Die erstaunliche Tatsache, dass die Beziehung zwischen der Bestrah-lungsstärke im Bild und der Strahlungsdichte des Objekts so einfach ist,liegt in einer grundsätzlichen Invarianz begründet. Die Strahlungsdichteeines Bildes entspricht der eines realen Objekts und kann als Strahlungs-quelle für weitere optische Elemente dienen. Nun besagt ein grundsätz-liches Theorem der Radiometrie, dass die Strahlungsdichte eines Bildesgleich der eines Objekts, multipliziert mit der Transmissivität des op-tischen Systems, ist. Das Theorem kann durch die Annahme bewiesenwerden, dass der Strahlungsfluss Φ durch ein optisches System erhaltenbleibt, es sei denn, die Absorption im System führt zu einer Transmissi-vität kleiner als eins. Die Winkel, unter denen das optische System vom

214 7 Bildaufnahme

Bildfläche A'

Optisches System

projizierte Blende

F2

P2 P1

r

F1

Objektfläche Amit Strahlung L

d f

f d'

θθ

Abbildung 7.10: Ein optisches System empfängt eine Flussdichte entsprechenddem Produkt aus der Bestrahlungsstärke des Objekts und dem Raumwinkel, unterdem die projizierte Blende vom Objekt aus erscheint. Der von der ObjektflächeA emittierte Strahlungsfluss wird auf die Bildfläche A′ abgebildet.

Objekt und vom Bild aus erscheint, sind

Ω = A0/(d+ f)2 und Ω′ = A0/(d′ + f)2, (7.29)

wobei A0 die effektive Fläche der Blende ist.Der von einer FlächeA ausgehende Strahlungsfluss des Objektes trifft

auf die FlächeA′ = A(d′+f)2/(d+f)2 auf der Bildebene. Damit ergebensich die Strahlungsstärken zu

L = ΦΩA

= ΦA0A

(d+ f)2

L′ = tΦΩ′A′

= tΦA0A

(d+ f)2,(7.30)

und es gilt folgende Invarianz:

L′ = tL für n′ = n. (7.31)

Diese Form der Invarianz der Strahlungsdichte gilt nur, wenn Objekt undBild sich in einem Medium mit dem gleichen Brechungsindex befinden(n′ = n). Geht ein Strahl mit der Strahlungsdichte L in ein Medium mit ei-nem höheren Brechungsindex über, nimmt die Strahlungsdichte zu, weildie Strahlen zur optischen Achse hin gebeugt werden (Abb. 7.11b). Al-so bleibt, allgemeiner ausgedrückt, das Verhältnis der Strahlungsdichtezum quadrierten Brechungsindex invariant:

L′/n′2 = tL/n2. (7.32)

Aus der Strahlungsinvarianz können wir direkt auf die Bestrahlungs-stärke in der Bildebene schließen:

E′ = L′Ω′ = L′π(

rf + d′

)2

= L′π sin2α′ = tLπ sin2α′. (7.33)

7.6 Lineare Systemtheorie der Abbildung 215

a

A0

Hauptebenen

Objekt Bild

optischesSystem

f fd d'

L L'

A A'

Ω Ω'

bn'>nn

A

Ω Ω''

= FHG

IKJ

n

n

2

Ω

Abbildung 7.11: Veranschaulichung der Strahlungsinvarianz: a Das ProduktAΩ ist im Objekt- und im Bildraum gleich. b Veränderung des Winkels, wenn einStrahl in ein optisch dichteres Medium eindringt.

Bei dieser Gleichung ist der Abfall mit cos4 θ in (7.27) nicht berück-sichtigt, da wir nur den Hauptstrahl auf der optischen Achse betrachtethaben. Die Invarianz der Strahlung vereinfacht die Berechnung der Be-strahlungsstärke eines Bildes und die Weiterleitung von Strahlen durchkomplexe optische Systeme beträchtlich. Ihre grundsätzliche Bedeutunglässt sich mit dem fundamentalen Extremalprinzip der geometrischenOptik vergleichen, das besagt, dass Strahlung sich derart fortpflanzt,dass der optische Pfad nd (tatsächliche Weglänge multipliziert mit demBrechungsindex) minimal wird.

7.6 Lineare Systemtheorie der Abbildung

In Abschn. 4.2 wurden lineare verschiebungsinvariante Filter (Faltungsoperato-ren) als eine Anwendung der linearen Systemtheorie besprochen. Die Bildauf-nahme ist ein weiteres Beispiel, das wir mit diesem mächtigen Konzept beschrei-ben können. In diesem Abschnitt werden wir daher die optische Abbildung mitder 2D- und 3D-Punktantwort (Abschn. 7.6.1) und der optischen Transferfunk-tion (Abschn. 7.6.2) beschreiben.

7.6.1 Punktantwort

Wir haben gesehen, dass ein Punkt im 3D-Objektraum nicht auf einen Punktim Bildraum abgebildet wird, sondern auf eine mehr oder weniger ausgedehn-te Fläche variierender Intensitäten. Offensichtlich ist die Funktion, welche dieAbbildung eines Punktes beschreibt, eine wesentliche Eigenschaft eines Abbil-dungssystems. Diese Funktion heißt Punktantwort oder im Englischen pointspread function und wird mit PSF abgekürzt. Wir nehmen an, dass die PSF

216 7 Bildaufnahme

g (X')0 x''

x'

x

g (X'')0

Objektebene optisches System Bildebene

Abbildung 7.12: Abbildung durch Faltung mit der Punktantworth(x). Ein Punktbei X′ in der Objektebene ergibt eine Intensitätsverteilung mit einem Maximuman Stelle des zugehörigen Punktes x′ in der Bildebene. An einem Punkt x in derBildebene müssen die Beiträge aller Punkte x′, d. h. g′i(x′)h(x − x′), integriertwerden.

nicht von der Position abhängig ist. Unter dieser Bedingung kann ein optischesSystem als lineares verschiebungsinvariantes System betrachtet werden (LSI ,Abschn. 4.2).

Kennen wir die PSF, können wir berechnen, wie ein beliebiges 3D-Objekt abge-bildet wird. Dazu denken wir uns das Objekt in einzelne Punkte zerlegt. Ab-bildung 7.12 zeigt diesen Prozess. Ein Punkt X′ in der Objektebene wird miteiner Intensitätsverteilung, die der Punktantwort h entspricht, auf die Bildebe-ne projiziert. Mit g′i(x′) bezeichnen wir die ohne Abbildungsstörungen auf dieBildebene projizierten Intensitätswerte g′o(X

′) aus der Objektebene. Dann kön-nen wir die Intensität eines Punktes x auf der Bildebene berechnen, indem wirdie Anteile der Punktantworten integrieren (Abb. 7.12):

gi(x) =∞∫−∞g′i(x

′)h(x − x′)d2x′ = (g′i ∗ h)(x). (7.34)

Die Operation in (7.34) wird als Faltung bezeichnet. Faltungen spielen in derBildverarbeitung eine wichtige Rolle, nicht nur bei der Bilderzeugung, sondernauch bei vielen Bildverarbeitungsoperationen. Im Falle der Bilderzeugung „ver-schmiert“ eine Faltung offensichtlich ein Bild und reduziert seine Auflösung.

Diese Wirkung von Faltungen kann am einfachsten an Bildstrukturen mit peri-odischen Grauwertvariationen gezeigt werden. Solange die Wiederholungslän-ge, die Wellenlänge, dieser Struktur größer ist als die Breite der PSF, treten keinewesentlichen Veränderungen auf. Nimmt jedoch die Wellenlänge ab, beginnt dieAmplitude der Grauwerte ebenfalls abzunehmen. Feine Strukturen verblassenschließlich, bis sie nicht mehr sichtbar sind. Diese Betrachtungen betonen dieBedeutung der periodischen Strukturen und führen in natürlicher Weise zurEinführung der Fouriertransformation, die ein Bild in die sich wiederholendenGrauwertvariationen zerlegt (Abschn. 2.3).


Am Anfang dieses Abschnitts haben wir gezeigt, dass die Erzeugung eines 2D-Bildes in der Bildebene vollständig durch seine PSF beschrieben wird. Im Fol-genden werden wir dieses Konzept in den Raum ausdehnen und die Punktant-wort innerhalb der Grenzen der geometrischen Optik, d. h. mit einem perfektenLinsensystem und ohne Verzerrung, explizit berechnen. Dieser Ansatz beruhtauf der Notwendigkeit, die dreidimensionale Abbildung zu verstehen, insbe-sondere in der Mikroskopie. Die entscheidende Frage ist, wie ein Punkt im3D-Objektraum nicht nur auf eine 2D-Bildebene, sondern in einen 3D-Bildraumabgebildet wird.

Zunächst überlegen wir, wie ein Punkt im Objektraum in den Bildraum projiziertwird. Aus Abb. 7.8 ergibt sich der Radius des Unschärfekreises zu

εi = rx3

di. (7.35)

Dabei bezeichnet der Index i von ε den Bildraum. Dann ersetzen wir den Radiusr der Blende durch den maximalen Winkel, unter dem die Linse Licht von dembetrachteten Punkt einfängt, und erhalten

εi = dodix3 tanα. (7.36)

Diese Gleichung liefert den Rand der PSF im Bildraum. Dieser Rand hat dieForm eines Doppelkegels mit der x3-Achse im Zentrum. Die Spitzen der beidenKegel treffen sich im Ursprung. Außerhalb der Kegel ist die PSF null, innerhalbkönnen wir die Intensität aus der Erhaltung der Strahlungsenergie ableiten.

Da der Radius des Kegels linear mit der Entfernung zur Brennebene wächst,nimmt die Intensität innerhalb des Kegels quadratisch ab. Daraus ergibt sichdie PSF hi(x) im Bildraum zu

hi(x) = I0π(dodi x3 tanα)2

Π(x2

1 + x22)1/2

2dodi x3 tanα

= I0π(dodi z tanα)2

Πr

2dodi z tanα.

(7.37)

I0 ist die Lichtintensität, welche die Linse von dem Punktobjekt einsammelt; Πist die Rechteckfunktion, die folgendermaßen definiert ist:

Π(x) =

1 |x| ≤ 1/20 sonst

. (7.38)

Der letzte Ausdruck in (7.37) ist in Zylinderkoordinaten (r ,φ, z) geschrieben,damit die Rotationssymmetrie der PSF um die x3-Achse berücksichtigt wird.

Im zweiten Schritt diskutieren wir, worauf sich die PSF des Bildraums im Objek-traum bezieht, denn uns interessiert, wie die Abbildungseffekte in den Objek-traum zurückprojiziert werden. Dabei muss die laterale und axiale Vergröße-rung beachtet werden. Zunächst ist das Bild, und damit auch ε, um den Faktordi/do größer als das Objekt. Dann müssen wir die Ebenen finden, die einan-der im Objekt- und Bildraum entsprechen. Dieses Problem wurde bereits in

218 7 Bildaufnahme

a

0

0.5

0

0.5

1

00.5 -0.5

-0.5-1

-0.5

x

y

z

b

Abbildung 7.13: a Dreidimensionale Punktantwort und b optische Transferfunk-tion einer optischen Abbildung unter Vernachlässigung von Beugungseffekten.

Abschn. 7.4.2 gelöst. Gleichung (7.16) bezieht das Bild auf die Kamerakoordi-naten; der rückprojizierte Radius des Unschärfekreises εo ergibt sich aus

εo = X3 tanα, (7.39)

und die in den Objektraum rückprojizierte PSF aus

ho(X) = I0π(X3 tanα)2

Π(X2

1 +X22)1/2

2X3 tanα= I0π(Z tanα)2

ΠR

2Z tanα. (7.40)

Der Doppelkegel der PSF, der in den Objektraum rückprojiziert wird, hat den-selben Öffnungswinkel wie die Linse (Abb. 7.13). Die Schlussfolgerung ist, dassh0(x) in (7.40) die Wirkung der optischen Abbildung darstellt, wenn geometri-sche Veränderungen nicht vernachlässigt werden.

7.6.2 Optische Transferfunktion

Die Faltung mit der PSF im Ortsraum ist eine recht komplexe Operation. ImFourierraum wird sie jedoch als Multiplikation komplexer Zahlen durchgeführt.Damit entspricht die Faltung des 3D-Objekts g′o(X) mit der PSF ho(X) im Fou-rierraum einer Multiplikation des fouriertransformierten Objekts g′o(k)mit derfouriertransformierten PSF, der optischen Transferfunktion oder OTF ho(k). Indiesem Abschnitt betrachten wir die optische Transferfunktion im Objektraum,d. h. wir projizieren das abgebildete Objekt zurück in den Objektraum. Dannkann die Bilderzeugung folgendermaßen beschrieben werden:

Bild Abbildung Objekt

Ortsraum go(X) = ho(X) ∗ g′o(X)

Fourierraum go(k) = ho(k) · g′o(k).

(7.41)


(7.41) bedeutet, dass wir die optische Abbildung entweder mit der Punktant-wort oder der optischen Transferfunktion beschreiben können. Beide Beschrei-bungen sind vollständig, und wie die PSF lässt sich auch die OTF anschaulicherklären. Da die Fouriertransformation ein Objekt in sich wiederholende Struk-turen zerlegt, sagt uns die OTF, wie diese periodischen Strukturen durch dieoptische Abbildung verändert werden. Eine OTF von 1 für eine bestimmte Wel-lenlänge bedeutet, dass diese periodische Struktur überhaupt nicht beeinflusstwird. Dagegen bringt eine OTF von 0 die Struktur vollständig zum Verschwin-den. Bei Werten zwischen 0 und 1 wird entsprechend abgeschwächt. Da die OTFkomplex ist, wird im Allgemeinen nicht nur die Amplitude einer periodischenStruktur verändert, sondern auch ihre Phase.

Wir werden die PSF nicht direkt berechnen, sondern die Linearität und die Sepa-rierbarkeit der Fouriertransformation nutzen, um die PSF in geeignete Teilfunk-tionen zu zerlegen, deren Fouriertransformierte einfach zu bestimmen sind.Zwei Möglichkeiten werden vorgestellt, die zudem einige wichtige Eigenschaf-ten der Fouriertransformation verdeutlichen.

Die erste Methode zur Berechnung der OTF macht sich die Linearität der Fou-riertransformation zunutze und zerlegt die PSF in ein Bündel von δ-Linien, diedurch den Ursprung des Koordinatensystems gehen und im Querschnitt desDoppelkegels gleichmäßig verteilt sind. Denken wir uns jede der δ-Linien alseinen Lichtstrahl. Ohne weitere Berechnungen wissen wir, dass diese Zerlegungdie korrekte quadratische Abnahme der PSF ergibt, da dieselbe Zahl von δ-Linieneine quadratisch zunehmende Fläche schneidet. Die Fouriertransformierte ei-ner δ-Linie ist eine δ-Ebene, die senkrecht zur Linie steht (R5). Damit bestehtdie OTF aus einem Bündel von δ-Ebenen. Diese gehen durch den Ursprung desk-Raumes und haben zur k1k2-Ebene einen maximalen Winkel von α, dem hal-ben Öffnungswinkel des OTF-Doppelkegels. Da bei der Fouriertransformationdie Rotationssymmetrie erhalten bleibt, ist auch die OTF rotationssymmetrischzur k3-Achse. Die OTF füllt damit den gesamten Fourierraum bis auf einen Dop-pelkegel mit dem Öffnungswinkel π/2 − α aus. In diesem Bereich ist die OTFnull. Der genaue Verlauf der OTF innerhalb des Rotationskörpers ist bei dieserZerlegung schwer zu durchschauen.

Wir werden deshalb einen zweiten Ansatz verfolgen, der auf der Separierbarkeitder Fouriertransformation basiert. Wir denken uns den Doppelkegel in Scheibenmit unterschiedlichen Durchmessern zerlegt, die mit |x3| zunehmen. Im ers-ten Schritt führen wir die Fouriertransformation nur in der x1x2-Ebene durch.Daraus resultiert eine Funktion mit zwei Koordinaten im k-Raum und einer imx-Raum (k1, k2, x3 bzw. in Zylinderkoordinaten q,ϕ, z). Da die PSF (7.40) nurvon r abhängt (Rotationssymmetrie um die z-Achse), entspricht die zweidimen-sionale Fouriertransformation einer (eindimensionalen) Hankeltransformationnullter Ordnung [19]:

h(r , z) = I0π(z tanα)2

Π(r

2z tanα)

h(q, z) = I0J1(2πzq tanα)πzq tanα

.

(7.42)

Als Fouriertransformierte der rotationssymmetrischen Scheibe ergibt sich eben-falls eine rotationssymmetrische Funktion, welche die Besselfunktion J1 enthält.

220 7 Bildaufnahme

Im zweiten Schritt führen wir die noch fehlende eindimensionale Fouriertrans-formation in z-Richtung durch. Gleichung (7.42) zeigt, dass h(q, z) auch eineBesselfunktion in z ist.

Da die Fouriertransformation diesmal aber eindimensional ist, erhalten wir kei-ne Scheibenfunktion, sondern eine Kreisfunktion (R5):

J1(2πx)x

• 2(1− k2

)1/2Π

(k2

). (7.43)

Wenden wir nun noch das Ähnlichkeitstheorem der Fouriertransformation (Theo-rem 2.1, S. 54, R4) an:

wenn f(x) • f (k),

dann f(ax) • 1|a| f

(ka

),

(7.44)

so erhalten wir:

h(q, k3) = 2I0π|q tanα|

(1− k2

3

q2 tan2α

)1/2

Π(

k3

2q tanα

). (7.45)

Durch die Kastenfunktion in dieser Gleichung ist die OTF in einem großen Be-reich null. Das bedeutet, dass räumliche Strukturen mit den zugehörigen Rich-tungen und Wellenlängen vollständig verschwinden. Dies ist insbesondere füralle Strukturen in z-Richtung, also senkrecht zur Bildebene, der Fall. SolcheStrukturen können nicht ohne zusätzliche Informationen rekonstruiert werden.

3D-Strukturen sind nur sichtbar, wenn sie auch Strukturen enthalten, die par-allel zur Bildebene liegen. Dann ist es zum Beispiel möglich, Punkte oder Lini-en zu unterscheiden, die übereinander liegen. Das kann man sich sowohl imOrtsraum als auch im Fourierraum veranschaulichen. Im Ortsraum ergibt dieÜberlagerung der entsprechenden PSF immer noch eine tiefenabhängige Fokus-serie, in der man die beiden Punkte bzw. Linien, wenn auch verschwommen,unterscheiden kann. Im Fourierraum sind Linien bzw. Punkte weit ausgedehnteObjekte, die durch die OTF verfälscht, d. h. teilweise mit den Teilen der OTF, dieungleich null sind, zusammenfallen, aber nicht ausgelöscht werden.

Die Grenze für bei der Projektion verschwindende Strukturen liegt bei einemWinkel α zur k1k2-Ebene, der gerade dem maximalen Öffnungswinkel des Ob-jektivs entspricht. Intuitiv können wir sagen, dass wir alle 3D-Strukturen erken-nen können, in die man tatsächlich auch „hineinschauen“ kann. Es ist mindes-tens ein Strahl notwendig, der senkrecht zum Wellenvektor der periodischenStruktur ist und damit in Richtung konstanter Grauwerte verläuft.

7.6.3 Beugungsbegrenzte optische Systeme

Licht ist eine elektromagnetische Welle und unterliegt deswegen entsprechen-den physikalischen Gesetzen. Wenn ein paralleles Lichtbündel in ein optischesSystem eintritt, kann es nicht auf einen Punkt fokussiert werden, auch wenn alleAbbildungsfehler der Optik korrigiert wurden. Die Beugung an der Blendenöff-nung führt zu einer Verschmierung des Punktes auf der Bildebene zu einem


Planare Wellenfront Sphärische Wellenfront

Optisches System Bildebene

Abbildung 7.14: Beugung einer ebenen Welle an der Apertur eines optischenSystems. In der Blendenöffnung kann man sich die ebene Welle in Kugelwellenzerlegt denken, die je nach Richtung θ und Position x′ eine Weglängendifferenzvon aufweisen.

Beugungsscheibchen, die mindestens in der Größenordnung der Wellenlängedes verwendeten Lichtes liegt. Ein optisches System, dessen Aberrationen soweit korrigiert wurden, dass sie kleiner sind als die Effekte durch die Beugung,wird als beugungsbegrenzt bezeichnet.Eine exakte Behandlung der Beugung basierend auf den Maxwell-Gleichungen istmathematisch sehr aufwendig ([18], [47, Chapters 9 and 10] und [95, Chapter 3]).Das Wesentliche der Beugung einer ebenen Welle an einer Linsenöffnung kannaber mit einer als Fraunhofer-Beugung bekannten Näherung erfasst werden.Daraus werden wir eine fundamentale Beziehung herleiten.Wir nehmen an, dass eine ebene Welle von einem unendlich entfernten Objektauf die Blendenöffnung in der Hauptebene auftrifft (Abb. 7.14). Ein perfektesoptisches System bewirkt nun, dass es die planare ebene Welle zu einer Ku-gelwelle verbiegt, die ihr Zentrum in der Brennebene auf der optischen Achsehat. Die Beugung an den Rändern der Blende bewirkt aber, dass das Licht auchin andere Richtungen geht. Diesen Effekt können wir durch die Anwendungdes Huygenschen Prinzips berücksichtigen. Es besagt, dass wir jeden Punkt derWellenfront als Ausgangspunkt einer phasengleichen Kugelwelle nehmen kön-nen. Alle diese Kugelwellen addieren wir dann zu neuen ebenen Wellen auf, diedie Blendenöffnung unter dem Winkel θ verlassen. Die Weglängen von einemPunkt x′ in der Blendenebene zu dem Brennpunkt auf der optischen Achse undeinem Punkt in der Brennebene mit einem Abstand x von der optischen Achse(Abb. 7.14) ergeben sich zu

s =√x′2 +y ′2 + f 2 und s′ =

√(x′ − x)2 + (y ′ −y)2 + f 2. (7.46)

Der Unterschied in den beiden Weglängen führt unter der Annahme, dass xf , d. h., die Vernachlässigung quadratischer Ausdrücke in x und y zu

s′ − s ≈ −xx′ +yy ′f

. (7.47)

Dieser Weglängenunterschied bewirkt für eine Welle mit der Wellenlänge λ einePhasenverschiebung von

∆ϕ = 2π(s′ − s)fλ

= −2π(xx′ +yy ′)fλ

= −2π(xx′)fλ

. (7.48)

222 7 Bildaufnahme

Nun nehmen wir an, dass ψ′(x′) die Amplitude der Wellenfront in der Aper-turebene sei. Dies ist ein allgemeinerer Ansatz als eine konstante, durch dieBlendenöffnung begrenzte Welle ψ′(x′), d. h. eine Kastenfunktion. Wir wollendas Problem gleich allgemeiner für eine über die Apertur der Optik beliebig vari-ierende Amplitude der Wellenfront behandeln. Setzen wir ψ′(x′) als komplexeFunktion an, so können wir sogar Phasenunterschiede in der Aperturebene be-rücksichtigen.

Mit diesem Ansatz ergibt sich für die Überlagerung aller sphärischen Wellenψ′(x′) in der Bildebene unter Berücksichtigung der Phasenverschiebung aus(7.48)

ψ(x) =∞∫−∞

∞∫−∞ψ′(x′) exp

(−2π i

x′xfλ

)d2x′. (7.49)

Diese Gleichung besagt, dass die Amplitudenverteilung ψ(x) auf der Bildebenedurch die 2D-Fouriertransformierte (siehe (2.32)) der einfallenden Amplituden-funktion ψ′(x′) auf der Hauptebene gegeben ist.

Für eine Kreisblende ist die Amplitudenverteilung gegeben durch

ψ′(x′) = Π( |x′|

2r

), (7.50)

wobei r der Radius der Blende ist. Die Fouriertransformierte von (7.50) ist eineBesselfunktion erster Ordnung (R4):

ψ(x) = ψ0I1(2πxr/fλ)πxr/fλ

. (7.51)

Die Bestrahlungsstärke E auf der Bildebene ergibt sich durch Quadrierung derAmplitude:

E(x) = |ψ(x)|2 = ψ20

(I1(2πxr/fλ)πxr/fλ

)2

. (7.52)

Das Beugungsmuster hat ein zentrales Scheibchen, das 83.9 % der Energie ent-hält, umgeben von weiteren Ringen mit abnehmender Intensität (Abb. 7.15a).Die Entfernung vom Zentrum des Beugungsscheibchen zum ersten dunklenRing beträgt

∆x = 0.61 · frλ = 1.22λnf . (7.53)

In dieser Entfernung können zwei Punkte klar voneinander getrennt werden(Abb. 7.15b). Das ist das Rayleigh-Kriterium für die Auflösung eines optischenSystems. Die Auflösung eines optischen Systems kann interpretiert werden alsdie Beziehung zwischen der Winkelauflösung der einfallenden ebenen Welle undder Ortsauflösung auf der Bildebene. Mit dem Rayleigh-Kriterium (7.53) ergibtsich für die Winkelauflösing ∆θ0 = ∆x/f

∆θ0 = 0.61λr. (7.54)

Damit hängt die Winkelauflösung nicht von der Brennweite, sondern nur von derBlendenöffnung des optischen Systems in Relation zur Wellenlänge der elektro-magnetischen Strahlung ab.


a

b

-3 -2 -1 0 1 2 30

0.2

0.4

0.6

0.8

1

Abbildung 7.15: a Bestrahlungsstärke E(x) des Beugungsmusters (“Airy disk”) inder Brennebene eines optischen Systems mit einer homogen beleuchteten Kreis-blende nach (7.52). b Illustration der Auflösung des Bildes zweier Punkte imAbstand x/(nfλ) = 1.22.

Im Gegensatz zur Winkelauflösung hängt die räumliche Auflösung ∆x in derBildebene nach (7.53) nur von dem Verhältnis des Radius der Objektivöffnungzu der Brennweite f bzw. dem Abstand von der Bildebene zur bildseitigenHauptebene ab. Statt der Blendenzahl können wir in (7.53) allgemeiner, d. h.unter Berücksichtigung eines von eins verschiedenen bildseitigen Brechungsin-dex, die numerische Apertur benutzen, die folgendermaßen definiert ist:

na = n sinθ0 = 2nnf. (7.55)

Dabei ist n der bildseitige Brechungsindex und θ0 der maximimale Winkel unterdem ein Lichtstrahl, der zentral durch die Bildebene geht, die Blendenöffnungpassiert. Dann folgt

∆x = 0.61λn′a. (7.56)

Daher hängt die räumliche Auflösung in der Bildebene wiederum nicht direktmit der Brennweite zusammen sondern nur mit der bildseitigen numerischenApertur.

Da der Lichtweg umkehrbar ist, können wir dieselben Argumente für die Ob-jektebene anwenden. Die räumliche Auflösung in der Objektebene hängt nurvon der objektseitigen numerischen Apertur ab, d. h. dem Öffnungswinkel desLichtkegels, der in das optische System eintritt:

∆X = 0.61λna. (7.57)

Diese einfachen Beziehungen sind hilfreich, um die maximal mögliche Auflö-sung optischer Systeme zu bestimmen. Da die numerische Apertur nicht vielgrößer als 1 sein kann, können mit einer optischen Abbildung keine Strukturenaufgelöst werden, die kleiner als die Hälfte der Wellenlänge sind.

224 7 Bildaufnahme

7.7 Homogene Koordinaten

Die Computergrafik verwendet den eleganten Formalismus der homogenen Ko-ordinaten, um all die bisher diskutierten Transformationen, d. h. die Translati-on, die Rotation sowie die perspektivische Projektion, einheitlich zu beschrei-ben [50, 60, 151]. Damit kann der gesamte Abbildungsprozess so durch eineeinzige 4× 4-Matrix dargestellt werden.

Homogene Koordinaten werden durch einen 4D-Spaltenvektor

X′ = [tX′1, tX

′2, tX

′3, t

]T(7.58)

dargestellt, aus dem wir die ursprünglichen 3D-Koordinaten erhalten, indemwir die ersten drei Komponenten durch die vierte Komponente dividieren. Jedebeliebige Transformation erhalten wir durch eine Multiplikation der homogenenKoordinaten mit einer 4× 4-Matrix M. Insbesondere ergeben sich die Bildkoor-dinaten

x = [sx1, sx2, sx3, s]T (7.59)

durch

x =MX. (7.60)

Da die Matrixmultiplikation assoziativ ist, können wir uns die Matrix M ausvielen Transformationsmatrizen zusammengesetzt vorstellen, die so elementa-re Transformationen wie Translation und Rotation um eine Koordinatenachse,perspektivische Projektion und Skalierung durchführen. Die Transformations-matrizen der elementaren Transformationen ergeben sich zu:

T =

⎡⎢⎢⎢⎣

1 0 0 T1

0 1 0 T2

0 0 1 T3

0 0 0 1

⎤⎥⎥⎥⎦ Translation um [T1, T2, T3]T

Rx1 =

⎡⎢⎢⎢⎣

1 0 0 00 cosθ − sinθ 00 sinθ cosθ 00 0 0 1

⎤⎥⎥⎥⎦ Rotation um die X1-Achse

Rx2 =

⎡⎢⎢⎢⎣

cosφ 0 sinφ 00 1 0 0

− sinφ 0 cosφ 00 0 0 1


Rx3 =

⎡⎢⎢⎢⎣

cosψ − sinψ 0 0sinψ cosψ 0 0

0 0 1 00 0 0 1


S =

⎡⎢⎢⎢⎣s1 0 0 00 s2 0 00 0 s3 00 0 0 1

⎤⎥⎥⎥⎦ Skalierung

(7.61)


P =

⎡⎢⎢⎢⎣

1 0 0 00 1 0 00 0 1 00 0 −1/d′ 1

⎤⎥⎥⎥⎦ perspektivische Projektion.

Die perspektivische Projektion ergibt sich etwas anders als in (7.11). Aus derMultiplikation des homogenen Vektors

X = [tX1, tX2, tX3, t]T

mit P erhalten wir [tX1, tX2, tX3, t

d′ −X3

d′

]T. (7.62)

Die Bildkoordinaten resultieren aus der Division durch die vierte Koordinate:

[x1

x2

]=

⎡⎢⎢⎢⎣X1

did′ −X3

X2di

d′ −X3

⎤⎥⎥⎥⎦ . (7.63)

Aus dieser Gleichung sehen wir, dass die Bildebene im Ursprung liegt, dennbei X3 = 0 sind Bild- und Weltkoordinaten identisch. Das Projektionszentrumbefindet sich im Punkt [0,0,−d′]T . Vollständige Transformationen von Welt-in Bildkoordinaten können aus diesen elementaren Matrizen zusammengesetztwerden. Strat [217] schlug beispielsweise die folgende Zerlegung vor:

M = CSPRzRyRxT . (7.64)

Die Skalierung S und die BildverschiebungC sind Transformationen in der zwei-dimensionalen Bildebene. Strat [217] zeigte, wie man die Parameter für dieTransformation von Kamera- in Weltkoordinaten vollständig auf nichtiterativeWeise aus einer Menge von Punkten, deren Position im Raum exakt bekannt ist,bestimmen kann. Auf diese Weise kann eine absolute Kalibrierung der äußerenKameraparameter Position und Orientierung und der inneren KameraparameterLage der optischen Achse, Brennweite und Pixelgröße erreicht werden.

7.8 Übungsaufgaben

7.1: ∗∗Abbildung durch Lochkamera

1. Wie lautet die Abbildungsgleichung der Lochkamera?

2. Auf welche geometrische Objekte wird eine gerade Strecke mit den Punk-ten A und B, ein Dreieck mit den Punkten A, B und C und ein planaresbzw. nichtplanares Rechteck abgebildet?

3. Von einem Stab kennen Sie die Länge und die Position eines EndpunktsA. Kann aus dieser Information und seinen Bildkoordinaten a und b diePosition des zweiten Endpunktes B im Raum eindeutig bestimmt werden?

7.2: ∗Geometrie der Abbildung mit Röntgenstrahlen

Kann man die Abbildung mit durchdringenden Röntgenstrahlen, die von ei-nem Punkt ausgehen, und auf einem Projektionsschirm gemessen werden,

226 7 Bildaufnahme

auch mit der Zentralprojektion beschreiben? Der Gegenstand liegt nun zwi-schen der Röntgenquelle und dem Projektionsschirm. Wie ist der Zusam-menhang zwischen Bild- und Weltkoordinaten in diesem Fall? SkizzierenSie die Geometrie.

7.3: ∗∗∗Schärfentiefe bei der Abbildung mit Röntgenstrahlen

Kann man bei der Abbildung mit Röntgenstrahlen die Schärfentiefe begren-zen? Hinweis: Sie können bei Röntgenstrahlen keine Linsen benutzen. DieSchärfentiefe bei der Abbildung mit einer Linse kommt dadurch zustan-de, dass von jedem Punkt des abgebildeten Objektes Strahlen aus einemWinkelbereich von der Optik empfangen werden. Wie kann man das ohneabbildendes System mit Röntgenstrahlen erreichen? Das zu untersuchendeObjekt bewegt sich nicht.

7.4: ∗Hohe Schärfentiefe

Sie stehen vor folgendem praktischen Problem. Sie möchten ein Objektmit einer möglichst hohen Tiefenschärfe aufnehmen. Bedingt durch dieunveränderbaren Lichtverhältnisse können Sie die Blendenzahl nf auf kei-nen größeren Wert als 4 einstellen. Sie müssen ein Objekt mit einer Aus-dehnung von 320× 240 mm2 in einem Entfernungsbereich von 2.0± 0.5 mbildfüllend scharf abbilden. Es stehen zwei Kameras mit einer Auflösungvon jeweils 640× 480 Bildpunkten zur Verfügung. Eine hat eine Pixelgrö-ße von 9.9× 9.9µm2, die andere von 5.6× 5.6µm2 (R2). Sie haben freieVerfügung über die Brennweite f der einzusetzenden Objekte. Fragen:

1. Welche Brennweite wählen Sie?

2. Welche der beiden Kameras liefert Ihnen die höhere Schärfentiefe?

7.5: ∗Beugungsbegrenzte Auflösung

Bei welcher Blendenzahl nf erreicht die beugungsbedingte Auflösung dieGröße des Sensorelements? Gehen Sie von 4.4× 4.4µm2 bzw. 6.7× 6.7µm2

großen Sensorelementen aus. Was passiert bei größeren Blendenzahlen?


In diesem Kapitel wurden nur die Grundprinzipien der optischen Abbildungbehandelt. Eine detaillierte Darstellung ist bei Jähne [99] oder Richards [185]zu finden. Die Geometrie der optischen Abbilding ist auch für die Computer-grafik von Bedeutung. Sie wird daher ausführlich in den Standardlehrbüchernüber Computergrafik, z. B. Watt [234] oder Foley et al. [60], behandelt. Folgen-de Lehrbücher befassen sich mit der technischen Optik: Iizuka [95] (hier istein Schwerpunkt die Fourieroptik), Smith [212] und Schröder [202]. Riedl [188]behandelt das Design von Infrarotoptiken. In diesem Kapitel wurde die Bedeu-tung der linearen Systemtheorie zur allgemeinen Beschreibung optischer Syste-me herausgestellt. Die lineare Systemtheorie hat weitgestreute Anwendungenquer durch alle Gebiete der Technik und Wissenschaft. Näheres dazu ist z. B. inClose und Frederick [31] oder Dorf und Bishop [44] zu finden.

8 3D-Bildaufnahme

8.1 Grundlagen

In diesem Kapitel behandeln wir verschiedene Aufnahmetechniken, mitdenen die bei der Projektion eines 3D-Objekts auf eine Bildebene ver-loren gegangene Tiefeninformation rekonstruiert werden kann. Dabeisind prinzipiell zwei Arten von 3D-Bildaufnahmetechniken zu unter-scheiden. Sie können entweder nur die Tiefe einer Oberfläche im Raumbestimmen oder ein 3D-Objekt vollständig rekonstruieren. Oft werdensowohl die Aufnahme eines Tiefenbildes als auch eines Volumenbildes3D-Bildaufnahme genannt. Das hat zu viel Verwirrung geführt.

Noch schlimmer ist die Verwirrung durch die Vielzahl der Metho-den zur Gewinnung von Tiefen- und Volumenbildern. Deswegen be-handeln wir in diesem Kapitel nicht Details verschiedener Techniken.Wir konzentrieren uns vielmehr auf die grundlegenden Prinzipien. Esmag überraschend klingen oder auch nicht: Die große Vielfalt der 3D-Bildaufnahmetechniken beruht auf nur wenigen Prinzipien. Wenn mansie kennt, ist es einfach zu verstehen, wie eine bestimmte Technik funk-tioniert und wie genau sie sein kann.

Wir beginnen mit einer Diskussion der grundlegenden Grenzen derprojektiven Abbildung für das dreidimensionale Sehen (Abschn. 8.1.1)und geben dann einen kurzen Überblick über die Prinzipien der Tie-fenbildaufnahme (Abschn. 8.1.2) und der Volumenbildaufnahme (Ab-schn. 8.1.3). Dann ist jeweils ein Abschnitt jedem der grundlegendenPrinzipien des dreidimensionalen Sehens gewidmet: Tiefe aus Triangu-lation (Abschn. 8.2), Tiefe aus Laufzeit (Abschn. 8.3), Tiefe aus Phase(Interferometrie) (Abschn. 8.4), Form aus Schattierung und photogram-metrischem Stereo (Abschn. 8.5) und Tiefe aus Mehrfachprojektionen(Tomografie) (Abschn. 8.6).

8.1.1 Grenzen projektiver Bildaufnahme

Wie wir im Detail in Abschn. 7.6.1 und 7.6.2 diskutiert haben, ist einprojektives optisches System in guter Näherung ein lineares verschie-bungsinvariantes System, das durch eine Punktantwort und die optischeTransferfunktion (OTF) beschrieben werden kann.


228 8 3D-Bildaufnahme

Die 3D-OTF für geometrische Optik zeigt am besten die Grenzen derprojektiven Abbildung (siehe Abschn. 7.6.2):

h(q, k3) = 2I0π|q tanα|

(1− k2

3

q2 tan2α

)1/2

Π(

k3

2q tanα

). (8.1)

Die Symbole q und k3 bezeichnen die radiale bzw. axiale Komponen-te des Wellenzahlvektors. Aus der Form der 3D-OTF lassen sich zweigrundlegende Einschränkungen für die 3D-Bildaufnahme feststellen:

Kompletter Verlust weiter Wellenzahlbereiche. Wie in Abb. 7.13b ge-zeigt, ist die 3D-OTF rotationssymmetrisch um die k3-Achse (z-Richtung)und von null verschieden nur innerhalb eines Winkelbereichs von±α umdie xy-Ebene. Bildstrukturen mit einem weiten Bereich von Wellenzah-len, insbesondere in Richtung der optischen Achse, gehen komplett ver-loren. Anschaulich können wir sagen, dass es nur möglich ist, Struktu-ren in denjenigen Richtungen zu „sehen“, aus denen das optische Systemauch Strahlen sammelt.

Kontrastverlust bei großen Wellenzahlen. Die OTF ist nach (8.1) um-gekehrt proportional zur radialen Wellenzahl q. Daher wird die Ampli-tude einer periodischen Struktur proportional zu ihrer Wellenzahl ge-dämpft. Da diese Eigenschaft für alle optischen Systeme — einschließ-lich des menschlichen Auges — gilt, stellt sich die Frage, warum wirüberhaupt feine Strukturen erkennen können.

Die Antwort ergibt sich aus einer genaueren Untersuchung der geo-metrischen Struktur der beobachten Objekte. Die meisten Gegenständein der Umwelt sind undurchsichtig. Daher sehen wir nur deren Ober-fläche, d. h., wir sehen nicht wirklich 3D-Objekte, sondern lediglich 2D-Oberflächenstrukturen. Bilden wir eine 2D-Oberfläche auf eine 2D-Bild-ebene ab, reduziert sich auch die PSF zu einer 2D-Funktion.

Mathematisch bedeutet dies eine Multiplikation der PSF mit einer δ-Ebene, die parallel zur beobachteten Oberfläche liegt. Daraus folgt, dassdie PSF gerade dem Unschärfekreis in der entsprechenden Entfernungder Oberfläche von der Kamera entspricht. Die Reduktion auf 2-D Ober-flächen bewahrt damit die Intensität aller Strukturen, die größer als die-ser Unschärfekreis sind. Sie sind für uns mit gleichem Kontrast sichtbar.

Durch Betrachtung des Problems im Fourierraum kommen wir zumgleichen Ergebnis: Der Multiplikation der PSF mit einer δ-Ebene im Orts-raum entspricht die Faltung der OTF mit einer dazu senkrecht stehendenδ-Linie im Fourierraum, also einer Integration über die Koordinate in dieentsprechende Richtung. Integrieren wir die OTF über die k3-Koordinate,so erhalten wir tatsächlich eine von der Wellenzahl q unabhängige Kon-

8.1 Grundlagen 229

stante:

2I0π

q tanα∫−q tanα

1|q tanα|

⎡⎣1−

(z′

q tanα

)2⎤⎦1/2

dz′ = I0. (8.2)

Um das Integral zu lösen, substituieren wir z′′ = z′/(q tanα).Zusammenfassend können wir festhalten, dass es einen grundlegen-

den Unterschied zwischen der Bildaufnahme von Oberflächen und dervon Volumina gibt. Die OTF für Oberflächenstrukturen ist unabhängigvon der Wellenzahl. Bei dreidimensionalen Strukturen bleibt aber dasProblem der Abnahme der OTF mit der radialen Wellenzahl bestehen.Bei solchen Strukturen werden wir mit dem Auge oder einer Kameranicht in der Lage sein, feine Strukturen zu erkennen. Projektive Bildauf-nahmesysteme sind nicht dafür eingerichtet, wirklich dreidimensionaleObjekte zu erkennen. Deswegen bedarf es anderer Techniken für dieAufnahme von Volumenbildern.

8.1.2 Prinzipien der Tiefenbildaufnahme

Um die Tiefe einer undurchsichtigen Oberfläche im Raum zu gewinnen,wird nur eine weitere Information pro Bildpunkt benötigt, um neben ei-nem Helligkeitsbild ein Tiefenbild erzeugen zu können. Vier grundle-gende Prinzipien können unterschieden werden, die wir als Tiefe ausParadigmen bezeichnen. Zusätzlich kann die Tiefe aus der Neigung vonOberflächen bestimmt werden mit einem Paradigma, das unter dem Na-men Gestalt aus Schattierung bekannt ist.

Tiefe aus Triangulation. Wenn wir ein Objekt von zwei Positionen ausbetrachten, die durch eine Basislinie b voneinander getrennt sind, soerscheint es unter verschiedenen Blickwinkeln. Diese Technik heißt Tri-angulation und stellt eine der wesentlichen Techniken in der Geodäsieund Kartografie dar. Die Triangulationstechnik ist die Grundlage einerüberraschenden Vielfalt von Verfahren. Auf den ersten Blick erscheinendiese Verfahren so verschieden, dass es nicht sofort auffällt, dass sie alleauf demselben Prinzip beruhen.

Tiefe aus Laufzeit. Dies ist ein zweites unmittelbar einsichtiges Prin-zip zur Distanzmessung. Ein Signal wird ausgesendet, es pflanzt sichmit einer charakteristischen Geschwindigkeit in Richtung Objekt fort,wird dort reflektiert und dann von einer Kamera empfangen. Die Ver-zögerungszeit zwischen Aussenden und Empfangen des Signals ist pro-portional zu der Summe der Entfernungen zwischen Sender und Objektund Objekt und Kamera.

Tiefe aus Phase: Interferometrie. Interferometrie kann als ein Spezial-fall der Laufzeitmessung aufgefasst werden. Diese Technik misst Distan-


zen in Bruchteilen der Wellenlänge der Strahlung, indem nicht nur dieAmplitude (Energie) der Strahlung gemessen wird, sondern auch derenPhasenlage. Phasenmessungen sind durch die Überlagerung kohärenterStrahlung (Abschn. 6.3.3) möglich, da sie zu Intensitätsvariationen führt.Hohe Intensitäten ergeben sich, wenn die überlagerten Wellenfronten inPhase sind (konstruktive Interferenz) und niedrige bei einer Phasenver-schiebung von 180° (π , destruktive Interferenz). Licht hat Wellenlängenzwischen 400 und 700 nm (Abschn. 6.3.1 und Abb. 6.6). Daher könnenmit Licht Entfernungen mit Nanometer-Genauigkeit (10−9 m) — einemkleinen Bruchteil der Wellenlängen — gemessen werden.

Tiefe aus Kohärenz. Elektromagnetische Strahlung ist auch durch ih-re Kohärenzlänge (Abschn. 6.3.3), d. h. die maximale Pfaddifferenz, beider noch kohärente Überlagerung möglich ist, gekennzeichnet. Die Ko-härenzlänge kann leicht gemessen werden an der Fähigkeit zur Gene-rierung von Interferenzmustern. Kohärenzlängen können nur einigeWellenlängen kurz sein. Tiefe aus Kohärenz-Techniken schließen da-her die Lücke in der Tiefenauflösung zwischen interferometrischen undLaufzeit-Verfahren.

Gestalt aus Schattierung. Die Form einer Oberfläche kann auch aus derlokalen Orientierung der Oberflächenelemente bestimmt werden. Mathe-matisch wird die Orientierung durch Vektoren ausgedrückt, die senk-recht zur Oberfläche stehen. Mit dieser Methode verlieren wir natürlichdie absolute Tiefe der Oberfläche, aber ein Tiefenprofil kann durch Inte-gration der Oberflächenneigung gewonnen werden. Die Oberflächennor-male können wir aus der Strahlungsstärke der Oberfläche bestimmen,da diese bei vorgegebener Beleuchtungsstärke vom Winkel zwischen derOberflächennormalen und der Richtung der Beleuchtung abhängt.

8.1.3 Prinzipien der volumetrischen Bildaufnahme

Jede Tiefe-aus-Technik, die in der Lage ist, gleichzeitig mehrere Tiefen zuerfassen, ist auch für die Volumenbildgewinnung geeignet. Damit ist dieFähigkeit, mehrere Tiefen gleichzeitig zu erfassen, ein weiteres wichtigesMerkmal einer Tiefenmesstechnik. Über diese Techniken hinaus gibt esjedoch zwei weitere Prinzipien für volumetrische Bildaufnahme.

Beleuchtungs-Schnittbilder. Bei der projektiven Bildgewinnung wis-sen wir nicht, aus welcher Tiefe die auf der Bildebene einfallende Ener-gieflussdichte kommt. Es kann von jeder Position entlang des Projekti-onsstrahls sein (siehe Abschn. 7.3.1 und Abb. 7.3). Es ist jedoch möglich,die Beleuchtung in einer solchen Art und Weise anzuordnen, dass nur eingewisser Tiefenbereich beleuchtet wird. Dann wissen wir, aus welcherTiefe die Strahlung kommt. Wenn wir die Beleuchtung auf unterschiedli-

8.2 Tiefe aus Triangulation 231

che Tiefe nacheinander einstellen, kann auf diese Weise ein Volumenbildgewonnen werden.

Tiefe aus Mehrfach-Projektionen: Tomografie. Eine einzelne Projekti-on enthält nur eine partielle Information über ein volumetrisches Objekt.Die Frage ist daher, ob und wie es durch mehrere Projektionen möglichist, die partiellen Informationen zu einem kompletten 3D-Bild zusam-menzufügen. Eine solche Technik der Tiefe aus Mehrfach-Projektionenist unter dem Namen Tomografie bekannt.

8.1.4 Charakterisierung von 3D-Bildgewinnungstechniken

Die Tiefenbildgewinnung ist in erster Linie durch zwei Grundgrößen cha-rakterisiert, die Tiefenauflösung σz und den Tiefenbereich ∆z. Die Tie-fenauflösung gibt den statistischen Fehler der Tiefenmessung an unddamit die minimal bestimmbare Tiefendifferenz. Diese Angabe ist nichtmit der absoluten Tiefengenauigkeit zu verwechseln. Der systemati-sche Fehler kann deutlich größer sein (vergleiche dazu die Diskussion inAbschn. 3.1). Ein wesentliches Charakteristikum einer Tiefenbildgewin-nungstechnik ist, wie die Tiefenauflösung von der Entfernung abhängt.Es ist ein großer Unterschied, ob die Tiefenauflösung konstant ist, d. h.nicht von der Entfernung abhängt, oder ob sie mit der Entfernung z ab-nimmt.

Der Tiefenbereich ∆z ist die Differenz zwischen der maximalen undminimalen Tiefe, die gemessen werden kann. Daher gibt das Verhältnisvon Tiefenbereich zu Tiefenauflösung, ∆z/σz, den dynamischen Bereichder Tiefenbildgewinnungstechnik an.

8.2 Tiefe aus Triangulation

Wenn ein Objekt aus unterschiedlichen Positionen betrachtet wird, die durcheinen Basisvektorb voneinander getrennt sind, ergeben sich daraus unterschied-liche Blickwinkel. Auf die eine oder andere Weise resultieren die Unterschiedeim Blickwinkel zu einer Verschiebung auf der Bildebene, die als Disparität bzw.Parallaxe bekannt ist und aus der die Entfernung des Objekts bestimmt werdenkann.

Triangulationsbasierte Tiefenmesstechniken beinhalten eine große Fülle ver-schiedener Verfahren, die — auf den ersten Blick — nichts miteinander gemein-sam haben und dennoch auf demselben Prinzip beruhen. In diesem Abschnittbetrachten wir die Stereoskopie (Abschn. 8.2.1), aktive Triangulation, bei dereine Kamera durch eine Lichtquelle ersetzt wird (Abschn. 8.2.2), Tiefe aus Fo-kussierung (Abschn. 8.2.3) und konfokale Mikroskopie (Abschn. 8.2.4). Mit derStereoskopie diskutieren wir auch die grundlegende Geometrie der Triangulati-on.


Abbildung 8.1: Schematische Darstellung einer Stereokameraanordnung.

8.2.1 Stereoskopie

Die Betrachtung einer Szene aus zwei unterschiedlichen Blickwinkeln ermög-licht die Bestimmung der Entfernung zwischen Objekten und Kameraebene.Ein Aufbau mit zwei Bildsensoren wird Stereosystem genannt. Bei vielen bio-logischen Systemen erfolgt das Tiefensehen auf diese Weise. Abbildung 8.1verdeutlicht die Tiefenbestimmung mit einer Stereokameraanordnung. ZweiKameras sind nebeneinander mit parallelen optischen Achsen platziert. DerAbstandsvektor b der beiden Achsen wird als stereoskopische Basis bezeichnet.

Ein Gegenstand wird auf unterschiedliche Positionen in der Bildebene abgebil-det, weil er unter leicht verschiedenen Winkeln gesehen wird. Die Differenzstre-cke zwischen den Positionen auf der Bildebene wird als Parallaxe oder Disparitätbezeichnet. Mit Hilfe von Abb. 8.1 lässt sich die Parallaxe p einfach berechnenzu

p = rx1 − lx1 = d′X1 + b/2X3

− d′X1 − b/2X3

= b d′

X3. (8.3)

Die Parallaxe ist umgekehrt proportional zur Entfernung X3 des Objekts (nullfür ein unendlich weit entferntes Objekt) und direkt proportional zur stereo-skopischen Basis und der Brennweite der verwendeten Objektive (d′ ≈ f fürweit entfernte Gegenstände). Die Entfernungsabschätzung wird demnach umso schwieriger, je weiter ein Objekt entfernt ist. Dies wird deutlicher, wenn wirdas Fehlerfortpflanzungsgesetz benutzen, um den Fehler der Entfernung X3 zuberechnen:

X3 = bd′

p σX3 =

bd′

p2σp = X2

3

bd′σp. (8.4)

Deshalb nimmt die absolute Sensitivität für eine Tiefenbestimmung mit demQuadrat der Entfernung ab. Als Beispiel nehmen wir ein Stereosystem mit ei-ner stereoskopischen Basis von 200 mm an; die Brennweite des Objektivs sei100 mm. Bei 10 m Entfernung beträgt dann die Veränderung der Parallaxe etwa200 µm/m (ca. 20 Pixel/m), während sie bei 100 m Entfernung nur noch 2µm/m(0,2 Pixel/m) beträgt.

Die Parallaxe ist eine Vektorgröße und immer parallel zur stereoskopischenBasis b. Das hat auf der einen Seite den Vorteil, dass wir im Prinzip, d. h. beigenauer Kenntnis der Ausrichtung der Kameras, die Richtung der Parallaxe ken-nen. Auf der anderen Seite ergeben sich dadurch Probleme in der Bestimmung


des Betrags der Parallaxe. Hat ein Bildbereich keine Struktur in Richtung derStereobasis, so kann in ihm keine Verschiebung bestimmt werden, weil sich dieGrauwerte in dieser Richtung nicht ändern. Dieses Problem ist ein Spezialfalldes Blendenproblems, das wir bei der Bewegungsanalyse ausführlich diskutie-ren werden (Abschn. 14.2.2).

Es gibt verschiedene Verfahren, die Tiefeninformation in Stereobildern darzu-stellen. Beim Anaglyphenverfahren werden beide Teilbilder in zwei Farben, inder Regel rot und grün, übereinander dargestellt. Durch eine Brille, die für dasrechte Auge mit einem Rotfilter und für das linke mit einem Grünfilter ausge-rüstet ist, sieht der Betrachter mit dem rechten Auge nur das grüne Bild undmit dem linken nur das rote. Dieses Verfahren hat zweifellos den Nachteil, dasskeine farbigen Vorlagen betrachtet werden können. Dafür können solche Bilderohne spezielle Hardware leicht auf Standarddruckern ausgegeben, projiziertoder auf jedem Farbbildschirm dargestellt werden.

Die vertikale Stereoskopie nach dem KMQ-Verfahren ermöglicht auch die Be-trachtung von Stereo-Farbbildern [128]. Zwei übereinander stehende Bilder ver-schmelzen zu einem Raumbild, wenn sie mit einer Prismenbrille betrachtet wer-den, die das Bild des rechten Auges nach oben, die des linken nach unten ab-lenkt.

Andere stereoskopische Abbildungsverfahren verwenden spezielle Hardware.Bekannt ist das Prinzip, dass das linke und rechte Stereobild in schneller, ab-wechselnder Folge auf einem Monitor dargestellt werden. Gleichzeitig wird diePolarisationsrichtung des Bildschirmes umgeschaltet. Der Betrachter trägt ei-ne Polarisationsbrille, die die korrekten Bilder für das linke und rechte Augeherausfiltert.

Die Anaglyphenmethode hat das größte Potenzial für breite Anwendung, dasie ohne zusätzliche Hardware auskommt. Es wird zusätzlich lediglich eineRotgrünbrille benötigt. Ein anregender Überblick über die wissenschaftlichenund technischen Anwendungen von Stereobildern ist bei Lorenz [141] zu finden.

8.2.2 Tiefe aus aktiver Triangulation

Anstelle einer Stereokameraanordnung kann eine Kamera durch eine Lichtquel-le ersetzt werden. Für eine Tiefenrekonstruktion ist es dann notwendig zu iden-tifizieren, aus welcher Richtung die Beleuchtung für jedes Pixel kommt. DieseInformation ist äquivalent zur Bestimmung einer Disparität. Damit besitzt einTiefenmessverfahren auf Basis der aktiven Triangulation dieselben Eigenschaf-ten wie die Stereoskopie, die wir im letzten Abschnitt diskutiert haben.

In den letzten Jahren wurden ausgefeilte Techniken entwickelt, die Lichtstrah-len eindeutig kodieren. Am häufigsten wird ein Lichtprojektor benutzt, der dieSzene mit Streifenmustern, bei denen die Streifen senkrecht zur Triangulati-onsbasis stehen, beleuchtet. Ein einzelnes Streifenmuster ist nicht ausreichend,um die Position des Musters auf der Bildebene eindeutig bestimmen zu können.Mit einer geeigneten Sequenz von Streifenmustern unterschiedlicher Wellenlän-ge kann aber die Position in der Bildebene des Projektors durch eine Abfolgevon hellen und dunklen Werten eindeutig kodiert werden. Ein Teil einer solchenBeleuchtungssequenz zeigt Abb. 8.2.

Eine solche Beleuchtungssequenz hat auch den Vorteil, dass — in den Grenzendes dynamischen Belichtungsbereichs der Kamera — die Detektion der Streifen-


Abbildung 8.2: Aktive Triangulation durch die Projektion einer Serie von Strei-fenbildern unterschiedlicher Wellenlänge zur binären Kodierung der horizonta-len Position.

muster unabhängig vom Reflexionskoeffizienten des Objektes und der entfer-nungsabhängigen Beleuchtungsstärke des Projektors wird. Das Okklusionspro-blem, das an dem Schatten hinter der Espresso-Maschine in Abb. 8.2 zu sehenist, bleibt.

Die binäre Kodierung mit einer Sequenz von Streifenmustern funktioniert nichtmehr für feine Streifenmuster. Für eine genauere Positionsbestimmung sindphasenverschobene Muster mit derselben Wellenlänge, wie in Abb. 8.3 gezeigt,eine bessere Lösung. Sie erlauben eine subpixelgenaue Positionsbestimmungauf der Bildebene des Projektors. Da die Phasenverschiebung aber nur im Be-reich einer Wellenlänge des Streifenmusters eindeutig ist, wird oft ein hybridesVerfahren benutzt, das zuerst die grobe Position mittels binärer Kodierung unddann die genaue Positionierung mittels Phasenverschiebung bestimmt.

8.2.3 Tiefe aus Fokussierung

Die begrenzte Schärfentiefe eines optischen Systems (Abschn. 7.4.3) ist die Ba-sis für eine weitere Technik zur Tiefenbildgewinnung. Ein Objekt wird ohneUnschärfe nur dann abgebildet, wenn es im Bereich des objektseitigen Schär-fentiefebereichs liegt. Auf den ersten Blick sieht diese Technik nicht nach ei-


Abbildung 8.3: Aktive Triangulation durch phasenverschobene Streifenbildergleicher Wellenlänge. Drei der vier Muster mit einer Phasenverschiebung von 0,90 und 180° sind abgebildet.

nem Triangulationsverfahren aus. Es besitzt jedoch genau die gleiche grundle-gende Geometrie wie ein Triangulationsverfahren. Der einzige Unterschied ist,dass nicht nur zwei sondern viele Strahlen zu berücksichtigen sind und dassder Radius des Unschärfekreises die Disparität ersetzt. Die Triangulationsba-sis entspricht jetzt dem Durchmesser der Optik. Damit weist die Technik derTiefe-aus-Fokussierung alle Merkmale einer Triangulationstechnik auf. Bei einervorgegebenen Optik fällt die Tiefenauflösung mit dem Quadrat der Entfernungab (vergleiche (8.4) mit (7.21)).

Aus der Diskussion über die Grenzen der projektiven Abbildung in Abschn. 8.1.1kann gefolgert werden, dass die Technik der Tiefe-aus-Fokussierung sich nichtzur Aufnahme von Volumenbildern eignet, da die meisten Strukturen, insbeson-dere diejenigen in Tiefenrichtung, bei der projektiven Abbildung verschwinden.Sie ist aber eine nützliche und einfache Technik für die Tiefenbestimmung beiundurchsichtigen Oberflächen.

Steurer et al. [215] entwickelten eine einfache Methode zur Rekonstruktion einerTiefenkarte aus einer lichtmikroskopischen Fokusserie. Eine Tiefenkarte ist einezweidimensionale Funktion, die die Tiefe eines Objektpunktes d — relativ zueiner Referenzebene — als eine Funktion der Bildkoordinaten

[x,y

]Tangibt.

Mit den gegebenen Einschränkungen muss nur ein Tiefenwert für jeden Bild-punkt gefunden werden. Wir können die Tatsache ausnutzen, dass die drei-dimensionale Punktantwort optischer Abbildungen, die wir im Detail in Ab-schn. 7.6.1 betrachtet haben, ein ausgeprägtes Maximum in der Brennebene hat,da die Intensität mit dem Quadrat der Entfernung von der Brennebene abfällt.Der Kontrast — also die Grauwertunterschiede zwischen benachbarten Bild-punkten — markanter Grauwertstrukturen wie Ecken, Linien oder lokale Extre-ma wird demnach in der scharf eingestellten Ebene maximal sein. Abbildung 8.4zeigt, dass sich die Punktantworten benachbarter Bildpunkte zwar weit weg vonder scharf eingestellten Ebene durch Überlagerung beeinflussen, nicht jedochin dessen Nähe.


Oberfläche

Abbildung 8.4: Überlagerung der doppelkegelförmigen Punktantwort zweier be-nachbarter Punkte auf einer Oberfläche.

Steurers Methode basiert auf der Tatsache, dass die 3D-PSF ein ausgeprägtesMaximum in der Fokalebene besitzt. Sein Algorithmus besteht aus den folgen-den vier Schritten:

1. Ausgegangen wird von einer Fokusserie mit konstanten Tiefenschritten.

2. Mit einem geeigneten Operator, wie z. B. dem Varianzoperator (in Abschn. 15.2.2),wird der lokale Kontrast bestimmt. Die gefilterten Bilder werden segmentiert,damit eine Maske für die Regionen mit signifikanten Grauwertänderungenentsteht.

3. In den maskierten Regionen wird der maximale Kontrast an einem Bildpunktin allen Tiefen gesucht. Das Bild, in dem das Maximum auftritt, liefert einenTiefenwert für die Tiefenkarte. Durch Interpolation der Werte kann die Tie-fenposition des Maximums auch genauer als die Tiefenauflösung des Bildsta-pels bestimmt werden [198].

4. Da die so ermittelte Tiefenkarte nicht dicht ist, müssen die fehlenden Tie-fenwerte interpoliert werden. Steurer verwendet eine Regionenwachstums-methode und anschließend eine adaptive Tiefpassfilterung, die er nur aufdie interpolierten Regionen anwendet, um die direkt berechneten Tiefenwer-te nicht zu verändern. Jede andere Regularisierungstechnik lässt sich hiergenauso einsetzen, wie z. B. die normalisierte Faltung (Abschn. 11.6.2) oderdie in Abschn. 17.2 beschriebenen Verfahren.

Diese Methode wurde erfolgreich zur Bestimmung der Oberflächenstruktur be-arbeiteter Metallteile angewandt. Abbildung 8.5 zeigt, dass sie zu guten Ergeb-nissen führt. Erkennbar ist ein Metallspan, der aus der Oberfläche herausragt.Zusätzlich zeigt die Oberfläche klare Spuren des Schleifprozesses.

Diese Technik können wir nur anwenden, wenn eine Oberfläche feine Detailsaufweist. Für strukturlose, glatte Oberflächen kann die konfokale Beleuchtungs-technik von Scheuermann et al. [198] eingesetzt werden, die statistische Musterauf die Fokalebene projiziert und dann dasselbe Auswertungsverfahren benutzt(vgl. Abschn. 1.2.2 und Abb. 1.3).


a

b

Abbildung 8.5: a Fokusserie mit 16 Bildern einer metallischen Oberfläche, diein Schritten von 2µm aufgenommen wurden: Die Brennebene wird von linksnach rechts und von oben nach unten zu tieferen Schichten hin verschoben. bAus einer Fokusserie berechnete Tiefenkarte. Die Tiefe ist durch die Intensitätkodiert, wobei näher zum Beobachter liegende Objekte heller erscheinen. AusSteurer et al. [215].

8.2.4 Konfokale Mikroskopie

Volumetrische Mikroskopie ist von großer Bedeutung für die Material- und Le-benswissenschaften. Deshalb stellt sich die Frage, ob es nicht möglich ist, denBilderzeugungsprozess — und damit die Punktantwort — so zu verändern, dassdie optische Transferfunktion insbesondere in z-Richtung nicht verschwindet.

Die Antwort auf diese Frage ist die konfokale Laserabtastmikroskopie (englisch:confocal laser scanning microscopy, CLSM ), deren Prinzip die ausschließlicheBeleuchtung der Punkte in der Brennebene ist. Dies wird dadurch erreicht, dassein Laserstrahl über die Bildebene tastet, die über die Mikroskopoptik auf dieBrennebene fokussiert ist (Abb. 8.6). Da für Bildaufnahme und Beleuchtungdie gleiche Optik verwendet wird, ergibt sich die Intensitätsverteilung im Ob-jektraum in Näherung durch die Punktantwort des Mikroskops. (Geringe Dif-ferenzen treten durch die Kohärenz des Laserlichts auf.) Lediglich ein dünnerStreifen nahe der Brennebene wird hell beleuchtet. Außerhalb dieses Streifens


ProbeMikroskop-objektiv

DichroitischerStrahlteiler Blende

Detektor

Anregen-des Laser-licht

Abtast-einheit

BrennebenedesMikroskops

Abbildung 8.6: Prinzip der konfokalen Laserabtastmikroskopie.

a

b c

Abbildung 8.7: Verdeutlichung der konfokalen Laserabtastmikroskopie: a Einquadratischer, pyramidenförmiger Kristall, aufgenommen mit einem Standard-mikroskop und Fokus auf die Pyramidenbasis. b Ähnliches Objekt, mit der CLSMaufgenommen. Nur ein schmaler Höhenkonturbereich 2,5µm oberhalb der Basisder quadratischen Pyramide wird sichtbar. c Aus einer 6,2µm weiten Tiefenab-tastung rekonstruiertes Bild. Die Bilder wurden freundlicherweise von der FirmaCarl Zeiss Jena GmbH zur Verfügung gestellt.

fällt die Lichtintensität mit dem Quadrat der Entfernung von der Brennebeneab. Auf diese Weise werden Störungen durch unscharfe Objekte außerhalb derBrennebene stark unterdrückt. Aber lässt sich eine völlig störungsfreie Rekon-struktion erreichen? Wir werden zwei unterschiedliche Gedankengänge verfol-gen, um diese Frage zu beantworten.

Stellen wir uns zunächst eine sich wiederholende Struktur in z-Richtung vor. Beider konventionellen Mikroskopie geht diese Struktur verloren, da alle Tiefenbe-reiche mit gleicher Stärke bestrahlt werden. Bei der konfokalen Mikroskopiesehen wir jedoch durch den starken Abfall der Lichtintensität noch eine peri-

8.3 Tiefe aus Laufzeit 239

odische Variation in z-Richtung, vorausgesetzt, die Wellenlänge in z-Richtungist nicht zu klein.

Das Gleiche können wir anhand der PSF zeigen. Die PSF der konfokalen Mikro-skopie ergibt sich aus dem Produkt der räumlichen Intensitätsverteilung undder PSF der optischen Abbildung. Da beide Funktionen mit z−2 abfallen, fälltdie PSF des konfokalen Mikroskops insgesamt mit z−4. Die Quadrierung derPSF im Ortsraum entspricht einer Faltung der OTF mit sich selbst. Durch dieseFaltung wird die OTF auch in z-Richtung bis zur Auflösungsgrenze hin ungleichnull.

Das 3D-Auflösungsvermögen der konfokalen Laserabtastmikroskopie verdeut-licht Abb. 8.7. Ein mit einem Standardmikroskop aufgenommenes Bild zeigteinen Kristall in Form einer quadratischen Pyramide nur an der Pyramidenbasisscharf (Abb. 8.7a). Zur Spitze der Pyramide hin werden die Kanten zunehmendunscharf. Dagegen wird bei einem einzelnen mit der konfokalen Laserabtast-mikroskopie aufgenommenen Bild nur ein schmaler Tiefenbereich überhauptabgebildet (Abb. 8.7b). Ein Bild, entstanden aus der Überlagerung aller in einemTiefenbereich von 6,2µm erhaltenen Teilbilder, zeigt jedoch für den gesamtenTiefenbereich ein scharfes Objekt (Abb. 8.7c). So können viele feine Detailsbeobachtet werden, die in dem mit konventioneller Mikroskopie aufgenomme-nen Bild nicht zu erkennen sind. Die Laserabtastmikroskopie ist mittlerweile inAnwendungen der Medizin, Biologie und der Materialforschung weit verbreitet.

8.3 Tiefe aus Laufzeit

Laufzeitverfahren messen die Zeit, die Strahlung benötigt, um eine gewisse Di-stanz zurückzulegen. Wenn die Strahlung von der Position der Kamera ausge-sendet wird, muss sie die Entfernung zwischen Kamera und dem Objekt, dasdie Strahlung reflektiert, zweimal zurücklegen. Daher ergibt sich die Verzöge-rungszeit zu

τ = 2zc, (8.5)

wobei c die Ausbreitungsgeschwindigkeit der Strahlung ist.

Aus (8.5) sehen wir, dass der statistische Fehler der Tiefenmessung unabhängigvon der Distanz zum Objekt ist. Er hängt nur von der Genauigkeit ab, mit derdie Verzögerungszeit gemessen werden kann:

z = cτ2

σz = c2στ. (8.6)

Das stellt einen deutlichen Vorteil gegenüber Triangulationsverfahren dar (siehe(8.4)).

Bei Laufzeiten denkt man zuerst an eine Pulsmodulation, d. h. die Messung derVerzögerungszeit zwischen dem Senden und dem Empfang eines kurzen Pul-ses. Die maximal messbare Distanz hängt von der Pulswiederholfrequenz ab.Bei elektromagnetischen Wellen ist die Vermessung der Verzögerungszeit ei-ne Herausforderung. Da die Lichtgeschwindigkeit c 3 · 108 m/s ist, beträgt dieVerzögerungszeit nur 6.7 ns pro Meter.

Pulsmodulation ist nur eine von vielen Möglichkeiten, ein Signal für Laufzeit-messungen zu modulieren. Die Signalamplitude kann auch periodisch modu-


liert werden. Die Laufzeit wird bei diesem Verfahren als eine Phasenverschie-bung zwischen dem aus- und eingehenden Signal gemessen:

z = c4πν

φ σz = c4πν

σφ, (8.7)

wobei ν die Frequenz der Modulation ist. Der Tiefenbereich dieser Technikergibt sich aus der Tatsache, dass die Phase eindeutig nur in einem Bereich von±π gemessen werden kann:

∆z = c2ν

= cT2. (8.8)

Der größte Nachteil der periodischen Modulation ist daher der begrenzte Tie-fenbereich. Dieses Problem wird durch eine Zufallsmodulation gelöst, bei derdie Signalamplitude durch ein Zufallsmuster moduliert wird. Diese Technikkombiniert die Vorteile der hohen Auflösung der periodischen Modulation mitdem großen Tiefenbereich der Pulsmodulation.

8.4 Tiefe aus Phase: Interferometrie

Die Interferometrie kann als Spezialfall der periodischen Modulation betrachtetwerden. Die Modulation ergibt sich direkt aus der Frequenz der elektromagne-tischen Strahlung. Es ist trotzdem sinnvoll, die Interferometrie als eine eigeneKlasse der Tiefenmesstechnik zu betrachten, da sie im Gegensatz zu den an-deren Verfahren auf kohärentes Licht (Abschn. 6.3.3) angewiesen ist. Wegender hohen Frequenz des Lichtes kann die Phase des aus- und eingehenden Lich-tes nicht direkt gemessen werden, sondern nur durch die aus der kohärentenoptischen Überlagerung des ein- und ausgehenden Lichtes resultierende Ampli-tudenvariation. Fehler und Bereich der Tiefenbestimmung aus interferometri-schen Messungen ergeben sich aus (8.7) und (8.8) und der Beziehung c = νλ(Abschn. 6.3.1) zu

z = λ4π

φ, σz = λ4π

σφ, ∆z = λ2. (8.9)

Wegen der kleinen Wellenlänge des Lichts (0.4–0.7µm) sind interferometrischeTiefenmessungen extrem genau. Der sehr begrenzte Tiefenbereich von nur ei-ner halben Wellenlänge kann durch Mehrwellenlängen-Interferometrie überwun-den werden.Eine zweite Art interferometrischer Tiefenmesstechnik ist möglich, wenn Strah-lung mit einer geringen Kohärenzlänge von nur wenigen Wellenlängen benutztwird. Dann sind Interferenzmuster ebenfalls nur in einem Tiefenbereich vonwenigen Wellenlängen möglich. Dieser Effekt kann von einem Aufnahmesys-tem, das einen Tiefenbereich durchfährt, zur Tiefenmessung benutzt werden.Diese Art von Interferometrie wird Weißlicht-Interferometrie oder Kohärenzra-dar genannt.

8.5 Gestalt aus Schattierung

Die Methode der Gestalt aus Schattierung bestimmt nicht die Tiefe sondern dieOberflächennormale von Oberflächen und stellt somit eine eigene Klasse vonVerfahren zur 3D-Rekonstruktion von Oberflächen dar. Diese Technik kannkeine absoluten Distanzen bestimmen.

8.5 Gestalt aus Schattierung 241

Oberflächennormale

Lichtrichtung

x1-s1

x2

-s2

ϕ s

tanθ i

Abbildung 8.8: Berechnung der Strahlungsdichte, veranschaulicht im Gradien-tenraum für eine Lambertsche Oberfläche, die mit einer entfernten Lichtquelleunter dem Einfallswinkel θi bestrahlt wird. Der Azimutwinkel φi ist null.

8.5.1 Gestalt aus Schattierung für Lambertsche Oberflächen

Wir wenden diese Technik zuerst auf die diffuse Reflexion undurchsichtigerObjekte an. Der Einfachheit halber nehmen wir an, dass die Oberfläche einesLambertschen Objektes (Abschn. 6.4.3) von parallelem Licht angestrahlt wird.Dann ergibt sich für die Strahlungsdichte L der Oberfläche:

L = ρ(λ)π

E cosγ, (8.10)

wobei E die Bestrahlungsstärke ist und γ der Winkel zwischen der Oberflächen-normalen und der Lichtrichtung. Am einfachsten sind die Beziehungen zwi-schen der Oberflächennormalen und der ein- und ausfallenden Strahlung imGradientenraum zu verstehen. Dieser Raum wird vom Gradienten der Oberflä-chenhöhe a(X,Y) aufgespannt:

s =∇a =[∂a∂X,∂a∂Y

]T= [s1, s2]T . (8.11)

Der Gradient steht in direkter Beziehung zur Oberflächennormalen, wenn manderen Z-Komponente auf eins setzt:

n =[− ∂a∂X,− ∂a∂Y,1

]T= [−s1,−s2,1]T . (8.12)

Man kann daher den Gradientenraum als eine Ebene parallel zur XY -Ebene inder Höhe Z = 1 verstehen, wenn man die X,Y -Achsenrichtungen umdreht. DieX,Y -Koordinaten, an denen die Oberflächennormalen und andere Richtungs-vektoren diese Ebene durchstoßen, sind dann die Koordinaten des Gradienten-raums.

Die Geometrie im Gradientenraum ist in Abb. 8.8 veranschaulicht. Ohne Be-schränkung der Allgemeinheit können wir die Richtung der Lichtquelle in x-Richtung drehen. Dann ergibt sich die Lichtrichtung durch den Vektor l =(tanθi,0,1)T , und die Strahlungsdichte L der Oberfläche kann folgendermaßenausgedrückt werden:

L = ρ(λ)π

EnT l|n||l| =

ρ(λ)π

E−s1 tanθi + 1√

1+ tan2 θi√

1+ s21 + s2

2

. (8.13)


a

-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

s2

s1

b

-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

s2

s1

Abbildung 8.9: Konturgrafik der Strahlungsdichte einer Lambertschen Oberflä-che mit homogenem Reflexionskoeffizienten, die von parallelem Licht angestrahltwird, gezeigt im Gradientenraum für Oberflächensteigungen zwischen -1 und1. Die Strahlungsdichte ist auf diejenige einer flachen Oberfläche normiert. aEinfallswinkel θi = 0°; die Entfernung der Konturlinien beträgt 0,05. b Schräg-lichtbeleuchtung mit einem Einfallswinkel von 45° und einem Azimutwinkel von0°; die Entfernung der Konturlinien beträgt 0,1.

Abbildungen von Konturgrafiken der Strahlungsdichteverteilung im Gradien-tenraum zeigt Abb. 8.9a für eine Lichtquelle mit einem Einfallswinkel θi = 0°.In diesem Fall sind die Konturlinien gleicher Strahlungsdichte konzentrischeKreise und Linien mit konstanter absoluter Steigung s = (s2

1 +s22)1/2. Allerdings

ändert sich die Strahlungsdichte bei kleinen Oberflächenneigungen kaum. EineSchräglichtbeleuchtung bewirkt einen höheren Kontrast in der Strahlungsdichte(Abb. 8.9b). Bei dieser Beleuchtungsart ist jedoch die maximale Oberflächennei-gung in der entgegengesetzten Richtung zur Lichtquelle auf π/2− θ begrenzt,wenn die Oberflächennormale senkrecht zur Lichtrichtung steht.

Mit einer einzigen Beleuchtungsquelle ist die Oberflächennormale nur teilweisebestimmt, selbst wenn die Oberflächenreflektivität bekannt ist. Wir wissen dannnur die Komponente der Oberflächennormale in Richtung der Beleuchtungsän-derung. Die Oberflächenrekonstruktion mit nur einer Beleuchtungsquelle stelltein schwieriges mathematisches Problem dar, das hier nicht weiter verfolgt wer-den soll. Im nächsten Abschnitt behandeln wir daher, wie wir durch mehrereAufnahmen mit Beleuchtungen aus unterschiedlichen Richtungen das Problemder Gestalt-aus-Schattierung eindeutig lösen können. Solche Techniken nenntman photogrammetrisches Stereo.

8.5.2 Photogrammetrisches Stereo

Die gekrümmten Konturlinien in Abb. 8.9 bedeuten, dass die Beziehung zwi-schen der Oberflächensteigung und der Strahlungsdichte nicht linear ist. Dashat zur Folge, dass die Oberflächensteigung nicht eindeutig bestimmt werden


-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

s2

s1

Abbildung 8.10: Überlagerte Konturgrafiken der Strahlungsdichte einer Lam-bertschen Oberfläche mit homogenem Reflexionskoeffizienten. Die Fläche wirdunter einem Einfallswinkel von 45° und einem Azimutwinkel von 0° und 90° be-leuchtet.

kann, selbst wenn wir eine Oberfläche hintereinander durch zwei unterschied-lich ausgerichtete Lichtquellen beleuchten (Abb. 8.10). Das ist dann der Fall,wenn sich die gekrümmten Konturlinien in mehr als einem Punkt schneiden.Man braucht also drei verschiedene Beleuchtungsarten, um zu einer eindeuti-gen Lösung zu kommen.

Die Verwendung von drei Lichtquellen hat einen entscheidenden Vorteil: derReflexionskoeffizient der Oberfläche kann durch die Berechnung von Verhält-nissen eliminiert werden. Um ein Beispiel zu betrachten, beleuchten wir eineLambertsche Oberfläche mit parallelen Lichtstrahlen aus drei unterschiedlichenRichtungen:

l1 = [0, 0, 1]T , l2 = [tanθi, 0, 1]T , l3 = [0, tanθi, 1]T . (8.14)

Daraus folgt durch Verhältnisbildung:

L2/L1 = −s1 tanθi + 1√1+ tan2 θi

, L3/L1 = −s2 tanθi + 1√1+ tan2 θi

. (8.15)

Die Gleichungen sind nun linear in s1 und s2 und — ein weiterer entscheidenderVorteil — entkoppelt: s1 und s2 sind nur noch von L2/L1 bzw. L3/L1 abhän-gig (Abb. 8.11). Außerdem hängen die Verhältnisse der Strahlungsdichten in(8.15) ebenfalls nicht vom Reflexionskoeffizienten der Oberfläche ab. Dieser istin (8.10) als Faktor enthalten und verschwindet, wenn das Verhältnis zweierStrahlungsdichteverteilungen derselben Oberfläche berechnet wird.

8.5.3 Gestalt aus Brechung an glänzenden Oberflächen

Die Technik der Gestalt aus Schattierung (Abschn. 8.5.1) funktioniert bei glän-zenden Oberflächen nicht, da das Licht nur in Richtung der Kamera reflektiertwird, wenn der Einfallswinkel von der Lichtquelle gleich dem Reflexionswinkel


a

-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

s2

s1

b

s2

s1-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

Abbildung 8.11: Konturgrafik der Strahlungsdichte einer Lambertschen Ober-fläche, die mit parallelem Licht mit einem Einfallswinkel von 45° und einem Azi-mutwinkel von 0° (a ) bzw. 90° (b ) beleuchtet wird. Die Strahlungsdichte wurdeauf die bei einem Einfallswinkel von 0° nach (8.15) normalisiert. Die Entfernungder Konturlinien beträgt 0,1. Beachtenswert ist die perfekte lineare Beziehungzwischen der normalisierten Strahlungsdichte und den Komponenten der Ober-flächensteigung in x- und y-Richtung.

zur Kamera hin ist. Deswegen werden ausgedehnte Lichtquellen benötigt. Eszeigt sich, dass für transparente glänzende Oberflächen die Technik der Gestaltaus Brechung Vorteile gegenüber den Gestalt-aus-Reflexion-Techniken bietet.Die Strahlungsdichte ist höher, es können steilere Oberflächen bestimmt wer-den, und die Nichtlinearität der Beziehung zwischen Steigung und Strahlungs-dichte ist beträchtlich geringer.

Das Gestalt-aus-Brechung-Verfahren erfordert eine spezielle Beleuchtungstech-nik, da — mit Ausnahme eines geringen Teils des Lichts, das an der Oberflächereflektiert wird — keine signifikanten Variationen der Strahlungsdichte auftre-ten. Die Grundlage der Gestalt-aus-Brechung-Technik ist eine telezentrische Be-leuchtung, die eine räumliche Verteilung der Strahlungsstärke in eine winkel-abhängige Strahlungsverteilung umwandelt. Dann müssen wir die Beziehungzwischen der Oberflächenneigung und dem Winkel des gebrochenen Strahls be-rechnen und eine ausgedehnte Lichtquelle mit geeigneter Strahlungsverteilungbenutzen. Diese müssen wir zuerst untersuchen.

Abbildung 8.12 veranschaulicht die optische Geometrie für den einfachen Fall,dass die Kamera weit oberhalb und eine Lichtquelle unterhalb eines durchsichti-gen Mediums mit einem höheren Brechungsindex sitzt. Die Beziehung zwischender Oberflächensteigung s und dem Winkel γ ergibt sich aus Jähne et al. [105]zu

s = tanα = n tanγ

n−√

1+ tan2 γ≈ 4 tanγ

(1+ 3

2tan2 γ

)(8.16)


ab

Abbildung 8.12: Grundlage der Gestalt-aus-Brechung-Technik ist die Lichtbre-chung an einer geneigten Oberfläche. Die Kamera befindet sich weit oberhalbder Oberfläche. a Strahlen, die von der Lichtquelle unter dem Winkel γ ausgehen,werden in Richtung der Kamera gebrochen. b Selbst für eine unendliche Steigung(vertikal verlaufende Oberfläche, α = 90 °) treffen Strahlen von der Lichtquelle indie Kamera.

mit n = n2/n1. Die umgekehrte Beziehung lautet

tanγ = s√n2 + (n2 − 1)s2 − 1√n2 + (n2 − 1)s2 + s2

≈ 14s(

1− 332s2

). (8.17)

Prinzipiell funktioniert die Technik der Gestalt aus Brechung selbst für unend-liche Steigungen (vertikal verlaufende Oberflächen). In diesem Grenzfall streiftder zur Kamera gehende Strahl die Oberfläche (Abb. 8.12b) und

tanγ =√n2 − 1. (8.18)

Durch die Brechung erreichen wir, dass für eine bestimmte Neigung Lichtstrah-len aus einer bestimmten Richtung kommen. Daraus erhalten wir Helligkeits-unterschiede, wenn wir die Intensität der Lichtstrahlen richtungsabhängig ma-chen. Wie dies geschieht, ist im Detail bei Jähne et al. [105] beschrieben. Hiergehen wir einfach davon aus, dass sich die Lichtstrahlen proportional zu tanγin x1-Richtung ändern. Dann gilt:

L∝ s1

√n2 + (n2 − 1)s2 − 1√n2 + (n2 − 1)s2 + s2

. (8.19)

Natürlich stellt sich auch hier das Problem, dass aus einer skalaren Größe wieder Strahlungsdichte kein Vektor wie die Flächenneigung abgeleitet werden kann.Die Gestalt-aus-Brechung-Technik kommt einem idealen Messaufbau jedoch sehrnahe. Wenn die Strahlungsdichte, wie angenommen, linear nur in x1-Richtungvariiert, dann ist auch die Strahlungsdichtekarte im Gradientenraum fast linear(Abb. 8.13). Nur bei sehr steilen Neigungen wird ein gewisser Einfluss durch dieNeigung in x2-Richtung sichtbar, der aus den Termen mit s2 in (8.19) resultiert.

Verhältnisbilder können auch bei der Gestalt-aus-Brechung-Technik verwendetwerden. Diese kann man mit einem Farbbild realisieren, da es drei unabhängige


-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

s1

s2

Abbildung 8.13: Strahlungsdichtekarte für die Gestalt-aus-Brechung-Technik.Die Strahlungsdichte einer telezentrischen Lichtquelle variiert linear in x1-Richtung.

Kanäle, Rot, Grün und Blau, beinhaltet (Abschn. 6.2.4). Mit insgesamt drei Kanä-len können wir die Oberflächenneigung eindeutig bestimmen und haben nocheinen Freiheitsgrad für Korrekturen übrig. Farbbilder haben den Vorteil, dassalle drei Kanäle gleichzeitig aufgenommen werden, sodass die Technik auch aufsich bewegende Objekte angewandt werden kann.

Eine eindeutige Farbkodierung von Oberflächenneigungen lässt sich mit denfolgenden Farbkeilbeleuchtungen erreichen, wobei der grüne Keil in x-Richtungund der rote und blaue in die beiden Diagonalrichtungen verlaufen. Dann ist

G(s) = (1/2+ cs1)E0(s)R(s) = [1/2− c/2(s1 + s2)]E0(s)B(s) = [1/2− c/2(s1 − s2)]E0(s).

(8.20)

wobei wir eine Beziehung der Form s1E0(s) wie in (8.19) angenommen habenund c ein Kalibrierfaktor zwischen der Helligkeit und der Oberflächenneigungist.

Nun haben wir drei Beleuchtungen zur Bestimmung von zwei Steigungskom-ponenten zur Verfügung. Also können wir eine verwenden, um unerwünschteVariationen von E0 zu kompensieren. Dies ist möglich, indem wir die drei Farb-kanäle mit der Summe aller Kanäle G + R + B normalisieren:

GG + R + B =

23

(12+ cs1

),

B − RG + R + B =

23cs2. (8.21)

Dann ergibt sich die Position auf dem Farbkeil, von der das Licht herrührt, zu

s1 = 12c

2G − R − BG + R + B , s2 = 3

2cB − R

G + R + B . (8.22)

Aus diesen Positionswerten können die x- und y-Komponenten der Steigungnach (8.19) berechnet werden.

8.6 Tiefe aus mehreren Projektionen: Tomografie 247

a

P( ,r)ϑ1

P( ,r)ϑ2

rr

y

x

g(x)

ϑ1

ϑ2

b

P( ,r)ϑ1

P( ,r)ϑ2

g(x)

ϑ1

ϑ2

r

r

x

y

Abbildung 8.14: a Parallelprojektion und b fächerförmige Projektion bei derTomografie.

8.6 Tiefe aus mehreren Projektionen: Tomografie

8.6.1 Prinzip

Tomografische Methoden erzeugen nicht direkt ein 3D-Bild eines Objektes, son-dern ermöglichen die Rekonstruktion der dreidimensionalen Gestalt mit ent-sprechenden Verfahren. Tomografische Methoden können wir als Erweiterungder Stereoskopie betrachten. Allerdings liefert die Stereoskopie lediglich dieTiefe von Oberflächen, nicht jedoch die 3D-Gestalt transparenter Objekte. Intui-tiv ist klar, dass wir solche Objekte von möglichst vielen Richtungen betrachtenmüssen.

Bei tomografischen Verfahren wird das Objekt schichtweise aus unterschiedli-chen Richtungen durchstrahlt. Verwenden wir eine Punktlichtquelle (z. B. Rönt-genröhre, Abb. 8.14b), sehen wir eine perspektivische oder fächerförmige Pro-jektion (englisch: fan beam projection) auf dem Schirm (Detektor) hinter demObjekt, genauso wie beim optischen Sehen (Abschn. 7.3). Dreht man die Punkt-quelle und den Projektionsschirm um das Objekt, erhält man für jede Projekti-onsrichtung ein Profil senkrecht zur jeweiligen Projektionsachse. Ähnlich kön-nen wir die Parallelprojektion verwenden (Abb. 8.14a), die leichter zu analy-sieren, aber schwerer zu realisieren ist. Absorbiert das Objekt Strahlung, istder Intensitätsverlust, der in der Projektion auf den Bildschirm gemessen wird,proportional zur Pfadlänge der Strahlen im Objekt. Die 3D-Gestalt des Objekteslässt sich nicht aus einer einzigen Projektion rekonstruieren, sondern es mussdurch Drehung der Strahlungsquelle und des Projektionsschirms um das Objektaus allen Richtungen gemessen werden.


rx

y

nϑ

ϑ

Projektions-strahl

Projektions-ebene

R

Abbildung 8.15: Geometrie eines Projektionsstrahl.

Wie andere Methoden kann sich die Tomografie die verschiedenen Interaktionenzwischen Materie und Strahlung zunutze machen. Am weitesten verbreitet istdie Transmissionstomografie, die auf der Absorption von Strahlung, z. B. Rönt-genstrahlen, beruht. Andere Methoden sind die Emissionstomografie, die Re-flexionstomografie, die Laufzeittomografie (insbesondere mit Ultraschall) sowiedie Kernspintomografie (englisch: magnetic resonance, MR).

8.6.2 Radontransformation und Fourierscheibentheorem

In Bezug auf die Rekonstruktion ist wichtig, dass die Projektion unter allenWinkeln ϑ als eine andere 2D-Darstellung des Bildes betrachtet werden kann.Eine Koordinate ist die Position im Projektionsprofil r , die andere der Winkelϑ (Abb. 8.15). Dementsprechend können wir die Parallelprojektion als Trans-formation des Bildes in eine andere 2D-Darstellung betrachten. Rekonstruktionbedeutet dann lediglich die Anwendung einer inversen Transformation. Die ent-scheidende Aufgabe ist daher, die tomografische Transformation mathematischzu beschreiben und zu untersuchen, ob eine inverse Transformation existiert.

Ein Projektionsstrahl wird durch den Projektionswinkel ϑ und den Offset r be-schrieben (Abb. 8.15). ϑ ist der Winkel zwischen der Projektionsebene und derx-Achse. Weiterhin nehmen wir an, dass wir das 3D-Objekt parallel zur xy-Ebene schneiden. Dann ist das Skalarprodukt aus einem Vektor x auf demProjektionsstrahl und einem Einheitsvektor

n = [cosϑ, sinϑ]T (8.23)

senkrecht zum Projektionsstrahl konstant und gleich dem Offset r des Strahls:

xn− r = x cosϑ +y sinϑ − r = 0 (8.24)


Die projizierte Intensität P(r ,ϑ) wird durch die Integration entlang des Projek-tionsstrahls gegeben:

P(r ,ϑ) =∫

Pfad

g(x)ds =∞∫−∞

∞∫−∞g(x)δ(x1 cosϑ + x2 sinϑ − r)d2x. (8.25)

Die δ-Distribution in dieser Gleichung reduziert das Doppelintegral auf einenProjektionsstrahl in Richtung ϑ im Abstand r vom Ursprung des Koordinaten-systems. Diese projektive Transformation einer 2D-Funktion g(x) auf P(r ,ϑ)wird nach dem Mathematiker Radon als Radontransformation bezeichnet.

Um die Eigenschaften der Radontransformation besser zu verstehen, analysie-ren wir sie im Fourierraum. Die Radontransformation können wir als eine spezi-elle lineare verschiebungsinvariante Filteroperation auffassen. Da sie alle Grau-werte entlang dem Projektionsstrahl addiert, ist die Punktantwort des Projekti-onsoperators eine δ-Linie (2D) oder δ-Ebene (3D) in Richtung des Projektionss-trahls. Im Fourierraum entspricht diese Faltungsoperation einer Multiplikationmit der Transferfunktion, einer δ-Linie normal zur δ-Linie im Ortsraum (sieheR5). Auf diese Weise schneidet der Projektionsoperator eine Scheibe in einerRichtung, die senkrecht zum Projektionsstrahl steht, aus dem Spektrum heraus.

Diesen elementaren Zusammenhang können wir ohne Beschränkung der All-gemeingültigkeit am einfachsten berechnen, indem wir das Koordinatensystemso drehen, dass die Projektionsrichtung mit der y ′-Achse zusammenfällt. Dannwird die r -Koordinate in P(r ,ϑ) identisch mit der x′-Koordinate, und ϑ wirdzu null. In diesem besonderen Fall reduziert sich die Radontransformation aufeine Integration in y ′-Richtung:

P(x′,0) =∞∫−∞g(x′, y ′)dy ′. (8.26)

Die Fouriertransformierte der Projektionsfunktion können wir schreiben als

P (kx′ ,0) =∞∫−∞P(x′,0) exp(−2π ikx′x′)dx′. (8.27)

Ersetzen wir P(x′,0) durch die vereinfachte Radontransformation in (8.26), er-halten wir

P (kx′ ,0) =∞∫−∞

⎡⎣ ∞∫−∞g(x′, y ′)dy ′

⎤⎦ exp(−2π ikx′x′)dx′. (8.28)

Wenn wir in dieses Doppelintegral den Faktor exp(−2π i0y ′) = 1 einfügen, se-hen wir, dass es sich um die Fouriertransformierte von g(x′, y ′) für ky′ = 0handelt:

P (kx′ ,0) =∞∫−∞

∞∫−∞g(x′, y ′) exp(−2π ikx′x′) exp(−2π i0y ′)dx′dy ′

= g(kx′ ,0).

(8.29)


Durch Rücktransformation in das ursprüngliche Koordinatensystem erhaltenwir

P (q,ϑ) = g(k)δ(k− (kn)n), (8.30)

wobei q die Wellenzahl in Richtung von ϑ ist und n der in (8.23) eingeführteNormalenvektor. Das Spektrum der Projektion ist identisch mit dem Spektrumdes Ursprungsobjektes auf einem Strahl normal zur Richtung des Projektionss-trahls. Dieses wichtige Ergebnis wird als das Fourierscheiben- oder Projektions-theorem bezeichnet.

8.6.3 Gefilterte Rückprojektion

Wenn Projektionen aus allen Richtungen vorliegen, ist eine vollständige Rekon-struktion möglich, da die resultierenden Scheiben des Spektrums das kompletteSpektrum des Objekts abdecken. Die inverse Fouriertransformation liefert danndas Originalbild.Das Verfahren der gefilterten Rückprojektion geht genau diesen Weg mit einergeringfügigen Modifikation, die aus folgendem Grund notwendig ist: Würdenwir die Spektren der einzelnen Projektionsstrahlen einfach aufaddieren, um daskomplette Objektspektrum zu erhalten, so wäre die spektrale Dichte für kleineWellenzahlen viel zu hoch, da die Strahlen bei kleinem Radius dichter liegen alsbei größerem Radius. Wir müssen also das Spektrum der Projektionsstrahlen,ehe wir es zum Gesamtspektrum aufaddieren, mit einem geeigneten Wichtungs-faktor versehen. Im kontinuierlichen Fall ist die Geometrie sehr einfach. DieDichte der Projektionsstrahlen ist proportional zu |k|−1. Demnach müssen dieSpektren des Projektionsstrahls mit |k| multipliziert werden. Das Verfahrender gefilterten Rückprojektion besteht deshalb aus zwei Schritten. Zuerst müs-sen die einzelnen Projektionen gefiltert werden. Dann wird die Rekonstruktiondurch Addition der rückprojizierten Projektionen vorgenommen.Im ersten Schritt wird also das Spektrum jeder Projektionsrichtung mit einergeeigneten Wichtungsfunktion w(|k|) multipliziert. Diese Operation kann na-türlich auch direkt im Ortsraum durch Faltung mit der inversen Fouriertrans-formierten w(r) geschehen. Wegen dieser Filteroperation wird das Verfahrengefilterte Rückprojektion genannt.Im zweiten Schritt erfolgt die Rückprojektion. Jede Projektionsrichtung ergibteine Scheibe des Spektrums. Durch Summation aller Teile ergibt sich das Ge-samtspektrum. Da die Fouriertransformation eine lineare Operation ist, könnenwir die gefilterten Projektionen im Ortsraum summieren. Jede gefilterte Projek-tion enthält im Ortsraum den Teil des Objekts, der in Richtung des Projekti-onsstrahls konstant ist. Daher können wir den korrespondierenden Grauwertder gefilterten Projektion entlang der Richtung des Projektionsstrahls rückpro-jizieren und ihn zu den Beiträgen der anderen Projektionsstrahlen addieren.Nach dieser illustrativen Beschreibung des Prinzips des gefilterten Rückprojek-tionsalgorithmus leiten wir die Methode für den kontinuierlichen Fall her. Wirbeginnen mit der Fouriertransformation des Objekts und schreiben die inverseFouriertransformation in Polarkoordinaten (q,ϑ), um das Fourierscheibentheo-rem nutzen zu können:

g(x) =2π∫0

∞∫0

qg(q,ϑ) exp[2π iq(x1 cosϑ + x2 sinϑ)]dqdθ. (8.31)


In dieser Formel ist das Spektrum durch den Übergang auf Polarkoordinatenbereits mit der Wellenzahl q multipliziert. Allerdings kann diese Gleichungwegen der Integrationsgrenzen so nicht direkt auf das Fourierscheibentheoremangewendet werden (8.30). Die Koordinate q sollte von −∞ bis ∞ verlaufenund ϑ lediglich von 0 bis π . In (8.31) integrieren wir nur über einen halbenStrahl vom Ursprung bis unendlich. Wir können einen vollen Strahl aus zweiHalbstrahlen mit den Winkeln ϑ und ϑ+π zusammensetzen. Wir spalten alsodas Integral in (8.31) in die Winkelbereiche [0, π[ und [π,2π[ und erhalten

g(x) =π∫0

∞∫0

qg(q,ϑ) exp[2π iq(x1 cosϑ + x2 sinϑ)]dqdϑ

+π∫0

∞∫0

qg(−q,ϑ′) exp[−2π iq(x1 cosϑ′ + x2 sinϑ′)]dqdϑ′.

Dabei haben wir die Identitäten ϑ′ = ϑ + π , g(−q,ϑ) = g(q,ϑ′), cos(ϑ′) =− cos(ϑ) und sin(ϑ′) = − sin(ϑ) benutzt. Nun können wir die zwei Teilintegra-le zusammenfassen, wenn wir wegen des Fourierscheibentheorems (8.30) imzweiten Integral q durch −q und g(q,ϑ) durch P (q,ϑ) ersetzen:

g(x) =π∫0

∞∫−∞|q|P (q,ϑ) exp[2π iq(x1 cosϑ + x2 sinϑ)]dqdϑ. (8.32)

Gleichung (8.32) stellt die inverse Radontransformation dar und ist die Basisfür den gefilterten Rückprojektionsalgorithmus. Das innere Integral über q istdie Rückprojektion einer einzigen Projektion:

P ′ = F−1(|q|FP). (8.33)

Dabei stelltF den 1D-Fouriertransformationsoperator dar. P ′ ist die im Fourier-raum mit |q| multiplizierte Projektionsfunktion P . Wenn wir diese Operationals Faltung im Ortsraum durchführen, können wir sie formal schreiben als

P ′ = [F−1(|q|)]∗ P. (8.34)

Mit dem äußeren Integral in (8.32) über den Winkel ϑ

g(x) =π∫0

P ′(r , ϑ)dϑ, (8.35)

wird das Objekt durch die einzelnen rückprojizierten gefilterten Projektionenaus allen Richtungen aufgebaut. Es ist wichtig zu beachten, dass das gefilterteProjektionsprofil P ′(r , ϑ) in (8.35) als 2-D Funktion aufgefasst werden muss,um das 2D-Objekt g(x) aufzubauen. Das bedeutet, dass das Projektionsprofilin Projektionsrichtung zurückprojiziert werden muss.


a b

c

Abbildung 8.16: Illustration der gefilterten Rückprojektion mit einem Punktob-jekt: a Projektionen aus unterschiedlichen Richtungen; b Filterung der Projektio-nen; c Summation der zurückprojizierten gefilterten Projektionen.

8.6.4 Diskrete gefilterte Rückprojektion

Es gibt einige Details, die bisher noch nicht diskutiert wurden, die jedoch fürernsthafte Probleme bei der Rekonstruktion im kontinuierlichen Fall verant-wortlich sind. Zum Ersten stellen wir fest, dass es unmöglich ist, den Mittelwerteines Objekts zu rekonstruieren, da wegen der Multiplikation mit |k| im Fou-rierraum (8.32) g(0) eliminiert wird. Zum Zweiten ist es unmöglich, ein Objektunendlicher Größe zu rekonstruieren, da die Projektionsstrahlen dann immerunendliche Werte liefern.

Glücklicherweise verschwinden alle diese Probleme, wenn wir vom unendlichenkontinuierlichen Fall auf den endlichen diskreten übergehen. Dann haben dieObjekte nur eine endliche Größe. Praktisch wird die Größe durch die Entfer-nung zwischen der Strahlungsquelle und dem Detektor begrenzt. Die Auflösungdes Projektionsprofils wird durch die kombinierten Effekte der Ausdehnung derStrahlungsquelle und der Auflösung des Detektors in der Projektionsebene be-


schränkt. Schließlich können wir nur eine begrenzte Anzahl von Projektionenverwenden. Dies entspricht einer Abtastung des Winkels ϑ.

Wir illustrieren diese Fragestellungen in diesem Abschnitt mit einem anschauli-chen Beispiel. Wir können das Wesentliche über Projektion und Rekonstruktionlernen, wenn wir die Rekonstruktion des einfachsten Objekts, eines Punktes,betrachten. Das liegt daran, dass die Radontransformation (8.25) und ihre Um-kehrung (8.32) lineare Transformationen sind. Die Projektionen eines Punktessehen aus allen Richtungen gleich aus (Abb. 8.16a) und zeigen einen scharfenPeak in der Projektionsfunktion P(r ,ϑi). Im ersten Schritt des gefilterten Rück-projektionsalgorithmus wird diese Projektionsfunktion P mit dem |k|-Filter ge-faltet. Es resultiert eine modifizierte Projektionsfunktion P ′, die mit der Punk-tantwort (PSF) des Filters |k| identisch ist (Abb. 8.16b).

Im zweiten Schritt werden die Rückprojektionen aus verschiedenen Richtungenim Bild aufaddiert. Aus Abb. 8.16c können wir sehen, dass sich die Spitzen allerProjektionsfunktionen nur an der Position des Punktes im Bild aufaddieren. Anallen anderen Positionen im Bild werden je nach Lage der Projektionsrichtungpositive und negative Werte addiert. Wenn die Projektionsrichtungen genügendnahe beieinander liegen, löschen sie sich mit Ausnahme des Punktes im Bild-zentrum gegenseitig aus. Abbildung 8.16c zeigt auch, dass eine ungenügendeAnzahl von Projektionen zu einem sternförmigen Störmuster führt, das denPunkt umgibt.

Am einfachen Beispiel der Rekonstruktion eines Punktes aus seinen Projektio-nen können wir auch die Bedeutung der Filterung der Projektionen zeigen. Stel-len wir uns vor, was passiert, wenn wir diesen Schritt auslassen. Dann addierenwir als Rückprojektionen δ-Linien, die um die Position des Punktes rotieren.Dementsprechend erhalten wir keinen Punkt, sondern eine rotationssymmetri-sche Funktion, die mit |x|−1 abfällt. Das Ergebnis ist dann eine völlig unbrauch-bare Rekonstruktion mit stark verschmierten Strukturen.

8.7 Übungsaufgaben

8.1: Stereoskopie

Interaktive Demonstration der Rekonstruktion von Tiefenkarten aus Stereo-bildern (dip6ex08.01).

8.2: ∗Menschliches Stereosehen

Schätzen Sie ab, wie gut das menschliche Stereo-Sehsystem Entfernungenschätzen kann. Nehmen Sie an, dass das Auge eine Brennweite von 17 mmund eine Stereobasis von 65 mm hat. Beantworten Sie folgende Fragen:

1. In welcher Entfernung ist die Parallaxe gleich dem Auflösungsvermögendes Auges? Nehmen Sie dazu an, dass das Auge ein beugungsbegrenztesoptisches System (Abschn. 7.6.3) mit einer Blendenöffnung von 3 mm ist.

2. Wie groß ist die Standardabweichung der Tiefenschätzung in einer Ent-fernung von 0.5 m bzw. 5 m unter der Annahme, dass die Parallaxe miteiner Standardabweichung gemessen werden kann, die einem Viertel desAuflösungsvermögens entspricht.


8.3: Tiefe aus Fokussierung

Interaktive Demonstration der Rekonstruktion tiefenscharfer Bilder undvon Tiefenkarten aus Fokusserien (dip6ex08.02).

8.4: Tomografie

Interaktive Demonstration der Radontransformation und der tomografi-schen Rekonstruktion mithilfe der gefilterten Rückprojektion; Demonstra-tion von Artefakten bei der Rekonstruktion (dip6ex08.03).

8.5: ∗∗Artefakte bei der Tomografie

In der Praxis möchte man bei der Tomografie mit möglichst wenigen Pro-jektionen auskommen. Stellen sie sich vor, dass die Winkelintervalle für dieProjektionsrichtungen immer größer werden. Diskutieren Sie anhand desPunktobjekts einer Gaußsche Glockenkurve mit der Standardabweichungσ :

1. Ab wann treten Artefakte auf und wie sehen diese aus?

2. Wo treten diese Artefakte zuerst auf?

3. Was schließen Sie daraus für das Auflösungsvermögen der Tomografie?Ist es homogen?

8.6: ∗∗∗ Tomografie mit wenigen Projektionen

Bei speziellen Klassen von Objekten kann die Tomografie mit wenigen Pro-jektionen durchgeführt werden. Untersuchen bei den folgenden Beispielenund bestimmen Sie, wie viele Projektionen für eine vollständige Rekonstruk-tion notwendig sind:

1. Beliebiges rotationssymmetrisches Objekt.

2. Ein beliebig geformtes Objekt aus einem homogenen Material ohne Lö-cher (nur eine Oberfläche).

3. Wenige kleine Objekte, die sich in keiner Projektion überlagern und vondenen man nur den Schwerpunkt und das Volumen wissen möchte.


Ein ganzer Teil mit sieben Kapiteln des „Handbook of Computer Vision and Ap-plications“ beschäftigt sich mit der 3D-Bildaufnahme [104, Vol. I, Part IV]. Kletteet al. [123] und Jiang und Bunke [112] behandeln dreidimensionales Computer-sehen. Dabei liegt bei Klette et al. [123] der Schwerpunkt eher auf der Gewin-nung von Tiefenbildern mittels Stereoanalyse, Shape from Shading, photome-trischer Stereoanalyse und strukturierter Beleuchtung, während bei Jiang undBunke [112] auch die Weiterverarbeitung der Tiefenbilder einschließlich Erken-nung von 3D-Objekten behandelt wird. 3D-Bildaufnahmetechniken sind auchin der Nahbereichsphotogrammetrie von Bedeutung, siehe Luhmann [142].

9 Digitalisierung, Abtastung,Quantisierung

9.1 Definition und Wirkung der Digitalisierung

Der letzte Schritt der Erzeugung eines digitalen Bildes ist die Digitalisie-rung. Dabei werden die Grauwerte einer diskreten Punktmenge abge-tastet, die durch eine Matrix repräsentiert werden kann. Die Abtastungkann bereits im Sensor geschehen, der die eingefangenen Photonen in einelektrisches Signal umwandelt. Bei einer konventionellen Röhrenkame-ra wird das Bild von einem Elektronenstrahl Zeile für Zeile abgefahren.Eine CCD-Kamera dagegen weist eine Matrix diskreter Sensoren auf. Al-lerdings ist das Standardvideosignal ein analoges Signal. Daher verlierenwir die Information der horizontalen Abtastung wieder, wenn das Signaleiner Sensorenzeile für die Übertragung wieder in ein analoges Signalumgewandelt wird.

Die Digitalisierung eines kontinuierlichen Bildes bedeutet einen enor-men Datenverlust, da wir die kontinuierliche Grauwertinformation aufeine Funktion auf einem Raster von Punkten reduzieren. Es stellt sich al-so die entscheidende Frage, unter welchen Bedingungen wir sicherstellenkönnen, dass die Abtastpunkte das kontinuierliche Bild realitätsgetreu,also ohne Informationsverlust, wiedergeben. Zusätzlich interessiert uns,wie sich ein kontinuierliches Bild aus den Abtastpunkten rekonstruierenlässt. Ausgehend von der Betrachtung von Störungen durch Abtastfeh-ler, werden wir uns der Beantwortung dieser Fragen nähern.

Intuitiv verstehen wir, dass die Abtastung zu einer Reduktion derAuflösung führt, d. h., dass Strukturen von der Größe der Abtastschritt-weite oder kleiner verloren gehen. Die Tatsache, dass beim Abtasteneines Bildes mit feinen Details aber beträchtliche Störungen auftreten,mag zunächst überraschen. Abbildung 9.1 zeigt ein einfaches Beispiel, indem die Digitalisierung durch Überlagern eines Objektes mit zwei linea-ren Gittern mit unterschiedlichen Gitterkonstanten durch ein 2D-Gittersimuliert wird. Nach der Abtastung erscheinen die beiden Gitter mit ver-änderter Periodizität und Richtung. Solche Bildverfälschungen werdenals Moiré-Effekt bezeichnet.

Das gleiche Phänomen ist bei eindimensionalen Signalen als Aliasingbekannt, insbesondere bei Zeitserien. Ein Signal mit sinusoider Oszillati-on ist in Abb. 9.2 zu sehen. Es wird in Schritten, die etwas kürzer als eine


256 9 Digitalisierung, Abtastung, Quantisierung

a b

c

Abbildung 9.1: Der Moiré-Effekt: a Originalbild mit zwei periodischen Mustern(oben k = [0.21,0.22]T , unten k = [0.21,0.24]T ). b Jeder vierte und c jederfünfte Punkt in jeder Richtung abgetastet.

0 2 4 6 8 10 12 14-1

-0.5

0

0.5

1

Abbildung 9.2: Veranschaulichung des Aliasing-Effektes: Ein oszillierendes Si-gnal wird mit einer Schrittweite von ∆x gleich 9/10 der Wellenlänge abgetastet.Das Ergebnis ist ein Signal, dessen Wellenlänge das Zehnfache der Abtastschritt-weite beträgt.

Wellenlänge sind, abgetastet. Das Ergebnis der Abtastung ist ein Signalmit viel größerer Wellenlänge. Diese Probleme treten bei der Digitali-sierung analoger Daten immer auf; sie sind ein generelles Problem derSignalverarbeitung. Die Bildverarbeitung ist in diesem Zusammenhanglediglich ein Spezialfall der Signaltheorie.

Da sich der Aliasing-Effekt bei periodischen Signalen zeigt, liegt derSchlüssel zu seinem Verständnis und zu seiner Vermeidung in einer Ana-lyse des Digitalisierungsprozesses im Fourierraum. Ziel dieser Analyse

9.2 Schritte des Abtastprozesses 257

sind die Bedingungen, unter denen die Abtastpunkte ein kontinuierli-ches Bild korrekt und vollständig wiedergeben. Diese Bedingungen las-sen sich im so genannten Abtasttheorem formulieren. Die folgendenBetrachtungen sind eher eine anschauliche Erläuterung als ein strengmathematischer Beweis des Abtasttheorems.

9.2 Schritte des Abtastprozesses

Wir gehen von einem unendlich ausgedehnten, kontinuierlichen Bildg(x)aus, das wir auf eine Matrix G abbilden wollen. Hierbei berücksichtigenwir, was zur Bilderzeugung in Abschn. 7.6 besprochen wurde. Damitkönnen wir drei Schritte der Digitalisierung unterscheiden: Bilderzeu-gung, Abtastung und Begrenzung auf eine endliche Bildmatrix.

9.2.1 Bilderzeugung

Wir können die Digitalisierung nicht ohne die Bilderzeugung betrachten.Das optische System einschließlich des Sensors beeinflusst das Bildsig-nal, sodass wir die Bilderzeugung einbeziehen müssen.

Digitalisierung bedeutet ein Abtasten des Bildes an definierten Punk-ten eines diskreten Gitters rm,n (Abschn. 2.2.3). Auf einem rechteckigenGitter können wir diese Punkte nach (2.2) schreiben als:

rm,n = [m∆x1, n∆x2]T mit m,n ∈ Z. (9.1)

Im Allgemeinen nehmen wir die Beleuchtungsintensität nicht exakt andiesen Punkten auf, sondern von einer bestimmten Fläche um sie he-rum. Nehmen wir als Beispiel eine ideale CCD-Kamera, die aus einer Ma-trix von Photodioden ohne lichtunempfindliche Zwischenräume besteht.Weiterhin gehen wir davon aus, dass die Photodioden gleichmäßig überdie ganze Fläche empfindlich sind. Dann ist das Signal an den Gitter-punkten das Integral über die Fläche der einzelnen Photodioden:

g(rm,n) =(m+1/2)∆x1∫(m−1/2)∆x1

(n+1/2)∆x2∫(n−1/2)∆x2

g′(x)dx1 dx2. (9.2)

Dies stellt eine Faltung mit einer Rechteckfunktion und eine Abtastungan den Gitterpunkten dar. Die beiden Schritte können getrennt werden.Zunächst können wir die kontinuierliche Faltung durchführen und danndie Abtastung. Auf diese Weise wird der Bilderzeugungsprozess verall-gemeinert und vom Abtastprozess getrennt. Da die Faltung ein assozia-tiver Prozess ist, können wir die Mittelung des CCD-Sensors mit der PSFdes optischen Systems (Abschn. 7.6.1) in einem einzigen Faltungspro-zess kombinieren. Deshalb lässt sich der Bilderzeugungsprozess durch


folgende Operation beschreiben:

g(x) =∞∫−∞g′(x′)h(x − x′)d2x′ • g(k) = g′(k)h(k), (9.3)

wobei h(x) bzw. h(k) die resultierende PSF bzw. OTF ist. g′(x) kannals das Grauwertbild betrachtet werden, das aus einem perfekten Sensorresultieren würde, d. h. einem optischen System (einschließlich Sensor),dessen OTF identisch eins und dessen PSF eine δ-Funktion ist.

Generell wird das Bild durch die Bilderzeugung unschärfer; feine De-tails gehen verloren. Im Fourierraum führt dies zu einer Abschwächunghoher Wellenzahlen, und das resultierende Grauwertbild wird als band-begrenzt bezeichnet.

9.2.2 Abtastung

Als Nächstes betrachten wir die Abtastung. Abtastung bedeutet, dassalle Information außerhalb der Gitterpunkte verloren geht. Mathema-tisch ist dies eine Multiplikation mit einer Funktion, die nur an den Git-terpunkten ungleich null ist. Diese Operation lässt sich durchführen,indem wir die Bildfunktion g(x) mit einer Funktion multiplizieren, wel-che die Summe der an den Gitterpunkten rm,n sitzenden δ-Funktionendarstellt. Diese Funktion wird als zweidimensionaler δ-Kamm oder als„Nagelbrettfunktion“ bezeichnet. Damit können wir den Abtastprozessfolgendermaßen ausdrücken:

gs(x) = g(x)∑m,nδ(x − rm,n) • gs(k) =

∑u,vg(k− ru,v), (9.4)

wobei

ru,v =[uk1

vk2

]mit u,v ∈ Z und kw = 1

∆xw(9.5)

die Punkte des so genannten reziproken Gitters sind, die eine wesentlicheRolle in der Festkörperphysik und der Kristallographie spielen.

Nach dem Faltungstheorem (Theorem 2.4, S. 56) entspricht die Mul-tiplikation des Bildes mit dem 2D-δ-Kamm einer Faltung der Fourier-transformierten des Bildes, dem Bildspektrum, mit einem weiteren 2D-δ-Kamm, dessen Gitterkonstanten zu den Gitterkonstanten im x-Raumreziprok sind (siehe (9.1) und (9.5)). Eine dichte Abtastung im x-Raumführt zu einem weiten Gitter im k-Raum und umgekehrt. Damit führtdie Abtastung zu einer Wiederholung des Bildspektrums an jedem Git-tervektor ru,v im Fourierraum.


9.2.3 Das Abtasttheorem

Nun können wir die Bedingung formulieren, die wir brauchen, um eineVerfälschung des Signals beim Abtasten zu vermeiden. Diese Bedingungwird als Abtasttheorem bezeichnet. Ist das Bildspektrum ausgedehnt, soüberlappen sich teilweise die sich periodisch wiederholenden Kopien.Wir können nicht unterscheiden, ob die spektralen Amplituden aus demOriginalspektrum im Zentrum oder von einer der Kopien stammen. UmVerzerrungen zu vermeiden, müssen wir Überlappungen ausschließen.

Eine sichere Methode, Überlappungen zu verhindern, ist Folgende:Wir müssen das Spektrum auf den Bereich um den zentralen Punkt desreziproken Gitters bis zu den Linien, die den Zentralgitterpunkt von allenanderen Gitterpunkten trennen, beschränken. In der Festkörperphysikwird diese Zone als erste Brillouin-Zone bezeichnet [122]. Auf einemRechteckgitter ergibt sich daraus die einfache Bedingung, dass die ma-ximale Wellenzahl, bei der das Bildspektrum nicht null ist, auf wenigerals die Hälfte der Gitterkonstanten des reziproken Gitters beschränktwerden muss:

Theorem 9.1 (Abtasttheorem) Ist das Spektrum g(k) einer kontinuierli-chen Funktion g(x) bandbegrenzt, d. h.

g(k) = 0 ∀|kw| ≥ kw/2, (9.6)

dann kann es aus mit einer Schrittweite von

∆xw = 1/kw (9.7)

abgetasteten Punkten exakt rekonstruiert werden.

Mit anderen Worten, wir erhalten nur dann eine korrekte periodischeStruktur, wenn wir pro Wellenlänge zumindest zwei Abtastpunkte set-zen. Die maximale Wellenzahl, die ohne Fehler abgetastet werden kann,wird als Nyquist-Wellenzahl oder Grenzwellenzahl bezeichnet. Im Fol-genden werden wir oft dimensionslose Wellenzahlen verwenden, die aufdie Grenzwellenzahl normiert sind. Diese Skalierung wird mit einer Tildegekennzeichnet:

kw = kwkw/2

= 2kw∆xw. (9.8)

Alle Komponenten kw der Wellenzahl fallen in das Intervall ]−1, 1[.Nun können wir die Moiré- und Aliasingeffekte erklären. Wir gehen

von einer periodischen Struktur aus, die dem Abtasttheorem nicht ent-spricht. Das ursprüngliche Spektrum enthält einen einzelnen Peak, dermit dem langen Vektor k in Abb. 9.3 markiert ist. Wegen der periodi-schen Wiederholung des abgetasteten Spektrums gibt es genau einenPeak bei k′, der in der zentralen Zelle liegt. Dieser Peak hat nicht nur


Abbildung 9.3: Erläuterung des Moiré-Effekts mit einer periodischen Struktur,die dem Abtasttheorem nicht entspricht.

eine andere Wellenlänge (siehe Abb. 9.3), sondern im Allgemeinen aucheine andere Richtung, wie in Abb. 9.1 gezeigt.

Die beobachtete Wellenzahl k′ unterscheidet sich von der tatsächli-chen Wellenzahl k durch einen Gitter-Translationsvektor ru,v auf demreziproken Gitter. Die Indices u und v müssen so gewählt werden, dasssie der folgenden Bedingung entsprechen:

|k1 +u k1| < k1/2

|k2 + v k2| < k2/2.(9.9)

Nach dieser Bedingung erhalten wir, wie soeben gezeigt, eine verfälschteWellenzahl

k′1 = k1 −k1 = 9/10 k1 −k1 = −1/10 k1 (9.10)

für das eindimensionale Beispiel in Abb. 9.2.Tatsächlich ist das Abtasttheorem, so wie wir es nun beschrieben

haben, zu strikt. Notwendig und hinreichend ist die Bedingung, dass sichdie periodisch wiederholenden Bildspektren nicht überlappen dürfen.

9.2.4 Begrenzung auf ein endliches Fenster

Bis hierher hat das abgetastete Bild immer noch eine unendliche Größe.In der Praxis können wir jedoch nur mit endlichen Bildmatrizen arbei-ten. Also ist der letzte Schritt die Begrenzung des Bildes auf die Größeeines endlichen Fensters. Im einfachsten Fall multiplizieren wir das ab-getastete Bild mit einer Rechteckfunktion. Allgemeiner können wir jedeFensterfunktion w(x) verwenden, die für genügend große Werte von x


a

-1 -0.5 0 0.5 10

0.2

0.4

0.6

0.8

1

x/ X∆

b

-4 -2 0 2 4

-0.2

0

0.2

0.4

0.6

0.8

1

~k

Abbildung 9.4: a PSF und b Transferfunktion der Standardabtastung.

null ist, und erhalten dann das begrenzte Bild

gl(x) = gs(x) ·w(x) • gl(k) = gs(k)∗ w(k). (9.11)

Das Spektrum des abgetasteten Bildes wird im Fourierraum mit der Fou-riertransformierten der Fensterfunktion gefaltet. Betrachten wir das Bei-spiel einer Rechteck-Fensterfunktion genauer. Besteht das Fenster imx-Raum aus M ×N Abtastpunkten, ist seine Größe M∆x1 ×N∆x2. DieFouriertransformierte der 2D-Rechteckfunktion ist eine 2D-sinc-Funktion(R5). Der Hauptpeak der sinc-Funktion hat eine Halbwertsbreite von1/(M∆x1)× 1/(N∆x2). Ein nadelförmiger Peak im Spektrum des Bildeswird damit zu einer 2D-sinc-Funktion. Im Allgemeinen wird die Auflö-sung im Spektrum größenordnungsmäßig auf die Halbwertsbreite dersinc-Funktion reduziert.

Im Ergebnis führt die Abtastung zu einer Begrenzung der Wellen-zahl, während die Begrenzung der Bildgröße die Wellenzahlauflösungbestimmt. Die Skalen im Orts- und im Wellenzahlraum sind zueinanderreziprok. Die Auflösung im Ortsraum bestimmt die Größe im Wellen-zahlraum und umgekehrt.

9.2.5 Standardabtastung

Der in Abschn. 9.2.1 am Beispiel einer idealen CCD-Kamera diskutierteAbtasttyp wird Standardabtastung genannt. Dabei ist der Mittelwert ei-ner Elementarzelle einem zugehörigen Abtastpunkt zugewiesen. Es han-delt sich um eine Art regelmäßigen Abtastens, da jeder Punkt im konti-nuierlichen Raum gleich gewichtet wird. Wir mögen versucht sein anzu-nehmen, dass die Standardabtastung das Abtasttheorem erfüllt. Leidertrifft das nicht zu (Abb. 9.4). Bei der Nyquist-Wellenzahl beträgt die Fou-riertransformierte der Rechteckfunktion immer noch 1/

√2. Der erste

Nulldurchgang tritt bei der doppelten Nyquist-Wellenzahl auf. Demnachbeobachten wir bei CCD-Kameras Moiré-Effekte. Diese Effekte werden


noch deutlicher, da nur ein kleiner Teil — üblicherweise 20 % der Chip-fläche bei Interline-Transfer-Kameras — lichtempfindlich ist [135].

Eine Glättung über größere Bereiche mit einer Rechteckfunktion hilftnicht viel, da die Fouriertransformierte des Rechteckfensters nur mit k−1

abnimmt (Abb. 9.4). Die ideale Fensterfunktion für die Abtastung istidentisch mit der idealen Interpolationsformel (9.15), die in Abschn. 9.3diskutiert wird, da ihre Fouriertransformierte eine Rechteckfunktion mitder Breite der Elementarzelle des reziproken Gitters ist. Diese Fenster-funktion ist jedoch nicht praktisch anwendbar. Eine detaillierte Diskus-sion der Interpolation folgt in Abschn. 10.5.

9.3 Rekonstruktion aus Abtastpunkten

9.3.1 Perfekte Rekonstruktion

Das Abtasttheorem stellt die Bedingungen, unter denen wir eine kontinu-ierliche Funktion aus Abtastpunkten rekonstruieren können. Wir wissenjedoch immer noch nicht, wie diese Rekonstruktion, also die Umkehrungder Abtastung, funktioniert.

Die Rekonstruktion ist eine Interpolation der Abtastpunkte. Gene-rell werden die Interpolationspunkte gr (x) aus den mit entsprechendenFaktoren (je nach Entfernung vom Interpolationspunkt) gewichteten Ab-tastwerten g(rm,n) berechnet:

gr (x) =∑m,nh(x − rm,n)gs(rm,n). (9.12)

Mit den Integraleigenschaften der δ-Funktion können wir die Abtast-punkte auf der rechten Seite durch die kontinuierlichen Werte ersetzen:

gr (x) =∑m,n

∞∫−∞

h(x − x′)g(x′)δ(rm,n − x′)d2x′

=∞∫−∞

h(x − x′)∑m,nδ(rm,n − x′)g(x′)d2x′.

Das letzte Integral ist eine Faltung der Wichtungsfunktion h mit demProdukt der Bildfunktion g und dem 2D-δ-Kamm. Im Fourierraum wirddie Faltung durch eine komplexe Multiplikation ersetzt:

gr (k) = h(k)∑u,vg(k− ru,v). (9.13)

Die interpolierte Funktion kann nicht gleich dem Originalbild sein, wennsich die periodisch wiederholten Bildspektren überlappen. Dies ist nicht

9.4 Multidimensionale, nichtorthogonale Gitter 263

neu, sondern entspricht exakt der Aussage des Abtasttheorems. Die in-terpolierte Bildfunktion entspricht nur der Originalbildfunktion, wenndie Wichtungsfunktion eine Rechteckfunktion der Breite der Elementar-zelle des reziproken Gitters ist. Dann werden die Abtasteffekte — allereplizierten und verschobenen Spektren — eliminiert. Nur das bandbe-grenzte Originalspektrum bleibt erhalten, und (9.13) wird zu

gr (k) = Π(k1∆x1, k2∆x2)g(k). (9.14)

Dann ist die Interpolationsfunktion die inverse Fouriertransformierteder Rechteckfunktion, eine sinc-Funktion (R5):

h(x) = sinc(x1/∆x1) sinc(x2/∆x2). (9.15)

9.3.2 Überabtastung

Unglücklicherweise geht diese Funktion nur mit 1/x gegen null. Deshalbbrauchen wir für eine korrekte Interpolation eine große Bildfläche; ma-thematisch muss sie unendlich groß sein. Diese Bedingung können wireinschränken, wenn wir das Abtasttheorem „übererfüllen“, d. h. sicher-stellen, dass g(k) bereits null ist, bevor die Nyquist-Wellenzahl erreichtwird. Nach (9.13) können wir dann h(k) beliebig in einem Bereich wäh-len, in dem g verschwindet. Diese Freiheit können wir verwenden, umeine Interpolationsfunktion zu konstruieren, die im Ortsraum schnellerabnimmt, d. h., die eine Interpolationsmaske minimaler Länge hat.

Wir können auch von einer gegebenen Interpolationsformel ausge-hen. Dann sagt uns die Abweichung ihrer Fouriertransformierten vonder Rechteckfunktion, in welchem Ausmaß Strukturen als Funktion derWellenzahl gestört sein werden. Mögliche Interpolationsfunktionen wer-den in Abschn. 10.5 diskutiert.

Das Prinzip der Überabtastung ist nicht nur wesentlich zur Konstruk-tion effektiver Interpolationsfunktionen. Es macht auch die Konstrukti-on von genauen Filtern aller Art mit kleinen Filtermasken möglich (sie-he Kapitel 11 und 12). Generell muss eine Balance gefunden werdenzwischen der Überabtastung, die zu mehr Datenpunkten führt, und denAnforderungen an die Filter. Die praktische Erfahrung zeigt, dass ei-ne Abtastung mit etwa 3 bis 6 Abtastwerten pro Wellenlänge, also eine1,5–3fache Überabtastung, einen guten Kompromiss darstellt.

9.4 Multidimensionale, nichtorthogonale Gitter

Bisher haben wir die Abtastung nur auf rechteckigen 2D-Gittern untersucht. Indiesem Abschnitt erweitern wir unsere Überlegungen auf höhere Dimensionenund nichtorthogonale Gitter. Dazu sind zwei Erweiterungen notwendig. Zuerstmüssen wirW -dimensionale Gittervektoren definieren mit einem Satz von nichtnotwendigerweise orthogonalen Basisvektoren bw , die den W -dimensionalen


Raum aufspannen. Ein Vektor auf dem Gitter kann dann geschrieben werdenals

rn = [n1b1, n2b2, . . . , nWbW]T mit n = [n1, n2, . . . , nW] , nw ∈ Z. (9.16)

In Bildfolgen ist eine der Koordinaten die Zeit. Dann müssen wir beachten,dass für einige Gitter, z. B. das Dreiecksgitter, mehr als ein Punkt pro Zelle be-nötigt wird. Daher müssen wir für ein allgemeines Gitter P Gitterpunkte proElementarzelle zulassen. Jeder dieser Gitterpunkte wird durch einen Offsetvek-tor sp identifiziert. Daraus resultiert eine zusätzliche Summe über alle Punkteder Elementarzelle im Abtastintegral und (9.4) muss zu

gs(x) = g(x)∑p

∑nδ(x − rn − sp) (9.17)

erweitert werden. In dieser Gleichung wurden der Einfachheit halber die Gren-zen der Summen weggelassen.

Das erweiterte Abtasttheorem ergibt sich unmittelbar aus der Fouriertransfor-mierten von (9.17). In dieser Gleichung wird das kontinuierliche Signal g(x)mit einer Summe von Delta-Kämmen multipliziert. Nach dem Faltungstheorem(Theorem 2.4, S. 56) wird daraus eine Faltung der Fouriertransformierten desSignals mit der Summe der Delta-Kämme. Die Fouriertransformierte eines Del-takamms ist wiederum ein Deltakamm (R5). Da die Faltung einer Funktion miteiner Delta-Distribution diese am Nullpunkt der Delta-Distribution repliziert, istdie Fouriertransformierte des abgetasteten Signals eine Summe verschobenerKopien der Fouriertransformierten:

gs(k, ν) =∑p

∑vg(k− rv) exp

(−2π ikTsp

). (9.18)

Die Phasenfaktoren exp(−2π ikTsp) resultieren von der Verschiebung der Punk-te in der Elementarzelle durch die Vektoren sp nach dem Verschiebungstheorem(Theorem 2.3, S. 55). Die Vektoren rv

rv = v1b1 + v2b2 + . . .+ vDbD mit vd ∈ Z (9.19)

sind die Punkte des reziproken Gitters. Die fundamentalen Translationsvekto-ren der Gitter im Orts- und Fourierraum sind über die Beziehung

bTdbd′ = δd−d′ (9.20)

miteinander verknüpft. Diese Gleichung sagt aus, dass ein Translationsvektorim Fourierraum auf allen Vektoren des Ortsraums mit Ausnahme des korres-pondierenden Vektors senkrecht steht. Weiterhin sind die Beträge der korres-pondierenden Vektoren reziprok zueinander, sodass ihr Skalarprodukt eins ist.Im Dreidimensionalen können daher die Basisvektoren des reziproken Gittersmithilfe von

bd = bd+1 × bd+2

bT1 (b2 × b3)(9.21)

berechnet werden. Die Indices in dieser Gleichung sind modulo 3 zu nehmen,und bT1 (b2 × b3) gibt das Volumen der primitiven Elementarzelle im Ortsraum

9.5 Quantisierung 265

an. Alle diese Gleichungen sind Festkörperphysikern und Kristallographen ver-traut [122]. Mathematiker kennen das Gitter im Fourierraum als die duale Basisoder reziproke Basis eines Vektorraums, der von einer nichtorthogonalen Basisaufgespannt wird. Für eine orthogonale Basis zeigen alle Vektoren der dualenBasis in die gleiche Richtung wie die korrespondierenden Vektoren und ihre Be-

träge errechnen sich aus∣∣∣bd∣∣∣ = 1/ |bd|. Die Länge des Basisvektors bd ist ∆xd

und die des korrespondiernden dualen Vektors kd = 1/∆xd. Daher ist eineorthonormale Basis dual zu sich selbst. Die Rekonstruktion des kontinuierli-chen Signals geschieht wiederum durch eine geeignet Interpolation der Wertean den Abtastpunkten. Die interpolierten Werte gr (x) werden berechnet ausden abgetasteten Werte an den Punkten rn+sp mit Wichtungsfaktoren, die vomAbstand zu dem zu interpolierenden Punkt abhängen:

gr (x) =∑p

∑ngs(rn + sp)h(x − rn − sp). (9.22)

Unter Benutzung der Integraleigenschaft der δ-Distribution können wir die ab-getasteten Punkte auf der rechten Seite der Gleichung durch die Werte des kon-tinuierlichen Signals ersetzen und dann die Summation und Integration vertau-schen:

gr (x) =∑p

∑n

∞∫−∞

g(x′)h(x − x′)δ(rn + sp − x′)dWx′

=∞∫−∞

h(x − x′)∑p

∑nδ(rn + sp − x′)g(x′)dWx′.

Das letzte Integral beinhaltet eine Faltung der Wichtungsfunktion h mit einerFunktion, die die Summe von Produkten des kontinuierlichen Signals g mit ver-schobenen δ-Kämmen darstellt. Im Fourierraum wird die Faltung durch eineMultiplikation ersetzt und umgekehrt. Unter Beachtung des Verschiebungs-theorems und der Tatsache, dass die Fouriertransformierte eines δ-Kamms wie-der ein δ-Kamm ist, erhalten wir schließlich

gr (k) = h(k)∑p

∑vg(k− rv) exp

(−i2πkT sp

). (9.23)

Das interpolierte Signal gr kann nur dem Originalsignal g gleich sein, falls sichdessen periodische Wiederholungen nicht überlappen. Das ist gerade die Aus-sage des Abtasttheorems. Die Fouriertransformierte der idealen Interpolations-funktion ist eine Kastenfunktion, die 1 innerhalb der ersten Brillouin Zone istund 0 außerhalb. Damit werden alle Replikationen eliminiert und es bleibt dasbandbegrenzte Originalsignal g unverändert übrig.

9.5 Quantisierung

9.5.1 Äquidistante Quantisierung

Nach der Digitalisierung (Abschn. 9) zeigen die Pixel immer noch kontinuierlicheGrauwerte. Um sie mit einem Computer verarbeiten zu können, müssen wir sie


auf eine begrenzte Zahl Q diskreter Grauwerte abbilden:

[0,∞[ Q−→ g0, g1, . . . , gQ−1 = G.

Diesen Prozess bezeichnen wir als Quantisierung, zu der wir einige Aspekte be-reits in Abschn. 2.2.4 besprochen haben. In diesem Abschnitt diskutieren wiedie Fehler, mit denen die Quantisierung behaftet ist. Die Quantisierung führtimmer zu Fehlern, da der tatsächliche Wert g durch eine der Quantisierungsstu-fen gq ersetzt wird. Haben die Quantisierungsstufen gleichmäßige Abstände∆gund sind alle Grauwerte gleich wahrscheinlich, ergibt sich die Varianz aufgrundder Quantisierung aus

σ 2q =

1∆g

gq+∆g/2∫gq−∆g/2

(g − gq)2dg = 112(∆g)2. (9.24)

Diese Gleichung zeigt, wie wir eine Quantisierungsstufe selektieren. Wir wählendasjenige gq, für das der Abstand |g − gq| vom Grauwert g kleiner ist als beiden benachbarten Stufen qk−1 und qk+1. Die Standardabweichung σq entsprichtetwa 0,3-mal dem Abstand der Quantisierungsstufen ∆g.

Die Quantisierung mit ungleichen Abständen ist in einem Bildverarbeitungssys-tem schwer zu realisieren. Ein einfacherer Weg, ungleiche Quantisierungsstufenzu erhalten, ist, bei einer Quantisierung mit gleichmäßigen Abständen zu blei-ben und das Intensitätssignal vor der Quantisierung mit einem nichtlinearen —z. B. logarithmischen — Verstärker zu transformieren. Im Falle eines logarith-mischen Verstärkers würden wir Stufen erhalten, deren Breite proportional mitdem Grauwert zunimmt.

9.5.2 Genauigkeit quantisierter Grauwerte

In Bezug auf die Quantisierung stellt sich die Frage, mit welcher Genauigkeit wirGrauwerte messen können. Zunächst scheint die Antwort trivial zu sein undsich aus (9.24) zu ergeben: der maximale Fehler beträgt die Hälfte der Differenzzwischen zwei Quantisierungsstufen, und die Standardabweichung ist etwa 1/3einer Quantisierungsstufe.

Was geschieht jedoch, wenn wir den Wert wiederholt messen? Dies kommt vor,wenn wir dasselbe Objekt mehrmals aufnehmen oder wenn wir ein Objekt miteinem konstanten Grauwert haben und den mittleren Grauwert durch Mittelungüber viele Bildpunkte messen wollen. Aus den Gesetzen der statistischen Feh-lerfortpflanzung (Abschn. 3.3.3) wissen wir, dass die Standardabweichung mitder Anzahl der Messungen nach

σmean ≈ 1√Nσ (9.25)

abnimmt, wobei σ die Standardabweichung der Einzelmessungen und N dieZahl der Messungen ist. Diese Gleichung besagt, dass die Standardabweichungbei 100 Messungen etwa 1/10 derjenigen der Einzelmessungen betragen sollte.

Trifft dieses Gesetz in unserem Fall zu? Die Antwort ist ja und nein. Wenn wirmit einem perfekten System messen, bei dem kein Rauschen auftritt, erhalten


wir immer denselben Quantisierungswert. Deshalb kann das Ergebnis nichtexakter als die Einzelmessung sein. Wenn jedoch die Messung von Rauschenüberlagert ist, erhalten wir für jede Messung unterschiedliche Werte. Aus derVerteilung der Messwerte können wir sowohl den Mittelwert als auch die Varianzabschätzen.

Als Beispiel betrachten wir Rauschen mit einer Standardabweichung gleich derDifferenz zwischen zwei Quantisierungsstufen. Dann ist die Standardabwei-chung der Einzelmessung etwa dreimal größer als die aus der Quantisierungherrührende Standardabweichung. Allerdings ist bereits bei 100 Messungen dievom Rauschen verursachte Standardabweichung nur noch 1/10 des ursprüngli-chen Wertes und damit nur noch etwa ein Drittel der Standardabweichung durchQuantisierung. Da wir aus Bildern durch räumliche Mittelung leicht viele Mes-sungen erhalten, bietet sie die Möglichkeit, den Mittelwert mit einer Standard-weichung zu bestimmen, die wesentlich kleiner ist als die der Quantisierung in(9.24).

Allerdings wird die Exaktheit auch noch durch andere, systematische Fehler be-schränkt. Die wichtigste Fehlerquelle ist die Ungleichmäßigkeit der Quantisie-rungsstufen. Bei einer realen Quantisierung durch zum Beispiel einen Analog-Digitalwandler sind die Quantisierungsstufen nicht gleichmäßig, sondern zei-gen systematische Abweichungen, die bis zur Hälfte des nominellen Quantisie-rungsintervalls betragen können. Daher ist eine sorgfältige Untersuchung derAnalog-Digitalwandler erforderlich, damit abgeschätzt werden kann, wodurchdie Exaktheit der Grauwertmessung tatsächlich begrenzt wird.

9.6 Übungsaufgaben

9.1: Abtasttheorem

Interaktive Illustration des Abtasttheorems (dip6ex09.01)

9.2: Standardabtastung

Interaktive Demonstration der Standardabtastung (dip6ex09.02)

9.3: Moiré-Effekt

Interaktive Demonstration des Moiré-Effekts anhand periodischer Signale(dip6ex09.03)

9.4: ∗∗Diskrete Abtastung

Was passiert mit der diskreten Fouriertransformierten eines 1D-Signals g,wenn man nur jeden zweiten Punkt benutzt? Formulieren Sie für diesenFall ein diskretes Abtasttheorem und beweisen Sie es. Vergleichen Sie esmit dem Abtasttheorem für die Abtastung kontinuierlicher Signale!

9.5: Quantisierung, Rauschen und Mittelwertbildung

Interaktive Demonstration systematischer und statistischer Fehler bei derBestimmung des Mittelwerts von quantisierten Signalen bei unterschiedli-chen Rauschpegeln (dip6ex09.04).



Das Abtasttheorem wird ausführlich in Poularikas [174, Abschn. 1.6] dargestellt.Das Abtasten von stochastischen Prozessen, auch mit zufälligen Abständen,wird in Papoulis [168, Abschn. 11.5] diskutiert, während Fliege [59] das Ab-tasttheorem mit Blick auf die Multiraten-Signalverarbeitung bespricht. Im Ab-schnitt 9.5 wurde nur die Quantisierung mit gleichmäßigen Intervallen behan-delt. Für eine Abhandlung über die Quantisierung mit ungleichen Intervallensei auf Rosenfeld und Kak [192] verwiesen.

10 Pixelverarbeitung

10.1 Einführung

Für die ersten Bearbeitungsschritte nach der Aufnahme eines digitalenBildes benötigen wir zwei Klassen von Operationen, Punkt- und geome-trische Operationen. Diese beiden Typen modifizieren im Wesentlichendas „Was“ und das „Wo“ eines Bildpunktes.

Punktoperationen modifizieren die Grauwerte einzelner Bildpunktenur in Abhängigkeit vom Grauwert selbst und eventuell von der Positiondes Bildpunktes. Solch eine Operation wird allgemein geschrieben als

G′mn = Pmn(Gmn). (10.1)

Die Indizes der Funktion P bezeichnen die mögliche Abhängigkeit derPunktoperation von der Position des Bildpunktes.

Im Gegensatz dazu modifizieren geometrische Operationen nur diePosition eines Bildpunktes. Ein Bildpunkt wird von der Position x an ei-ne neue Position x′ verschoben. Die Beziehung zwischen den beiden Ko-ordinaten wird durch die geometrische Abbildungsfunktion bestimmt:

x′ = M(x). (10.2)

Punkt- und geometrische Operationen sind komplementär. Sie sindhilfreich für die Korrektur elementarer Störungen des Bilderzeugungs-prozesses wie nichtlineare und inhomogene radiometrische Empfind-lichkeit des Bildsensors oder geometrische Verzerrungen des optischenSystems. Wir benutzen Punktoperationen also zur Korrektur und Opti-mierung der Beleuchtung, zur Detektion von Unter- und Überlauf, zurKontrastverstärkung und -dehnung, zur Bildmittelung, zur Korrekturinhomogener Beleuchtung oder zur radiometrischen Kalibrierung (Ab-schn. 10.2.3–10.3.3).

Geometrische Operationen enthalten im Wesentlichen zwei Schritte.In den meisten Anwendungen wird die Abbildungsfunktion (10.2) nichtexplizit vorgegeben, sondern muss aus dem Vergleich zwischen demOriginal und seinem Abbild abgeleitet werden (Abschn. 10.4.4). Wirdein Bild durch eine geometrische Transformation verzerrt, liegen dietransformierten Bildpunkte in der Regel nicht mehr auf Gitterpunkten.Deshalb müssen die Grauwerte an diesen Punkten aus benachbarten


270 10 Pixelverarbeitung

Bildpunkten interpoliert werden. Diese wichtige Aufgabe wird in Ab-schn. 10.5 ausführlich diskutiert, da eine korrekte Interpolation nichttrivial ist.

Punkt- und geometrische Operationen sind nicht nur für die elemen-taren Vorverarbeitungsschritte von Bedeutung. Sie sind auch in viel kom-plexere Bildoperationen, insbesondere bei der Merkmalsextraktion, in-tegriert (Kapitel 11–15). Wichtig ist jedoch zu wissen, dass Punkt- undgeometrische Operationen nicht zur Korrektur der Effekte eines opti-schen Systems, die durch seine Punktantwort beschrieben werden, ge-eignet sind. Dazu sind aufwendige Rekonstruktionstechniken erforder-lich, die in Kapitel 17 besprochen werden. Die Anwendung von Punkt-und geometrischen Operationen beschränkt sich auf einfache radiome-trische und geometrische Korrekturen.

10.2 Homogene Punktoperationen

10.2.1 Definitionen und grundlegende Eigenschaften

Eine von der Position des Pixels unabhängige Punktoperation nennen wirhomogene Punktoperation, und wir schreiben

G′mn = P(Gmn). (10.3)

Eine Punktoperation bildet Grauwerte auf sich selbst ab. Da auch zweioder mehr verschiedene Grauwerte auf einen einzigen Grauwert abge-bildet werden können, sind Punktoperationen im Allgemeinen nicht um-kehrbar, und es geht unwiederbringlich ein Teil des Bildinhalts verloren.Die Punktoperation

P(q) =

0 q < tQ− 1 q ≥ t (10.4)

führt zum Beispiel eine einfache globale Schwellwertoperation durch.Alle Grauwerte unterhalb der Schwelle t werden auf 0 (schwarz) gesetzt,diejenigen oberhalb und auf der Schwelle auf den höchsten Wert Q − 1(weiß). Es ist einleuchtend, dass diese Punktoperation nicht umkehrbarist. Ein Beispiel für eine umkehrbare Punktoperation ist die Negativbil-dung. Dabei wird ein Bild mit einer invertierten Grauwertskala berechnetnach

PN(q) = Q− 1− q, (10.5)

und man erhält ein Negativ wie in der Fotografie. Die Umkehrung dieserOperation ist wiederum eine Negativbildung:

PN(PN(q)

) = Q− 1− (Q− 1− q) = q. (10.6)

Die Konversion zwischen der vorzeichenbehafteten und der nicht vor-zeichenbehafteten Darstellung von Grauwerten (Abschn. 2.2.5) ist einweiteres Beispiel für eine umkehrbare Punktoperation.

10.2 Homogene Punktoperationen 271

10.2.2 Lookup-Tabellen

Die direkte Berechnung homogener Punktoperationen nach (10.3) kannsehr aufwendig sein. Dies sei an folgendem Beispiel gezeigt. Die 14-Bit-Grauwerte des 1024× 1024-Bildes einer hochauflösenden CCD-Kamerasollen in eine logarithmische 8-Bit-Grauwertskala, die 4,3 Dekaden von0 bis 16 383 überspannt, konvertiert werden. Diese Konvertierung wirddurch die Punktoperation

P(q) = 59,30 lgq (10.7)

erreicht. Eine direkte Implementierung würde folgende Operationen proPixel erfordern: Eine Datentypkonversion von Integer in Fließkomma-zahlen, die Berechnung des Logarithmus, eine Multiplikation mit 59,30und eine erneute Datentypkonversion von Fließkommazahlen in 8-Bit-Integer. All diese Operationen müssen für ein 1024× 1024-Bild mehrals eine Million mal durchgeführt werden.

Der Schlüssel für eine effizientere Implementierung dieser Operationliegt in der Beobachtung, dass der Definitionsbereich jeder Punktopera-tion nur aus einer begrenzten Zahl vonQ Quantisierungsstufen besteht.Bei einer logarithmischen Konversion von 14 Bit in 8 Bit gibt es höchstens16 384 unterschiedliche Eingabewerte. Das bedeutet, dass die meistender eine Million Berechnungen lediglich Wiederholungen sind, im Mittel64mal. Solche unnötigen Wiederholungen können vermieden werden,wenn wir zunächst P(q) für alle 16 384 möglichen Grauwerte berech-nen und die Ergebnisse in einer Tabelle mit 16 384 Elementen speichern.Dann reduziert sich die Berechnung der Punktoperation auf eine Erset-zung der Grauwerte durch das entsprechende Tabellenelement, das überden jeweiligen Grauwert indiziert wird.

Solch eine Tabelle wird Lookup-Tabelle oder LUT genannt. Damitsind homogene Punktoperationen Lookup-Tabellenoperationen äquiva-lent. Lookup-Tabellen sind um so effizienter, je weniger Quantisierungs-stufen sie aufweisen. Bei 8-Bit-Standardbildern enthalten die Tabellen le-diglich 256 Werte. Effizient sind jedoch in den meisten Fällen auch nochLookup-Tabellen mit 65 536 Einträgen, wie sie für 16-Bit-Bilder benötigtwerden.

Bei den meisten Bildverarbeitungssystemen und Framegrabbern sindLookup-Tabellen in die Hardware integriert. Wie Abb. 10.1 zeigt, gibtes zwei Möglichkeiten für die Plazierung von Lookup-Tabellen. Die Ein-gangs-LUT befindet sich zwischen dem Analog-Digital-Wandler und demBildspeicher und die Ausgangs-LUT zwischen dem Bildspeicher und demDigital-Analog-Wandler, der das Signal für die Bildausgabe, z. B. auf ei-nem Monitor, in ein analoges Videosignal konvertiert. Die Eingangs-LUTermöglicht die Durchführung von Punktoperationen, bevor das Bild imBildspeicher gespeichert wird. Mit der Ausgangs-LUT können Punktope-rationen vor der Bildausgabe durchgeführt und auf dem Monitor beob-


12

VideoInputs Video

MuxDC

Restoreprog.

Offset/GainA/D

Converter

SyncStripper

CrystalOscillator

PLL TimerOptionalSyncInputs

OptionalSyncOutputs

Monitor

DACs LUTs

Red

Green(Sync)

Blue

R

G

B

R

G

B

HostDataBus

ControlRegisters

InternalTimingSignals

InputLUTs

FrameMemory

1Kx512Bytes

PixelBuffer8Bytes

Abbildung 10.1: Blockdiagramm des Framegrabbers PCVISIONplus der Fir-ma Imaging Technology, Inc. Lookup-Tabellen liegen zwischen A/D-Wandlerund Bildspeicher (Eingangs-LUT) sowie zwischen Bildspeicher und Bildschirm(Ausgangs-LUT).

achtet werden. Auf diese Weise sind interaktive Punktoperationen ohneVeränderung des gespeicherten Bildes möglich. Viele moderne Frame-grabber enthalten keinen Bildspeicher mehr. Schnelle periphere Bussys-teme wie der PCI-Bus mit einer Spitzendatentransferrate von 132 MB/serlauben die direkte Übertragung digitalisierter Bilder in den Hauptspei-cher (Abb. 10.2). Bei diesen Framegrabbern erfolgt die Bilddarstellungüber die Grafikkarte des Rechners. Dementsprechend enthält der Fra-megrabber lediglich eine Eingangs-LUT.

Die Verwendung von Eingangs-Lookup-Tabellen ist begrenzt, da nicht-lineare LUT-Funktionen zu fehlenden Grauwerten führen oder aufeinan-derfolgende Grauwerte auf einen einzigen Grauwert abbilden (Abb. 10.3).Auf diese Weise entstehen Artefakte, die zu weiteren Fehlern bei dennachfolgenden Verarbeitungsschritten wie der Berechnung von Mittel-werten und der Kantendetektion führen. Dies betrifft insbesondere dieSteilheit von Kanten und die Genauigkeit der Bestimmung von Grauwert-änderungen. Eine Eingangs-LUT ist aber bei nichtlinearen Punktopera-tionen dann nützlich, wenn die 8-Bit-Eingangswerte auf höherauflösen-de Ausgangswerte abgebildet werden, z. B. 16-Bit-Integerzahlen oder 32-Bit-Gleitkommazahlen, oder wenn das Kamerasignal mit einer höherenAuflösung digitalisiert wird, z. B. mit 12 Bit, und dann nur 8-Bit-Werteausgegeben werden. Damit lassen sich die Rundungsfehler verringern.


LUT

256x8

Offset/Gain Control

PCI

ControllerPCI

VIDIN(0:3)CAM_CTRL_0 .. 4

CAM_CTRL_0

Ext. Clock

Ext. Trigger

HSYNC

CVSYNC

8

5

OptoDecoupler

ClockGenerator

MUX

SyncGenerator

MUX

ADC

32

Abbildung 10.2: Blockdiagramm des Framegrabbers PCEYE_1 der Firma ELTECElektronik GmbH als Beispiel eines modernen PCI-Bus-Framegrabbers ohne Bild-speicher. Die Bilddaten werden in Echtzeit über direkten Speicherzugriff (directmemory access, DMA) in den PC-Hauptspeicher zur Darstellung und weiterenVerarbeitung übertragen.

Gleichzeitig können damit die Grauwerte in ein kalibriertes Signal um-gewandelt werden, z. B. bei einer Infrarotkamera in eine Temperatur.Leider sind solche verallgemeinerten LUTs bisher kaum hardwaremäßigrealisiert. Softwaremäßig lassen sie sich jedoch einfach verwirklichen.

Im Gegensatz zur Eingangs-LUT wird die Ausgangs-LUT viel häufi-ger als Werkzeug verwendet, da sie das gespeicherte Bild nicht verän-dert. LUT-Operationen können auch Grauwertbilder in Pseudofarbbil-der konvertieren, eine Technik, die selbst bei den einfachsten Digitali-sierkarten verbreitet ist (Abb. 10.1). Sie erfordert nicht viel zusätzlicheHardware. Für die Primärfarben Rot, Grün und Blau wird je ein Digital-Analog-Wandler verwendet. Außerdem erhält jeder Kanal seine eigeneLUT mit 256 Einträgen für eine 8-Bit-Darstellung. So kann jeder indi-viduelle Grauwert q auf eine beliebige Farbe abgebildet werden, indemden LUT-Adressen r(q), g(q) und b(q) die entsprechenden Farbwertezugewiesen werden. Formal ist dies eine Punkt-Vektor-Operation.

P(q) = [r(q), g(q), b(q)

]T . (10.8)

Sind alle drei Punktfunktionen r(q), g(q) und b(q) identisch, wird einGrauton dargestellt. Sind zwei der Punktfunktionen null, hat das Bilddie Farbe der verbleibenden Punktfunktion.


unregelmäßiger Schritt,fehlender Ausgabewert

mehrere Werteauf einen abgebildet

P(q)

q

Abbildung 10.3: Veranschaulichung einer nichtlinearen Lookup-Tabelle. Meh-rere Werte werden auf einen abgebildet, und fehlende Ausgangswerte führen zuunregelmäßigen Schritten.

10.2.3 Interaktive Grauwertauswertung

Über Lookup-Tabellen implementierte homogene Punktoperatoren sindsehr nützliche Werkzeuge zur Bildinspektion. Da Lookup-Tabellen-Ope-rationen in Echtzeit durchgeführt werden können, ist eine interaktiveBildveränderung möglich. Wird dabei nur die Ausgangs-LUT verändert,bleibt der ursprüngliche Bildgehalt unverändert. Wir zeigen im Folgen-den einige typische Aufgaben.

Kontrolle und Optimierung homogener Beleuchtung. Mit dem blo-ßen Auge können wir die Homogenität einer beleuchteten Fläche wiedie in Abb. 10.4a kaum abschätzen. Ein Histogramm (Abb. 10.4b) zeigtzwar die Häufigkeit der einzelnen Grauwerte, nicht jedoch deren räum-liche Verteilung. Es hilft also nicht viel bei der interaktiven Optimierungder Beleuchtung. Wir müssen die Darstellung der Grauwerte derart mo-difizieren, dass absolute Grauwerte für das menschliche Auge sichtbarwerden. Bei einer kontinuierlichen Helligkeitsverteilung sind Äquidensi-ten hilfreich. Diese Technik benutzt eine stufenförmige Lookup-Tabelle,bei der bestimmte Bereiche von Grauwerten auf einen Grauwert abgebil-det werden. Am einfachsten werden dazu die untersten Bits mit einerlogischen Und-Operation zu null gesetzt:

q′ = P(q) = q ∧ (2p − 1), (10.9)

wobei ∧ für die logische (bitweise) Und-Operation und der Überstrichfür die Invertierung steht. Diese Punktoperation begrenzt die Auflösungauf Q − p Bit und damit auf 2Q−p Quantisierungsstufen. Nun sind dieSprünge zwischen den übriggebliebenen Grauwertstufen groß genug, um


ab

160 170 180 190 200 210 2200

500

1000

1500

2000

c d

Abbildung 10.4: a Eine allmählich von oben nach unten abnehmende Helligkeit,die vom Auge kaum wahrgenommen wird. Grauwerte von 160–220, Faktor vierkontrastverstärkt. Über 100 Bilder gemitteltes Gleitkommabild. b Histogrammvon a; c und d (kontrastverstärkt, Grauwertbereich 184–200): Künstlich durchStufen-LUTs erzeugte Kanten mit einer Stufenhöhe von 1,0 und 2,0 machen Kon-turlinien konstanter Bestrahlung sichtbar.

vom Auge wahrgenommen zu werden. Wir sehen im Bild Konturliniengleicher absoluter Grauwerte (Abb. 10.4). Wir können versuchen, dieBeleuchtung homogener zu machen, indem wir die Abstände zwischenden Konturlinien soweit wie möglich vergrößern.

Ein anderer Weg, absolute Grauwerte zu markieren, ist die bereits inAbschn. 10.2.2 erwähnte Pseudofarbdarstellung. Mit dieser Technik wirdein Grauwertbereich q zur Darstellung auf ein RGB-Wertetripel abgebil-det. Da Farbunterschiede vom Auge viel besser erkannt werden, hilftdieses Verfahren, absolute Grauwertbereiche zu markieren.

Nachweis von Unter- und Überlauf. Unter- und Überlauf der Grauwer-te treten in der Verstärkung digitalisierter Bilder auf durch Fehleinstel-lungen des Nullpunkts und des Videoeingangsteils von Framegrabbern.Sie werden oft nicht bemerkt und bewirken bei der weiteren Verarbeitungschwerwiegende Fehler, z. B. bezüglich des mittleren Grauwerts oder des


ab

50 100 150 200 2500

500

1000

1500

0

cd

0 50 100 150 200 2500

1000

2000

3000

4000

5000

6000

Abbildung 10.5: Nachweis von Unter- und Überlauf bei digitalisierten Bildernmittels Histogrammen: a Bild mit Grauwertunterlauf und b sein Histogramm.c Bild mit Grauwertüberlauf und d das zugehörige Histogramm.

Schwerpunktes von Objekten. In den meisten Fällen können betroffeneBereiche nicht unmittelbar detektiert werden. Sie werden beispielswei-se dann deutlich, wenn bei gemusterten Flächen das Muster ausläuft.Über- und Unterlauf werden aber in Histogrammen durch ausgeprägtePeaks im Bereich der minimalen und/oder maximalen Grauwerte erkenn-bar (Abb. 10.5). Bei Pseudofarbabbildungen können die niedrigsten undhöchsten Grauwerte z. B. blau und rot dargestellt werden. Dann erkenntman sofort Grauwerte, die „gefährlich“ nahe an den Grenzen liegen, undsie können vermieden werden, indem man die Blendeneinstellung derOptik ändert, die Beleuchtung entsprechend einstellt oder die Verstär-kung im analogen Videoeingangsteil des Framegrabbers korrigiert.

Kontrastverstärkung. Aufgrund schlechter Beleuchtungsbedingungenliegen oft unterbelichtete Bilder vor. Sie sind zu dunkel und haben einenniedrigen Kontrast (Abb. 10.6a). Das Histogramm (Abb. 10.6b) zeigt,dass das Bild nur einen kleinen Grauwertbereich bei den unteren Grau-werten aufweist.


a

b

0 50 100 150 200 2500

5000

10000

15000

20000

25000

30000

c

d

0 50 100 150 200 2500

5000

10000

15000

20000

25000

30000

50 100 150 200 250

Abbildung 10.6: Kontrastverstärkung: a unterbelichtetes Bild und b das zuge-hörige Histogramm; c kontrastverstärktes Bild und d sein Histogramm.

Das Aussehen des Bildes verbessert sich beträchtlich über eine Punk-toperation, die den kleinen Grauwertbereich auf den vollen Kontrastbe-reich abbildet (z. B. mit der Operation: q′ = 4q für q < 64 und q′ = 255für q ≥ 64) (Abb. 10.6c). Allerdings verbessern wir damit nur unse-ren visuellen Eindruck von dem Bild, nicht jedoch die Bildqualität selbst.Das Histogramm in Abb. 10.6d zeigt, dass die Grauwertauflösung immernoch die gleiche ist.

Der beste Weg zur Verbesserung der Bildqualität ist eine Optimie-rung der Objektbeleuchtung mit einer stärkeren Lichtquelle oder übereinen günstigeren Beleuchtungsaufbau. Ist dies nicht möglich, könnenwir immer noch die analoge Videoverstärkung erhöhen. Alle modernenBildverarbeitungskarten enthalten einen Verstärker, dessen Verstärkungund Offset über Software gesteuert werden können (siehe Abb. 10.1 und10.2). Durch Erhöhung der Verstärkung werden Helligkeit und Auflö-sung des Bildes verbessert, allerdings auf Kosten eines erhöhten Rausch-pegels (Abschn. 3.4.5).


a b

c d

Abbildung 10.7: b - d Kontrastspreizung des Bildes in a. Der gespreizte Bereichkann aus der Transformation des Grauwertkeils am unteren Bildrand abgelesenwerden.

Kontrastspreizung. Häufig müssen geringfügige Beleuchtungsstärke-unterschiede analysiert werden, die das Auflösungsvermögen des ver-wendeten Bildausgabegerätes oder des menschlichen visuellen Systemsunterschreiten. Dies betrifft besonders das Drucken von Bildern. Umfeine Unterschiede erkennen zu können, dehnen wir den betreffendenGrauwertbereich. Dann werden natürlich alle Grauwerte außerhalb die-ses Bereiches auf den minimalen oder maximalen Grauwert gesetzt. Da-her müssen die Grauwerte des zu analysierenden Objektes in den fürdie Kontrastspreizung ausgewählten Bereich fallen. Beispiele für Kon-trastspreizung zeigt Abb. 10.7. Der von 0 bis 255 reichende Keil amunteren Bildrand zeigt direkt, welcher Teil der Grauwertskala kontrast-verstärkt wurde.

Kompression des Grauwertbereiches. Im Vergleich zum menschli-chen visuellen System hat ein digitales Bild einen beträchtlich kleinerendynamischen Bereich. Für eine minimale Auflösung von 10 % dürfen dieGrauwerte nicht kleiner als 10 sein. Daher ist bei einem 8-Bit-Bild der Dy-


namikbereich mit dieser minimalen Auflösung nur 255/10 ≈ 25. Durchden niedrigen Kontrastbereich haben digitale Bilder eine schlechte Quali-tät, wenn Szenen mit hohem Kontrast aufgenommen wurden. Entwedersind die hellen Teile ausgebleicht oder dunkle Bereiche so dunkel, dasskeine Details erkannt werden können.

Der dynamische Bereich kann über eine Transformation, welche inAbschn. 2.2.6 als Gammatransformation eingeführt wurde, erhöht wer-den. Diese nichtlineare homogene Punktoperation hat die Form

q′ = 255255γ

qγ. (10.10)

Die Faktoren in (10.10) wurden so gewählt, dass der Bereich [0,255] aufsich selbst abgebildet wird. Diese Transformation ermöglicht die Erken-nung eines größeren dynamischen Bereiches auf Kosten der Auflösungin den hellen Bildbereichen. Die dunklen Bereiche werden heller, sodassmehr Details zu erkennen sind. Diese Kontrasttransformation ähneltmehr dem logarithmischen Helligkeitsempfinden des menschlichen vi-suellen Systems. Ein Bild, das mit unterschiedlichen Gammafaktorendargestellt ist, zeigt Abb. 10.8.

Äquivalisierung der Varianz des Rauschens. Aus Abschn. 3.4.5 wis-sen wir, dass die Varianz des Rauschens im Allgemeinen von der Bildin-tensität nach

σ 2g(g) = σ 2

0 +Kg (10.11)

abhängt. Eine statistische Analyse der Bilddaten und -operationen stetztjedoch voraus, dass das Rauschen grauwertunabhängig ist. Nur dannsind die in Abschn. 3.3.3 besprochenen Fehlerfortpflanzungstechnikengültig.

Durch eine nichtlineare Grauwerttransformation h(g) kann die Vari-anz des Rauschens grauwertunabhängig gemacht werden [61]. In einerNäherung erster Ordnung ergibt sich nach (3.36) die Varianz von h(g)zu

σ 2h ≈

(dhdg

)2

σ 2g(g). (10.12)

Setzen wir σ 2h konstant, so erhalten wir

dh = σh√σ 2(g)

dg.

Die Integration der Gleichung ergibt

h(g) = σhg∫0

dg′√σ 2(g′)

+ C. (10.13)


a b

c d

Abbildung 10.8: Darstellung eines Bildes mit unterschiedlichen Gammawerten:a 0,5, b 0,7, c 1,0 und d 2,0.

Mit dem linearen Varianzmodell aus (10.11) ergibt die Integration von(10.13)

h(g) = 2σhK

√σ 2

0 +Kg + C. (10.14)

Die beiden zwei freien Parameter σh und C nutzen wir, um die Wertevon h auf das Intervall [0, γgmax] abzubilden. Daraus ergeben sich dieBedingungen h(0) = 0 und h(gmax) = gmax und wir erhalten

h(g) = γgmax

√σ 2

0 +Kg − σ0√σ 2

0 +Kgmax − σ0

, σh = γKgmax/2√σ 2

0 +Kgmax − σ0

. (10.15)

Die nichtlineare Grauwerttransformation wird besonders einfach füreinen idealen Bildsensor mit σ0 = 0. Dann muss die Quadratwurzel ausdem Grauwert berechnet werden, um eine grauwertunabhängige Rausch-varianz zu erhalten:

h(g) = γ√ggmax and σh = γ

2

√Kgmax . (10.16)

10.3 Inhomogene Punktoperationen 281

a b

Abbildung 10.9: Reduktion von Rauschen durch Bildmittelung: a Wärmebildkleiner Temperaturunterschiede, die auf der Wasseroberfläche entstehen, wennsich Wasser durch Verdunstung abkühlt; b das gleiche Bild, gemittelt über 16Bilder; der volle Grauwertbereich entspricht einem Temperaturbereich von 1,1 K.

10.3 Inhomogene Punktoperationen

Homogene Punktoperationen stellen mit ihrer Unabhängigkeit von derPixelposition nur eine Unterklasse der Punktoperationen dar. Im All-gemeinen hängt eine Punktoperation auch von der Position des Pixelsim Bild ab, und wir sprechen von einer inhomogenen Punktoperation.Beispiele für solche Funktionen sind Kalibrierungen, die meistens Punk-toperationen sind.

Im Allgemeinen ist die Berechnung einer inhomogenen Punktoperati-on sehr viel zeitaufwendiger als die einer homogenen. Lookup-Tabellenkönnen wegen der Abhängigkeit von der Pixelposition nicht verwendetwerden. Wir sind gezwungen, die Funktion für jedes Pixel zu berechnen.

Die Subtraktion eines Hintergrundbildes ohne Objekte oder Beleuch-tung ist ein einfaches Beispiel einer inhomogenen Punktoperation, diefolgendermaßen geschrieben wird:

g′mn = Pmn(gmn) = gmn − bmn, (10.17)

wobei bmn ein Pixel des Hintergrundbildes ist.

10.3.1 Bildmittelung

Eine der einfachsten inhomogenen Punktoperationen ist die Bildmitte-lung. Bei einer Reihe von Bildaufnahmetechniken ergeben sich hoheRauschpegel. Bekannte Beispiele sind Wärmebilder (Abschn. 6.4.1) undalle Applikationen, bei denen nur eine geringe Anzahl von Photonen de-tektiert wird (siehe Abb. 3.2 und Abschn. 3.4.5).

Abbildung 10.9a zeigt die durch Verdunstung erzeugten Temperatur-unterschiede der Wasseroberfläche in einem Wind/Wellen-Kanal bei ei-


ner Windgeschwindigkeit von 1,8 m/s. Durch den beträchtlichen Rausch-pegel können die kleinen Temperaturunterschiede kaum detektiert wer-den. Wird das Mittel über mehrere Bilder berechnet, reduziert sich derRauschpegel wesentlich (Abb. 10.9b). Der Fehler des Mittelwerts (Ab-schn. 3.3.3) aus K Bildaufnahmen ist

σ 2G ≈

1(K − 1)

σ 2G =

1K(K − 1)

K−1∑k=0

(Gk −G)2. (10.18)

Wenn wir den Durchschnitt aus K Bildern berechnen, reduziert sich derRauschpegel auf 1/

√K im Vergleich zu einem Einzelbild. Nehmen wir

das Mittel über 16 Bilder, reduziert sich also der Rauschpegel auf 1/4.Gleichung (10.18) gilt nur, wenn die Standardabweichung σg deutlichhöher ist als die Standardabweichung durch die Quantisierung (sieheAbschn. 9.5).

10.3.2 Korrektur inhomogener Beleuchtung

Jede Anwendung ist von ungleichmäßiger Beleuchtung der beobachtetenSzene betroffen. Auch wenn wir einen hohen Aufwand treiben, um denBeleuchtungsaufbau zu optimieren, ist es schwer, eine perfekt gleichmä-ßige Objektbeleuchtung zu erzielen. Ein lästiges Problem sind zudemkleine Staubpartikel im optischen Pfad, insbesondere auf dem Glasfens-ter vor dem CCD-Sensor. Da das Fenster vom Sensor eine gewisse Di-stanz hat, werden diese Partikel, wenn sie nicht zu groß sind, so unscharfauf die Sensorebene projiziert, dass sie nicht direkt sichtbar sind. Sie ab-sorbieren aber Licht und reduzieren dadurch die Beleuchtung in einemkleinen Bereich. Diese Effekte sind bei einer Szene mit hohem Kontrastund vielen Details nicht leicht zu sehen. Allerdings werden sie bei einemgleichmäßigen Hintergrund deutlich sichtbar (Abb. 10.4a und b). Eini-ge Bildsensoren, insbesondere billige CMOS-Sensoren, zeigen außerdemeine beträchtliche ungleichmäßige Sensitivität der individuellen Photo-rezeptoren, die auch zur Ungleichmäßigkeit des Bildes beiträgt. Die ge-nannten Störungen können die Bildqualität erheblich beeinträchten. Sieerschweren die Separierung eines Objektes vom Hintergrund und führenzu systematischen Fehlern in der nachfolgenden Bildauswertung.

Trotzdem ist es möglich, diese Störeffekte zu korrigieren, wenn wirdie Natur der Störung kennen und in der Lage sind, geeignete Referenz-bilder aufzunehmen. Im Folgenden betrachten wir zwei einfache Bei-spiele. Im ersten gehen wir davon aus, dass sich der Grauwert im Bildals Produkt der inhomogenen Beleuchtungsstärke und der Objektreflek-tivität bzw. -transmissivität ergibt. Wir nehmen ferner an, dass wir einReferenzbild ohne absorbierendes Objekt oder mit einem Objekt kon-stanter Reflektivität aufnehmen können. Ein solches Referenzbild lässtsich auch dann gewinnen, wenn kleine Objekte in den Bildern zufällig


a

b

0 50 100 150 200 2500

2000

4000

6000

8000

10000

12000

c

d

0 50 100 150 200 2500

2000

4000

6000

8000

10000

12000

e

f

0 50 100 150 200 2500

2000

4000

6000

8000

10000

12000

Abbildung 10.10: Korrektur ungleichmäßiger Beleuchtung über eine inhomo-gene Punktoperation: a Originalbild und b sein Histogramm; c Hintergrundbildund d das zugehörige Histogramm; e durch das Hintergrundbild dividiertes Bildund f das Histogramm dieses Ergebnisbildes.

verteilt sind, indem man ein Mittelwertbild aus vielen Bildern berechnet.Die ungleichmäßige Beleuchtung kann nun mit einer Division durch dasReferenzbild korrigiert werden:

G′ = c ·G/R. (10.19)


a b

Abbildung 10.11: Kontrastverstärktes a Dunkelbild und b Referenzbild einerCCD-Kamera mit analogem Ausgangssignal für eine radiometrische Zwei-Punkt-Kalibrierung.

Die Multiplikation mit der Konstante c ist nötig, um das normalisierteBild wieder in Integerzahlen darzustellen. Wenn die Objekte Licht absor-bieren, wird c normalerweise nahe der maximalen Integerzahl gewählt.Abbildung 10.10e zeigt, dass mit dieser einfachen Methode eine effektiveUnterdrückung einer ungleichmäßigen Beleuchtung möglich ist.

10.3.3 Radiometrische Zwei-Punkt-Kalibrierung

Diese einfache Verhältnisbildung kann nicht mehr angewendet werden,wenn das Bild auch ohne Beleuchtung nicht null ist, sondern ein Rest-muster (fixed-pattern noise) aufweist, wie es durch einen von Pixel zuPixel verschiedenen Nullstrom bedingt sein kann. In einem solchen Fallsind zwei Referenzbilder notwendig. Diese Technik wird auch für eineeinfache radiometrische Zwei-Punkt-Kalibrierung bei einem Bildsensormit linearer Kennlinie angewendet. Einige Bildverarbeitungsanwendun-gen benötigen eine absolute oder relative radiometrische Kalibrierung.Mit einer solchen Kalibrierung kann die Strahlungsdichte eines Objektsaus dem gemessenen Grauwert berechnet werden.

Zuerst nehmen wir ein Dunkelbild B ohne Beleuchtung auf. Dannnehmen wir ein Referenzbild R mit einem Objekt auf, das eine konstan-te Strahlungsstärke aufweist, z. B. eine Ulbrichtkugel . Mit Hilfe dieserbeiden Bilder können wir dann durch folgende Operation ein radiome-trisch kalibriertes Bild erhalten:

G′ = cG− BR− B . (10.20)

Abb. 10.11 zeigt ein kontrastverstärktes Dunkel- und Referenzbildeiner CCD-Kamera mit analogem Ausgang. Es sind typische Signalstö-rungen zu sehen. Die Signaloszillation am linken Rand des Dunkel-


a b

Abbildung 10.12: Radiometrische Zwei-Punkt-Kalibrierung mit dem Dunkel-und Referenzbild aus Abb. 10.11: a Originalbild und b kalibriertes Bild; in diesemsind die dunkeln Flecken nicht mehr zu sehen.

bilds resultieren aus einer elektronischen Signalstörung. Die dunklenFlecken im Referenzbild kommen von Staub auf dem Glasfenster vordem CCD-Sensor. Die Verbesserung durch die radiometrische Kalibrie-rung ist deutlich in Abb. 10.12 zu sehen.

10.3.4 Nichtlineare radiometrische Kalibrierung

Manchmal steht die Größe, die mit einem Bildsensor bestimmt wird, ineiner nichtlinearen Beziehung zu dem gemessenen Grauwert. Ein gutesBeispiel hierfür ist die Thermographie. Hierbei wird aus der Strahlungs-dichte über die Planckschen Gleichungen (Abschn. 6.4.1) die Temperaturdes emittierenden Objekts bestimmt.

Wir zeigen hier eine praktische Kalibrierungsprozedur für Umgebung-stemperaturen. Aufgrund der nichtlinearen Beziehung zwischen Strah-lung und Temperatur ist eine einfache Zweipunkt-Kalibrierung mit linea-rer Interpolation für eine solche Anwendung nicht ausreichend. Hauß-ecker [80] zeigt, dass eine quadratische Beziehung für einen kleinen Tem-peraturbereich von 0 bis 40° C ausreichend genau ist. Daher sind dreiKalibrierungstemperaturen notwendig, die von einer speziellen Schwarz-körper-Kalibriereinheit erzeugt werden.

Aus den aufgenommenen Kalibrierungsbildern G1, G2 und G3 mitbekannten Temperaturen T1, T2 bzw. T3 kann über eine quadratischeInterpolation das Temperaturbild T eines beliebigen Bildes G berechnetwerden:

T = ∆G2 ·∆G3

∆G21 ·∆G31T1 − ∆G1 ·∆G3

∆G21 ·∆G32T2 + ∆G1 ·∆G2

∆G31 ·∆G32T3 (10.21)

mit∆Gk = G−Gk und ∆Gkl = Gk −Gl. (10.22)


a b c

d e f

Abbildung 10.13: Dreipunkt-Kalibrierung von Infrarot-Temperaturbildern:a bis c zeigen Bilder von Kalibrierungskörpern in Form von Aluminiumblöckenbei Temperaturen von 13,06, 17,62 und 22,28 °C. Die Grauwerte der Bilder sindgespreizt auf einen kleinen Bereich des digitalen 12-Bit-Ausgangsbereichs der In-frarotkamera von a 1715–1740, b 1925–1950, c 2200–2230 und zeigen nochrestliche Inhomogenitäten, insbesondere vertikale Streifen. d Mittels quadrati-scher Interpolation aus den drei Bildern a bis c kalibriertes Bild. e Original undf kalibriertes Bild der kleinskaligen Temperaturunterschiede an der Ozeanober-fläche auf einer Fläche von etwa 0,8× 1,0 m2.

Das Symbol · steht für die punktweise Multiplikation des Bildes zur Ab-grenzung von der Matrixmultiplikation. Abbildung 10.13a, b und c zei-gen drei Kalibrierungsbilder. Die Infrarotkamera blickt über einen Spie-gel auf den Kalibrierungskörper, der das Sehfeld an den Bildkanten etwasbeschneidet. Dies ist der Grund für die scharfen Temperaturänderun-gen, die an den Bildgrenzen in Abb. 10.13a, c zu sehen sind. Die Kalibrie-rungsprozedur entfernt die restlichen Inhomogenitäten (Abb. 10.13d, f),die sich im Originalbild zeigen.


a b

c d

Abbildung 10.14: Wirkung der Fensterfunktion auf die diskrete Fouriertransfor-mation: a Originalbild; b DFT von a ohne Verwendung einer Fensterfunktion;c Bild multipliziert mit einem Kosinusfenster; d DFT von c unter Verwendungeines Kosinusfensters.

10.3.5 Fensterfunktionen

Die so genannte Fensterfunktion ist eine weitere wichtige Anwendung in-homogener Punktoperationen. Bevor wir die DFT eines Bildes berechnenkönnen, muss das Bild mit einer Fensterfunktion multipliziert werden.Wenn wir diesen Schritt auslassen, ist das Spektrum durch die Faltungdes Bildspektrums mit der Fouriertransformierten der Rechteckfunkti-on, der sinc-Funktion (siehe Abschn. 2.3, R5), gestört. Dadurch werdenPeaks im Spektrum zu sternähnlichen Mustern entlang den Koordina-tenachsen im Fourierraum (Abb. 10.14b). Wir können diese Störungenauch mit der virtuellen periodischen Wiederholung endlich ausgedehn-ter Bilder erklären, wie es im Zusammenhang mit dem Abtasttheorem inAbschn. 9.2.3 näher erläutert worden ist. Die periodische Wiederholungführt zu Unstetigkeiten an den horizontalen und vertikalen Bildrändern,die entsprechend hohe spektrale Dichten entlang denx− undy−Achsenim Wellenzahlraum erzeugen.


Um diese Störungen zu vermeiden, müssen wir das Bild mit einerFensterfunktion multiplizieren, die zu den Bildrändern hin allmählichauf null abfällt. Eine optimale Fensterfunktion sollte eine hohe spektra-le Auflösung bewahren und gleichzeitig die Störungen des Spektrumsminimieren, d. h., ihre DFT sollte so steil wie möglich abnehmen. Diessind jedoch gegensätzliche Anforderungen, da eine gute Spektralauflö-sung eine breite Fensterfunktion erfordert. Solch ein Fenster fällt aberan den Kanten steil ab und bewirkt damit einen langsamen Abfall derSeitenmaxima seines Spektrums.

Ein sorgfältig gewähltes Fenster ist für die Spektralanalyse von Zeitse-rien kritisch [148, 166, 167]. Es ist jedoch in der digitalen Bildverarbei-tung weniger kritisch wegen des viel geringeren dynamischen Bereichsder Grauwerte. Das einfache Kosinusfenster

Wmn = sin(πmM

)sin

(πnN

), 0 ≤m <M, 0 ≤ n < N (10.23)

ist als Fensterfunktion gut geeignet (Abb. 10.14c und d).

Eine direkte Implementierung der Fensteroperation ist sehr zeitauf-wendig, da die trigonometrische Funktion 2MN-mal berechnet werdenmuss. Sehr viel effizienter ist der Weg, die Berechnung der Fenster-funktion einmal durchzuführen, das Fensterbild zu speichern und esdann für die Berechnung vieler DFTs zu verwenden. Die Speicheranfor-derungen reduzieren sich, wenn man berücksichtigt, dass die Fenster-funktion (10.23) separierbar, d. h. ein Produkt zweier Funktionen ist:Wm,n = cwm · rwn. Dann müssen wir lediglich die M +N Werte für dieSpaltenfunktion cwm und die Zeilenfunktion rwn berechnen und spei-chern. Der Preis für den reduzierten Speicherraum ist eine zusätzlicheMultiplikation pro Pixel für die Fensteroperation.

10.4 Geometrische Transformationen

Im restlichen Teil dieses Kapitels beschäftigen wir uns mit den geome-trischen Operationen als den zu den Punktoperationen komplementärenOperationen. Wir beginnen mit elementaren geometrischen Transfor-mationen wie der affinen Abbildung (Abschn. 10.4.2) und der perspekti-vischen Projektion (Abschn. 10.4.3) und untersuchen, wie man durchMethoden der Punktzuordnung die Transformationsparameter erhält.Dann besprechen wir in Abschn. 10.5 die Interpolation, die uns als dasHauptproblem der schnellen und exakten Implementierung geometri-scher Operationen in diskreten Bildern begegnet. Schließlich gehen wirin Abschn. 10.6.3 kurz auf schnelle Algorithmen für geometrische Trans-formationen ein.

10.4 Geometrische Transformationen 289

a

Eingabebild Ausgabebild

b

Eingabebild Ausgabebild

Abbildung 10.15: Veranschaulichung a der Vorwärts- und b der Rückwärtsab-bildung bei einer räumlichen Bildtransformation.

10.4.1 Vorwärts- und Rückwärtsabbildung

Geometrische Transformationen definieren die Beziehung zwischen denPunkten zweier Bilder. Diese Beziehung kann auf zwei Arten ausge-drückt werden. Entweder werden die Koordinaten des Ausgangsbildesx′ als eine Funktion der Eingangskoordinaten x spezifiziert oder umge-kehrt:

x′ = M(x) oder x = M−1(x′), (10.24)

wobei M für die Abbildungsfunktion und M−1 für ihre Umkehrfunktionsteht. Die beiden Gleichungen in (10.24) zeigen zwei prinzipielle We-ge der geometrischen Transformation auf, die Vorwärts- und die Rück-wärtsabbildung.

Bei der Vorwärtsabbildung wird ein Punkt des Eingangsbildes aufdas Ausgangsbild abgebildet (Abb. 10.15a). Im Allgemeinen liegt derBildpunkt zwischen den Punkten des Ausgangsbildes. Bei diesem Ver-fahren ist es unzureichend, den Wert des Eingangsbildpunktes einfachdem nächstgelegenen Bildpunkt im Ausgangsbild zuzuordnen (Punkt-zu-Punkt- oder Nächster-Nachbar-Abbildung). Es kann dann vorkom-men, dass das transformierte Bild Löcher enthält, da einem Punkt desAusgangsbildes kein einziger Wert zugeordnet wird, oder dass einemPunkt im Ausgangsbild mehrmals ein Wert zugeordnet wird. Es ist dahernotwendig, den Wert des Eingangsbildpunktes auf mehrere Ausgangs-bildpunkte zu verteilen. Am einfachsten ist es, die Bildpunkte als Qua-drate zu betrachten und den Anteil der Fläche des Eingangspixels, dieauf das Ausgangspixel fällt, als Wichtungsfaktor zu nehmen. Für jedesAusgangspixel werden dann die einzelnen Anteile der Eingangspixel, dieauf das Ausgangspixel fallen, aufsummiert. Falls die Abbildung konti-nuierlich ist, werden die Ausgangspixel vollständig überdeckt.

Mit der inversen Abbildung werden die Koordinaten eines Punktesim Ausgangsbild zurück auf das Eingangsbild abgebildet (Abb. 10.15b).Der Vorteil ist, dass diese Methode Löcher und Überlappungen im Aus-gangsbild vermeidet, da alle Pixel nacheinander abgetastet werden. DasInterpolationsproblem tritt jedoch nun im Eingangsbild auf. Die Koordi-


Translation Rotation Dilatation Stauchung Scherung

Abbildung 10.16: Elementare geometrische Transformationen eines planarenOberflächenelements.

naten des Ausgangsbildes treffen im Allgemeinen nicht einen Punkt imEingangsbild, sondern liegen dazwischen. Daher müssen die korrektenWerte aus den umliegenden Bildpunkten interpoliert werden. In der Re-gel ist die Rückwärtsabbildung die flexiblere Technik, da es einfacher ist,verschiedene Interpolationstechniken zu implementieren.

10.4.2 Affine Abbildung

Eine affine Abbildung ist eine lineare Koordinatentransformation, die dieelementaren Transformationen Translation, Rotation, Dilatation, Stau-chung und Scherung umfaßt. Sie kann durch Vektoraddition und Ma-trixmultiplikation ausgedrückt werden:[

x′

y ′

]=

[a11 a12

a21 a22

][xy

]+

[txty

]. (10.25)

Mit homogenen Koordinaten (Abschn. 7.7) kann die affine Abbildungmit einer einzigen Matrixmultiplikation beschrieben werden:⎡

⎢⎣ x′

y ′

1

⎤⎥⎦ =

⎡⎢⎣ a11 a12 txa21 a22 ty0 0 1

⎤⎥⎦

⎡⎢⎣ xy1

⎤⎥⎦ . (10.26)

Eine affine Abbildung hat sechs Freiheitsgrade: zwei für die Translati-on (tx , ty ) und vier (a11, a12, a21 und a22), in denen Rotation, Dilatation,Stauchung und Scherung enthalten sind. Die affine Abbildung bildet einDreieck auf ein Dreieck und ein Rechteck auf ein Parallelogramm ab.Sie wird daher auch als Dreipunkt-Abbildung bezeichnet. Diese Eigen-schaften begrenzen jedoch auch den Einsatz der affinen Transformati-on. Allgemeinere Verformungen wie zum Beispiel die Abbildung einesRechtecks auf ein beliebiges Viereck sind keine affinen Abbildungen.

10.4.3 Perspektivische Projektion

Die perspektivische Projektion ist, wie in Abschn. 7.3 besprochen, dieGrundlage aller optischen Abbildungssysteme. Die affine Abbildung ent-

10.4 Geometrische Transformationen 291

spricht einer Parallelprojektion und kann als Modell der optischen Ab-bildung nur für den Grenzfall eines kleinen Gesichtsfeldes verwendetwerden. Die allgemeinere perspektivische Projektion wird am einfachs-ten mit homogenen Koordinaten formuliert:⎡

⎢⎣ w′x′

w′y ′

w′

⎤⎥⎦ =

⎡⎢⎣ a11 a12 a13

a21 a22 a23

a31 a32 1

⎤⎥⎦

⎡⎢⎣ wxwyw

⎤⎥⎦ oder X′ = PX. (10.27)

Die beiden in der affinen Abbildung (10.26) nicht enthaltenen Koef-fizienten a31 und a32 beschreiben die perspektivische Projektion (siehe(7.61) in Abschn. 7.7).

In Standardkoordinaten geschrieben, zeigt sich, dass die perspektivi-sche Projektion — im Gegensatz zur affinen Abbildung — entsprechend(10.27) eine nichtlineare Transformation ist:

x′ = a11x + a12y + a13

a31x + a32y + 1

y ′ = a21x + a22y + a23

a31x + a32y + 1.

(10.28)

Die perspektivische Projektion kann jedoch bei Verwendung von ho-mogenen Koordinaten auf eine lineare Transformation reduziert wer-den. Eine perspektivische Projektion bildet Linien auf Linien ab; abernur Linien, die parallel zur Projektionsebene liegen, bleiben parallel. EinRechteck wird auf ein allgemeines Viereck abgebildet. Daher wird dieperspektivische Projektion auch als Vierpunkt-Abbildung bezeichnet.

10.4.4 Bestimmung der Transformationskoeffizienten

Die Koeffizienten einer Transformation, wie wir sie in Abschn. 10.4.2 undAbschn. 10.4.3 beschrieben haben, sind im Allgemeinen nicht bekannt.Statt dessen haben wir in der Regel einen Satz korrespondierender Punk-te aus dem Objekt- und dem Bildraum. In diesem Abschnitt lernen wir,wie die Koeffizienten einer Transformation mithilfe der korrespondie-renden Punkte berechnet werden. Bei einer affinen Abbildung benötigenwir drei nichtkollineare Punkte, um ein Dreieck auf ein Dreieck abbildenzu können. Mit diesen drei Punkten ergibt sich aus (10.26) das folgendelineare Gleichungssystem:⎡

⎢⎣ x′1 x′2 x′3y ′1 y ′2 y ′31 1 1

⎤⎥⎦ =

⎡⎢⎣ a11 a12 txa21 a22 ty0 0 1

⎤⎥⎦

⎡⎢⎣ x1 x2 x3

y1 y2 y3

1 1 1

⎤⎥⎦ (10.29)

oderP′ = AP. (10.30)


Daraus berechnet sich A zu

A = P′P−1. (10.31)

Die Inverse der Matrix P existiert, wenn die drei Punkte X1, X2 undX3 linear unabhängig sind. Das bedeutet in der geometrischen Interpre-tation, dass sie nicht auf einer Linie liegen dürfen, also nicht kollinearsind.

Mit mehr als drei korrespondierenden Punkten können die Parameterder affinen Abbildung durch das folgende Gleichungssystem im Sinneder Methode der kleinsten Quadrate gelöst werden (Abschn. 17.4):

A = P′PT (PPT )−1 (10.32)

mit

P′PT =⎡⎢⎣

∑x′nxn

∑x′nyn

∑x′n∑

y ′nxn∑y ′nyn

∑y ′n∑

xn∑yn N

⎤⎥⎦

PPT =⎡⎢⎣

∑x2n

∑xnyn

∑xn∑

xnyn∑y2n

∑yn∑

xn∑yn N

⎤⎥⎦ .

Die Umkehrung einer affinen Abbildung ist selbst eine affine Abbil-dung. Die Transformationsmatrix der inversen Transformation wirddurch die inverse Matrix A−1 gegeben.

Die Bestimmung der Koeffizienten für die perspektivische Projektionist etwas komplexer. Wenn vier oder mehr korrespondierende Punktevorliegen, können die Koeffizienten der perspektivischen Transformati-on berechnet werden. Dann formen wir (10.28) um und erhalten:

x′ = a11x + a12y + a13 − a31xx′ − a32yx′

y ′ = a21x + a22y + a23 − a31xy ′ − a32yy ′.(10.33)

Für N Punkte führt dies zu einem linearen Gleichungssystem mit 2NGleichungen und 8 Unbekannten der Form

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

x′1y ′1x′2y ′2...x′Ny ′N

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

x1 y1 1 0 0 0 −x1x′1 −y1x′10 0 0 x1 y1 1 −x1y ′1 −y1y ′1x2 y2 1 0 0 0 −x2x′2 −y2x′20 0 0 x2 y2 1 −x2y ′2 −y2y ′2

...xN xN 1 0 0 0 −xNx′N −yNx′N0 0 0 xN yN 1 −xNy ′N −yNy ′N

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

a11

a12

a13

a21

a22

a23

a31

a32

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

oderd =Ma. (10.34)

10.5 Interpolation 293

Die Gleichung kann dann folgendermaßen mit der Methode der kleins-ten Quadrate gelöst werden:

a = (MTM)−1MTd. (10.35)

10.5 Interpolation

10.5.1 Grundlagen

Neben der Transformation selbst ist die Interpolation der andere wichti-ge Aspekt diskreter geometrischer Operationen. Die Notwendigkeit derInterpolation ergibt sich aus der Tatsache, dass Gitterpunkte im Allge-meinen nicht auf Gitterpunkte, sondern auf Zwischengitterplätze abge-bildet werden und umgekehrt.

Grundlage der Interpolation ist das Abtasttheorem (Abschn. 9.2.3).Es besagt, dass das diskrete Bild unter der Voraussetzung, dass die Ab-tastbedingungen eingehalten werden, das kontinuierliche Bild vollstän-dig wiederspiegelt. Anders ausgedrückt bedeutet das, dass jede im Bildauftretende periodische Struktur mindestens zweimal pro Wellenlängeabgetastet werden muss. Von dieser grundlegenden Tatsache aus kannleicht — zumindest prinzipiell — ein allgemeines Verfahren für die Inter-polation abgeleitet werden: Man rekonstruiert zuerst das kontinuierli-che Bild und führt dann eine erneute Abtastung auf neuen Gitterpunktendurch. Diese Prozedur funktioniert nur, solange das neue Gitter nichtgrößer als das alte ist. Ist es größer, treten Aliasing-Erscheinungen auf.In diesem Fall muss das Bild vorgefiltert werden, ehe es erneut abgetastetwerden kann.

Obwohl diese Prozeduren einfach und direkt klingen, sind sie in Wirk-lichkeit sehr schwierig. Problematisch ist die Tatsache, dass die Rekon-struktion des kontinuierlichen Bildes aus dem abgetasteten Bild prak-tisch sehr aufwendig ist und nur näherungsweise erfolgen kann. Dahermüssen wir versuchen, die Interpolation durch Einführung einiger Be-schränkungen zu optimieren. In diesem Abschnitt werden wir zuerst er-läutern, warum eine ideale Interpolation im Allgemeinen unmöglich ist,und dann in Abschn. 10.5.2–10.6.2 praktische Verfahren diskutieren.

In Abschn. 9.3.1 haben wir festgestellt, dass die Rekonstruktion einerkontinuierlichen Funktion aus Abtastpunkten als Faltungsoperation

gr (x) =∑m,ng(xm,n)h(x − xm,n) (10.36)

betrachtet werden kann, wobei die kontinuierliche Interpolationsmaskeh die sinc-Funktion ist:

h(x) = sinπx1/∆x1

πx1/∆x1

sinπx2/∆x2

πx2/∆x2. (10.37)


Die Transferfunktion der Punktantwort in (10.37) ist nach (9.8) und (9.14)eine Rechteckfunktion mit der Breite 2kw = 1/∆xw :

h(k) = Π(k1/2, k2/2) mit kw = 2kw∆xw. (10.38)

Der in (10.36) interpolierte Wert an den Gitterpunkten xmn solltedie Gitterpunkte reproduzieren und nicht von anderen Gitterpunktenabhängen. Hieraus können wir die Interpolationsbedingungen ableiten:

h(xm,n) =

1 m = 0, n = 00 sonst.

(10.39)

Die Interpolationsmaske in (10.37) erfüllt diese Bedingungen. JedeInterpolationsmaske muss daher Nulldurchgänge an allen Gitterpunktenmit Ausnahme des Nullpunktes, wo sie den Wert 1 hat, aufweisen.

Weil die Interpolation eine Faltungsoperation ist und daher durch ei-ne Transferfunktion im Fourierraum beschrieben werden kann (10.38),haben wir ein Werkzeug zur Klassifikation der bei der Interpolations-technik auftretenden Fehler in der Hand. Die Rechteckform der Trans-ferfunktion für die ideale Interpolationsfunktion bedeutet einfach, dassalle Wellenzahlen innerhalb des Bereiches |kw| ≤ 1/(2∆xw) möglicherWellenzahlen weder eine Phasenverschiebung noch eine Amplituden-dämpfung erfahren. Außerhalb des erlaubten Intervalls ist die Trans-ferfunktion null. Daher werden bei der Interpolation keine verfälschtenWellenzahlen erzeugt.

Die ideale Interpolationsfunktion in (10.36) ist separierbar. Deshalbkann die Interpolation leicht für höherdimensionale Bilder formuliertwerden. Es ist zu erwarten, dass alle Lösungen des Interpolationsprob-lems ebenfalls separierbar sind. Demnach müssen wir nur das eindi-mensionale Interpolationsproblem diskutieren. Ist es gelöst, haben wirauch eine Lösung für die n-dimensionale Interpolation.

Ein wichtiger Spezialfall ist die Interpolation nur für Punkte, die ge-nau zwischen den existierenden Gitterpunkten liegen. Dieses Interpo-lationsschema verdoppelt Auflösung und Bildgröße in allen Richtungen,in die es angewandt wird. Dann reduziert sich der kontinuierliche In-terpolationskern auf eine diskrete Faltungsmaske. Da der Interpolati-onskern (10.37) separierbar ist, können wir zuerst die Zwischenpunkteeiner Zeile in horizontaler Richtung und dann die Zwischenzeilen ver-tikal interpolieren. In höherdimensionalen Bildern werden weitere 1D-Interpolationen in z- und/oder t-Richtung hinzugefügt. Die Interpola-tionskerne sind in allen Richtungen gleich. Wir benötigen den kontinu-ierlichen Kern h(x) nur für halbzahlige Werte von x/∆x. Aus (10.37)erhalten wir daher die Interpolationsfaltungsmaske

h =[· · · (–1)m−1 2

(2m− 1)π· · · –

23π

2π

2π

–2

3π· · · (–1)m−1 2

(2m− 1)π· · ·

](10.40)

mit Koeffizienten alternierenden Vorzeichens.


10.5.2 Interpolation im Fourierraum

Im Fourierraum reduziert sich die Interpolation auf eine einfache Ope-ration. Wie (10.38) zeigt, ist die Transferfunktion eines idealen Inter-polationskerns eine Rechteckfunktion, die außerhalb der Wellenzahlen,die repräsentiert werden können, null ist. Diese grundlegende Tatsacheführt zu folgender Interpolationsprozedur im Fourierraum:

1. Vergrößern der Matrix des fouriertransformierten Bildes. Wird eineM ×M-Matrix auf eine M′ ×M′-Matrix vergrößert, wird das Bild imOrtsraum auch auf ein M′ ×M′-Bild vergrößert. Aufgrund der Rezi-prozität der Fouriertransformation bleibt aber die Bildgröße selbstunverändert. Es verringert sich lediglich der Abstand zwischen denBildpunkten. Daraus ergibt sich eine höhere räumliche Auflösung:

M∆k→ M′∆k • ∆x = 1M∆k

→ ∆x′ = 1M′∆k

(10.41)

2. Auffüllen des ergänzten Bereiches im Fourierraum mit Nullen undBerechnung einer inversen Fouriertransformation.

Theoretisch resultiert diese Prozedur in einem perfekt interpoliertenBild. Leider hat sie jedoch drei Nachteile:

1. Die Fouriertransformation eines endlichen Bildes impliziert eine zyk-lische Wiederholung des Bildes sowohl im Orts- als auch im Fourier-raum. Daher ist die Faltung, die durch die Fouriertransformationdurchgeführt wird, ebenfalls zyklisch.Das bedeutet, dass an der rechten oder linken Kante des Bildes dieFaltung mit der gegenüberliegenden Seite des Bildes fortgeführt wird.Da die Realität nicht periodisch ist und Interpolationsmasken großsind, kann dies zu empfindlichen Störungen der Interpolation auchnoch in relativ großem Abstand von den Bildkanten führen.

2. Die Fouriertransformation kann nur für bestimmte Werte von M′ ef-fizient berechnet werden. Am bekanntesten sind die schnellen Basis-2-Algorithmen, die nur auf Bilder der Größe M′ = 2N

′angewandt

werden können (Abschn. 2.5.2). Daher ist die auf der Fouriertrans-formation basierende Interpolation langsam für Zahlen M′, die sichnicht als Produkt vieler kleiner Faktoren darstellen lassen.

3. Da die Fouriertransformation eine globale Transformation ist, kannsie nur zur Skalierung benutzt werden. Im Prinzip sind nach demerweiterten Ähnlichkeitstheorem (Theorem 2.1, S. 54) auch Drehun-gen und affine Transformationen möglich. Dann verlagert man dasInterpolationsproblem allerdings nur vom Ortsraum in den Wellen-zahlraum.


-3/2 -3/23/2 3/2-1/2 -1/21/2 1/2

1/2

1 1g-1/2 g-1/2

g1/2 g1/2

g3/2 g3/2

g-2/3

Interpolationsmaske1/2(g +g )1/2 -1/2

a b

Abbildung 10.17: Veranschaulichung der linearen Interpolation: a Bei x = 0wird der Mittelwert von g1/2 und g−1/2 genommen, b bei x = 1/2 wird g1/2repliziert.

10.5.3 Lineare Interpolation

Die lineare Interpolation ist der klassische Interpolationsansatz. Die in-terpolierten Punkte liegen auf Geradenstücken, die benachbarte Gitter-punkte verbinden. Um die Rechnungen zu vereinfachen, benutzen wirim Folgenden normierte räumliche Koordinaten x = x/∆x. Aus Symme-triegründen setzen wir die beiden vorhandenen Gitterpunkte auf −1/2und 1/2. Daraus ergibt sich die Interpolationsgleichung

g(x) = g1/2 + g−1/2

2+ (g1/2 − g−1/2

)x für |x| ≤ 1/2. (10.42)

Vergleichen wir (10.42) mit (10.36), können wir auf die kontinuierlicheInterpolationsmaske für die lineare Interpolation schließen:

h1(x) =

1− |x| |x| ≤ 10 sonst.

(10.43)

Ihre interpolierende Natur ist in Abb. 10.17 veranschaulicht. Die Interpo-lationsmaske (10.43) für lineare Interpolation ist eine Dreiecksfunktion,h1(x), deren Transferfunktion die quadrierte sinc-Funktion (R5)

h1(k) = sin2πk/2(πk/2)2

(10.44)

ist. Ein Vergleich mit der idealen Transferfunktion für die Interpolation(10.38) zeigt, dass durch die lineare Interpolation zwei Störungen einge-führt werden:

1. Während kleine Wellenzahlen, insbesondere der Mittelwert k = 0,korrekt interpoliert werden, werden hohe Wellenzahlen in ihrer Amp-litude etwas reduziert, was zu einer leichten Glättung führt. Beik = 1 reduziert sich die Transferfunktion auf etwa 40 % mit h1(1) =(2/π)2 ≈ 0,4.

2. Da h1(k) bei Wellenzahlen k > 1 nicht null ist, werden einige falschehohe Wellenzahlen erzeugt. Wird das kontinuierlich interpolierte Bild


erneut abgetastet, ergeben sich dadurch leichte Aliasing-Effekte. Daserste Nebenmaximum hat eine Amplitude von (2/3π)2 ≈ 0,045.

Wenn wir nur die Zwischengitterpunkte bei x = 0 interpolieren, wirdaus der kontinuierlichen Interpolationsfunktion (10.43) eine diskrete Fal-tungsmaske mit Werten bei x = [... − 3/2 − 1/2 1/2 3/2 ...]. Da (10.43)für |x| ≥ 1 null ist, ergibt sich die diskrete Interpolationsmaske H =1/2[11] mit der Transferfunktion

h1(k) = cosπk/2. (10.45)

Die Transferfunktion ist reell, sodass keine Phasenverschiebung auftritt.Die signifikante Amplitudendämpfung zu hohen Wellenzahlen hin zeigtjedoch, dass diese nicht korrekt interpoliert werden.

Bei allen anderen Punkten als dem symmetrisch liegenden Zwischen-gitterpunkt bei x = 0 treten zusätzlich noch Phasenverschiebungen auf.Wir untersuchen die Phasenverschiebung und die Amplitudendämpfungder linearen Interpolation nun für beliebige Punkte zwischen den Gitter-punkten, also ε ∈ [−1/2,1/2]. Dann ist für einen Punkt ε die Interpola-tionsmaske [1/2 − ε,1/2 + ε]. Die Maske enthält einen symmetrischenTeil [1/2,1/2] und einen antisymmetrischen Teil [−ε, ε]. Daher ist dieTransferfunktion komplex und ergibt sich zu

h1(ε, k) = cosπk/2+ 2iε sinπk/2. (10.46)

Um den Fehler in der Phasenlage zu bestimmen, beziehen wir die Pha-senlage auf den Punkt bei ε = 0, da an diesem keine Phasenverschiebungauftreten sollte. Nach dem Verschiebungstheorem (Theorem 2.3, S. 55,R4) müssen wir dazu (10.46) mit exp(−iεπk) multiplizieren:

h1(ε, k) = (cosπk/2+ 2iε sinπk/2) exp(−iεπk). (10.47)

Nur für ε = 0 (h1(0, k) = cosπk/2) und ε = 1/2 (h1(1/2, k) = 1)ist die Transferfunktion reell. Bei allen anderen Punkten ergibt sich ei-ne nicht zu vernachlässigende Phasenverschiebung (Abb. 10.18). Dabeiwird die Phasenverschiebung ∆ϕ als Verschiebung ∆x = ∆ϕλ/2π =∆ϕ/(πk) der zugehörigen periodischen Struktur ausgedrückt.

10.5.4 Interpolation mit Polynomen

Bei den beträchtlichen Einschränkungen der linearen Interpolation, wiesie in Abschn. 10.5.3 diskutiert wurden, stellen wir uns die Frage, obInterpolationen höherer Ordnung von Vorteil sind. Lineare Interpolati-on verbindet zwei benachbarte Punkte durch eine Gerade. Ebenso kön-nen wir ein P -gradiges Polynom mit P +1 unbekannten Koeffizienten apdurch P + 1 Punkte legen:

gr (x) =P∑p=0

apxp. (10.48)


a

-0.4 -0.2 0 0.2 0.40

0.2

0.4

0.6

0.8

1

1/4

1/2

3/4

1

ε

b

-0.4 -0.2 0 0.2 0.4

-0.1

-0.05

0

0.05

0.1

1/4

1/2

3/4ε

c

-0.4 -0.2 0 0.2 0.40.7

0.75

0.8

0.85

0.9

0.95

11/4

1/2

3/4

ε

d

-0.4 -0.2 0 0.2 0.4-0.06

-0.04

-0.02

0

0.02

0.04

0.06

1/4

1/2

3/4

ε

Abbildung 10.18: Amplitudendämpfung (linke Spalte) und Phasenverschiebung,ausgedrückt als Positionsverschiebung ∆x = ∆ϕλ/2π in Radiant (rechte Spalte),für Wellenzahlen k = 1/4,1/2,3/4, dargestellt als Funktion der Position ε des zuinterpolierenden Punktes zwischen −1/2 bis 1/2 für lineare Interpolation (a undb) und kubische B-Spline-Interpolation (c und d).

Aus Gründen der Symmetrie legen wir bei einer geraden Zahl vonGitterpunkten — P ist also ungerade — deren Positionen auf halbzahligeWerte:

xp = 2p − P2

. (10.49)

Mit der Interpolationsbedingung für die Gitterpunkte, gr (xp) = gp,ergibt sich folgendes lineare Gleichungssystem mit P + 1 Gleichungenund P + 1 Unbekannten aP , wenn P ungerade ist:

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

g0...

g(P−1)/2

g(P+1)/2...gP

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

1 −P/2 P2/4 −P3/8 · · ·...

1 −1/2 1/4 −1/8 · · ·1 1/2 1/4 1/8 · · ·...

1 P/2 P2/4 P3/8 · · ·

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎣

a0......aP

⎤⎥⎥⎥⎥⎥⎥⎦ . (10.50)

Daraus können wir die Koeffizienten des Polynoms bestimmen. Für einkubisches Polynom (P = 3) ergibt sich zum Beispiel das Gleichungssys-

10.6 Optimierte Interpolation 299

a

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

1

35

7

~k

b

0 0.2 0.4 0.6 0.8 10.95

0.96

0.97

0.98

0.99

1

1 3

5 7

~k

Abbildung 10.19: Transferfunktionen diskreter polynomialer Interpolationsfil-ter zur Interpolation eines Wertes zwischen zwei Gitterpunkten. Der Grad desPolynoms (1 = linear, 3 = kubisch etc.) ist in der Grafik markiert. Die gestri-chelte Linie stellt die Transferfunktion für kubische B-Spline-Interpolation dar(Abschn. 10.6.1). a zeigt den Wertebereich von 0 bis 1 und b einen 5 %-Bereichunterhalb der idealen Transferfunktion h(k) = 1.

tem ⎡⎢⎢⎢⎢⎣g0

g1

g2

g3

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣

1 −3/2 9/4 −27/81 −1/2 1/4 −1/81 1/2 1/4 1/81 3/2 9/4 27/8

⎤⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎣a0

a1

a2

a3

⎤⎥⎥⎥⎥⎦ (10.51)

mit der Lösung⎡⎢⎢⎢⎢⎣a0

a1

a2

a3

⎤⎥⎥⎥⎥⎦ =

148

⎡⎢⎢⎢⎢⎣−3 27 27 −3

2 −54 54 −212 −12 −12 12−8 24 −24 8

⎤⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎣g0

g1

g2

g3

⎤⎥⎥⎥⎥⎦ . (10.52)

Aus dieser Lösung können wir ableiten, dass der Grauwert an der Stel-le x = 0 durch gr (0) = a0 = −1/16g0+9/16g1+9/16g2−1/16g3 inter-poliert wird, was der Interpolationsmaske 1/16[-1, 9, 9, -1] entspricht.

Abb. 10.19 zeigt die Transferfunktionen für Interpolationen mit Poly-nomen verschiedenen Grades. Mit steigendem Grad P des interpolieren-den Polynoms nähert sich die Transferfunktion zunehmend der Recht-eckfunktion. Allerdings konvergiert sie langsam. Für eine genaue Inter-polation müssen wir also eine große Interpolationsmaske verwenden.

10.6 Optimierte Interpolation

10.6.1 Interpolation mit Splines

Die Interpolation mit Polynomen hat neben der begrenzten Genauigkeit nochandere bedeutende Nachteile. Die interpolierte Kurve ist schon in der ersten


a

-2 -1 0 1 2-0.2

0

0.2

0.4

0.6

0.8

10

1

23

b

-3 -2 -1 0 1 2 3

-0.2

0

0.2

0.4

0.6

0.8

1

01

23

Abbildung 10.20: a B-Spline-Interpolationskerne, erzeugt durch eine kaskadierteFaltung des Rechteckkerns, nullter Ordnung (nächster Nachbar), erster (lineareInterpolation), zweiter (quadratischer B-Spline) und dritter Ordnung (kubischerB-Spline); b zugehörige Transferfunktionen.

Ableitung an den Stützstellen (Gitterpunkten) nicht stetig. Dies rührt daher,dass für jedes Intervall zwischen Gitterpunkten ein anderes Polynom verwendetwird. Also ist im Allgemeinen nur die interpolierte Funktion an den Gitterpunk-ten stetig, ihre Ableitungen sind es jedoch nicht.

Splines vermeiden diese Nachteile durch zusätzliche Stetigkeitsbedingungen fürdie Ableitungen an den Gitterpunkten. Aus den vielen Klassen von Splinefunk-tionen werden wir hier nur eine Klasse diskutieren, die so genannten B-Splines.Da B-Splines separierbar sind, genügt wiederum eine Betrachtung der Eigen-schaften der eindimensionalen Funktionen. Vor dem Hintergrund der Bildver-arbeitung ist der einfachste Zugang zu den B-Splines ihre Faltungseigenschaft.Der Kern einer B-Spline-Kurve der Ordnung P wird durch Faltung der Rechteck-funktion (P + 1)-mal mit sich selbst erzeugt (Abb. 10.20a):

βP(x) = Π(x)∗ . . .∗Π(x)︸︷︷︸(P+1)-mal

• βP (k) =(

sinπk/2(πk/2)

)P+1

. (10.53)

Die B-Spline-Funktion ist keine geeignete interpolierende Funktion, da die Trans-ferfunktion (Abb. 10.20b) zu schnell abnimmt. Das bedeutet, dass sie zu starkglättet. Darüber hinaus erfüllt der B-Spline-Kern für P > 1 nicht die Interpola-tionsbedingung (10.39).

B-Splines können zur Interpolation nur dann verwendet werden, wenn zuerstdie diskreten Gitterpunkte derart transformiert werden, dass eine nachfolgendeFaltung mit einem B-Spline-Kern das Originalbild an den Gitterpunkten wieder-herstellt. Diese Transformation heißt B-Spline-Transformation und wird aus derfolgenden Bedingung konstruiert:

gp(x) =∑ncnβP(x − xn) mit gp(xn) = g(xn). (10.54)

Ein um einen Gitterpunkt zentrierter kubischer B-Spline-Interpolationskern istnur für drei Gitterpunkte ungleich null. Die Koeffizientenβ3(−1) = β−1, β3(0) =β0 und β3(1) = β1 sind 1/6, 2/3, 1/6. Die Faltung dieses Kerns mit den un-bekannten B-Spline-Transformationswerten cn sollte an den Gitterpunkten die


Originalwerte gn ergeben:

g = c ∗ β3 oder gn =1∑

n′=−1

cn+n′βn′ . (10.55)

Gleichung (10.55) entspricht dem dünn besetzten linearen Gleichungssystem

⎡⎢⎢⎢⎢⎢⎣

g0

g1

...gN−1

⎤⎥⎥⎥⎥⎥⎦ =

16

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

4 1 0. . . 0 1

1 4 1 0. . . 0

0 1 4 1 0. . .

. . .. . .

. . .

. . .. . . 1 4 1 0

0. . . 0 1 4 1

1 0. . . 0 1 4

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎣

c0

c1

...cN−1

⎤⎥⎥⎥⎥⎥⎦ , (10.56)

wobei von zyklischen Randbedingungen ausgegangen wurde. Es muss also einlineares Gleichungssystem gelöst werden. Aus der besonderen Form des Glei-chungssystems als Faltung ergibt sich aber ein effektiverer Lösungsweg. ImFourierraum reduziert sich (10.55) zu

g = β3c. (10.57)

Die Transferfunktion von β3 ist β3(k) = 2/3+ 1/3 cos(πk). Da diese Funktionkeine Nullstelle besitzt, kann man unmittelbar sehen, dass sich c aus der Faltungvon g mit einer Faltungsmaske mit der Transferfunktion

β3−1(k) = βT (k) = 1

2/3+ 1/3 cosπk(10.58)

ergibt. Solch eine Transferfunktion gehört zu einem rekursiven Filter, das mitder nachfolgenden Rekursion zuerst vorwärts und dann rückwärts angewandtwird (Abschn. 4.4.2, [227]):

g′n = gn − (2−√

3)(g′n−1 − gn)c′n = g′n − (2−

√3)(cn+1 − g′n).

(10.59)

Die gesamte Operation erfordert nur zwei Multiplikationen und vier Additio-nen. Auf die B-Spline-Transformation folgt eine B-Spline-Interpolation. Im kon-tinuierlichen Fall erhalten wir unter Verwendung von (10.53) und (10.58) dieeffektive Transferfunktion für die B-Spline-Interpolation

βI(k) = sin4(πk/2)/(πk/2)4

(2/3+ 1/3 cosπk). (10.60)

Im wesentlichen verstärkt die B-Spline-Transformation (10.58) hohe Wellenzah-len (bei k = 1 ungefähr um den Faktor 3), was den Glättungseffekt der B-Spline-Interpolation weitgehend kompensiert.


Wir untersuchen diese Kompensation an den Gitterpunkten und an den Zwi-schengitterpunkten. Aus der Gleichung des kubischen B-Spline-Interpolations-kernes (10.53) (siehe auch Abb. 10.20a) ergeben sich die Interpolationskoeffizi-enten für Gitter- und Zwischengitterpunkte als

1/6 [1 4 1] bzw. 1/48 [1 23 23 1] (10.61)

mit den Transferfunktionen

2/3+ 1/3 cosπk und 23/24 cos(πk/2)+ 1/24 cos(3πk/2). (10.62)

Die Transferfunktion kompensiert, wie erwartet, an den Gitterpunkten die An-wendung der B-Spline-Transformation (10.58). Daher geht die Interpolations-kurve durch die Gitterpunkte. An den Zwischengitterpunkten lautet dann dieeffektive Transferfunktion für die kubische B-Spline-Interpolation

βI(1/2, k) = 23/24 cos(πk/2)+ 1/24 cos(3πk/2)2/3+ 1/3 cosπk

. (10.63)

Die Amplitudendämpfung und die Phasenverschiebung, ausgedrückt als Posi-tionsverschiebung in Pixelabständen, sind in Abb. 10.18c und d dargestellt. Esist zu beachten, dass die Verschiebungen auf die Zwischengitterpunkte bezo-gen sind. Verschiebung und Amplitudenabschwächung sind null an den Gitter-punkten [−0,5,0,5]T . Während die Amplitudenabschwächung am Zwischengit-terpunkt maximal ist, ist die Positionsverschiebung dort wegen der Symmetrieebenfalls null. Die Phasenverschiebung bei den Wellenzahlen k = 3/4 ist leidernur etwa 50 % kleiner als bei der linearen Interpolation (Abb. 10.18b). Sie istmit einem Maximalwert von etwa 0,13 immer noch signifikant. Für Algorith-men, die im Bereich von 1/100 Pixel genau sein sollten, ist dieser Wert viel zuhoch. Falls keine besseren Interpolationstechniken angewandt werden können,bedeutet das, dass die maximale Wellenzahl kleiner als 0,5 sein sollte. Dann istdie maximale Verschiebung kleiner als 0,01 und die Amplitudenabschwächunggeringer als 3 %.

Diese Diskussion der Phasenverschiebung gilt nur für beliebige Verschiebungen.Für Zwischengitterpunkte tritt überhaupt keine Positionsverschiebung auf.

In diesem Spezialfall — den es in der Bildverarbeitung oft gibt, z. B. bei derBerechnung von Pyramiden (Kapitel 5) — ist die Optimierung von Interpolati-onsfiltern recht einfach, da nur die Amplitudenabschwächung über den inter-essierenden Wellenzahlbereich minimiert werden muss.

10.6.2 Interpolation mit der Methode der kleinsten Quadrate

Das Design von Filtern für die Interpolation kann — wie jedes Filterdesignprob-lem — mathematisch als ein Optimierungsproblem behandelt werden. Die ge-nerelle Idee ist, die Filterkoeffizienten derart zu variieren, dass die Abweichungvon der idealen Transferfunktion minimal wird. Für nichtrekursive Filter ist dieTransferfunktion in den Koeffizienten hr linear:

h(k) =R∑r=1

hr fr (k). (10.64)


a

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

b

0 0.2 0.4 0.6 0.8 10.99

0.995

1

1.005

1.01

Abbildung 10.21: Transferfunktion des mit der gewichteten Methode der kleins-ten Quadrate optimierten Interpolationskerns nach (10.68) bzw. (10.69) mit R =3 (durchgezogen) und nach (10.70) für R = 2 (gestrichelt). Die Wichtungsfunkti-on, in a als dünne Kurve gezeigt, hat ihr Maximum bei k ≈ 0,3. b zeigt einenkleinen Ausschnitt der Abbildungen in a zur besseren Beurteilung der kleinenAbweichungen von den idealen Werten.

Die ideale Transferfunktion sei hI(k). Dann sollte die Optimierung das folgendeIntegral minimieren:

1∫0

w(k)

∣∣∣∣∣∣⎛⎝ R∑r=1

hr fr (k)

⎞⎠− hI(k)

∣∣∣∣∣∣n

dk. (10.65)

In diesen Ausdruck wurde eine Wichtungsfunktion w(k) eingeführt, die dieSteuerung der Optimierung für einen bestimmten Wellenzahlbereich erlaubt.Gleichung (10.65) berücksichtigt eine beliebige Ln-Norm. Meistens wird die L2-Norm verwendet. Das bedeutet, dass (10.65) die Summe der Quadrate mini-miert.

Das Minimierungsproblem führt mit der L2-Norm für die R Koeffizienten desFilters zu einem linearen Gleichungssystem, das einfach gelöst werden kann:

Mh = d (10.66)

mit

d =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

hIf1

hIf2

...

hIfR

⎤⎥⎥⎥⎥⎥⎥⎥⎦

und M =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

f 21 f1f2 · · · f1fR

f1f2 f 22 · · · f2fR

.... . .

...

f1fR f2fR · · · f 2R

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

wobei die Abkürzung

e(k) =1∫0

w(k) · e(k)dk (10.67)

für eine beliebige Funktion e(k) verwendet wurde.


Die Flexibilität der Methode der kleinsten Quadrate liegt in der freien Wahl derWichtungsfunktion w(k) und der sorgfältigen Beachtung der Symmetrieeigen-schaften und anderer Eigenschaften der Filter durch die Wahl der Transferfunk-tion in (10.64). Als Beispiel untersuchen wir die beiden Ansätze

h(k) =R∑r=1

hr cos(

2r − 12

πk)

(10.68)

und

h(k) = cos(

12πk

)+

R∑r=2

hr[

cos(

2r − 32

πk)− cos

(12πk

)]. (10.69)

Beide Filter ergeben durch die Wahl der Kosinusfunktion eine symmetrischeMaske. Gleichung (10.69) legt fest, dass h(0) = 1, d. h., mittlere Grauwertebleiben bei der Interpolation erhalten. Dies wird erreicht, indem der erste Ko-effizient h1 nicht variiert, sondern auf eins minus der Summe aller anderenKoeffizienten gesetzt wird. Gleichung (10.68) erfüllt diese Bedingung nicht. Ab-bildung 10.21 vergleicht optimale Transferfunktionen mit beiden Ansätzen für3 Filterkoeffizienten (R = 3). Der zusätzliche Freiheitsgrad in (10.68) führt imVergleich zur Polynom- und zur kubischen B-Spline-Interpolation (Abb. 10.19)zu bedeutend besseren Lösungen für den Wellenzahlbereich, in dem die Wich-tungsfunktion maximal ist.Noch bessere Interpolationsmasken resultieren, wenn eine Kombination vonnichtrekursiven und rekursiven Filtern wie bei der kubischen B-Spline-Interpo-lation (Abschn. 10.6.1) verwendet wird:

h(k) =cos

(1/2 πk

)+

R∑r=2

hr[cos

((2r − 3)/2 πk

)− cos

(1/2 πk

)]1−α+α cos

(πk

) . (10.70)

Bei rekursiven Filtern wird die Optimierung durch die Methode der kleinstenQuadrate nichtlinear, da h(k) in (10.70) bezüglich des Parameters α des rekur-siven Filters nichtlinear ist. In diesem Fall sind iterative Techniken erforderlich,um das Optimierungsproblem zu lösen. Abb. 10.21a und b zeigt die Transfer-funktion für R = 2. Eine ausführliche Diskussion von Interpolationsfiltern sowieTabellen mit optimierten Filtern findet sich bei Jähne [99].

10.6.3 Schnelle Algorithmen für geometrische Transformationen

Nach der ausführlichen Behandlung der Interpolation haben wir die Grundlagen,um schnelle Algorithmen für die verschiedenen geometrischen Transformatio-nen zu entwickeln. Im Grunde beruhen alle schnellen Interpolationsalgorith-men auf den folgenden beiden Prinzipien:effiziente Berechnung und Nutzung der Interpolationskoeffizienten sowie Auf-teilung in eindimensionale geometrische Transformationen.Zunächst sind viele Berechnungen erforderlich, um die Interpolationskoeffizi-enten für Teilverschiebungen zu berechnen, da jede Verschiebung unterschied-liche Interpolationskoeffizienten erfordert. Also müssen wir die Transforma-tionen derart konstruieren, dass wir für einen bestimmten Transformations-vorgang nur konstante Verschiebungen benötigen. Ist dies nicht möglich, mag

10.7 Mehrkanal-Punktoperationen 305

es immer noch effizient sein, zunächst die Interpolationskoeffizienten für ver-schiedene Teilverschiebungen zu berechnen und sie für die spätere Verwendungzu speichern.

Dann haben wir in Abschn. 10.5.1 gesehen, dass die Interpolation eine sepa-rierbare Prozedur ist. Nutzt man diese grundlegende Tatsache, lässt sich dieAnzahl der Operationen beträchtlich reduzieren. In den meisten Fällen ist esmöglich, die zwei- und höherdimensionalen geometrischen Transformationenin eine Serie von 1D-Transformationen zu zerlegen.

10.7 Mehrkanal-Punktoperationen

10.7.1 Definitionen

Punktoperationen lassen sich zu Mehrkanal-Punktoperationen (Mehrkomponen-ten-Punktoperationen) verallgemeinern. Die Operation hängt immer noch nurvom Wert des einzelnen Pixels ab, aber der Eingabewert kann ein Vektor statteines Skalars sein, und ebenso kann das Ausgangsbild ein Mehrkanalbild sein.Für homogene Punktoperationen, die nicht von der Position des Pixels im Bildabhängen, können wir schreiben:

G′ = P(G) mitG′ = [

G′0, G′1, . . . , G

′l, . . . , G

′L−1

],

G = [G0, G1, . . . , Gk, . . . , GK−1] ,(10.71)

wobei G′l und Gk die Komponenten l und k der Mehrkanalbilder G′ und G mitL bzw. K Kanälen sind.

Eine wichtige Unterklasse von Mehrkomponenten-Punktoperationen sind linea-re Operationen. Dabei ist jede Komponente des Ausgangsbildes G′ in (10.71)eine Linearkombination der Komponenten des Eingangsbildes G:

G′l =K−1∑k=0

PlkGk, (10.72)

wobei Plk konstante Koeffizienten sind. Deshalb ist eine allgemeine lineareMehrkomponenten-Punktoperation durch eine Matrix der Koeffizienten Plk ge-geben. Dann können wir (10.72) abkürzend mit einer Koeffizientenmatrix Pschreiben:

G′ = PG. (10.73)

Wenn die Komponenten der Mehrkanalbilder bei einer Punktoperation nichtvoneinander abhängig sind, werden alle Koeffizienten in P mit Ausnahme derauf der Hauptdiagonalen liegenden null. Bei K-kanaligen Eingangs- und Aus-gangsbildern bleiben lediglich K unterschiedliche Punktoperationen, eine fürjeden Kanal. Eine vektorielle Punktoperation reduziert sich schließlich auf ei-ne skalare Standard-Punktoperation, wenn dieselbe Punktoperation auf jedenKanal eines Mehrkomponentenbildes angewandt wird.

Bei gleicher Anzahl von Ausgangs- und Eingangsbildern können lineare Punkt-operationen als Koordinatentransformationen aufgefaßt werden. Hat die Ma-trix der Koeffizienten in (10.73) einen Rang R < K, projiziert die Mehrkanal-Punktoperation den K-dimensionalen Raum auf einen R-dimensionalen Teil-raum.


Generell sind lineare Mehrkanal-Punktoperationen relativ einfach zu handha-ben, da sie mit den Konzepten der linearen Algebra beschrieben werden können.Bei quadratischen Matrizen können wir zum Beispiel leicht die Bedingung ange-ben, wann zu einer Mehrkanal-Punktoperation eine inverse Operation existiert,und sie berechnen.

Bei nichtlinearen Mehrkomponenten-Punktoperationen müssen die linearen Ko-effizienten in (10.72) und (10.73) durch nichtlineare Funktionen ersetzt werden:

G′l = Pl(G0,G1, . . . ,GK−1). (10.74)

Nichtlineare Mehrkomponenten-Punktoperationen können nicht wie lineare Ope-rationen generell, sondern müssen individuell behandelt werden. Die Komple-xität kann beträchtlich reduziert werden, wenn eine Mehrkanal-Punktoperationin ihre linearen und nichtlinearen Teile trennbar ist.

10.7.2 Dyadische Punktoperationen

Operationen, an denen zwei Bilder beteiligt sind, werden dyadische Punktope-rationen genannt. Jede dyadische Bildoperation lässt sich schreiben als

G′mn = P(Gmn,Hmn). (10.75)

Dyadische homogene Punktoperationen können als LUT-Operationen implemen-tiert werden. Wenn die Grauwerte der beiden EingangsbilderQ unterschiedlicheWerte annehmen, gibt es Q2 Kombinationen von Eingangsparametern und da-mit auch ebenso viele verschiedene Ausgabewerte. Also müssen für 8-Bit-Bilder64k Werte berechnet werden. Dies ist bei einem 512× 512-Bild immer noch einViertel weniger als bei direkter Berechnung jedes Pixels. Alle möglichen Ergeb-nisse der dyadischen Operation können in einer großen LUT L mit Q2 = 64 kEinträgen folgendermaßen gespeichert werden:

L(28 p + q) = P(p, q), 0 ≤ p,q < Q. (10.76)

Das obere und das untere Byte der LUT-Adresse werden durch die Grauwerteder Bilder G bzw. H gegeben.

Einige Bildverarbeitungssysteme beinhalten eine 16-Bit-LUT als modulares Ver-arbeitungselement. Die Berechnung einer dyadischen Punktoperation entwe-der über eine in die Hardware integrierte oder mittels einer Software-LUT istoft bedeutend schneller als eine direkte Implementierung, besonders wenn dieOperation aufwendig ist. Zusätzlich ist es dann einfacher, Ausnahmen wie dieDivision durch null oder Unter- und Überlauf zu überwachen.

Eine dyadische Punktoperation kann verwendet werden, um zwei Punktopera-tionen gleichzeitig durchzuführen. So können zum Beispiel Betrag und Phaseeines komplexwertigen Bildes (r , i) gleichzeitig mit einer einzigen dyadischenLUT-Operation berechnet werden, wenn wir die Ausgabe auf 8 Bit begrenzen:

L(28 r + i) = 28√r 2 + i2 + 128

πarctan

(ir

), 0 ≤ r , i < Q. (10.77)

Der Betrag wird im oberen Byte gespeichert und die Phase — skaliert auf dasIntervall [−128,127] — im unteren Byte.


10.8 Übungsaufgaben

10.1: Kontrasterhöhung

Interaktive Demonstration der Kontrasterhöhung durch Lookup-Tabellen(dip6ex10.01)

10.2: Inspektion inhomogener Beleuchtung

Interaktive Illustration der objektiven Inspektion von Beleuchtungsinhomo-genitäten mittels homogener Punktoperationen (dip6ex10.02)

10.3: Überlaufdetektion

Interaktive Demonstration der Detektion von Unterlauf bzw. Überlauf mit-tels Histogrammen (dip6ex10.03)

10.4: Homogene Punktoperationen

Interaktive Demonstration homogener Punktoperationen (dip6ex10.04)

10.5: ∗ Lookup-Tabellen

Mit Lookup-Tabellen lassen sich homogene Punktoperationen schnell be-rechnen. Geben Sie die Gleichungen an, mit denen sich die Lookup-Tabellenfür folgende Punktoperationen berechnen lassen, wenn das Bild Q = 2P

Grauwerte ausweist, und überlegen Sie, ob die Punktoperationen umkehr-bar sind:

1. Negativbildung

2. Eine Lookup-Tabelle, die vor Unter- bzw. Überlauf der Grauwerte warnt.Der Unterlauf soll blau und der Überlauf rot dargestellt werden. Hinweis:zur Darstellung von Farbe benötigt man insgesamt drei Lookup-Tabellen,je eine für die Farben rot, grün und blau (additive Farbmischung).

3. Kontrastspreizung: Ein kleiner Bereich von S Grauwerten soll auf denvollen Grauwertbereich von 2P Grauwerten abgebildet werden.

10.6: ∗Korrektur einer nichtlinearen Kennlinie

Mit Lookup-Tabellen lassen sich auch nichtlineare Kennlinien von Sensorenkorrigieren.

1. Erstellen Sie eine komplette Lookup-Tabelle für folgende Kennlinie:

g′ = a0 + a1g + a2g2

wobei a0 = 0, a1 = 0.7 und a2 = 0.02 bei einem Grauwertumfang von16 Werten (4 Bit, Grauwerte 0 bis 15). Beachten Sie, dass Sie auf unter-schiedliche Art und Weise runden können: a) abrunden (nächst kleinereGanzkommazahl nehmen) und b) die Ganzkommazahl mit der geringstenAbweichung nehmen (also abrunden für eine Mantisse < 0.5 und aufrun-den für ≥ 0.5.

2. Wie wirken sich die Rundungsfehler aus?


Problem 10.7: ∗∗Berechnung von Polarkoordinaten mit Lookup Tabelle

Mit Lookup Tabellen lassen sich bei geringem Grauwertumfang der Bilder auchschnell beliebige dyadische Funktionen (mit zwei Eingangsparameter) berech-nen.

1. Geben Sie an, wie eine Lookup-Tabelle für die Berechnung von Polarkoordi-naten zu berechnen ist für P Bit Auflösung:

r = (x2 +y2)1/2, φ = (2(P−1)/π) arctan(y/x)

2. Wieviele Einträge hat die Tabelle?

Problem 10.8: Mittelung verrauschter Bildsequenzen

Interaktive Demonstration der Mittelung verrauschter Bildsequenzen; Berech-nung des Varianzbildes (dip6ex10.05)

Problem 10.9: Korrektur inhomogener Beleuchtung

Interaktive Demonstration der Korrektur inhomogener Beleuchtung durch in-homogene Punktoperationen (dip6ex10.06)

Problem 10.10: Fensterfunktionen bei der Fouriertransformation

Interaktive Demonstration der Benutzung von Fensterfunktionen bei der Fou-riertransformation (dip6ex10.07)

Problem 10.11: Interpolation

Interaktive Demonstration der Genauigkeit verschiedener Interpolationsverfah-ren beim subpixelgenauen Skalieren, Verschieben und Rotieren von Bildern(dip6ex10.08)

Problem 10.12: ∗Lineare und kubische Interpolation

Gegeben sei ein kosinusförmiges Signal, das vier- bzw. achtmal pro Wellenlängeabgetastet wurde. Welche Signalform entsteht, wenn aus diesen abgetastetenSignalen durch lineare bzw. kubische Interpolation wieder ein kontinuierlichesSignal erzeugt wird?


Holst [87, 89] und Biberman [14] behandeln die radiometrische Kalibrierung vonBildsensoren und Kameras im sichtbaren und infraroten Wellenlängenbereich.Eine detaillierte Diskussion von Interpolationsfiltern mit Tabellen von Filterko-effizienten ist bei Jähne [99, Kapitel 8] zu finden. Leser, die sich für den mathe-matischen Hintergrund der Interpolation interessieren, seien auf Davis [37] undLancaster und Salkauskas [130] verwiesen. Eine ausführliche Behandlung geo-metrischer Transformationen findet sich in der Monografie von Wolberg [242].

Teil III

Merkmalsextraktion

11 Mittelung

11.1 Einleitung

In diesem Kapitel beschäftigen wir uns mit Nachbarschaftsoperationen,um die elementare Aufgabe der Mittelung durchzuführen. Diese Opera-tion ist einer der Bausteine für komplexere Merkmalsextraktionsopera-toren, die in Kapitel 13–15 besprochen werden.

Im einfachsten Fall werden Objekte als Regionen konstanter Strah-lungsstärke bzw. Grauwerte identifiziert. Durch Mittelung erhalten wirrepräsentative Mittelwerte der Grauwerte innerhalb des Objekts. Die-ser Ansatz beinhaltet natürlich ein einfaches Modell des Bildinhalts undfunktioniert nur, wenn das interessierende Objekt durch konstante Grau-werte charakterisiert ist, die sich eindeutig vom Hintergrund und/oderanderen Objekten unterscheiden. Diese Bedingung ist jedoch in der rea-len Welt nur selten erfüllt. Im Allgemeinen liegen variierende Grauwert-intensitäten vor, die eine Objekteigenschaft sind oder beim Bilderzeu-gungsprozess entstehen. Typische Fälle sind Rauschen, eine ungleich-mäßige Beleuchtung oder ein inhomogener Hintergrund .

Bei komplexeren Anwendungen ist es unmöglich, Objekte anhand ei-ner einzigen Eigenschaft vom Hintergrund zu unterscheiden. In solchenFällen kann es notwendig sein, mehr als ein Merkmalsbild für ein unddasselbe Bild zu berechnen. Wir erhalten ein Mehrkanalbild oder vekto-rielles Eigenschaftsbild . Der gleichen Situation begegnen wir, wenn mehrals ein Bild einer Szene vorliegt, z. B. bei Farbbildern oder allen Typenvon Multispektralbildern. Daher müssen wir die Mittelwertbildung auchauf Mehrkanalbilder anwenden. Bildsequenzen erfordern eine Ausdeh-nung der Mittelwertbildung auf die Zeitkoordinate zu einer räumlich-zeitlichen Mittelung.

11.2 Eigenschaften von Glättungsfiltern

Die Faltung bildet die Basis für eine große Klasse von Mittelungs- oderGlättungsfiltern. Diese Filter haben eine Reihe gemeinsamer Eigenschaf-ten, die in diesem Abschnitt besprochen werden.


312 11 Mittelung

11.2.1 Verschiebungsfreiheit

Ein Glättungsoperator darf die Objektposition nicht verändern. Jede Ver-schiebung durch einen Operator bei der Bildvorverarbeitung würde zuFehlern bei der anschließenden Positionsbestimmung und eventuell beider Berechnung anderer geometrischer Eigenschaften eines Objekts füh-ren. Um dies zu vermeiden, muss die Transferfunktion eines Filters reellsein. Ein Filter dieser Eigenschaft wird als nullphasiger Filter bezeichnet,da er bei keiner der periodischen Komponenten eines Bildes eine Pha-senverschiebung bewirkt. Eine reelle Transferfunktion impliziert einesymmetrische Filtermaske (Abschn. 2.3). Eine W -dimensionale symme-trische Faltungsmaske wird definiert durch

1D: h−n = hn2D: h−m,n = hm,n, hm,−n = hm,n3D: h−l,m,n = hl,m,n, hl,−m,n = hl,m,n, hl,m,−n = hl,m,n.

(11.1)

Die Symmetriebeziehungen erleichtern die Berechnung der Transfer-funktionen beträchtlich, da nur der Kosinusterm des komplexen Expo-nenten der Fouriertransformation in den Gleichungen verbleibt. DieTransferfunktion für symmetrische 1D-Masken mit einer ungeraden Zahlvon Koeffizienten (2R + 1) ist

h(k) = h0 + 2R∑v=1

hv cos(vπk). (11.2)

Die Transferfunktion einer eindimensionalen symmetrischen Maske miteiner geraden Zahl von Koeffizienten (2R) wird gegeben durch

h(k) = 2R∑v=1

hv cos((v − 1/2)πk). (11.3)

Es ist zu beachten, dass die Wellenzahlen halbzahlig sind (1/2,3/2, ...),da aus Gründen der Symmetrie das Ergebnis der Faltung mit einer gera-den Maske auf dem Zwischengitter liegt.

Für eine zweidimensionale symmetrische Maske mit ungerader Zahlvon Koeffizienten in beiden Richtungen ergibt sich entsprechend

h(k) = h00

+ 2r∑v=1

h0v cos(vπk1)+R∑u=1

hu0 cos(uπk2)

+ 4R∑u=1

R∑v=1

huv cos(vπk1) cos(uπk2).

(11.4)

Eine weitergehende Diskussion der Eigenschaften von bis zu dreidimen-sionalen symmetrischen Masken finden sich bei Jähne [99].

11.2 Eigenschaften von Glättungsfiltern 313

11.2.2 Erhaltung des Mittelwerts

Der Mittelwert sollte bei einem Glättungsoperator erhalten bleiben. Da-her ist die Transferfunktion für die Wellenzahl 0 eins und ebenfalls dieSumme aller Koeffizienten der Maske eins:

1D: h(0) = 1∑nhn = 1

2D: h(0) = 1∑m

∑nhmn = 1

3D: h(0) = 1∑l

∑m

∑nhlmn = 1.

(11.5)

11.2.3 Monoton fallende Transferfunktion

Intuitiv erwarten wir, dass jeder Glättungsoperator feinere Strukturenstärker abschwächt als gröbere. Anders gesagt, ein Glättungsoperatorsollte nicht eine bestimmte Struktur verschwinden lassen, während klei-nere Strukturen immer noch im Bild verbleiben. Mathematisch ausge-drückt bedeutet dies, dass die Transferfunktion monoton mit der Wel-lenzahl abnehmen muss:

h(k2) ≤ h(k1) wenn k2 > k1. (11.6)

Wir können eine strengere Bedingung vorgeben, nach der die Trans-ferfunktion für die höchste Wellenzahl null ist:

1D: h(1) = 0

2D: h(k1,1) = 0, h(1, k2) = 0

3D: h(k1, k2,1) = 0, h(k1,1, k3) = 0, h(1, k2, k3) = 0.

(11.7)

Zusammen mit der Monotoniebedingung und der Erhaltung des Mit-telwertes bedeutet dies, dass die Transferfunktion für jeden Glättungs-operator monoton von eins nach null abnehmen sollte.

11.2.4 Isotropie

Bei den meisten Anwendungen sollte zur Vermeidung von Richtungsab-hängigkeiten die Glättung in allen Richtungen gleich sein. Also solltenFiltermaske und Transferfunktion isotrop sein. Dann hängt die Filter-maske nur von der Entfernung vom zentralen Pixel und die Transfer-funktion nur vom Betrag der Wellenzahl ab:

h(x) = h(|x|) and h(k) = h(|k|). (11.8)

Im diskreten Raum kann diese Bedingung natürlich nur annähernd er-füllt werden. Ein wichtiges Ziel zur Optimierung von Glättungsfiltern istalso die Konstruktion diskreter Masken mit möglichst geringer Aniso-tropie.

314 11 Mittelung

11.3 Rechteckfilter

11.3.1 Einführung

Glättungsfilter müssen die Bildpunkte in einem kleinen Bereich mitteln.Die einfachste Methode ist die, alle Bildpunkte innerhalb der Filtermaskezu addieren und die Summe durch die Anzahl der Pixel zu teilen. Solchein einfaches Filter wird Rechteckfilter genannt. An Rechteckfiltern lässtsich anschaulich erläutern, wie ein gutes Filter konstruiert wird. ZurEinführung betrachten wir ein 1× 3-Filter:

3R = 13

[1 1 1

]. (11.9)

Der Faktor 1/3 skaliert das Ergebnis der Faltungssumme. Nur so bleibtder Mittelwert (Abschn. 11.2.2) und damit der Grauwert eines Bildpunk-tes in einer Region mit konstanten Grauwerten erhalten. Wir wendendiese Maske zunächst auf eine vertikale Kante an:

......

......

· · · 0 0 1 1 · · ·· · · 0 0 1 1 · · ·· · · 0 0 1 1 · · ·

......

......

∗ 13

[1 1 1

]=

......

......

· · · 0 1/3 2/3 1 · · ·· · · 0 1/3 2/3 1 · · ·· · · 0 1/3 2/3 1 · · ·

......

......

Wie wir bei einer Glättungsoperation erwarten, wird aus der schar-fen Kante ein allmählicher, rampenartiger Übergang von null auf eins.Glättungsfilter schwächen Strukturen mit hohen Wellenzahlen ab. Wirprüfen dies zuerst an einer vertikalen Struktur mit einer Wellenlänge vondrei Bildpunkten:

......

......

......

1 –2 1 1 –2 1 · · ·1 –2 1 1 –2 1 · · ·1 –2 1 1 –2 1 · · ·...

......

......

...

∗ 13

[1 1 1

]=

......

......

......

0 0 0 0 0 0 · · ·0 0 0 0 0 0 · · ·0 0 0 0 0 0 · · ·...

......

......

...

Das 1× 3-Rechteckfilter filtert also eine Struktur mit einer Wellenlän-ge von drei Pixeln vollständig heraus. Wie in Abschn. 11.2.3 besprochen,erwarten wir von einem guten Glättungsfilter, dass es alle Strukturen miteiner Wellenzahl oberhalb einer gewissen Grenzwellenzahl herausfiltert.Dies ist bei der betrachteten 1× 3-Rechteckmaske allerdings nicht derFall. Für eine Struktur mit einer Wellenlänge von zwei Pixeln dämpft sielediglich die Amplitude auf 1/3:

11.3 Rechteckfilter 315

a

0 0.2 0.4 0.6 0.8 1-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

3

57

9

~k

b

~k0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

24

816

32

Abbildung 11.1: Transferfunktionen eindimensionaler Glättungsfilter: a Recht-eckfilter mit 3, 5, 7 und 9 Koeffizienten; b Binomialfilter Bp mit p = 2, 4, 8, 16und 32.

......

......

· · · 1 –1 1 –1 · · ·· · · 1 –1 1 –1 · · ·· · · 1 –1 1 –1 · · ·

......

......

∗ 13

[1 1 1

]=

......

......

· · · −1/3 1/3 −1/3 1/3 · · ·· · · −1/3 1/3 −1/3 1/3 · · ·· · · −1/3 1/3 −1/3 1/3 · · ·

......

......

11.3.2 1D-Rechteckfilter

Nach den einführenden Betrachtungen diskutieren wir jetzt die Eigen-schaften von Rechteckfiltern quantitativ durch Berechnung der Trans-ferfunktion. Wir beginnen mit 1D-Filtern. Nach den Überlegungen inAbschn. 11.2.1 können wir (11.2) benutzen, um die Transferfunktion desRechteckfilter mit der Maske (11.9) zu berechnen. Nur die Koeffizientenh0 = h1 = 1/3 sind ungleich null, und die Transferfunktion reduziertsich deswegen auf

3r (k) = 13+ 2

3cos(πk). (11.10)

Die Transferfunktion zeigt Abb. 11.1a. Unsere exemplarischen Berech-nungen am Anfang dieses Abschnitts sind damit belegt. Die Transfer-funktion hat eine Nullstelle bei k = 2/3. Dies entspricht einer Wellen-zahl, die dreimal pro Wellenlänge abgetastet wird. Die kleinste möglicheWellenlänge (k = 1), die zweimal pro Wellenlänge abgetastet wird, wirdlediglich mit dem Faktor 1/3 in der Amplitude gedämpft. Für k > 2/3ist die Transferfunktion negativ. Dies bedeutet die Vertauschung vonMinima und Maxima, was einer Phasenverschiebung um 180 ° entspricht.Diese Überlegungen zeigen, dass das 1× 3-Rechteckfilter kein gutes Glät-tungsfilter ist. Die Amplitudendämpfung nimmt nicht monoton mit der

316 11 Mittelung

a

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

b

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

Abbildung 11.2: Transferfunktion eines zweidimensionalen Rechteckfilters inPseudo-3D-Darstellung. a 3× 3-Rechteckfilter; b 7× 7-Rechteckfilter.

Wellenzahl zu, sondern oszilliert, und Strukturen mit den höchsten Wel-lenzahlen werden nicht stark genug abgeschwächt.

Größere Rechteckfilter

RR = 1R

⎡⎢⎣1 1 . . . 1︸︷︷︸

R−mal

⎤⎥⎦ (11.11)

mit R Koeffizienten und der Transferfunktion

Rr (k) = sin(πRk/2)R sin(πk/2)

(11.12)

zeigen kein verbessertes Verhalten. Die Oszillationen sind sogar nochausgeprägter und die Dämpfung ist lediglich proportional zur Wellen-zahl. Für große Filtermasken kann die diskrete Maske mit R Koeffi-zienten durch eine kontinuierliche Rechteckfunktion der Breite R ap-proximiert werden. Daher nähert sich die Transferfunktion einer sinc-Funktion (R5) für k 1:

Rr (k) ≈ sin(πRk/2)πRk/2

= sinc(Rk/2). (11.13)

11.3.3 2D-Rechteckfilter

Nun wenden wir uns den zweidimensionalen Rechteckfiltern zu. Umdie Berechnungen zu vereinfachen, nutzen wir die Separierbarkeit desFilters und zerlegen es in vertikale und horizontale 1D-Komponenten:

3R = 3Rx ∗ 3Ry = 19

⎡⎢⎣ 1 1 1

1 1 11 1 1

⎤⎥⎦ = 1

3

[1 1 1

]∗ 1

3

⎡⎢⎣ 1

11

⎤⎥⎦ .

11.3 Rechteckfilter 317

Abbildung 11.3: Glättung eines Testbildes mit konzentrischen Ringen mit einem5× 5- und einem 9× 9-Rechteckfilter im oberen rechten bzw. unteren linken Qua-dranten. Die maximale Wellenzahl k am Rande des Musters ist 0,6.

Die Transferfunktion des eindimensionalen Filters kennen wir bereitsaus (11.10). Für das vertikale Filter muss kx durch ky ersetzt werden.Da die Faltung im Ortsraum einer Multiplikation im Wellenzahlraum ent-spricht, ergibt sich die Transferfunktion von R ohne weitere Rechnung:

3r = 3rx3ry =[

13+ 2

3cos(πkx)

][13+ 2

3cos(πky)

]. (11.14)

11.3.4 Evaluierung

Aus (11.14) und Abb. 11.2a können wir schließen, dass auch 2D-Recht-eckfilter schlechte Tiefpassfilter sind. Wie bei eindimensionalen Filternsind auch größere 2D-Rechteckfilter nicht besser. Abbildung 11.2b zeigtals Beispiel eine 7× 7-Maske. Zu den bereits besprochenen Nachteilender eindimensionalen Filter kommt hinzu, dass die Transferfunktionnicht isotrop ist, d. h. die Glättung hängt von der Richtung ab.

Wenden wir ein Rechteckfilter auf ein beliebiges Bild an, wirken sichdie besprochenen Nachteile zwar aus, sind aber schwer quantitativ zufassen (Abb. 11.6). Sie werden jedoch sofort quantitativ erkennbar, wennwir ein sorgfältig aufgebautes Testbild verwenden. Das Bild in Abb. 11.3besteht aus konzentrischen Ringen, wobei der Grauwert sich in radialerRichtung sinusförmig ändert und die Wellenlänge mit der Entfernungvom Zentrum abnimmt. Mit diesem Testbild wird der Fourierraum in denOrtsraum abgebildet. Daher können wir die Transferfunktion, d. h. die

318 11 Mittelung

Veränderung der Amplituden und die Phasenverschiebung, unmittelbarsehen, wenn wir ein Filter auf das Ringtestmuster anwenden. Faltenwir dieses Bild mit einem 5× 5- oder einem 9× 9-Rechteckfilter, sinddie Abweichungen von einer isotropen Transferfunktion gut sichtbar.Bestimmte Wellenzahlen verschwinden ganz, und in einigen Bereichenändern sich Grauwertmaxima zu Minima oder umgekehrt. Ursache dafürist eine Phasenverschiebung um 180° aufgrund von negativen Werten inder Transferfunktion.

Aus dieser Erfahrung können wir eine wichtige Erkenntnis gewinnen:Wir dürfen die Eigenschaften einer Filteroperation nicht nach ihrer Wir-kung auf beliebige Bilder bewerten, weil wir den falschen Eindruck ge-winnen können, dass das Filter korrekt arbeitet. Das Auge erfaßt Bildereher qualitativ, während die quantitative Extraktion von Bildmerkmaleneine quantitative Analyse der Filtereigenschaften erfordert. Dazu gehörteine gründliche Analyse der Transferfunktion und die Anwendung derFilter auf sorgfältig ausgewählte Testbilder.

Nun kehren wir zur Frage zurück, warum Rechteckfilter so schlechteGlättungsfilter sind. Wir können versuchen, ein besseres Glättungsfilterdirekt im Wellenzahlraum zu konstruieren. Ein ideales Filter würde alleWellenzahlen oberhalb einer bestimmten Grenzwellenzahl abschneiden.Wir könnten also diese ideale Transferfunktion (eine Rechteckfunktion)verwenden und die Filtermaske mit einer inversen Fouriertransforma-tion berechnen. Hier jedoch stoßen wir auf zwei Probleme, die ohneexplizite Berechnung verstehbar sind: Zum einen ist die inverse Fourier-transformation einer Rechteckfunktion eine sinc-Funktion, was bedeu-tet, dass die Koeffizienten der Filtermaske nur proportional zur Entfer-nung vom zentralen Bildpunkt abnehmen. Daher müssten wir sehr großeFiltermasken nehmen. Das Filter hat auch die ungünstige Eigenschaft,auf eine Kante mit starkem Überschwingen zu reagieren.

11.3.5 Schnelle Berechnung

Trotz all dieser Nachteile haben Rechteckfilter auch einen entscheiden-den Vorteil. Man kommt gemäß der folgenden Gleichung unabhängigvon der Filtergröße mit nur drei Rechenoperationen pro Bildpunkt aus,als hätte man ein rekursives Filter:

g′m = g′m−1 +1

2r + 1(gm+r − gm−r−1). (11.15)

Diese Rekursion wird klar, wenn wir die Berechnung der Faltung an be-nachbarten Bildpunkten vergleichen. Wird die Rechteckmaske um einePosition nach rechts verschoben, gilt der gleiche Wichtungsfaktor für al-le Bildpunkte mit Ausnahme des letzten und des ersten. Also könnenwir einfach das Ergebnis der vorigen Faltung, (g′m−1), verwenden, denersten Bildpunkt (gm−r−1), der sich gerade aus der Maske herausbewegt

11.4 Binomialfilter 319

hat, subtrahieren und den Grauwert (gm+r ) des Pixels addieren, das ge-rade in die Maske hineingelaufen ist. Auf diese Weise ist die Berechnungnicht von der Größe des Rechteckfilters abhängig. Nur eine Addition, ei-ne Subtraktion und eine Multiplikation sind notwendig, um die Filterungdurchzuführen.

11.4 Binomialfilter

11.4.1 Grundlagen

Aus unserer Erfahrung mit den Rechteckfiltern schließen wir, dass Filter-design ein komplexes Optimierungsproblem ist. Wählen wir eine kleinerechteckige Filtermaske, erhalten wir eine schlechte Transferfunktion.Beginnen wir mit einer idealen Transferfunktion, resultieren große Fil-termasken und überschwingende Filterantworten. Der Grund für diesesVerhalten ist eine fundamentale Beziehung zwischen Glattheit und Kom-paktheit von Fouriertransformationspaaren (Abschn. 2.3.4). Eine Kanteist eine Diskontinuität des Signals und führt in der ersten Ableitung zueinem Impuls. Die Fouriertransformierte eines Impulses ist gleichmä-ßig über den gesamten Fourierraum verteilt (R5). Berücksichtigen wirdie Integraleigenschaft der Fouriertransformation (R4), bedeutet dieIntegration der Ableitung im Ortsraum eine Division durch k im Fourier-raum. Dann wissen wir ohne genauere Berechnung, dass im eindimen-sionalen Fall die Einhüllende der Fouriertransformierten einer Funktion,die im Ortsraum eine Diskontinuität aufweist, im Wellenzahlraum nichtschneller als mit k−1 abfällt. Genau dies haben wir für die Rechteckfunk-tion gefunden, deren Fouriertransformierte die sinc-Funktion ist (R5).

Die Berücksichtigung dieser Grundtatsache führt uns zu besserenGlättungsfiltern. Eine Bedingung fordert, dass die Filtermasken allmäh-lich gegen null gehen.

11.4.2 1D-Binomialfilter

Wir besprechen nun eine Klasse von Glättungsfiltern, die dieses Kriteri-um erfüllt und gleichzeitig sehr effizientes Rechnen erlaubt. Außerdemsind diese Filter exzellente Beispiele dafür, wie komplexere Filter aus ein-fachen Komponenten zusammengesetzt werden können. Die einfachsteund elementarste Glättungsmaske, die wir uns vorstellen können, ist

B = 12[1 1] . (11.16)

Sie mittelt die Grauwerte zweier benachbarter Bildpunkte. Wenden wirdiese Maske R-mal hintereinander an, ergibt sich folgende Filtermaske

320 11 Mittelung

bzw. Operatorgleichung:

12R[1 1]∗ [1 1]∗ . . .∗ [1 1]︸︷︷︸

R times

, BR = BB . . .B︸︷︷︸R times

. (11.17)

Beispiele für die resultierenden Filtermasken sind:

B2 = 1/4 [1 2 1] B4 = 1/16 [1 4 6 4 1]B3 = 1/8 [1 3 3 1] B8 = 1/256 [1 8 28 56 70 56 28 8 1] . (11.18)

Aufgrund der Symmetriebedingung interessieren uns besonders die Mas-ken mit ungerader Anzahl Koeffizienten. Die Masken enthalten die Werteder diskreten Binomialverteilung. Tatsächlich entspricht die iterative Zu-sammensetzung der Maske durch aufeinanderfolgende Faltung mit der1/2 [1 1]-Maske dem Berechnungsschema des Pascalschen Dreiecks:

R f σ 2

0 1 1 01 1/2 1 1 1/42 1/4 1 2 1 1/23 1/8 1 3 3 1 3/44 1/16 1 4 6 4 1 15 1/32 1 5 10 10 5 1 5/46 1/64 1 6 15 20 15 6 1 3/27 1/128 1 7 21 35 35 21 7 1 7/48 1/256 1 8 28 56 70 56 28 8 1 2

(11.19)

Dabei ist R die Ordnung des Binoms, f der Skalierungsfaktor 2−R undσ 2 die Varianz, also die effektive Breite der Maske.

Die Berechnung der Transferfunktion einer Binomialmaske ist eben-falls einfach, da wir lediglich die Transferfunktion vonB kennen müssen.Dann ergibt sich die Transferfunktion von BR als die R-te Potenz:

bR(k) = cosR(πk/2). (11.20)

Für kleine Wellenzahlen gilt folgende Näherung:

bR(k) = 1− R8(πk)2 +

(3R2 − 2R

384

)(πk)4 +O(k6). (11.21)

Wie wir aus der graphischen Darstellung sehen (Abb. 11.1b), sind Binomi-alfilter wesentlich bessere Glättungsfilter als Rechteckfilter. Die Trans-ferfunktion nimmt monoton ab und geht bei den größten Wellenzahlengegen null. Die kleinste symmetrische Maske, B2, hat eine Halbwerts-breite von k/2. Das ist eine periodische Struktur, die pro Wellenlänge


Abbildung 11.4: Glättung eines Testbildes mit konzentrischen Ringen mit einemB4- und einem B16-Binomialfilter im oberen rechten bzw. unteren linken Qua-dranten. Die maximale Wellenzahl k am Rand des Musters ist 0,6.

gerade viermal abgetastet wird. Bei größeren Masken nähern sich sowohldie Transferfunktion als auch die Filtermaske der Gaußschen Verteilungmit einer äquivalenten Varianz. Größere Binomialmasken ergeben auf-grund der Unschärferelation (Abschn. 2.3.4) kleinere Halbwertsbreitenund damit eine kleinere Grenzfrequenz.

11.4.3 2D-Binomialfilter

Zweidimensionale Binomialfilter ergeben sich durch Faltung eines hori-zontalen mit einem vertikalen 1D-Binomialfilter:

BR = BRxBRy. (11.22)

Die einfachste Maske dieser Art ist eine 3× 3-Binomialmaske (R = 2):

B2 = 14

[1 2 1

]∗ 1

4

⎡⎢⎣ 1

21

⎤⎥⎦ = 1

16

⎡⎢⎣ 1 2 1

2 4 21 2 1

⎤⎥⎦ . (11.23)

Die Transferfunktion dieses zweidimensionalen Binomialfilters BRmit (R + 1)× (R + 1) Koeffizienten kann einfach aus den Transferfunk-tionen der eindimensionalen Filter (11.20) abgeleitet werden:

bR = bRybRx = cosR(πky/2) cosR(πkx/2), (11.24)

322 11 Mittelung

a

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

b

00.2

0.4

0.6

0.8

10

0.5

1

1.5

0

0.02

0.04

0.06

~k

θ

c

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

d

00.2

0.4

0.6

0.8

10

0.5

1

1.5

0

0.01

0.02

0.03

~k

θ

Abbildung 11.5: Transferfunktion von 2D-Binomialfiltern: a B2; b AnisotropieB2(k, θ)− B2(k,0) in einem (k, θ)-Diagramm; c B4; d wie b für B4.

Analog erhält man für ein 3D-Filter:

bR = bRz bRybRx = cosR(πkz/2) cosR(πky/2) cosR(πkx/2). (11.25)

Abbildung 11.5 zeigt die Transferfunktionen von B2 und B4. Bereitsdas kleine 3× 3-Filter zeigt bemerkenswert geringe Abweichungen voneiner isotropen Glättung. Größere Abweichungen von den kreisförmi-gen Konturlinien werden nur für höhere Wellenzahlen wahrgenommen,wenn die Transferfunktion auf 0,3 abgenommen hat (Abb. 11.5a). DieseEigenschaft können wir durch eine Taylorreihenentwicklung in k unterBenutzung von Zylinderkoordinaten k = [k, θ]T zeigen:

bR ≈ 1− R8(πk)2 + 2R2 − R

256(πk)4 − R cos 4θ

768(πk)4. (11.26)

Nur der Term zweiter Ordnung ist isotrop. Einer der Terme vierter Ord-nung enthält dagegen einen anisotropen Teil, der die Transferfunktionin Richtung der Diagonalen erhöht (Abb. 11.5a). Ein größeres Filter wirdweniger anisotrop, da der isotrope Term vierter Ordnung quadratischmit R wächst, während der anisotrope Term vierter Ordnung nur linearmit R zunimmt. Das 5× 5-Filter (Abb. 11.5b) ist schon deutlich wenigeranisotrop. Die geringe Anisotropie des Binomialfilters veranschaulichtauch die Anwendung auf das Ringtestbild in Abb. 11.4.


a b

c d

e f

Abbildung 11.6: Anwendung von Glättungsfiltern: a Originalbild; b 5× 5-Recht-eckfilter; c 9× 9-Rechteckfilter; d 17× 17-Binomialfilter (B16); e und f je ein Satzrekursiver Filter (11.37) läuft in horizontale und vertikale Richtung (e R = 2;f R = 16).

11.4.4 Evaluierung

Abbildung 11.6b und c zeigen die Wirkung einer Glättung mit zwei ver-schiedenen Binomialfiltern. Die Kanten werden unscharf. Feine Struk-turen wie die Äste der Bäume gehen verloren. Glätten ist eine Methodezur Rauschunterdrückung. Binomialfilter können den Rauschpegel von

324 11 Mittelung

a b

c d

e f

Abbildung 11.7: Rauschunterdrückung mithilfe von Glättungsfiltern: a Bild ausAbb. 11.6a mit Gaußschem Rauschen; b Bild mit Binärrauschen; c und d Bild abzw. b jeweils gefiltert mit einem 9× 9-Binomialfilter (B8); e und f Bild a bzw. bjeweils gefiltert mit einem 3× 3-Medianfilter (Abschn. 11.6.1).

mittelwertfreiem, normalverteiltem Rauschen (Abschn. 3.4.2) beträcht-lich verringern, allerdings nur auf Kosten der Detailauflösung (Abb. 11.7aund c). Binäres Rauschen bzw. Impulsrauschen, bei dem vereinzelte, zu-fällig verteilte Grauwerte falsche Werte haben (z. B. durch Übertragungs-fehler), wird durch lineare Filter nur schlecht unterdrückt. Solche Bilder

11.5 Schnelle großräumige Mittelung 325

werden unscharf, und die Fehler durch binäres Rauschen werden nichteliminiert, sondern nur verteilt.

11.4.5 Schnelle Berechnung

Wir beenden unsere Überlegungen zu Binomialfiltern mit einigen An-merkungen zu schnellen Algorithmen. Die direkte Berechnung einer(R + 1)× (R + 1)-Filtermaske erfordert (R + 1)2 Multiplikationen und(R + 1)2 − 1 Additionen. Zerlegen wir die Binomialmaske in die ele-mentaren Glättungsmasken 1/2 [1 1] und wenden diese in jeder Rich-tung R-mal an, brauchen wir nur 2R Additionen. Alle Multiplikationenkönnen viel effizienter als Shift-Operationen gehandhabt werden. DieBerechnung eines 17× 17-Binomialfilters erfordert zum Beispiel ledig-lich 32 Additionen und einige Shift-Operationen im Vergleich zu 289Multiplikationen und 288 Additionen für die direkte Berechnung.

11.5 Schnelle großräumige Mittelung

Trotz der effizienten Berechnung binomialer Glättungsfilter BR durchkaskadierte Faltung mit B nimmt der Rechenaufwand für Glättungsmas-ken mit kleinen Grenzwellenzahlen dramatisch zu. Das liegt daran, dassdie Standardabweichung der Filter nach (3.43) proportional der Quadrat-wurzel von R ist:

σ = √R/4. (11.27)

Wir betrachten eine Glättungsoperation mit einer isotropen Faltungs-maske mit einer Standardabweichung von σ = 1,73 Bildpunkten ent-sprechend einer Varianz von σ 2 = 3. Nach (11.27) müssen wir B12

anwenden. Das Filter benötigt selbst bei effizienter Implementierungdurch Nutzung der Separierbarkeit 24 (36) Additionen und 2 (3) Shift-Operationen für jeden Bildpunkt eines 2D- (3D-)Bildes. Wollen wir eineGlättung über die doppelte Entfernung durchführen (σ 2 = 12, Radius≈ 3,5, B48), vervierfacht sich die Anzahl der Additionen auf 96 (144)pro Bildpunkt im 2D- (3D-)Raum.

11.5.1 Mehrschrittmittelung

Das Problem der langsamen großräumigen Mittelung geht auf die gerin-ge Entfernung der Pixel zurück, die in der Elementarmaske B = 1/2 [1 1]gemittelt werden. Um dieses Problem zu überwinden, können wir dengleichen grundlegenden Mittelungsprozess verwenden, nur mit weitervoneinander entfernten Bildpunkten. Dabei erhöhen wir die Standardab-weichung für die Glättung entsprechend der Schrittweite. Im Zweidimen-sionalen können z. B. folgende Masken entlang den Diagonalen (σ · √2)

326 11 Mittelung

a

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

b

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

Abbildung 11.8: Transferfunktion der Binomialmaske a in DiagonalenrichtungB2x+yB2

x−y und b mit doppelter Schrittweite in Achsenrichtung B22xB2

2y .

benutzt werden:

Bx+y = 14

⎡⎢⎣ 1 0 0

0 2 00 0 1

⎤⎥⎦ , Bx−y = 1

4

⎡⎢⎣ 0 0 1

0 2 01 0 0

⎤⎥⎦ . (11.28)

Mögliche Masken mit doppelter Schrittweite entlang den Achsen (σ · 2)sind

B2x = 14[1 0 2 0 1] , B2y = 1

4

⎡⎢⎢⎢⎢⎢⎢⎣

10201

⎤⎥⎥⎥⎥⎥⎥⎦ , B2z = 1

4

⎡⎢⎢⎢⎢⎢⎢⎣

10201

⎤⎥⎥⎥⎥⎥⎥⎦z

. (11.29)

Die Indizes dieser Masken bezeichnen die Anzahl der Schritte ent-lang den angegebenen Koordinatenachsen zwischen zwei zu mittelndenBildpunkten. Bx+y mittelt die Grauwerte zweier benachbarter Bildpunk-te in Richtung der Hauptdiagonalen. B2x berechnet den Mittelwert ausden Werten eines Bildpunktes und seiner übernächsten Nachbarn in x-Richtung. Die Standardabweichung dieser Filter ist proportional zur Ent-fernung der Bildpunkte. Am effizientesten sind Mehrschrittmasken ent-lang den Achsen. Sie haben den zusätzlichen Vorteil, dass wegen derSeparierbarkeit die Algorithmen auf beliebig-dimensionale Bilder ange-wendet werden können.

Das Problem dieser Filter ist, dass sie eine Abtastung vornehmen.Demnach sind sie für große Wellenzahlen keine Glättungsfilter mehr.Wenn wir beispielsweise ein symmetrisches 2D-B2

2xB22y -Filter verwen-

den, arbeiten wir tatsächlich auf einem Gitter mit doppelter Gitterkon-stante im Ortsraum. Also hat das reziproke Gitter im Wellenzahlraum


a

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

~k y

~kx

b

00.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.1

-0.05

0

0.05

0.1

~k

θ

c

-1

-0.5

0

0.5

1 -1

-0.5

0

0.5

1

~k y

~kx

d

00.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.02

0

0.02

~k

θ

Abbildung 11.9: Transferfunktion von geschachtelten Mehrschritt-Binomialfiltern und deren Anisotropie: a B2

2B21, b B2

2 B21(k, θ) − B2

2 B21(k,0),

c B42B4

1, d B42 B

41(k, θ)− B4

2 B21(k,0). Die Anisotropie ist in Polarkoordinaten (k, θ)

als Abweichung zu der Transferfunktion in x-Richtung dargestellt.

die halbe Gitterweite, und die Transferfunktion wiederholt sich in bei-den Richtungen einmal (Abb. 11.8). Generell spiegeln die Nullstellen derTransferfunktionen von Masken mit größerer Schrittweite dieses rezi-proke Gitter wieder, weil die Binomialmasken an den Gitterlinien nullsind. Für eine Faltung mit zwei benachbarten Bildpunkten in Richtungder beiden Diagonalen wird das reziproke Gitter um 45° gedreht. DieGitterkonstante dieses Gitters ist um den Faktor

√2 kleiner als die des

Originalgitters.Werden diese Filter einzeln angewandt, helfen sie nicht viel. Wenn wir

sie jedoch kaskadiert verwenden, angefangen mit direkt benachbartenBildpunkten, bewirken die Nullstellen der Transferfunktionen, die fürjeden Pixelabstand unterschiedlich sind, dass die Transferfunktion fürgroße Wellenzahlbereiche gegen null geht.

Die kaskadierte Mehrschritt-Binomialfilterung ermöglicht einen deut-lichen Geschwindigkeitsgewinn für Glättungen im großen Maßstab. Beinormalen separierbaren Binomialfiltern ist die Anzahl der Berechnungenproportional zu σ 2 (O(σ 2)). Für Mehrschritt-Binomialfilterung hängtder Aufwand nur noch logarithmisch von σ (O(ldσ 2)) ab, wenn bei derKaskadierung der Filteroperationen die Schrittweite rekursiv verdoppelt

328 11 Mittelung

a b

c d

Abbildung 11.10: Kaskadierte Mehrschrittmittelung mit Schrittweitenverdoppe-lung nach (11.30), angewandt auf das Ring-Testmuster: a B2

2B21, b B2

4B22B2

1, cB4

2B41 und d B4

4B42B4

1.

wird:BR2S−1x · · ·BR8xBR4xBR2xBRx︸︷︷︸

S−mal

. (11.30)

Solch eine Maske hat die Standardabweichung

σ 2 = R/4+ R + 4R + . . .+ 4S−1R︸︷︷︸S−mal

= R12(4S − 1) (11.31)

und die TransferfunktionS−1∏s=0

cosR(2s−1πk). (11.32)


a b

c d

Abbildung 11.11: Kaskadierte Mehrschrittmittelung mit Schrittweitenverdoppe-lung nach (11.30), angewandt auf das Bild Abb. 11.6a mit a einem, b zwei, c dreiund d vier Schritten mit dem B4-Filter.

Danach sind für S Schritte nur RS Additionen erforderlich, währenddie Standardabweichung exponentiell mit ungefähr

√R/12 · 2S wächst.

Mit dem Parameter R können wir den Isotropiegrad und den Gradrestlicher Inhomogenitäten in der Transferfunktion anpassen. Eine sehreffiziente Implementierung erreichen wir mit R = 2 (B2 = 1/4[1 2 1] in je-der Richtung). Die verbleibenden Nebenmaxima bei hohen Wellenzahlenmit Amplituden von bis zu 0,08 stellen jedoch immer noch signifikanteStörungen dar (Abb. 11.9a, b, Abb. 11.10a, b).

Die nächstgrößere Maske (R = 4, B4 = 1/16[1 4 6 4 1] in jeder Rich-tung) reduziert die Anisotropie deutlich (Abb. 11.9c, d; Abb. 11.10c, d).Mit noch größeren Masken können solche Störungen weiter unterdrücktwerden. Abb. 11.11 zeigt die ersten vier Schritte der Mehrschrittmitte-lung mit der Maske B4. Man erkennt, wie schnell die Glättung durch dieVerdoppelung der Schrittweite voranschreitet.

330 11 Mittelung

11.5.2 Mehrgittermittelung

Die kaskadierte Mehrschrittmittelung kann durch Konvertierung in einMehrgitterverfahren noch weiter verbessert werden. Die Idee der Mehr-gittermittelung ist sehr einfach. Verwenden wir Masken mit größerenSchrittweiten, kann diese Operation auf entsprechend gröbere Gitter an-gewendet werden. Das bedeutet, dass die letzte Operation vor Verwen-dung einer Maske mit größerer Schrittweite die Faltung lediglich für die-jenigen Gitterpunkte, die von dem nachfolgenden gröberen Gitteropera-tor berücksichtigt werden, berechnen muss. Diese Abtastprozedur wirdmit einer speziellen Syntax im Index gekennzeichnet. Ox|2 bedeutet z. B.:Wende den Operator in x-Richtung an, und rücke die Maske jeweils umzwei Pixel vor. Demnach hat das Ergebnis des Filteroperators nur halbso viele Bildpunkte in x-Richtung wie das Eingangsbild.

Mit der Mehrgittermittelung wird die Anzahl der Berechnungen imWesentlichen unabhängig von der Standardabweichung der Glättungs-maske. Wir betrachten die Kaskadierung der Binomialmasken

BRx|2 · · ·BRx|2BRx|2︸︷︷︸S−mal

.

Wenn BRx|2 R Operationen benötigt, werden für die Operatorsequenz

RS∑s=1

12s−1

= R(

1− 12S−1

)< 2R

Operationen gebraucht. Die Varianz der Maske der Operatorsequenz istwie beim Mehrschrittverfahren

σ 2 = R12(4S − 1). (11.33)

Eine Glättung beliebigen Grades erfordert also nicht mehr als doppeltso viele Operationen wie beim ersten Schritt. Wie bei einem Mehrschritt-Binomialfilter nimmt die Standardabweichung von Stufe zu Stufe um den

Faktor zwei zu. Weiter gilt — solange BR(k) = 0 ∀k ≥ 1/2 —, dass dieTransferfunktionen der Filter die gleichen sind wie für die Mehrschritt-filter.

11.5.3 Rekursive Mittelung

Die in Abschn. 4.5 eingeführten rekursiven Filter stellen einen ganz anderenAnsatz für die großräumige Mittelung dar. Die Rekursion gibt einem Faltungs-filter im Wesentlichen eine unendliche Punktantwort. Der grundlegende Vorteilrekursiver Filter ist ihre leichte Einstellbarkeit, wie es am Beispiel eines einfa-chen Tiefpassfilters in Abschn. 4.5.5 gezeigt wurde. In diesem Abschnitt liegtder Schwerpunkt auf dem Design von Glättungsfiltern, die die in Abschn. 11.2


diskutierten Kriterien erfüllen, insbesondere die Verschiebungsfreiheit. DieseBedingung wird von den kausalen rekursiven Filtern nicht erfüllt.

Im wesentlichen arbeiten rekursive Filter genauso wie nichtrekursive. Prinzi-piell können wir jedes rekursive Filter durch ein nichtrekursives ersetzen, des-sen Filtermaske mit der Punktantwort des rekursiven Filters identisch ist. DasProblem ist die Konstruktion rekursiver Filter, d. h. die Bestimmung der Filter-koeffizienten für die gewünschte Transferfunktion. Während die Theorie dereindimensionalen rekursiven Filter zum Standardwissen der digitalen Signal-verarbeitung gehört (siehe zum Beispiel Oppenheim und Schafer [166, 167]), istder Entwurf zweidimensionaler Filter bis heute nicht ausreichend verstanden.Wesentlicher Grund dafür sind fundamentale Unterschiede in der Mathematikein- und höherdimensionaler Z-Transformationen und Polynome [138].

Trotz dieser theoretischen Probleme können rekursive Filter in der digitalenBildverarbeitung erfolgreich angewandt werden. Um Probleme bei der Kon-struktion zu vermeiden, werden wir nur rekursive Filter verwenden, die einfachzu verstehen sind, und sie zu komplexeren Filtern kombinieren, ähnlich wiewir binomiale Filter aus der elementaren Glättungsmaske 1/2 [1 1] zusammen-gesetzt haben. Auf diese Weise erhalten wir eine Klasse rekursiver Filter, dieaus der Sicht des Filterentwurfs nicht unbedingt optimal sind, sich jedoch fürpraktische Anwendungen eignen.

Im ersten Schritt kombinieren wir kausale rekursive Filter zu symmetrischenFiltern. Ausgangspunkt ist ein allgemeiner eindimensionaler rekursiver Filtermit folgender Transferfunktion:

+A = a(k)+ ib(k). (11.34)

Der Index+ bezeichnet die Laufrichtung des Filters in positive Koordinatenrich-tung. Die Transferfunktion desselben Filters in die entgegengesetzte Richtunglautet

−A = a(k)− ib(k). (11.35)

Es ändert sich nur das Vorzeichen des Imaginärteils der Transferfunktion, daer mit dem ungeraden Teil der Punktantwort korrespondiert, während der Re-alteil dem geraden Anteil entspricht. Nun haben wir zwei Möglichkeiten, dievorwärts- und rückwärtslaufenden Filter zu symmetrischen Glättungsfiltern zukombinieren:

Addition A = 12

[+A+ −A

]= a(k)

Multiplikation A = +A−A = a2(k)+ b2(k).(11.36)

Beide Kombinationen liefern reelle Transferfunktionen, also gerade Filter ohneVerschiebung, die sich damit für die Glättung eignen.

Als elementares rekursives Glättungsfilter verwenden wir das Tiefpassfilter mitzwei Elementen, das wir bereits in Abschn. 4.5.5 studiert haben:

±Ax : G′mn = G′m,n∓1 +α(Gmn −G′m,n∓1) mit 0 ≤ α ≤ 1 (11.37)

mit der Impulsantwort

(±Ax)m,n =α(1−α)n n > 0,m = 00 sonst. (11.38)

332 11 Mittelung

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

~k

1/21/4

1/8

1/16

Abbildung 11.12: Transferfunktion des rekursiven Tiefpassfilters (11.40) für un-terschiedliche Werte α (1/2, 1/4, 1/8 und 1/16).

Die Transferfunktion dieses Filters kann leicht berechnet werden, indem wirberücksichtigen, dass die Fouriertransformierte von (11.38) eine geometrischeReihe bildet:

±Ax(k) ≈ α1+ (1−α) exp(∓iπk)

. (11.39)

Diese Beziehung gilt nur ungefähr, da wir die unendliche Summe aus (11.38)wegen der begrenzten Bildgröße bei n = N − 1 abbrechen müssen.

Aufeinanderfolgende Filterung mit einem nach links und einem nach rechtslaufenden Filter entspricht einer Multiplikation der Transferfunktionen:

Ax(k) = +Ax(k) −Ax(k) ≈ α2

α2 + 2(1−α)(1− cos(πk)). (11.40)

Die Transferfunktion (Abb. 11.12) zeigt die für Tiefpassfilter erwartete Cha-rakteristik. Bei k = 0 gilt Ax(k) = 1; für kleine k fällt die Transferfunktionproportional zu k2 ab,

Ax ≈ 1− 1−αα2

(πk)2 k 1, (11.41)

und hat eine Halbwertswellenzahl kc (Ax(kc) = 1/2) von

kc ≈ 1π

arcsinα√

2(1−α) ≈α√2π

, (11.42)

wobei die letzte Näherung nur für α 1 gilt. Für die größte Wellenzahl k = 1ist die Transferfunktion auf

Ax(1) ≈ α2

4(1−α)+α2(11.43)

abgefallen. Sie ist im Gegensatz zu den Binomialfiltern nicht genau null, abergenügend klein selbst für moderat kleine Werte von α (Abb. 11.12).

Zweidimensionale Filter können aus eindimensionalen, die in horizontale undvertikale Richtung laufen, zusammengesetzt werden:

A=AxAy = +Ax−Ax

+Ay−Ay. (11.44)


a

-1

-0.5

0

0.5

1 -1

-0.5

0

0.5

1

~k y

~kx

b

00.2

0.4

0.6

0.8

1 0

0.5

1

1.5

0

0.05

0.1

0.15

0.2

~k

θ

c

-0.4

-0.2

0

0.2

0.4-0.4

-0.2

0

0.2

0.4

~k y

~kx

d

00.2

0.4

0.6

0.8

10

0.5

1

1.5

0

0.01

0.02

0.03

~k

θ

Abbildung 11.13: Transferfunktionen zweidimensionaler rekursiver Tiefpassfil-ter: a Amitα = 1/2; b Anisotropie von a: A(k, θ)−A(k,π/4); cA′ mitα = 1/2;d Anisotropie von c: A′(k, θ)− A′(k,0).

Dieses Filter (Abb. 11.13a, b) hat eine beträchtlich geringere Isotropie als Bi-nomialfilter (Abb. 11.5). Die Glättung in Achsenrichtung ist deutlich geringerals in die anderen Richtungen. Allerdings haben rekursive Filter den großenVorteil, dass der Rechenaufwand nicht vom Glättungsgrad abhängt. Bereits mitdem einfachen rekursiven Filter erster Ordnung können wir über die Wahl desFilterparameters α den Glättungsgrad frei einstellen (11.42). Die Isotropie derrekursiven Filter kann weiter verbessert werden, indem man zusätzliche Filterentlang den Diagonalen laufen lässt (Abb. 11.13c, d):

A′ = AxAyAx−yAx+y. (11.45)

Die Indizes x −y und x +y bezeichnen die Haupt- bzw. die Nebendiagonale.

Abschließend folgen einige Betrachtungen zum Rechenaufwand. Wie bereitserwähnt, hängt der Rechenaufwand für rekursive Filter — anders als bei nicht-rekursiven Filtern — nicht von der Grenzwellenzahl ab. Ist in (11.37) α = 2−l,kann das Filter ohne eine einzige Multiplikation berechnet werden:

G′mn =[G′m,n±1 · 2l −G′m,n±1 +Gmn

]· 2−l, l > 1. (11.46)

Für das zweidimensionale Filter A benötigt man dann nur 8 Additionen undShift-Operationen pro Bildpunkt, während für das Filter A′, das in vier Rich-tungen läuft, doppelt so viele Operationen erforderlich sind. Damit ist das re-kursive Filter allerdings nicht effektiver als ein Mehrgitter-Glättungsfilter mitBinomialmasken (Abschn. 11.5.2), das eine wesentlich bessere Isotropie auf-weist.

334 11 Mittelung

11.6 Nichtlineare Mittelung

Lineare Glättungsfilter verwischen Kanten. Schlimmer noch: wenn die Maskeeines Glättungsoperators über eine Objektkante läuft, enthält sie Bildpunktevon Objekt und Hintergrund. Das Filter liefert an dieser Stelle ein unsinnigesErgebnis. Das gleiche gilt, wenn eine bestimmte Anzahl von Bildpunkten z. B.aufgrund von Übertragungsfehlern fehlerhafte Werte aufweist. Die Frage istdaher, ob Glättungen möglich sind, die nicht über Objektkanten hinweggehenoder die bestimmte Bildpunkte auslassen. Natürlich kann eine solche Proze-dur nur angewandt werden, wenn wir bereits die Kanten bzw. die fehlerhaftenBildpunkte detektiert haben.

In diesem Abschnitt diskutieren wir drei Typen nichtlinearer Glättungsfilter:die klassischen Medianfilter (Abschn. 11.6.1), die auch als normalisierte Faltungbezeichnete gewichtete Mittelung (Abschn. 11.6.2) und die über die lokalen Bild-eigenschaften gesteuerte Mittelung (Abschn. 11.6.3).

11.6.1 Medianfilter

Lineare Filter unterdrücken Gaußsches Rauschen wirksam, jedoch binäres Rau-schen nur sehr schlecht (Abb. 11.7). Indem wir mit linearen Filtern wichtenund summieren, nehmen wir an, dass jeder Bildpunkt brauchbare Informati-on trägt. Pixel jedoch, die durch Übertragungsfehler gestört sind, haben ihrenursprünglichen Grauwert verloren. Lineare Glättung eliminiert diese Fehlinfor-mation nicht, sondern überträgt sie auf benachbarte Bildpunkte. Das einzigkorrekte Verfahren bei solchen Störungen ist deshalb, sie zu detektieren undzu eliminieren.

Genau dies tut ein Rangordnungsfilter (Abschn. 4.3). Die Grauwerte innerhalbder Maske werden ihrer Größe nach sortiert, und ein Pixel wird selektiert. Dabeiselektiert das Medianfilter den mittleren Wert. Da binäres Rauschen den Grau-wert völlig ändert, ist es sehr unwahrscheinlich, dass der fehlerhafte Grauwertgleich dem mittleren Grauwert in der direkten Umgebung ist. Auf diese Wei-se wird der mittlere Grauwert der Umgebung verwendet, um den Grauwert desgestörten Bildpunktes wiederherzustellen.

Die folgenden Beispiele illustrieren die Wirkungsweise eines 1× 3-MedianfiltersM:

M[· · · 1 2 3 7 8 9 · · · ] = [· · · 1 2 3 7 8 9 · · · ],

M[· · · 1 2 102 4 5 6 · · · ] = [· · · 1 2 4 5 5 6 · · · ],

M[· · · 0 0 0 9 9 9 · · · ] = [· · · 0 0 0 9 9 9 · · · ].Wie erwartet, werden Ausreißer eliminiert. Die beiden anderen Grauwertstruk-turen — eine monoton ansteigende Rampe sowie eine Kante zwischen zweiBereichen konstanter Grauwerte — bleiben erhalten. Damit eliminiert ein Me-dianfilter effektiv binäres Rauschen, ohne die Schärfe des Bildes wesentlich zubeeinflussen. Es ist allerdings weniger geeignet, normalverteiltes Rauschen zuunterdrücken (Abb. 11.7e und f).

Die wichtigsten deterministischen Eigenschaften eines eindimensionalen (2N +1)-Medianfilters können mit den folgenden Begriffen formuliert werden:

11.6 Nichtlineare Mittelung 335

• Eine konstante Nachbarschaft ist ein Bereich mit N + 1 gleichen Grauwerten.

• Eine Kante ist ein Bereich mit monoton ansteigenden oder abfallenden Grau-werten zwischen zwei konstanten Nachbarschaften.

• Ein Impuls ist ein Bereich von höchstens N Punkten, die rechts und links vonkonstanten Nachbarschaften mit gleichem Grauwert begrenzt werden.

• Eine Wurzel oder ein Fixpunkt ist ein Grauwertsignal, das sich unter einerMedianfilteroperation nicht verändert.

Mit diesen Definitionen lauten die deterministischen Eigenschaften eines Me-dianfilters folgendermaßen:

• Konstante Nachbarschaften und Kanten sind Fixpunkte.

• Impulse werden eliminiert.

Bei wiederholter Anwendung des Medianfilters bleibt schließlich ein Bild zurück,das nur noch aus konstanten Bildbereichen und Kanten besteht. Sind nur ein-zelne Pixel gestört, genügt ein 3× 3-Medianfilter, um sie zu eliminieren. TretenGruppen gestörter Pixel auf, müssen größere Medianfilter verwendet werden.

Die statistischen Eigenschaften der Medianfilter können mit einem Bild, dasnur konstante Nachbarschaften, Kanten und Impulse enthält, illustriert wer-den. Das Leistungsspektrum der Impulse ist flach (weißes Rauschen). Da dasMedianfilter Impulse eliminiert, nimmt das Leistungsspektrum für alle Wellen-zahlen ab. Der Beitrag der Kanten zu einer bestimmten Wellenzahl wird jedochnicht entfernt. Dieses Beispiel unterstreicht auch die nichtlineare Natur derMedianfilter.

11.6.2 Gewichtete Mittelung

In Abschn. 3.1 wurde besprochen, dass Grauwerte von Bildpunkten ebenso wieandere experimentelle Daten durch Fehler gekennzeichnet sind, die bei der wei-teren Bearbeitung berücksichtigt werden müssen. Als Einführung betrachtenwir die Mittelung eines Satzes von N unabhängigen Datenpunkten gn mit derStandardabweichung σn. Aus der elementaren Statistik wissen wir, dass füreine korrekte Mittelung jeder Datenpunkt gn mit dem Kehrwert der Varianzwn = 1/σ 2

n gewichtet werden muss. Dann erhält man eine Abschätzung desMittelwertes mit

g =N∑n=1

gn/σ 2n

/ N∑n=1

1/σ 2n (11.47)

mit der Standardabweichung

σ 2g = 1

/ N∑n=1

1/σ 2n . (11.48)

Das Gewicht eines individuellen Datenpunkts für die Berechnung des Mittelwer-tes in (11.47) ist um so höher, je niedriger sein statistischer Fehler ist.

Die Anwendung der gewichteten Mittelung auf die Bildverarbeitung ist als nor-malisierte Faltung bekannt [72]. Die Glättung wird nun auf lokale Nachbarschaf-ten ausgedehnt. Jeder Bildpunkt geht mit einem ihm zugeordneten Wichtungs-faktor in die Faltungssumme ein. Demnach sind für die normalisierte Faltung

336 11 Mittelung

a b

c d

Abbildung 11.14: Gewichtete Mittelung unter Benutzung der Kantenstärke zurVerhinderung der Glättung an Kanten: a Bild von Abb. 11.6a mit additivemnormalverteilten Rauschen; b Wichtungsbild nach fünf kaskadierten gewichtetenMittelungen; Bild nach c zwei und d fünf kaskadierten gewichteten Mittelungenunter Benutzung einer B2-Binomialmaske (vergleiche mit Abb. 11.7).

zwei Bilder nötig; eines ist das zu bearbeitende Bild, das andere enthält dieWichtungsfaktoren. Analog zu (11.47) und (11.48) wird die normalisierte Fal-tung folgendermaßen definiert:

G′ = H ∗ (W ·G)H ∗W , (11.49)

wobei H eine beliebige Faltungsmaske ist, G das zu bearbeitende Bild und Wdas Bild, das die Wichtungsfaktoren enthält. Im wesentlichen transformiert dienormalisierte Faltung mit der Maske H das Bild G in ein neues Bild G′ und dasWichtungsbildW in ein neues WichtungsbildW ′ = H∗W ; beide können sodanneiner weiteren Verarbeitung zugeführt werden.

In diesem Sinne ist die normalisierte Faltung nichts Spezielles und Kompli-ziertes, sondern nur die angemessene Berücksichtigung von Bildpunkten miträumlich variierenden statistischen Fehlern. Die Standardfaltung kann als Spe-zialfall der normalisierten Faltung aufgefaßt werden. In diesem Fall wird allenBildpunkten der gleiche Wichtungsfaktor zugewiesen, und das Wichtungsbildentfällt, da es konstant ist.

11.6 Nichtlineare Mittelung 337

Die Flexibilität der normalisierten Faltung liegt in der Wahl des Wichtungsbil-des, das nicht notwendigerweise mit einem Fehler assoziiert ist. Man kann esebenso verwenden, um Bildpunkte mit bestimmten Eigenschaften zu selektie-ren und/oder zu verstärken. Damit ist die normalisierte Faltung ein vielseitigernichtlinearer Operator. Als Beispiel zeigt Abb. 11.14 die gewichtete Mittelungeines verrauschten Bildes mit einem Wichtungsbild, das die Glättung an Kantenreduziert.

11.6.3 Steuerbare Mittelung

Die Idee der steuerbaren Filter ist es, die Faltungsmaske von der lokalen Bild-struktur abhängig zu machen. Dieses allgemeine Konzept ist nicht auf die Glät-tung beschränkt, sondern kann auf alle Typen von Faltungsprozessen übertra-gen werden. Die grundlegende Idee wird im Folgenden erläutert. EinstellbareFilter haben einige frei justierbare Parameter, die die Filterung steuern können.Dies können sehr unterschiedliche Eigenschaften sein wie der Glättungsgrad,die Glättungsrichtung oder beides. Es ist einfach, eine Filtermaske mit einstell-baren Parametern aufzuschreiben. Wir haben dies beispielsweise für rekursiveFilter in (11.37) durchgeführt, wobei der Parameter α den Glättungsgrad be-stimmt. Allerdings ist es vom Rechenaufwand her nicht effizient, ein Bild mitMasken zu berechnen, die an jedem Bildpunkt unterschiedlich sind. Dabei gehtder Vorteil der Separierbarkeit der Masken verloren.

Alternativ kann eine Basis von einigen wenigen Filtern gesucht werden, mit de-nen ein Satz gefilterter Bilder berechnet wird. Diese Bilder werden dann un-ter Verwendung von justierbaren Parametern interpoliert. In Operatornotationsieht dies folgendermaßen aus:

H (α) =P∑p=1

fp(α)Hp. (11.50)

Dabei ist Hp das p-te Filter und fp(α) eine skalare Interpolationsfunktion desSteuerparameters α. Zwei Probleme müssen gelöst werden, wenn wir einstell-bare Filter verwenden. Zunächst ist nicht klar, ob eine solche Filterbasis Hpüberhaupt existiert. Dann muss die Beziehung zwischen den einstellbaren Pa-rametern α und der Interpolationsfunktion fp gefunden werden. Ist das ersteProblem gelöst, erledigt sich die Lösung des zweiten meistens von alleine.

Als Beispiel soll ein gerichteter Glättungsfilter mit folgender Transferfunktionkonstruiert werden:

hθ0(k, θ) = 1− f(k) cos2(θ − θ0). (11.51)

In dieser Gleichung werden Zylinderkoordinaten (k, θ) im Fourierraum verwen-det. Das Filter in (11.51) ist ein polar separierbares Filter mit einer beliebigenRadialfunktion f(k). Diese radiale Komponente stellt eine beliebiges isotropesGlättungsfilter dar. Die Einstellbarkeit des Winkels wird durch die Funktioncos2(θ − θ0) ermöglicht. Strukturen, die in Richtung θ0 orientiert sind, bleibenim Bild, während die, die senkrecht zu θ0 stehen, vollständig herausgefiltertwerden. Die Halbwertsbreite der Winkelverteilung dieses einfachen gerichtetenGlättungsfilters ist ±45°.

338 11 Mittelung

0

0.5

1

0

0.5

1

0.50.60.70.80.9

1

k2

k1

0

0.5

1

0

0.5

1

-0.4-0.2

00.20.4

k1

k2

0

0.5

1

0

0.5

1

0.40.2

00.20.4

k1

k2

Abbildung 11.15: Transferfunktion der drei Basisfilter für direktionale Glättungnach (11.55).

Wir zerlegen die Kosinusfunktion in (11.51) in trigonometrische Funktionen, dieentweder nur von θ oder θ0 abhängen. Dann ergibt sich

hθ0(k, θ) = 1− 12f(k) [1+ cos(2θ0) cos(2θ)+ sin(2θ0) sin(2θ)] (11.52)

mit den Basisfiltern

h1 = 1− 12f(k), h2 = −1

2f(k) cos(2θ), h3 = −1

2f(k) sin(2θ) (11.53)

und den Interpolationsfunktionen

f1(θ0) = 1, f2(θ0) = cos(2θ0), f3(θ0) = sin(2θ0). (11.54)

Daher sind drei Basisfilter notwendig. Das Filter h1 ist ein isotropes Glättungsfil-ter, während die beiden anderen Richtungsfilter sind mit den Hauptrichtungen0° and 45°.Obwohl die Gleichungen für dieses einstellbare gerichtete Glättungsfilter ein-fach sind, ist es nicht leicht, polar separierbare Basisfilter zu implementieren,da diese nicht im kartesischen Koordinatensystem separierbar sind und dahereine sorgfältige Optimierung erfordern.Dennoch ist es möglich, ein einstellbares gerichtetes Glättungsfilter mit 3× 3Basisfiltern zu implementieren. Wegen der durch die Transferfunktionen vor-gegebenen Symmetrien haben wir nicht viel Auswahlmöglichkeiten für die Fil-terkoeffizienten und erhalten folgende drei Basisfilter:

H1 = 132

⎡⎢⎣ 1 2 1

2 20 21 2 1

⎤⎥⎦ , H2 = 1

32

⎡⎢⎣ 0 −4 0

4 0 40 −4 0

⎤⎥⎦ , H3 = 1

32

⎡⎢⎣ −2 0 2

0 0 02 0 −2

⎤⎥⎦

11.7 Mittelung in Mehrkanalbildern 339

0

0.5

1

0

0.5

1

00.20.40.60.8

1

k1

k2

0

0.5

1

0

0.5

1

00.20.40.60.8

1

k1

k2

0

0.5

1

0

0.5

1

00.20.40.60.8

1

k1

k2

Abbildung 11.16: Transferfunktion für steuerbare gerichtete Glättung in 0°,22.5° und 45° zur x-Achse nach (11.52) mit der Basis (11.55).

h1 = 12+ 1

2cos2(πk1/2) cos2(πk2/2) ≈ 1− π

2k2

8,

h2 = 14

(cos(πk1)− cos(πk2)

)≈ π2k2

8cos(2θ),

h3 = 18

(cos(π(k1 + k2))− cos(π(k1 − k2))

)≈ π2k2

8sin(2θ).

(11.55)

Abbildung 11.16 zeigt, dass diese einfache Implementierung bis hin zu mode-raten Wellenzahlen gut funktioniert. Bei hohen Wellenzahlen (k > 0.5) ist dasFilter jedoch weniger direktional, da es Strukturen in alle Richtungen glättet.

11.7 Mittelung in Mehrkanalbildern

Auf den ersten Blick scheint die Mittelung von Mehrkanalbildern nichts Beson-deres zu sein, denn wir wenden die Glättungsmaske einfach auf jeden der PKanäle getrennt an:

G′ =

⎡⎢⎢⎢⎢⎢⎣G′1G′2...G′p

⎤⎥⎥⎥⎥⎥⎦ = H ∗G =

⎡⎢⎢⎢⎢⎢⎣H ∗ G1

H ∗ G2

...H ∗ Gp

⎤⎥⎥⎥⎥⎥⎦ . (11.56)

Dieses einfache Konzept kann auch auf die normalisierte Faltung ausgedehntwerden (Abschn. 11.6.2). Wird für alle Komponenten der gleiche Glättungskern

340 11 Mittelung

θ1 θ1

θ2 θ2

gemittelter Vektor

x x

y y

Abbildung 11.17: Mittelung einer zyklischen Größe, die durch den Einheitsvektornθ = [cosθ, sinθ]T dargestellt wird. Der gemittelte Vektor (nθ1+nθ2)/2 zeigt indie korrekte Richtung (θ1+θ2)/2, aber sein Betrag nimmt mit der Winkeldifferenzab.

verwendet, genügt ein gemeinsames Wichtungsbild, das als (P + 1)-te Kompo-nente des Mehrkomponentenbildes angehängt werden kann:⎡

⎢⎢⎢⎢⎢⎢⎢⎣

G′1G′2...G′PW ′

⎤⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎣

(H ∗ (W ·G1))/(H ∗W)(H ∗ (W ·G2))/(H ∗W)

...(H ∗ (W ·GP ))/(H ∗W)

H ∗W

⎤⎥⎥⎥⎥⎥⎥⎥⎦. (11.57)

Wenn Mehrkanalbilder zyklische Merkmale enthalten, die auf Winkelkoordina-ten abgebildet werden können, haben wir es mit einem interessanten Sonderfallzu tun. Größen mit dieser Eigenschaft sind z. B. die Richtung einer Kante oderdie Phase eines periodischen Signals. Diese Größen sind zyklisch und könnennur schlecht in kartesischen Koordinaten repräsentiert und daher auch nicht indieser Darstellung gemittelt werden. Stellen wir uns zwei Winkel von +175° und–179° vor. Der mittlere Winkel ist 178°, da –179° = 360° – 179° = 181° nahe an 175°liegt und nicht (175° –179°) / 2 = –2°, wie es sich durch eine direkte Mittelungergeben würde.

Zyklische Eigenschaften wie Winkel werden deshalb besser als Einheitsvektorender Form nθ = [cosθ, sinθ]T dargestellt. So können sie korrekt gemittelt wer-den, wie Abb. 11.17 zeigt. Der gemittelte Vektor zeigt in die korrekte Richtung,aber sein Betrag ist im Allgemeinen kleiner als eins:

(nθ1 + nθ2)/2 =[

cos[(θ1 + θ2)/2]sin[(θ1 + θ2)/2]

]cos[(θ2 − θ1)/2]. (11.58)

Für eine Winkeldifferenz von 180° hat der gemittelte Vektor den Betrag null.Die Abnahme seiner Größe wird intuitiv interpretiert: Je größer die Streuungdes Winkels ist, desto weniger sicher ist der gemittelte Wert. Tatsächlich ver-schwindet die Vektorsumme, wenn alle Richtungen gleich wahrscheinlich sind,während sie wächst, wenn die Streuung des Winkels klein ist.


Diese Überlegungen können auch zu einer gewichteten Glättung für zyklischeGrößen erweitert werden. Dazu setzen wir die Vektorlänge gleich dem Be-stimmtheitsmaß der Größe, die durch den Winkel des Vektors repräsentiertwird. Kurze Vektoren tragen dann wenig, lange entsprechend mehr zu der Mit-telwertbildung bei. Dies ist eine sehr attraktive Form der gewichteten Faltung,da sie — im Gegensatz zur normalisierten Faltung (Abschn. 11.6.2) — keineaufwendige Division erfordert. Natürlich funktioniert diese Methode nur mitEigenschaften, die adäquat auf einen Winkel abgebildet werden können.

Schließlich betrachten wir ein Maß, um die Streuung in Richtung des Vektors zucharakterisieren. Abbildung 11.17 verdeutlicht, dass der Summenvektor bei ge-ringer Streuung nur wenig niedriger ist als die Summe der Vektorlängen. Dem-nach können wir mit

c = |H ∗G||G| (11.59)

ein Kohärenzmaß definieren, wobei H ein beliebiger glättender Faltungsopera-tor ist. Dieses Maß ist eins, wenn alle Vektoren der Nachbarschaft, die vom Fal-tungsoperator abgedeckt werden, in dieselbe Richtung zeigen, und null, wennsie gleichmäßig verteilt sind. Diese Definition eines Kohärenzmaßes gilt nichtnur in zweikanaligen, sondern auch in höherdimensionalen Vektorräumen. Beieindimensionalen Vektorräumen (skalaren Bildern) ist das Kohärenzmaß natür-lich immer eins.


11.1: Rechteck- und Binomialfilter

Interaktive Demonstration der Glättung durch Rechteck- und Binomialfilter(dip6ex11.01)

11.2: Mehrschrittglättung mit Rechteck- und Binomialfiltern

Interaktive Demonstration der Mehrschrittglättung durch Rechteck- und Bi-nomialfilter (dip6ex11.02)

11.3: ∗Rechteckfilter

Rechteckfilter wurden ausführlich in Abschn. 11.3 behandelt. BeantwortenSie die folgenden Fragen:

1. Warum sind Rechteckfilter schlechte Glättungsfilter? Zählen Sie alle Grün-de auf!

2. Verbessern sich die schlechten Eigenschaften, wenn Rechteckfilter mer-mals hintereinander angewendet werden? Illustrieren Sie dies an dem3× 3-Rechteckfilter!

3. Welches Filter erhält man, wenn man ein Rechteckfilter sehr oft hinter-einander ausführt?

11.4: ∗∗Filterberechnung

Aufgabe ist es, ein Filter mit einer kleinen Maske zu berechnen, das mög-lichst gut glättet. Gehen Sie von einer 3er-Maske aus mit dem Ansatz [α,β, γ]!

342 11 Mittelung

Das Filter sollte folgende Eigenschaften haben:

a) Erhaltung des mittleren Grauwerts

b) Keine Verschiebung der Grauwertstrukturen

c) Strukturen mit der höchsten Wellenzahl sollten herausgelöscht werden

Aufgaben:

1. Können Sie damit die Filterkoeffizientenα, β und γ eindeutig berechnen?

2. Berechnen Sie die Transferfunktion des Filters!

3. Welche Einschränkungen ergeben die gleichen Bedingungen für ein Filtermit fünf Koeffizienten [α,β, γ, δ, ε]?

4. Berechnen Sie die Transferfunktion des Filters.

5. Welche Werte darf der verbleibende Parameter annehmen, damit die Trans-ferfunktion für alle Wellenzahlen monoton fallend bleibt?

6. Welche Koeffizienten haben die entsprechenden Faltungsmasken für dieGrenzwerte?

11.5: ∗∗Schnelle Berechnung von Glättungsfiltern

Untersuchen Sie die Anzahl der Rechenoperationen (Additionen und Mul-tiplikationen) für verschiedene Methoden, ein Bild mit der folgenden 2D-Glättungsmaske

B4 = 1256

⎡⎢⎢⎢⎢⎢⎢⎣

1 4 6 4 14 16 24 16 46 24 36 24 64 16 24 16 41 4 6 4 1

⎤⎥⎥⎥⎥⎥⎥⎦

und der entsprechenden äquivalenten 3D-Maske

116

[B4,4B4,6B4,4B4,B4

]z

zu falten.

1. Berechnung ohne jegliche Optimierung, direkt nach der Faltungsformel

2. Vermeidung unnötiger Multiplikationen durch Ausklammern gleicher Ko-effizienten

3. Zerlegung in 1D-Masken

4. Zerlegung der 1D-Maske in die Elementarmaske 1/2[1 1]

5. Haben Sie eigene andere Ideen zur effektiven Berechnung?

11.6: ∗∗Rauschunterdrückung durch Glättungsfilter

1. Beweisen Sie allgemein, dass mit einem linearen Glättungsfilter H dasSignal/Rausch-Verhältnis für eine beliebige Wellenzahl nicht verbessertwerden kann. (Hinweis: Dazu teilt man das Bild G in einen SignalinhaltS und in einen Rauschanteil N additiv auf.)

2. Nehmen Sie nun an, dass weißes Rauschen vorliegt (gleichmäßig über alleWellenzahlen verteilt), das Spektrum des Bildinhalts aber nur bis zur hal-ben maximalen Wellenzahl gleichmäßig verteilt ist. Kann man jetzt durch


ein Glättungsfilter das über alle Wellenzahlen gemittelte Signal/Rausch-Verhältnis verbessern? Wie muss die Transferfunktion eines Glättungs-filters aussehen, damit das Signal/Rausch-Verhältnis möglichst optimalverbessert wird?

11.7: ∗∗∗Transferfunktion der 1D-Rechteckmaske

Beweisen Sie die in (11.12) angegebene Formel für die Transferfunktion des1D-Rechteckfilters! (Hinweis: Es gibt mindestens zwei Lösungswege. Siemüssen entweder die Transferfunktion so schreiben, dass sie eine geome-trische Reihe a0(1+q+q2 + . . .+qn−1) mit der Summe a0(qn − 1)/(q− 1)darstellt oder die rekursive Berechnungsmöglichkeit des Rechteckfilters in(11.15) beachten.)

11.8: ∗Adaptive Glättung

Ein sehr einfaches adaptives Glättungsfilter, das an Kanten weniger glättet,hat folgende Form:

(1−α)I +αB = I +α(B− I),wobeiα ∈ [0,1] von der Kantensteilheit abhängt, z. B.α = γ2/(γ2+∣∣∇g∣∣2)Beantworten Sie folgende Fragen unter der Annahme, dass B ein 3× 3-Binomialfilter ist:1. Berechnen sie explizit die neun Koeffizienten des adaptiven 3× 3-Filters

als Funktion von α.2. Vergleichen Sie den Rechenaufwand dieser direkten Implementierung des

Filters mit der Implementierung als steuerbares Filter. Der Aufwand, αzu berechnen, soll dabei nicht berücksichtigt werden.


Die Zeitschriftenbeiträge von Simonds [209] und Wells [239] behandeln schnelleAlgorithmen für große Gaußmasken. Der Leser mit Interesse an den generellenPrinzipien effizienter Algorithmen sei auf die Lehrbücher von Aho et al. [6] oderSedgewick [204] verwiesen. Das Lehrbuch von Blahut [17] beschäftigt sich aus-schließlich mit schnellen Algorithmen für die digitale Signalverarbeitung. Dieklassischen Entwurfstechniken für Filter, insbesondere für rekursive Filter, wer-den in den Lehrbüchern zur digitalen Signalverarbeitung behandelt, z. B. Proakisund Manolakis [177], Oppenheim und Schafer [167] oder Kammeyer und Kro-schel [114].Das Lehrbuch von Lim [138] über 2D-Signalverarbeitung beinhaltet auch denEntwurf von 2D-rekursiven Filtern. Eine detaillierte Beschreibung der deter-ministischen und statistischen Eigenschaften von Medianfiltern findet sich beiHuang [92, 93] und Arce et al. [7]. Eine ausführliche Behandlung nichtlinearer di-gitaler Filter erfolgt außerdem in der Monografie von Pitas und Venetsanopoulos[173]. Die Monografie von Granlund und Knutsson [72] über Signalverarbeitungfür maschinelles Sehen diskutiert auch die gewichtete Mittelung (normalisierteFaltung, Abschn. 11.6.2). Einstellbare Filter (Abschn. 11.6.3) wurden durch dieZeitschriftenbeiträge von Freeman und Adelson [63] und Simoncelli et al. [208]eingeführt.

12 Kanten

12.1 Einleitung

Kantendetektion erfordert Nachbarschaftsoperatoren, die Veränderun-gen erkennen und Bereiche konstanter Grauwerte unterdrücken. Aufdiese Weise wird ein Merkmalsbild erzeugt, in dem Veränderungen hellerscheinen, während alle anderen Bereiche dunkel bleiben.

Mathematisch ausgedrückt ist eine ideale Kante eine Diskontinuitätder räumlichen Grauwertfunktiong(x) der Bildebene. Diese Abstraktionmuss aber die Wirklichkeit nicht treffen. Die erste Aufgabe der Kanten-detektion ist es daher, die Eigenschaften der Kante im zu analysierendenBild zu beschreiben. Nur wenn wir ein Modell der Kanten formulieren,können wir bestimmen, wie exakt und unter welchen Bedingungen eineKantendetektion möglich ist, und eine Kante optimal detektieren.

Die Kantendetektion basiert immer auf Ableitungen in der einen oderanderen Form. Bei diskreten Bildern ersetzen diskrete Differenzen dasDifferenzieren. Die mit dieser Näherung verbundenen Fehler müssensorgfältig beachtet werden. Sie bewirken Effekte, die zunächst nicht er-wartet werden. Die beiden schwerwiegendsten Fehler sind die Anisotro-pie der Kantendetektion, d. h. Kanten werden nicht in allen Richtungengleich gut erkannt, und die fehlerhafte Bestimmung der Kantenrichtung.

Während in skalaren Bildern eindeutig feststeht, was eine Kante ist,können Kanten in Mehrkanal- oder vektoriellen Bildern auf verschiedeneArten bestimmt werden (Abschn. 12.8). Eine Kante kann eine Eigenschaftsein, die sich in nur einer Komponente oder in allen zeigt. Die Kanten-detektion wird auch bei höherdimensionalen Bildern komplexer. In dreiDimensionen beispielsweise werden volumetrische Regionen durch Flä-chen separiert, und Kanten sind eher Unstetigkeiten in der Orientierungvon Flächen.

Eine weitere wichtige Frage ist die Verlässlichkeit der Kantenschät-zung. Wir wollen nicht nur wissen, dass eine Kante vorhanden ist, son-dern auch, wie signifikant sie ist. Wir brauchen also ein Maß für dieKantenstärke. Eng im Zusammenhang damit steht die Frage der opti-malen Kantendetektion. Wenn es möglich ist, dass Kantendetektorennicht nur das Vorhandensein einer Kante, sondern auch ein objektivesKonfidenzmaß liefern, können unterschiedliche Kantendetektoren mit-einander verglichen werden. Dann ist auch eine Optimierung der Kan-tendetektion möglich.


346 12 Kanten

0 50 100 150 200 250

-0.2-0.10

0.10.2

0 50 100 150 200 250

-0.2-0.10

0.10.2

0 50 100 150 200 2500

0.20.40.60.81

Abbildung 12.1: Eindimensionale verrauschte Grauwertkanten und ihre erstenund zweiten Ableitungen.

12.2 Differenzielle Beschreibung von Signaländerungen

Glättungsfilter unterdrücken hohe Wellenzahlen. Die Detektion von Kan-ten erfordert dagegen eine Filteroperation, die Grauwertveränderungenverstärkt und Bereiche konstanter Grauwerte unterdrückt. Dafür sindAbleitungsoperatoren geeignet (Abb. 12.1). Die erste Ableitung hat anKanten Extremwerte (maximale positive oder negative Steigungen), diezweite Nulldurchgänge (keine Krümmung) dort, wo Kanten ihren steils-ten Abfall oder Anstieg haben. Beide Kriterien können zur Kantenbe-stimmung herangezogen werden.

In höheren Dimensionen ist die differenzielle Beschreibung von Sig-naländerungen viel schwieriger. Zuerst betrachten wir 2D-Bilder. Hierkönnen wir Kanten, Ecken, Linien und lokale Extremwerte als relevan-te Merkmale zur Bildverarbeitung betrachten. An einer Kante liegt einehohe Änderung des Signals senkrecht zur Richtung der Kante vor, aberin Kantenrichtung ist die Signaländerung klein. Wenn jedoch die Krüm-mung senkrecht zur Richtung des Gradienten hoch wird, geht eine Kantein eine Ecke über. Eine Linie ist dadurch charakterisiert, dass sowohl dieSteigung als auch Krümmung in Richtung der Linie klein sind, währendjetzt — im Gegensatz zur Kante — statt der Steigung die Krümmungsenkrecht zur Linie hoch ist. An einem lokalen Extremwert sind die Ab-leitungen erster Ordnung null, die Krümmungen in allen Richtungen abergroß.

12.2 Differenzielle Beschreibung von Signaländerungen 347

In drei Dimensionen, d. h. bei Volumenbildern stellt sich die Situati-on noch komplizierter dar. Nun gibt es Oberflächen mit einer starkenSignaländerung erster Ordnung senkrecht zur Oberfläche und kleinenSteigungen und Krümmungen in die beiden Richtungen, die in der Ober-fläche liegen. An einer Kante gibt es kleine Signaländerungen nur nochin Richtung der Kante und an einer Ecke ändert sich das Signal in alleRichtungen.

Wegen diesem reichen Satz an differenziellen Merkmalen, um lokaleSignaländerungen zu beschreiben, lohnt es sich, die grundlegenden Ei-genschaften differenzieller Operatoren in multidimensionalen Signalenkennen zu lernen, ehe wir geeignete Operatoren entwerfen, um dieseMerkmale in Bildern zu detektieren.

12.2.1 Erste Ableitung und der Gradient

Ein Ableitungsfilter p-ter Ordnung bedeutet im Wellenzahlraum eineMultiplikation des Bildspektrums mit (2π ik)p (Abschn. 2.3, R4):

∂∂xw

• 2π ikw,∂2

∂x2w

• −4π2 k2w. (12.1)

Die partiellen Ableitungen eines W -dimensionalen Signals g(x) in alleRichtungen bilden den W -dimensionalen Gradientenvektor :

∇ =[∂∂x1

,∂∂x2

, . . . ,∂∂xW

]T • 2π ik. (12.2)

Bei einer Drehung des Koordinatensystems wird der Gradient wie jederandere Vektor durch die Multiplikation mit einer orthogonalen Rotati-onsmatrix R transformiert (Abschn. 7.2.2):

∇′ = R∇. (12.3)

Die erste Ableitung in eine bestimmte Richtung, die so genannte Rich-tungsableitung [21], ergibt sich aus dem Skalarprodukt zwischen demGradientenvektor und einem Vektor n = [cosθ, sinθ]T mit dem Betrageins, der in die entsprechende Richtung zeigt:

∂∂n

=∇T n = cosθ∂∂x1

+ sinθ∂∂x2

. (12.4)

Der Betrag des Gradientenvektors,

|∇| = ‖∇‖2 =(∇T∇

)1/2 =⎛⎝ W∑w=1

(∂∂xw

)2⎞⎠1/2

, (12.5)

348 12 Kanten

ist invariant unter einer Drehung des Koordinatensystems. Wenn wir dasKoordinatensystem so drehen, dass der Gradientenvektor parallel zu dergedrehten x′-Achse ist, dann verschwinden alle anderen Komponentendes Gradientenvektors und die Richtungsableitung in Richtung der x′-Achse ist maximal und gleich dem Betrag des Gradienten.

12.2.2 Zweite Ableitung und Krümmung

Differenzialoperatoren zweiter Ordnung detektieren Krümmung. Allemöglichen Kombinationen der partiellen Ableitungen zweiter OrdnungeinesW -dimensionalen Signals bilden eineW ×W -Matrix, die Hesse-Matrix:

H =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

∂2

∂x21

∂2

∂x1x2. . .

∂2

∂x1xW∂2

∂x1x2

∂2

∂x22

. . .∂2

∂x2xW...

.... . .

...

∂2

∂x1xW∂2

∂x2xW. . .

∂2

∂x2W

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

• −4π2kkT . (12.6)

Bei einer Drehung des Koordinatensystems transformiert sich die Hesse-Matrix durch die Multiplikation mit einer orthogonalen DrehmatrixR vonlinks und rechts:

H′ = R∇RT . (12.7)

Wie wir schon in Abschn. 3.3.3 diskutiert haben, ist es immer möglich,eine Koordinatentransformation R auf das so genannte Hauptachsensys-tem zu finden, in der die symmetrische Hesse-Matrix diagonal wird.

H′ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

∂2

∂x′12 0 . . . 0

0∂2

∂x′22 . . . 0

......

. . ....

0 0 . . .∂2

∂x′W2

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

. (12.8)

Beim Gradienten war in dem ausgezeichneten Koordinatensystem nureine Komponente ungleich null; dies ist bei der Krümmung nicht der Fall.Im Allgemeinen sind im Hauptachsensystem alle Krümmungen ungleichnull.

12.3 Allgemeine Eigenschaften von Kantenfiltern 349

Die Spur dieser Matrix, d. h. die Summe der Diagonalelemente, heißtLaplaceoperator und wird mit ∆ bezeichnet:

∆ = SpurH =W∑w=1

∂2

∂x2w

• −4pi2W∑w=1

k2w = −4π2k2. (12.9)

Da der Laplaceoperator die Spur der Hesse-Matrix ist, verändert er sichbei einer Drehung des Koordinatensystems nicht.

12.3 Allgemeine Eigenschaften von Kantenfiltern

In den folgenden Abschn. 12.3.1–12.3.5 diskutieren wir die allgemeinenEigenschaften der Filter zur Kantendetektion. Diese Diskussion ist ähn-lich der über die allgemeinen Eigenschaften der Glättungsfilter in Ab-schn. 11.2.1–11.2.4.

12.3.1 Verschiebungsfreiheit

Bei der Kantendetektion dürfen keine Verschiebungen der Objektposi-tion auftreten. Dies ist die wichtigste Eigenschaft eines Ableitungsope-rators. Bei Glättungsfiltern wird dies durch eine reelle Transferfunkti-on und eine symmetrische Faltungsmaske erreicht (Abschn. 11.2.1). Beieinem Ableitungsfilter erster Ordnung ist eine reelle Transferfunktionnicht sinnvoll, da Extrema auf Nulldurchgänge abgebildet werden sollenund die größten Steigungen auf Extremwerte. Das bedeutet eine Phasen-verschiebung um 90° und damit eine imaginäre Transferfunktion. Eineimaginäre Transferfunktion wiederum impliziert eine antisymmetrischeFiltermaske, die definiert wird durch

h−n = −hn. (12.10)

Aus dieser Gleichung ergibt sich, dass der zentrale Koeffizient für eineFaltungsmaske mit einer ungeraden Anzahl von Koeffizienten null ist.

Ein Ableitungsfilter zweiter Ordnung detektiert Krümmungen. Ex-tremwerte des räumlichen Grauwertverlaufs sollten mit Extremwertender Krümmung übereinstimmen. Also sollte ein Ableitungsfilter zweiterOrdnung ebenso wie ein Glättungsfilter symmetrisch sein. Dann geltenalle in Abschn. 11.2.1 für symmetrische Filter besprochenen Eigenschaf-ten auch für Ableitungsfilter zweiter Ordnung.

12.3.2 Unterdrückung des Mittelwertes

Ein Ableitungsfilter beliebiger Ordnung darf keine Antwort auf konstanteWerte oder einen Offset im Signal zeigen. Diese Bedingung impliziert,

350 12 Kanten

dass bezüglich der Transferfunktion für die Summe der Koeffizientengelten muss: 1D : h(0) = 0,

∑nhn = 0

2D : h(0) = 0,∑m

∑nhmn = 0

3D : h(0) = 0,∑l

∑m

∑nhlmn = 0.

(12.11)

Ein Ableitungsfilter zweiter Ordnung sollte auch nicht auf konstante Stei-gungen reagieren. Diese Eigenschaft erfordert keine weiteren Beschrän-kungen, da sie aus der Symmetrie der Filter und der Nullsummenbedin-gung (12.11) abgeleitet werden kann.

12.3.3 Symmetrieeigenschaften

Etwas näher wollen wir uns die Symmetrieeigenschaften ansehen, dennsie bilden die Basis einer effizienteren Faltung durch eine geringere An-zahl von Multiplikationen und vereinfachen die Berechnung der Trans-ferfunktionen. Für einen Ableitungsoperator erster Ordnung ergibt sichaus der Forderung der Verschiebungsfreiheit (Abschn. 12.3.1) im allge-meinen eine 1D-Maske ungerader Symmetrie mit 2R + 1 oder 2R Koeffi-zienten:

[hR, . . . , h1,0,−h1, . . . ,−hR] oder [hR, . . . , h1,−h1, . . . ,−hR] .(12.12)

Daher kann man die Berechnung der Faltung vereinfacht schreiben als

g′n =R∑

n′=1

hn′(gn−n′−gn+n′) oder g′n+1/2 =R∑

n′=1

hn′(gn+1−n′ − gn+n′

).

(12.13)Damit sind für 2R + 1 (2R) Koeffizienten des Filters nur noch R Mul-

tiplikationen erforderlich. Die Anzahl der Additionen ist jedoch unver-ändert 2R − 1.

Die Berechnung der Transferfunktionen wird durch die Symmetrie-beziehungen ebenfalls erheblich erleichtert, da nur die Sinusfunktionendes komplexen Exponenten der Fouriertransformierten in den Gleichun-gen verbleiben. Die Transferfunktion einer eindimensionalen Maske un-gerader Symmetrie lautet daher:

g(k) = 2iR∑v=1

hv sin(vπk) oder g(k) = 2iR∑v=1

hv sin[(v − 1/2)πk].

(12.14)Für Ableitungsfilter zweiter Ordnung können wir alle Gleichungen

verwenden, die in Abschn. 11.2.1 für die Glättungsfilter hergeleitet wur-den, da gerade Symmetrie in der Ableitungsrichtung gegeben sein muss.

12.3 Allgemeine Eigenschaften von Kantenfiltern 351

12.3.4 Nicht selektive Ableitung

Intuitiv erwarten wir, dass jeder Ableitungsoperator feinere Strukturenstärker als gröbere verstärkt, da die Transferfunktion für einen Ablei-tungsoperator p-ter Ordnung mit kp ansteigt. Daher könnten wir argu-mentieren, dass die Transferfunktion eines guten diskreten Ableitungs-operators möglichst gut die ideale Transferfunktion in (12.1) approxi-mieren sollte.

Allerdings ist diese Bedingung eine zu starke Einschränkung. An-genommen, wir wenden vor der Benutzung eines Ableitungsfilters zu-nächst ein Glättungsfilter auf ein Bild an. Die kombinierte Operationwerden wir noch immer als Ableitung erkennen; der mittlere Grauwertist unterdrückt, und der Operator reagiert nur auf räumliche Grauwer-tänderungen.

Daher ist es ausreichend, die ideale Transferfunktion in (12.1) nurfür kleine Wellenzahlen zu fordern, indem die Transferfunktion in ei-ner Taylorreihe bei der Wellenzahl null entwickelt wird. Das führt zufolgenden Bedingungen für einen 1D-Ableitungsoperator pter Ordnung:

∂p′h(k)∂kp′

∣∣∣∣∣k=0

= (ıπ)pp!δp−p′ mit p′ ≤ p + 1. (12.15)

In zwei Dimensionen müssen wir zwei Richtungen beachten:

x :∂r+sh(k)∂kr1∂k

s2

∣∣∣∣∣k=0

= (ıπ)pp!δp−rδs mit r + s ≤ p + 1,

y :∂r+sh(k)∂kr1∂k

s2

∣∣∣∣∣k=0

= (ıπ)pp!δrδp−s mit r + s ≤ p + 1.

(12.16)

Diese Bedingungen können in den Ortsraum transformiert werden durchAnwendung des Momententheorems der Fouriertransformation (R4).Aus Gleichung (12.15) folgt für 1D-Ableitungsoperatoren

∑nnp

′hn = p!δp−p′ (12.17)

und aus (12.16) für 2D-Ableitungsoperatoren

x :∑n

∑mnrmshn,m = p!δp−rδs,

y :∑n

∑mnrmshn,m = p!δrδp−s .

(12.18)

352 12 Kanten

Als Beispiel folgen die spezifischen Bedingungen für einen 2D-Ablei-tungsoperator zweiter Ordnung in x-Richtung:

∑n

∑mhn,m = 0,

∑n

∑mnhn,m = 0,

∑n

∑mmhn,m = 0,

∑n

∑mnmhn,m = 0,

∑n

∑mn2hn,m = 2,

∑n

∑mm2hn,m = 0,

∑n

∑mn2mhn,m = 0,

∑n

∑mnm2hn,m = 0.

(12.19)

Diese Bedingungen enthalten die Mittelwertfreiheit aus Abschn. 12.3.2und erzwingen ebenfalls die gerade Symmetrie, wie sie aus der Verschie-bungsfreiheit resultiert (Abschn. 12.3.1).

12.3.5 Isotropie

Für eine gute Kantendetektion ist es wichtig, dass die Operatorantwortnicht von der Richtung der Kante abhängt. Trifft dies zu, sprechen wirvon einem isotropen Kantendetektor. Die Isotropie eines Kantendetek-tors kann am besten über seine Transferfunktion untersucht werden.Die allgemeinste Form für einen isotropen Ableitungsoperatorp-ter Ord-nung ist gegeben durch

h(k) = (ikw)pb(|k|) mit b(0) = 1 und ∇kb(k) = 0. (12.20)

Die Anforderungen an Ableitungsfilter sind im Anhang A zusammen-gefasst (R24 und R25).

12.4 Gradientenbasierte Kantendetektion

12.4.1 Prinzip

In Bezug auf erste Ableitungen stellt eine Kante einen Extremwert dar(Abb. 12.1). Kantendetektion mit Ableitungen erster Ordnung bedeutetdaher die Suche nach den größten Änderungen, d. h. Maxima im Betragdes Gradientenvektors (12.2). Deshalb müssen wir partielle Ableitungenerster Ordnung in alle Richtungen berechnen. In Operatornotation ge-schrieben stellt der Gradient einen Vektoroperator dar. Im zwei- unddreidimensionalen Raum haben wir dann die Vektoroperatoren

D =[ Dx

Dy

]oder D =

⎡⎢⎣ Dx

Dy

Dz

⎤⎥⎦ . (12.21)

Da der Gradient ein Vektor ist, ist sein Betrag (12.5) invariant unter einerDrehung des Koordinatensystems. Dies ist eine notwendige Bedingung

12.4 Gradientenbasierte Kantendetektion 353

für eine isotrope Kantendetektion. Die Berechnung des Gradientenbe-trags kann im Zweidimensionalen durch die Operatorgleichung

|D| =[Dx ·Dx +Dy ·Dy

]1/2. (12.22)

ausgedrückt werden. Das Symbol · gibt die punktweise Multiplikationder beiden Bilder an, die aus den Filteroperationen Dx und Dy resul-tieren (Abschn. 4.1.4). Ebenso wird die Berechnung der Quadratwurzelpunktweise im Ortsraum durchgeführt. Die Anwendung des Operators|D| auf das Bild G bedeutet nach der Operatorgleichung in (12.22) alsodie folgende Kette von Operationen:

1. Filterung des Bildes G unabhängig voneinander mit den OperatorenDx und Dy ,

2. Berechnung des Quadrats der beiden resultierenden Bilder,

3. deren Addition und

4. Berechnung der Quadratwurzel des Summenbildes.

Die Berechnung des Betrags des Gradienten mag wegen der vielenRechenschritte aufwendig erscheinen. Deswegen wurde sie oft durch

|D| ≈ |Dx| +∣∣∣Dy

∣∣∣ (12.23)

approximiert. Diese Approximation ist jedoch selbst für kleine Wellen-zahlen anisotrop. Kanten in Diagonalenrichtung werden um den Fak-tor

√2 empfindlicher detektiert als Kanten in Achsenrichtung. Die Be-

rechnung des Betrags des Gradientenvektor lässt sich jedoch schnellals dyadische Punktoperation mit einer Lookup-Tabelle durchführen (Ab-schn. 10.7.2).

12.4.2 Fehler in Betrag und Richtung

Das grundsätzliche Problem mit allen Kantendetektoren ist, dass Ablei-tungsoperatoren auf einem diskreten Gitter nur approximiert werdenkönnen. Dabei können zwei Arten von Fehlern auftreten (Abb. 12.2).Zum einen kann die Kantendetektion anisotrop sein, d. h., die Berech-nung des Betrags des Gradienten hängt von der Richtung der Kante ab.Zum zweiten kann die berechnete Kantenrichtung von der tatsächlichenRichtung abweichen. Für beide Arten von Fehlern ist es sinnvoll, ein Feh-lermaß einzuführen. Diese Fehlermaße werden wir bei der Beschreibungder verschiedenen Kantenfilter angeben.

Der Betrag des Gradienten ist gegeben durch∣∣∣d(k)∣∣∣ = (dx(k)2 + dy(k)2

)1/2, (12.24)

wobei d(k) die vektorielle Transferfunktion des Gradientenoperators ist.Die Anisotropie der Berechnung des Betrags kann dann als Abweichung

354 12 Kanten

Abbildung 12.2: Illustration des Betrags- und Richtungsfehlers des Gradienten-vektors.

vom Betrag des Gradienten in x-Richtung angegeben werden. Diese istgegeben durch

em(k) =∣∣∣d(k)∣∣∣− ∣∣∣dx(k)∣∣∣ . (12.25)

Dieses Fehlermaß kann für beliebigdimensionale Signale verwendet wer-den.

In ähnlicher Weise kann der Fehler in Richtung des Gradienten be-rechnet werden. Aus den Komponenten des 2D-Gradienten berechnenwir dessen Richtung, die durch den Winkel φ′ gegeben ist, zu

φ′ = arctandy(k,φ)dx(k,φ)

. (12.26)

Damit ergibt sich der Winkelfehler zu

eφ(k,φ) = arctandy(k,φ)dx(k,φ)

−φ. (12.27)

Bei höherdimensionalen Signalen ist die Winkelabweichung eine vektori-elle Größe. Wir können aber einen skalaren Richtungsfehler angeben, indem wir das Skalarprodukt zwischen einem Einheitsvektor in der wah-ren Gradientenrichtung und dem berechneten Gradientenvektor d(k)(Abb. 12.2) berechnen:

cos eϕ = kTd(k)∣∣∣d(k)∣∣∣ mit k = k|k| . (12.28)

Im Gegensatz zum Winkelfehler für den 2D-Gradienten in (12.27) nimmtder Winkelfehler nach (12.28) nur positive Werte an. Er kann nicht dieRichtung der Abweichung angeben.

Es gibt eine große Fülle von Kantendetektoren. Wir werden einige vonihnen sorgfältig in den Abschn. 12.4.3–12.6 untersuchen.


D2x

D2y

Abbildung 12.3: Anwendung der symmetrischen DifferenzenfilterD2x undD2yauf das Testbild aus Abb. 11.4.

12.4.3 Diskrete Differenzen erster Ordnung

Differenzen erster Ordnung sind der einfachste Ansatz zur Berechnungeines Gradientenvektors. Die erste partielle Ableitung in x-Richtung,∂g(x1, x2)/∂x1, können wir approximieren durch:

Rückwärtsdifferenzg(x1, x2)− g(x1 −∆x1, x2)

∆x1,

Vorwärtsdifferenzg(x1 +∆x1, x2)− g(x1, x2)

∆x1oder

Symmetrische Differenzg(x1 +∆x1, x2)− g(x1 −∆x1, x2)

2∆x1.

(12.29)Diese Näherungen entsprechen den Filtermasken

Rückwärts −Dx = [1• − 1]

Vorwärts +Dx = [1 − 1•]

Symmetrisch D2x = 1/2 [1 0 − 1] .

(12.30)

Der Index • bezeichnet den Punkt, an den das Ergebnis zurückgeschrie-ben wird. Die in Abschn. 12.3.3 geforderte Symmetrie zeigt nur die letzte

356 12 Kanten

Maske. Wir können die Zweielementmasken, die dem Rückwärts- oderVorwärtsgradienten entsprechen, auch als ungerade bzw. antisymmetri-sche Masken betrachten, wenn das Ergebnis nicht an der Position desrechten oder linken Bildpunktes, sondern zwischen den beiden Pixelngespeichert wird. Dies entspricht einer Verschiebung des Gitters um ei-ne halbe Bildpunktdistanz. Dann ist die Transferfunktion für den Rück-wärtsgradienten

−dx = exp(iπkx/2)[1− exp(−iπkx)

]= 2i sin(πkx/2), (12.31)

wobei der erste Term aus der Verschiebung um einen halben Gitterab-stand herrührt.

Unter Verwendung von (12.14) reduziert sich die Transferfunktiondes symmetrischen Ableitungsoperators auf

d2x = i sin(πkx) = i sin(πk cosφ). (12.32)

Diesen Operator kann man sich auch wie folgt zusammengesetzt den-ken:

D2x = −Dx 1Bx = [1• − 1]∗ 1/2 [1 1•] = 1/2 [1 0 − 1] .

Für Differenzenfilter in andere Richtungen gelten entsprechende Glei-chungen. Die Transferfunktion des symmetrischen Differenzenfilters iny-Rchtung ist z. B. gegeben durch

d2y = i sin(πky) = i sin(πk sinφ). (12.33)

Bei der Anwendung von D2x auf das Ring-Testmuster in Abb. 12.3wird die Richtungsabhängigkeit und die Phasenverschiebung von 90° die-ser Filter deutlich. Abbildung 12.4 zeigt die Detektion von Kanten mitdiesen Filtern, den Betrag des Gradienten und die Summe der Beträgevon D2x und D2y .

Diese einfachen Gradientenfilter sind nur eine dürftige Näherung fürKantendetektoren. Aus (12.32) bis (12.33) können wir ableiten, dass Be-trag und Richtung des Gradienten sich aus

|d| =(sin2(πk cosφ)+ sin2(πk sinφ)

)1/2(12.34)

und

φ′ = arctansin2(πk sinφ)sin(πk cosφ)

(12.35)

ergeben, wobei die Wellenzahl in Polarkoordinaten (k,φ) geschriebenwurde. Die resultierenden Fehler sind als Pseudo-3D-Grafik in Abb. 12.5als Funktion des Betrags der Wellenzahl und des Winkels zur x-Achse


a b

c d

e f

Abbildung 12.4: Detektion von Kanten mit Ableitungsoperatoren: a Original-bild, b Laplaceoperator L, c horizontale Ableitung D2x , d vertikale AbleitungD2y , e Betrag des Gradienten (D2x · D2x + D2y · D2y)1/2 und f Summe derBeträge von c und d nach (12.23).

gezeigt. Der Betrag des Gradienten nimmt vom korrekten Wert rasch ab.Eine Taylorreihe von (12.34) in k ergibt für den Fehler des Betrags

em(k,φ) ≈ (πk)3

12sin2 2φ+O(k5). (12.36)

358 12 Kanten

a b

~k

θ

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-10

-5

0

5

10°

°

°°

Abbildung 12.5: a Anisotropie im Betrag und b Fehler in der Richtung des Gradi-

enten für den symmetrischen Gradientenfilter[D2x,D2y

]T. Die Parameter sind

der Betrag der Wellenzahl (0 bis 1) und der Winkel zur x-Achse (0 bis π/2).

Der Betrag ist in Diagonalenrichtung größer. Damit ist der Filter ani-sotrop. Der Fehler in der Richtung des Gradienten ist ebenfalls groß.Während der Fehler in Richtung der Achsen und Diagonalen null ist, er-reicht er in den dazwischenliegenden Richtungen bereits bei k = 0,5Werte von etwa ± 10° (Abb. 12.5b). Eine Taylorreihe von (12.35) in kergibt für kleine k näherungsweise den Winkelfehler

eφ(k,φ) ≈ (πk)2

24sin 4φ+O(k4). (12.37)

Aus dieser Gleichung sehen wir, dass der Winkelfehler für φ = nπ/4mit n ∈ Z, also für φ = 0°, 45°, 90°, …null ist.

12.4.4 Spline-basierte Kantendetektion

Die kubische B-Spline-Transformation, die in Abschn. 10.6.1 für die In-terpolation benutzt wurde, hat zu einer kontinuierlichen Repräsentati-on eines Bildes mit stetigen Ableitungen erster und zweiter Ordnunggeführt:

g3(x) =∑ncnβ3(x −n), (12.38)

wobei β3(x) die in (10.53) definierte kubische B-Spline-Funktion ist. Aus-gehend von dieser kontinuierlichen Darstellung ist die Berechnung derräumlichen Ableitung von g3(x) einfach:

∂g3(x)∂x

=∑ncn∂β3(x −n)

∂x. (12.39)

Für einen diskreten Ableitungsfilter benötigen wir nur die Ableitungenan den Gitterpunkten. Abbildung 10.20a zeigt, dass die kubische B-Spline-Funktion höchstens über 5 Gitterpunkte ausgedehnt ist. Das Ma-


a

~k

θ

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°

°

°°

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-1

-0.5

0

0.5

1

Abbildung 12.6: a Anisotropie im Betrag und b Fehler in der Richtung des Gra-dienten für den kubischen B-Spline-Ableitungsoperator nach (12.41). Die Para-meter sind der Betrag der Wellenzahl (0 bis 1) und der Winkel zur x-Achse (0 bisπ/2).

ximum der Spline-Funktion liegt am zentralen Gitterpunkt. Die Ablei-tung ist also an diesem Punkt null, ebenso an den beiden äußeren Gitter-punkten. Die Ableitung ist daher nur an den direkten rechten und linkenNachbarn des zentralen Gitterpunktes ungleich null. Am Gitterpunktxmreduziert sie sich deshalb auf

∂g3(x)∂x

∣∣∣∣xm= (cm+1 − cm−1)/2. (12.40)

Damit ist die auf der kubischen B-Spline-Transformation basierende Be-rechnung der Ableitung erster Ordnung tatsächlich eine effiziente Lö-sung. Wir führen zunächst die kubische B-Spline-Transformation in Rich-tung der zu berechnenden Ableitung durch (Abschn. 10.6.1) und wendendann den einfachenD2x-Operator an. Dann ergibt sich die Transferfunk-tion zu

Dx = isin(πkx)

2/3+ 1/3 cos(πkx)= iπkx − i

π5k5x

180+O(k7

x). (12.41)

Die Fehler von Betrag und Richtung eines auf dem B-Spline-Ablei-tungsfilter basierenden Gradientenvektors sind in Abb. 12.6 gezeigt. Siesind beträchtlich geringer als bei einfachen Ableitungsfiltern (Abb. 12.5).Dies wird quantitativ deutlich anhand von Taylorreihen für den Fehlerdes Betrags des Gradienten und für den Winkelfehler:

em(k,φ) ≈ −(πk)5

240sin2 2φ+O(k7) (12.42)

eφ(k,φ) ≈ (πk)4

720sin 4φ+O(k6). (12.43)

Die Fehler tauchen jetzt erst in den Termen mit k4 auf. Man vergleiche(12.42) und (12.43) mit (12.34) und (12.35) und mit (12.64) und (12.65).

360 12 Kanten

12.5 Kantendetektion durch Nulldurchgänge

12.5.1 Prinzip

Kanten sind Nulldurchgänge in der zweiten Ableitung (Abb. 12.1). Daherbildet die Summe der partiellen zweiten Ableitungen in allen Richtungennach (12.9) einen linearen isotropen Kantendetektor mit der Transfer-funktion −(πk)2, der als Laplaceoperator bekannt ist. Aus Abb. 12.1wird aber auch deutlich, dass nicht jeder Nulldurchgang eine Kante dar-stellt. Nur wenn es Signalspitzen unmittelbar vor und nach der Nullstellegibt, die deutlich höher sind als der Rauschpegel, dann liegt eine signi-fikante Kante vor. Aus Abb. 12.1 können wir auch entnehmen, dass dieKantendetektion mit dem Laplaceoperator deutlich rauschanfälliger istals die gradientenbasierte Kantendetektion.

12.5.2 Laplacefilter

Zu Differenzenoperatoren zweiter Ordnung gelangen wir direkt durcheine zweifache Anwendung der Operatoren erster Ordnung:

D2x = −Dx

+Dx. (12.44)

Im Ortsraum entspricht dies den Faltungsmasken

[1• − 1]∗ [1 − 1•] = [1 − 2 1] . (12.45)

Der diskrete Laplaceoperator L = D2x +D2

y für 2D-Bilder hat daherdie Filtermaske

L =[

1 −2 1]+

⎡⎢⎣ 1−2

1

⎤⎥⎦ =

⎡⎢⎣ 0 1 0

1 −4 10 1 0

⎤⎥⎦ (12.46)

und die Transferfunktion:

l(k) = −4 sin2(πkx/2)− 4 sin2(πky/2). (12.47)

Wie andere diskrete Näherungen von Operatoren ist der diskretisierteLaplaceoperator nur für kleine Wellenzahlen isotrop (Abb. 12.7a):

l(k,φ) = −(πk)2 + 348(πk)4 + 1

48cos 4φ(πk)4 +O(k6). (12.48)

Es gibt viele andere Wege zur Konstruktion einer diskreten Näherungfür den Laplaceoperator. Interessant ist die Verwendung einer Binomi-almaske. Mit (11.24) können wir alle Binomialmasken für ausreichendkleine Wellenzahlen durch folgende Gleichung approximieren:

b2R(k) ≈ 1− R4(kπ)2 +O(k4). (12.49)

12.5 Kantendetektion durch Nulldurchgänge 361

a

~kx

~k y

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

-8

-6

-4

-2

0

b

0

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

~k

θ

c

~kx

~k y

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

-4

-3

-2

-1

0

d

00.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

~k

θ

Abbildung 12.7: Transferfunktionen diskreter Laplaceoperatoren und derenAnisotropie: a L (12.46), b L(k, θ)− L(k,0); c L′ (12.50), d L′(k, θ)− L′(k,0).

Hieraus schließen wir, dass jeder Operator Bp − I für kleine Wellen-zahlen einen Laplaceoperator bildet. Zum Beispiel ist

L′ = 4(B2 − I) = 14

⎡⎢⎣ 1 2 1

2 4 21 2 1

⎤⎥⎦−

⎡⎢⎣ 0 0 0

0 4 00 0 0

⎤⎥⎦

= 14

⎡⎢⎣ 1 2 1

2 −12 21 2 1

⎤⎥⎦

(12.50)

mit der Transferfunktion

l′(k) = 4 cos2(πkx/2) cos2(πky/2)− 4 (12.51)

eine weitere Realisierung eines diskreten Laplaceoperators. Für kleineWellenzahlen kann er durch

l′(k,φ) ≈ −(πk)2 + 332(πk)4 − 1

96cos 4φ(πk)4 +O(k6) (12.52)

angenähert werden. Für große Wellenzahlen zeigen die Transferfunk-tionen beider Laplaceoperatoren L und L′ beträchtliche Abweichungen

362 12 Kanten

a

~k

θ

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°

°

°°

0.2

0.4

0.6

0.8

1 0

0.5

1

1.5

-1

-0.5

0

0.5

1

Abbildung 12.8: a Anisotropie im Betrag und b Fehler in der Richtung des Gra-dienten für den mit der Methode der kleinsten Quadrate nach (12.56) optimiertenAbleitungsfilter für R = 3 (d1 = −0.597949,d2 = 0.189835, d3 = −0.0357216).Die Parameter sind der Betrag der Wellenzahl (0 bis 1) und der Winkel zur x-Achse (0 bis π/2).

von einem idealen Laplaceoperator −(πk)2 (Abb. 12.7). L′ hat aber einesignifikant geringere Anisotropie als L.

12.6 Optimierte Kantendetektion

In diesem Abschnitt besprechen wir als ein Beispiel Ableitungsfilter erster Ord-nung, die mit der Methode der kleinsten Quadrate optimiert werden. DieseTechnik haben wir bereits in Abschn. 10.6.2 zur Optimierung von Interpolati-onsfiltern verwendet. Die grundlegende Idee ist es, ein 1D-Filter mit R Koeffizi-enten und ungerader Symmetrie in der Ableitungsrichtung w anzusetzen unddie Koeffizienten so zu variieren, dass die Abweichung der Transferfunktionvon der idealen Transferfunktion iπkw minimal wird. Damit ist die Zielfunkti-on des Optimierungsansatzes

t(kw) = iπkw, (12.53)

und die Transferfunktion des 1D-Filters der Größe 2R + 1 mit R unbekanntenKoeffizienten ist

Rd(kw) = −iR∑v=1

2dv sin(vπkw). (12.54)

Wie bei den Interpolationsfiltern in Abschn. 10.6.2 werden die Koeffizienten sobestimmt, dass die Summe der quadratischen Abweichungen zwischen Rd(k)und t(k) minimal wird:

1∫0

w(kw)∣∣∣Rd(kw)− t(kw)∣∣∣2

dkw. (12.55)

Dabei bestimmt die wellenzahlabhängige Wichtungsfunktion w(kw), wie starkdie unterschiedlichen Wellenzahlen gewichtet werden.

12.6 Optimierte Kantendetektion 363

a

~k

θ

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°

°

°°

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-1

-0.5

0

0.5

1

Abbildung 12.9: a Anisotropie im Betrag und b Fehler in der Richtung des Gra-dienten für den mit der Methode der kleinsten Quadrate nach (12.58) optimier-ten rekursiven Ableitungsfilter für R = 2 (β = −0.439496, d1 = −0.440850,d2 = −0.0305482. Die Parameter sind der Betrag der Wellenzahl (0 bis 1) undder Winkel zur x-Achse (0 bis π/2).

Als zusätzliche nützliche Zwangsbedingung können wir fordern, dass die Trans-ferfunktion bei kleinen Wellenzahlen gleich iπk sein soll. Diese Bedingung re-duziert die Zahl der Freiheitsgrade für die Filteroptimierung vonR Koeffizientenauf R − 1. Anstelle von (12.54) ergibt sich dann folgender Ansatz:

Rd = −i sin(πkw)− iR∑v=2

2dv(sin(vπkw)− v sin(πkw)

)(12.56)

undd1 = 1−

R∑v=2

vdv. (12.57)

Wie ein Vergleich der Abb. 12.6 und 12.8 zeigt, weist dieses Filter deutlich ge-ringere Fehler auf als das Filter basierend auf kubischer B-Spline-Interpolation.

Ableitungsfilter können weiter verbessert werden, indem der Abfall in der Trans-ferfunktion zu hohen Wellenzahlen durch ein vor- und zurücklaufendes Rela-xationsfilter (Abschn. 4.5.5, Abb. 4.5b) kompensiert wird. Dann ergibt sich fol-gender Ansatz für die Transferfunktion:

(R,β)d =−i sin(πk)− i

R∑v=2

2dv(sin(vπkw)− v sin(πkw)

)1+ β− β cos(πkw)

(12.58)

mit dem zusätzlichen Parameter β. Abbildung 12.9 zeigt den Fehler in Betragund Richtung des Gradienten für ein Filter mit R = 2 Koeffizienten.

Eine ausführliche Diskussion des Entwurfs optimaler Ableitungsfilter mit Filter-koeffiziententabellen findet sich bei Jähne [99].

364 12 Kanten

a

~k

θ

0.2

0.4

0.6

0.8

1 0

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°

°

°°

0.2

0.4

0.6

0.8

1 0

0.5

1

1.5

-10

-5

0

5

10

Abbildung 12.10: a Anisotropie des Betrags und b Fehler in der Richtungdes Gradienten basierend auf den regularisierten 2× 2-Kantendetektoren nach(12.59). Die Parameter sind der Betrag der Wellenzahl (0 bis 1) und der Winkelzur x-Achse (0 bis π/2).

12.7 Regularisierte Kantendetektion

12.7.1 Prinzip

Die bisher besprochenen Kantendetektoren sind wenig brauchbar, insbesonde-re bei verrauschten Bildern. Wegen der kleinen Maskengröße ist die Transfer-funktion bei großen Wellenzahlen hoch. Dort ist aber oft mehr Rauschen alsNutzsignal vorhanden. Mit anderen Worten: für die Kantendetektion haben wirbisher noch nicht die in Abschn. 5.1.1 diskutierte Bedeutung der Skalen für dieBildverarbeitung berücksichtigt. Optimale Kantendetektoren müssen daher aufden Wellenzahlenbereich eingestellt werden, bei dem das maximale Signal-zu-Rausch-Verhältnis vorliegt. Also müssen wir Filter entwickeln, die zwar in eineRichtung ableiten bzw. Differenzen bestimmen, in alle anderen Richtungen abereine Glättung vornehmen.

Eine Glättung ist besonders effektiv in höherdimensionalen Signalen, da eineGlättung in alle Richtungen senkrecht zu dem Gradienten die Kante nicht ver-schmiert. Ein Differenzenfilter, das eine Glättung beinhaltet, wird als ein re-gularisierter Kantendetektor bezeichnet, da dieser eine robuste Lösung für dasschlecht gestellte Problem der Bestimmung von Ableitungen aus diskreten Si-gnalen erlaubt.

12.7.2 Regularisierte 2 × 2-Kantendetektoren

Der kleinste regularisierte 2D-Gradientenoperator hat die 2× 2-Masken

DxBy = 12

[1 −11 −1

]und DyBx = 1

2

[1 1−1 −1

](12.59)

und die Transferfunktionen

dxby(k) = 2i sin(πkx/2) cos(πky/2)

dy bx(k) = 2i sin(πky/2) cos(πkx/2).(12.60)

12.7 Regularisierte Kantendetektion 365

a

~k

θ

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°°

°°

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-10

-5

0

5

10

Abbildung 12.11: a Anisotropie im Betrag und b Fehler in der Richtung desGradienten für den Sobel-Kantendektor (12.63). Die Parameter sind der Betragder Wellenzahl (0 bis 1) und der Winkel zur x-Achse (0 bis π/2).

Bei diesen kleinen Masken gibt es keinerlei Optimierungsmöglichkeiten. DieFilter Dx = [1 − 1] und Dy = [1 − 1]T sind nicht geeignet zur Bildung ei-nes Gradientenoperators, daDx undDy das Faltungsergebnis um jeweils einenhalben Pixelabstand in die x- bzw. y-Richtung verschieben.

Die Fehler im Betrag und in der Richtung des Gradienten sind für kleine Wel-lenzahlen

em(k,φ) ≈ − (πk)3

24sin2 2φ+O(k5). (12.61)

eφ(k,φ) ≈ − (πk)2

48sin 4φ+O(k4). (12.62)

Die Fehler sind deutlich (für kleine Wellenzahlen um etwa die Hälfte) kleiner alsbei dem auf dem symmetrischen Differenzenoperator basierenden Gradienten(Abb. 12.5 und 12.10), obwohl die anisotropen Terme in der gleichen Ordnungin der Wellenzahl in (12.36) und (12.37) erscheinen.

12.7.3 Sobel-Kantendetektoren

Der Sobeloperator verwendet Differenzenfilter, die das Bild in der Richtungsenkrecht zur Ableitungsrichtung mitteln:

D2xB2y =

18

⎡⎢⎣ 1 0 –1

2 0 –21 0 –1

⎤⎥⎦ , D2yB2

x =18

⎡⎢⎣ 1 2 1

0 0 0–1 –2 –1

⎤⎥⎦ . (12.63)

Abbildung 12.11 zeigt die resultierenden Fehler des Betrags und der Richtungdes Gradienten. Die Verbesserung gegenüber dem symmetrischen Differenzen-operator (Abb. 12.5) ist vergleichbar mit der des regularisierten 2× 2-Kanten-detektors (Abb. 12.10). Eine Taylorentwicklung liefert als Näherung für kleineWellenzahlen die gleichen Ergebnisse (vergleiche (12.61) und (12.62)):

em(k,φ) ≈ − (πk)3

24sin2 2φ+O(k5) (12.64)

366 12 Kanten

für den Fehler des Betrags und

eφ(k,φ) ≈ − (πk)2

48sin 4φ+O(k4) (12.65)

für den Fehler der Gradientenrichtung. Ein Vergleich mit den entsprechendenGleichungen (12.36) und (12.37) für die einfachen Ableitungsfilter zeigt, dasssowohl die Anisotropie als auch der Winkelfehler des Sobeloperators nur halbso groß sind. Allerdings nimmt der Fehler immer noch mit dem Quadrat derWellenzahl zu. Der Richtungsfehler des Sobeloperators beträgt bei einer Wellen-zahl von 0,5 bis zu 5°, was für die meisten Anwendungen nicht toleriert werdenkann.

12.7.4 Ableitungen der Gaußfunktion

Eine lang bekannte Klasse von regularisierten Ableitungsfiltern sind Filter, dieauf der Ableitung von Glättungsfiltern auf der Basis der Gaußfunktion beruhen.Ein solches Filter wurde z. B. von Canny [27] zur optimalen Kantendetektioneingesetzt und ist nun unter dem Namen Canny-Filter bekannt. Für diskreteDaten approximiert man diese Operatoren am besten durch Ableitungen desBinomial-Glättungsfilters (Abschn. 11.4) als

(B,R)Dw = D2wBR (12.66)

mit einer nicht-quadratischen (2R + 3)× (2R + 1)W−1 W -dimensionalen Filter-maske und der Transferfunktion

(B,R)dw(k) = i sin(πkw)W∏w=1

cos2R(πkw/2). (12.67)

Überraschenderweise stellen sich diese Filter als eine schlechte Wahl heraus, dadie Anisotropie die gleiche ist wie beim symmetrischen Differenzenfilter. Dassieht man sofort für die Richtung des Gradienten. Die Glättungsterme sindgleich für beide Richtungen und kürzen sich deswegen in (12.27) heraus. Dieverbliebenen Terme sind dieselben wie beim symmetrischen Differenzenfilter.

In ähnlicher Weise haben die sobelartigen RW -Differenzenoperatoren

RSw = DwBR−1w

∏w′≠w

BRw′ (12.68)

mit einer (2R+1)W großenW -dimensionalen Filtermaske und der Transferfunk-tion

RSd(k) = i tan(πkd/2)W∏w=1

cos2R(πkd/2) (12.69)

die gleiche Ansiotropie bei der gleichen Wellenzahl wie der 3× 3-Sobeloperator.

12.7 Regularisierte Kantendetektion 367

a

~k

θ

0.2

0.4

0.6

0.8

1 0

0.5

1

1.5

-0.2

-0.1

0

0.1

0.2

b

~k

θ

°

°

°°

0.2

0.4

0.6

0.8

10

0.5

1

1.5

-1

-0.5

0

0.5

1

Abbildung 12.12: a Anisotropie im Betrag und b Fehler in der Richtung desGradienten für den optimierten Sobel-Kantendektor (12.70). Die Parameter sindder Betrag der Wellenzahl (0 bis 1) und der Winkel zur x-Achse (0 bis π/2).

12.7.5 Optimierte regularisierte Kantendetektoren

Wir können leicht einen optimierten Sobeloperator mit einem minimalen Feh-ler der Richtung des Gradienten ableiten. Der Vergleich von (12.35) und (12.65)zeigt, dass die beiden Filter Winkelfehler in entgegengesetzter Richtung aufwei-sen. Es scheint, als ob der Sobeloperator zu stark senkrecht zur Ableitungsrich-tung glättet, der symmetrische Differenzenoperator dagegen zu wenig, nämlichüberhaupt nicht. Daher ist zu vermuten, dass durch geeignete Kombination derbeiden Operatoren, d. h. durch Einstellung der Querglättung, ein minimaler

Winkelfehler erreicht wird. Die Querglättung kann durch Erhöhung des zen-tralen Koeffizienten erniedrigt werden. Tatsächlich zeigten Jähne et al. [107]mithilfe eines nichtlinearen Optimierungsverfahrens, dass folgende Operato-ren optimal bezüglich des Winkelfehlers des Gradienten sind (Abb. 12.12):

1/4D2x(3B2y + I) =

132

⎡⎢⎣ 3 0 −3

10 0 −103 0 −3

⎤⎥⎦ ,

1/4D2y(3B2x + I) =

132

⎡⎢⎣ 3 10 3

0 0 0−3 −10 −3

⎤⎥⎦ .

(12.70)

Ähnliche Optimierungen sind für Ableitungsoperatoren mit größeren Maskenmöglich.

12.7.6 LoG- und DoG-Filter

Laplacefilter neigen dazu, Rauschen in Bildern beträchtlich zu erhöhen, da dieTransferfunktion proportional zum Quadrat der Wellenzahl ist. Ein bessererKantendetektor ergibt sich, wenn wir das Bild zuerst glätten und danach dasLaplacefilter anwenden. Dadurch erhalten wir eine Art steuerbare Kantendetek-tion. Solch ein Filter wird in der Literatur Laplace of Gaussian-Filter (abgekürztLoG-Filter) oder als Marr-Hildreth-Operator [150] bezeichnet.

368 12 Kanten

a

~kx

~k y

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

-2

-1.5

-1

-0.5

0

b

~kx

~k y

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

-2

-1.5

-1

-0.5

0

Abbildung 12.13: Pseudo-3D-Plot der Transferfunktionen a des LoG-Filters LB2

und b des DoG-Filters 4(B4 −B2).

Im diskreten Fall wird ein LoG-Filter angenähert, indem das Bild zunächst miteiner Binomialmaske geglättet und anschließend mit dem diskreten Laplace-operator gefiltert wird. Damit erhalten wir den Operator LBp mit folgenderTransferfunktion:

LBp(k) = −4[sin2(πkx/2)+ sin2(πky/2)

]cosp(πkx/2) cosp(πky/2).

(12.71)Für kleine Wellenzahlen kann diese Transferfunktion mit

LBp(k,φ) ≈ −(πk)2 +[

116+ 1

8p + 1

48cos(4φ)

](πk)4 (12.72)

näherungsweise bestimmt werden.

In Abschn. 12.5.2 haben wir gesehen, dass ein Laplacefilter besser mit Opera-toren vom Typ Bp − I beschrieben werden kann. Glätten wir zusätzlich, führtdiese Näherung zu einem Filtertyp, der als Difference of Gaussian-Filter oderabgekürzt DoG-Filter bezeichnet wird:

4(Bq − I)Bp = 4(Bp+q −Bp). (12.73)

Dieses DoG-Filter hat die Transferfunktion

4(Bp+2 − Bp)(k) = 4 cosp+2(πkx/2) cosp+2(πky/2)− 4 cosp(πkx/2) cosp(πky/2),

(12.74)

welche für kleine Wellenzahlen mit

4(Bp+2 − Bp)(k,φ) ≈ −(πk)2 +[

332+ 1

8p − 1

96cos(4φ)

](πk)4 (12.75)

angenähert werden kann. In Abb. 12.13 sind die Transferfunktionen der LoG-und DoG-Filter verglichen. Offensichtlich zeigt das DoG-Filter geringere Ab-weichungen von einem isotropen Filter. Ein Filter mit noch geringerer Ab-weichung lässt sich konstruieren, wenn wir (12.72) und (12.75) vergleichen.Die anisotropen Terme cos 4φ haben unterschiedliche Vorzeichen. Damit kön-nen sie leicht kompensiert werden, indem LoG- und DoG-Operatoren nach der

12.8 Kanten in Mehrkanalbildern 369

Formel 2/3DoG + 1/3LoG gemischt werden. Dies entspricht dem Operator(8/3B2 − 8/3I − 1/3L)Bp .

LoG- und DoG-Filteroperatoren haben große Bedeutung für das visuelle Systemdes Menschen [149].

12.8 Kanten in Mehrkanalbildern

Die Analyse von Kanten ist in Mehrkanalbildern sehr viel schwieriger als dieMittelwertbildung, die in Abschn. 11.7 besprochen wurde. Das Grundproblemliegt in der Tatsache, dass die unterschiedlichen Kanäle konträre Daten überKanten enthalten können. Der Gradient in Kanal A kann in eine andere Richtungzeigen als der in Kanal B. Die einfache Addition der Gradienten aller Kanäle

P∑p=1

∇gp(x) (12.76)

ist daher nicht sinnvoll. Es ist sogar möglich, dass die Gradienten zweier Kanälein entgegengesetzte Richtungen zeigen, sodass sie sich gegenseitig auslöschen.Dieser Fall kann dann nicht von konstanten Bereichen in beiden Kanälen unter-schieden werden.

Ein besseres Maß der resultierenden Kantenstärke ist deshalb die Summe derquadrierten Beträge der Gradienten aller Kanäle:

P∑p=1

|∇gp|2 =P∑p=1

W∑w=1

(∂gp∂xw

)2

. (12.77)

Dieser Ausdruck ergibt zwar eine brauchbare Abschätzung der resultierendenKantenstärke, aber er löst das Problem der konträren Kantenrichtungen nicht.Eine Analyse, wie die Kanten in den P Kanälen verteilt sind, ist mit folgendersymmetrischer W ×W -Matrix S möglich, wobei W die Dimension des Mehrka-nalbildes ist:

S = JTJ. (12.78)

J ist die wie folgt definierte Jacobi-Matrix:

J =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

∂g1

∂x1

∂g1

∂x2· · · ∂g1

∂xW∂g2

∂x1

∂g2

∂x2· · · ∂g2

∂xW...

. . ....

∂gP∂x1

∂gP∂x2

· · · ∂gP∂xW

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦. (12.79)

Die Elemente der Matrix S sind daher

Skl =P∑p=1

∂gp∂xk

∂gp∂xl

. (12.80)

370 12 Kanten

Da S eine symmetrische Matrix ist, können wir sie durch eine Koordinatentrans-formation diagonalisieren und können schreiben:

S′ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

∑P

(∂gp∂x′1

)2

0 · · · 0

0∑P

(∂gp∂x′2

)2. . . 0

0. . .

. . . 0

0 · · · · · ·∑P

(∂gp∂x′W

)2

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦. (12.81)

Im Falle einer idealen Kante ist nur einer der Diagonalterme ungleich null. Diezugehörige Koordinatenrichtung steht senkrecht zur Diskontinuität. In allenanderen Richtungen sind die Diagonalterme null. Daher ist dieser Fall daran zuerkennen, dass der Rang von S eins ist.

Zeigen jedoch die Kanten in den unterschiedlichen Kanälen zufällig in alle Rich-tungen, sind alle Terme ungleich null. Auf diese Weise ist es im Prinzip möglich,zufällige Grauwertveränderungen durch Rauschen von kohärenten Kanten zuunterscheiden. Die Spur der Matrix S

Spur(S) =W∑w=1

Sww =W∑w=1

P∑p=1

(∂gp∂xw

)2

(12.82)

führt zu dem schon in (12.77) definierten Maß der Kantenstärke. Diese ist unab-hängig von der Orientierung der Kante, da die Spur einer symmetrischen Matrixbei Drehung des Koordinatensystems invariant ist.


12.1: Kanten- und Liniendetektion

Interaktive Demonstration der Kanten- und Liniendetektion mit diversenAbleitungsfiltern erster und zweiter Ordnung (dip6ex12.01)

12.2: Kanten- und Liniendetektion auf Pyramiden

Interaktive Demonstration der Kantendetektion mit diversen Ableitungsfil-tern erster und zweiter Ordnung bei unterschiedlichen Skalen auf Pyrami-den (dip6ex12.02)

12.3: ∗Differenzenfilter 1. Ordnung

Das sind oft benutzte diskrete Ableitungsfilter 1. Ordnung in x-Richtung:

a)12

[1 0 −1

], b)

16

⎡⎢⎣ 1 0 −1

1 0 −11 0 −1

⎤⎥⎦ , c)

18

⎡⎢⎣ 1 0 −1

2 0 −21 0 −1

⎤⎥⎦ ,


1. Berechnen Sie die Transferfunktionen der drei Filter

2. Beschreiben Sie vergleichend die Eigenschaften der drei Filter

3. Welches der Filter finden Sie am besten zur Kantendetektion geeignet?Bitte begründen!

12.4: ∗Schlechtes Differenzenfilter 1. Ordnung

Warum ist das Differenzenfilter 1. Ordnung

[1 − 1] ,[

1−1

]

ein schlechtes Filter zur Berechnung des 2D-Gradienten und zur Detektionvon Kanten?

12.5: ∗∗Roberts Differenzenfilter 1. Ordnung

Roberts hat folgenden Differenzenfilter 1. Ordnung[1 00 −1

] [0 1−1 0

]

zur Berechnung des 2D-Gradienten und zur Detektion von Kanten vorge-schlagen.

1. In welche Richtungen detektieren diese Filter Kanten?

2. Berechnen Sie die Transferfunktionen der beiden Filter

3. Vergleichen Sie die Qualität dieses Filter mit dem Filter aus Aufgabe 12.4

12.6: ∗∗Unbekannte Filter

Hier ist eine Liste unbekannter Filter

a)18

[1 2 0 −2 −1

], b)

18

[1 0 −2 0 1

],

c)13

⎡⎢⎣ 1 1 1

1 −8 11 1 1

⎤⎥⎦ , d)

12

⎡⎢⎣ 0 −1 0−1 −6 −1

0 −1 0

⎤⎥⎦ ,

die zu analysieren ist.

1. Berechnen Sie die Transferfunktion dieser Filter!

2. Sind diese Filter Ableitungsfilter erster oder zweiter Ordnung?

3. Wie vergleichen sich diese Filter in ihren Eigenschaften mit den im Buchbeschriebenen?

12.7: ∗∗Design Differenzenfilter 2. Ordnung

Benutzen Sie alle notwendigen Eigenschaften eines Differenzenfilters 2. Ord-nung, um zu zeigen, dass es nur ein solches Filter mit drei Koeffizienten([α βγ]) geben kann.Bei einem Filter mit fünf Koeffizienten bleibt ein freier Parameter übrig.Welche Koeffizienten und welche Transferfunktion hat dieses Filter mit derzusätzlichen Bedingung, dass es die Strukturen mit der höchsten Wellen-zahl eliminiert (h(1) = 0)?

372 12 Kanten

12.8: ∗∗∗Isotropie eines 2D -Gradientenfilters

In der Bildverarbeitung spielt die Isotropie von Faltungsmasken eine großeRolle. Glättungsfilter sollen in alle Richtungen gleichmäßig feine Strukturenwegfiltern, Ableitungsfiltern die Kantenstärke in alle Richtungen gleichmä-ßig detektieren.Untersuchen Sie die Isotropie des einfachen Gradientenfilters

Dx = 1/2 [1 0 − 1] , Dy = 1/2

⎡⎢⎣ 1

0−1

⎤⎥⎦

durch in eine Taylorreihenentwicklung der beiden Transferfunktionen mitder Wellenzahl k bis zur dritten OrdnungHinweis: Isotropie bedeutet, dass der Betrag des Gradienten in alle Rich-tungen der gleiche ist und die Richtung des Gradienten korrekt ist (Ab-schn. 12.4.2). Für die Berechnung ist es hilfreich, die Wellenzahl in Polar-koordinaten anzugeben: k1 = k cosϕ,k2 = k sinϕ.


Über Kantendetektion gibt es eine verwirrende Fülle von Arbeiten in der Lite-ratur. Hier wird nur auf einige sorgfältig ausgewählte Referenzen hingewiesen.Die Entwicklung der Kantendetektion auf Basis von Differenzenfiltern ersterOrdnung kann an Hand weniger Schlüsselpublikationen verfolgt werden. Canny[27] entwickelte einen optimalen Kantendetektor auf der Basis von Ableitungender Gaußfunktion, Deriche [42] stellte ein schnelle rekursive Implementierungdes Canny-Detektors vor, Lanser und Eckstein [131] verbesserten die Isotropievon Deriches rekursivem Filter und Jähne et al. [107] entwickelten eine generel-le nichtlineare Optimierungsstrategie für Kantenfilter mit optimaler Isotropie.Die Kantendetektion auf Basis von Differenzenfiltern zweiter Ordnung (Null-durchgänge) wurde stark durch biologische Sehsysteme beeinflusst. Grundle-gende Arbeiten sind bei Marr und Hildreth [150] und Marr [149] zu finden. Fürweitergehende Arbeiten in Richtung eines universellen Systems für Nachbar-schaftsoperatoren sei auf die Arbeiten von Koenderink und van Doorn [127]und Danielsson et al. [36] verwiesen.

13 Einfache Nachbarschaften

13.1 Einführung

Im letzten Kapitel haben wir uns mit Nachbarschaftsoperationen zur Mit-telung und Kantendetektion beschäftigt. Damit haben wir nur die ein-fachsten Strukturen in einer lokalen Umgebung studiert, nämlich kon-stante Flächen und Kanten (Diskontinuitäten). In einer lokalen Umge-bung können jedoch auch Muster vorhanden sein. In diesem Kapitelbetrachten wir einfache Muster in einer lokalen Nachbarschaft, die wirals einfache Nachbarschaft bezeichnen wollen. Zur Einführung fragenwir uns, welche Arten von Mustern dafür geeignet sind, um mit unseremvisuellen System Objekte vom Hintergrund unterscheiden zu können.

Wie Abb. 13.1 zeigt, können wir Objekte erkennen, auch wenn sie sichnicht durch ihren mittleren Grauwert vom Hintergrund unterscheiden,sondern nur durch Orientierung oder Größe eines Musters. Um dieseAufgabe mit einem digitalen Bildverarbeitungssystem durchzuführen,benötigen wir Operatoren, die Orientierung und Größe von Mustern be-stimmen und damit ein Grauwertbild in ein Merkmalsbild umwandeln.In einem Merkmalsbild können wir dann Muster, die sich durch Orien-tierung oder Größe unterscheiden, einfach separieren.

Lokale Umgebungen, die durch eine Orientierung beschrieben werdenkönnen, bezeichnen wir als einfache Nachbarschaften. Die Entwicklunggeeigneter Operatoren zur Erfassung von Orientierung und Strukturgrö-ße ist eine wichtige und notwendige Voraussetzung für die Analyse kom-plexer Strukturen. Die Bedeutung ein und derselben lokalen Strukturkann sehr unterschiedlich sein, wie Abb. 13.2 für 2D-Bilder zeigt:

• Im einfachsten Fall unterscheiden sich Objekt und Hintergrund durchden Grauwert (Abb. 13.2a). Dann bedeutet eine Grauwertänderung ineiner lokalen Umgebung, dass eine Objektkante vorliegt. Eine Analyseder Orientierung ergibt die Kantenorientierung.

• In Abb. 13.2b unterscheiden sich die Objekte vom Hintergrund durchdie Orientierung ihres Musters oder ihrer Textur . Nun stehen lokaleräumliche Strukturen nicht für eine Kante, sondern charakterisierendie Textur. Mit der Texturanalyse befassen wir uns in Kapitel 15.

• In Bildsequenzen werden lokale Strukturen im Orts/Zeit-Raum durchdie Bewegung bestimmt. Dies ist in Abb. 13.2c für ein zweidimensio-nales Orts/Zeit-Bild gezeigt. Bewegung ist ein wichtiges Merkmal,


374 13 Einfache Nachbarschaften

a b c

Abbildung 13.1: Objekterkennung durch Unterschiede a des Grauwertes, b derOrientierung oder c der Größe eines Musters.

x x

y y t

a b c

x

Abbildung 13.2: Drei Interpretationen orientierter lokaler Strukturen in 2D-Bildern: a Objektkante; b Orientierung von Mustern; c Bewegung als Orientie-rung in einem 2D-Orts/Zeit-Bild.

das wie jedes andere Objekte identifiziert. Sie wird uns im Detail inKapitel 14 beschäftigen.

Obwohl die drei Beispiele sich auf völlig unterschiedliche Bilddatenbeziehen, haben sie gemeinsam, dass die lokale Struktur durch Orientie-rung charakterisiert ist, d. h., die lokalen Grauwerte verändern sich nurin einer Richtung. In diesem Sinne ist das Konzept der Orientierung nureine Erweiterung des Konzepts der Kanten.

13.2 Eigenschaften einfacher Nachbarschaften

13.2.1 Darstellung im Ortsraum

Lokale Umgebungen werden mathematisch am besten mit kontinuierli-chen statt diskreten Funktionen beschrieben. Dieser Ansatz hat zweisignifikante Vorteile. Erstens ist es dadurch einfacher, Konzepte zu for-mulieren und ihre Eigenschaften analytisch zu untersuchen. Solange das

13.2 Eigenschaften einfacher Nachbarschaften 375

abgetastete Bild das Abtasttheorem erfüllt, bleiben alle gewonnenen Er-gebnisse gültig, da es eine exakte Repräsentation der kontinuierlichenGrauwertfunktion ist. Zweitens können wir zwischen Fehlern, die mitdem gewählten Ansatz zusammenhängen, und solchen, die auf die Dis-kretisierung zurückzuführen sind, unterscheiden.

Eine lokale Umgebung mit idealer lokaler Orientierung ist dadurchcharakterisiert, dass der Grauwert sich nur in einer Richtung verändert.Lokale Orientierung wird, da die Grauwerte entlang von Linien konstantsind, auch als lineare Symmetrie bezeichnet [15]. Hierfür wurde vonGranlund und Knutsson [72] der Begriff der einfachen Nachbarschaftgeprägt. Orientieren wir eine Achse des Koordinatensystems entlangder Richtung, in der sich die Grauwerte ändern, werden die Grauwer-te zu einer eindimensionalen Funktion mit nur einer Koordinate. ImAllgemeinen bezeichnen wir die Richtung der lokalen Orientierung miteinem Einheitsvektor n, der auf den Linien der konstanten Grauwertesenkrecht steht. Dann wird eine einfache Nachbarschaft mathematischfolgendermaßen wiedergegeben:

g(x) = g(xT n), (13.1)

wobei wir hier das Skalarprodukt der Einfachheit halber mit xT n schrei-ben. Gleichung (13.1) gilt auch für Bilder höherer Dimensionen. Die Pro-jektion des Vektors x auf den Einheitsvektor n bewirkt, dass die Grau-werte nur noch von einer skalaren Größe, der Koordinate in Richtungvon n, abhängen (Abb. 13.3). Die Korrektheit dieser Darstellung lässtsich leicht verifizieren, indem wir den Gradienten

∇g(xT n) =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

∂g(xT n)∂x1

...

∂g(xT n)∂xW

⎤⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎣n1g′(xT n)

...

nWg′(xT n)

⎤⎥⎥⎥⎥⎦ = ng′(xT n) (13.2)

berechnen. Mit g′ bezeichnen wir die Ableitung von g nach der skalarenGröße xT n. In der Hyperebene senkrecht zum Gradienten sind die Wertelokal konstant. Gleichung (13.2) beweist, dass der Gradient in Richtungvon n liegt.

13.2.2 Darstellung im Fourierraum

Eine einfache Nachbarschaft hat auch im Fourierraum eine spezielle Form.Um sie herzuleiten, nehmen wir in einem ersten Schritt an, dass das ge-samte Bild durch (13.1) beschrieben wird und deshalb n unabhängig vonder Position ist. Dann können wir — ausgehend von der Tatsache, dass


xA

xB

xCn

Abbildung 13.3: Verdeutlichung einer linear symmetrischen oder einfachenNachbarschaft. Die Grauwerte hängen nur von einer Koordinate in Richtungdes Einheitsvektors n ab.

eine einfache Umgebung in allen Richtungen außer n konstant ist — fol-gern, dass die Fouriertransformierte auf eine Linie beschränkt ist. DieRichtung der Linie ist durch n gegeben:

g(xT n) • g(k)δ(k− n(kT n)), (13.3)

wobei k die Koordinate im Fourierraum in der Richtung von n darstellt.Das Argument in der δ-Funktion ist nur null, wenn k parallel zu n ist.In einem zweiten Schritt begrenzen wir nun (13.3) auf eine lokale Umge-bung, indem wir g(xT n) im Ortsraum mit einer Fensterfunktion w(x −x0) multiplizieren. Wir selektieren also eine lokale Umgebung um x0,deren Größe und Form durch die Fensterfunktion bestimmt wird. Bei ei-ner Fensterfunktion, die allmählich gegen null geht, verschwindet derEinfluss der Bildpunkte als Funktion ihrer Entfernung vom zentralenBildpunkt. Eine Multiplikation im Ortsraum entspricht einer Faltung imFourierraum (Abschn. 2.3). Damit ergibt sich

w(x − x0) · g(xT n) • w(k)∗ g(k)δ(k− n(kT n)), (13.4)

wobei w(k) die Fouriertransformierte der Fensterfunktion ist.Die Begrenzung auf eine lokale Umgebung verschmiert also die Linie

im Fourierraum zu einer wurstähnlichen Form. Wegen der Reziprozitätder Skalen zwischen den beiden Räumen ist ihre Dicke umgekehrt pro-portional zur Größe des Fensters. Ausgehend von dieser elementarenBeziehung können wir bereits qualitativ schließen, dass die Genauigkeitder Bestimmung der Orientierung mit dem Verhältnis der Fenstergrößezur Wellenlänge der kleinsten Strukturen im Fenster im direkten Zusam-menhang steht.

13.2 Eigenschaften einfacher Nachbarschaften 377

a

2φ

b c

Abbildung 13.4: Vektordarstellung der lokalen Orientierung: a Orientierungs-vektor; b Mittelung der Orientierungsvektoren einer Region mit homogener Ori-entierung; c das gleiche für eine Region mit zufällig verteilter Orientierung.

13.2.3 Vektordarstellung lokaler Nachbarschaften

Um einfache Nachbarschaften korrekt darstellen zu können, müssen wirzunächst die Begriffe Orientierung und Richtung unterscheiden. DieRichtung ist über den gesamten Winkelbereich von 2π (360°) definiert.Zwei Vektoren, die in entgegengesetzte Richtungen zeigen, d. h. um 180°gegeneinander gedreht sind, gelten als unterschiedlich. Der Gradienten-vektor zeigt zum Beispiel immer in die Richtung ansteigender Grauwer-te. Bei einem hellen Objekt auf dunklem Hintergrund bedeutet dies, dassder Gradient an der Kante in Richtung des Objekts zeigt.

Im Gegensatz dazu hat bei der Beschreibung der Richtung einer lo-kalen Umgebung ein Winkelbereich von 360° keinen Sinn. Wir könnenein um 180° gedrehtes Muster nicht von einem nicht gedrehten unter-scheiden, da das Muster immer noch die gleiche Richtung hat. Damitunterscheidet sich die Richtung einer einfachen Nachbarschaft von dereines Gradienten. Während Gradienten, die in entgegengesetzte Rich-tungen zeigen, für Objektkanten inkonsistente Information darstellen,sind sie für die Richtung einer einfachen Nachbarschaft konsistente In-formation.

Um die beiden „Richtungstypen“ zu unterscheiden, sprechen wir inallen Fällen, in denen nur ein Winkelbereich von 180° erforderlich ist, vonOrientierung. Natürlich ist die Orientierung immer noch eine zyklischeGröße. Erhöht man die Orientierung über 180° hinaus, beginnt sie wiederbei 0°. Deshalb erfordert eine angemessene Darstellung der Orientierungeine Winkelverdoppelung.

Nach der prinzipiellen Diskussion der Darstellung der Orientierungfragen wir nach der passenden Repräsentation einer einfachen Nachbar-schaft. Offensichtlich genügt ein einfacher Skalar mit dem verdoppeltenOrientierungswinkel nicht. Wir benötigen zusätzlich ein Bestimmtheits-maß, das beschreibt, wie gut die Umgebung einer einfachen Nachbar-schaft entspricht. Beide Informationen, die Richtung und das Bestimmt-


heitsmaß, können zu einem Vektor zusammengenommen werden: DerBetrag des Vektors ist das Bestimmtheitsmaß und seine Richtung derverdoppelte Orientierungswinkel (Abb. 13.4a). Diese Vektordarstellungder Orientierung hat zwei entscheidende Vorteile:

Zum einen ist sie für die weitere Verarbeitung besser geeignet als eineseparate Darstellung mit zwei skalaren Größen. Vektoren werden sum-miert, indem sie aneinandergehängt werden, sodass sich der resultieren-de Summenvektor vom Anfangspunkt des ersten Vektors zum Endpunktdes letzten Vektors erstreckt (Abb. 13.4b). Das Gewicht eines individu-ellen Vektors in der Vektorsumme wird durch seine Länge bestimmt.Damit wird das Bestimmtheitsmaß der Orientierungsmessung adäquatberücksichtigt. Die Vektordarstellung der Orientierung weist auch güns-tige Mittelungseigenschaften auf. In einer Region homogener Orientie-rung ergeben die Vektoren einen großen Vektor, d. h. eine sichere Ab-schätzung der Orientierung (Abb. 13.4b). In einer Region mit zufälligverteilter Orientierung bleibt der resultierende Vektor klein, da keinesignifikante lokale Orientierung vorliegt (Abb. 13.4c).

Zum anderen ist es schwierig, Orientierung als Grauwertbild darzu-stellen. Während die Orientierung eine zyklische Größe ist, weist dieGrauwertdarstellung einen unnatürlichen Sprung zwischen dem kleins-ten und dem größten Winkel auf. Dieser Sprung in Orientierungsbildernvermittelt keinen brauchbaren Eindruck von der Verteilung der Orien-tierung. Der Orientierungsvektor kann allerdings gut als Farbbild darge-stellt werden.

Intuitiv ordnen wir das Bestimmtheitsmaß der Helligkeit und den Ori-entierungswinkel dem Farbton zu. Dann wird unsere Aufmerksamkeitauf die hellen Bildteile gelenkt, wo wir Farben gut unterscheiden können.Je dunkler das Bild ist, desto schwieriger wird es, die einzelnen Farben vi-suell zu unterscheiden. Auf diese Weise stimmt unser visueller Eindruckmit der Sicherheit der Orientierungsbestimmung im Bild überein.

13.3 Tensordarstellung erster Ordnung

13.3.1 Der Strukturtensor

Die in Abschn. 13.2.3 diskutierte Vektordarstellung ist noch nicht voll-ständig; sie ist nur ausreichend für die Darstellung der Orientierung ein-facher Nachbarschaften. Eine Unterscheidung zwischen Nachbarschaf-ten mit konstanten Grauwerten und solchen mit isotroper Orientierungs-verteilung (z. B. unkorreliertes Rauschen) ist jedoch nicht möglich. Inbeiden Fällen ergibt sich ein Orientierungsvektor mit dem Betrag null.

Es ist also einleuchtend, dass eine adäquate Darstellung der Grau-wertänderungen in einer lokalen Umgebung von komplexer Natur ist.Solch eine Darstellung sollte die Vorzugsrichtung der Grauwertänderun-gen (gegeben durch einen Einheitsvektor n) bestimmen und konstante

13.3 Tensordarstellung erster Ordnung 379

Umgebungen von solchen ohne lokale Orientierung unterscheiden kön-nen.

Mit der folgenden Optimierungsstrategie zur Bestimmung der Orien-tierung einer einfachen Nachbarschaft kommen wir zu einer geeignetenDarstellung. Die optimale Orientierung wird als die Orientierung de-finiert, welche die geringste Abweichung von der Gradientenrichtungzeigt. Ein passendes Maß für die Abweichung muss Gradienten, diein entgegengesetzte Richtungen zeigen, gleich berücksichtigen. Erfülltwird dieses Kriterium vom quadrierten Skalarprodukt aus dem Gradien-tenvektor und dem Einheitsvektor n, der die lokale Orientierung wider-spiegelt:

(∇gT n)2 = |∇g|2 cos2 (∠(∇g, n)) . (13.5)

Diese Größe ist proportional zum quadrierten Kosinus des Winkels zwi-schen dem Gradienten- und dem Orientierungsvektor und daher maxi-mal, wenn ∇g und n parallel oder antiparallel sind, und null, wenn siesenkrecht aufeinander stehen. In einer W -dimensionalen lokalen Umge-bung muss also der folgende Ausdruck maximiert werden:∫

w(x − x′)(∇g(x′)T n

)2dWx′, (13.6)

wobei die Fensterfunktion w Größe und Form der Umgebung um einenPunkt x bestimmt, in welchem die Orientierung gemittelt wird. Das Ma-ximierungsproblem muss für jeden Punkt x gelöst werden. Gleichung(13.6) können wir folgendermaßen schreiben:

nTJn→ Maximum (13.7)

mit

J =∫w(x − x′)

(∇g(x′)∇g(x′)T

)dWx′,

wobei ∇g∇gT das äußere oder kartesische Produkt bezeichnet. DieKomponenten dieses symmetrischen W ×W -Tensors, des Strukturten-sors, sind

Jpq(x) =∞∫−∞w(x − x′)

(∂g(x′)∂x′p

∂g(x′)∂x′q

)dWx′. (13.8)

Diese Gleichungen belegen, dass ein Tensor eine adäquate Darstel-lung erster Ordnung einer lokalen Nachbarschaft ist. Der Zusatz „ersterOrdnung“ hat eine doppelte Bedeutung. Zum einen sind nur Ableitun-gen erster Ordnung beteiligt. Zum anderen können nur einfache Nach-barschaften beschrieben werden. Komplexere Strukturen wie solche mitmehreren Orientierungen können nicht unterschieden werden.


Die Komplexität von (13.7) und (13.8) verbirgt etwas die einfache Be-deutung. Der Tensor ist symmetrisch und kann durch Rotation des Ko-ordinatensystems in eine diagonale Form gebracht werden. Dann ver-einfacht sich (13.7) im zweidimensionalen Fall zu

J = [n′1, n

′2

][J′11 00 J′22

][n′1n′2

]→ Maximum. (13.9)

Ein Einheitsvektor n′ = [cosθ sinθ] in Richtung θ ergibt die Werte

J = J′11 cos2 θ + J′22 sin2 θ.

Ohne Beschränkung der Allgemeingültigkeit können wir davon ausge-hen, dass J′11 > J

′22. Dann ist offensichtlich, dass der Einheitsvektor

n′ = [1 0]T den Ausdruck in (13.9) maximiert mit dem MaximalwertJ′11.

Dieser Ansatz führt nicht nur zu einer Tensordarstellung für lokaleUmgebungen, sondern zeigt auch einen Weg zur Bestimmung der Ori-entierung. Im wesentlichen lösen wir damit das so genannte Eigenwert-problem. Eigenwerte λw und Eigenvektoren ew einer W ×W -Matrix Jwerden durch folgende Gleichung definiert:

Jew = λwew. (13.10)

Ein Eigenvektor ew von J ist damit ein Vektor, der durch Multiplika-tion mit J nicht gedreht, sondern nur mit einem skalaren Faktor, demEigenwert λw , multipliziert wird. Damit ist klar, dass das Koordinaten-system, in dem der Strukturtensor diagonal ist (13.9), von den Eigenvek-toren aufgespannt wird. Für unsere weitere Diskussion ist wichtig, dasswir uns über die folgenden grundlegenden Eigenschaften von Eigenwer-ten und Eigenvektoren einer symmetrischen Matrix im klaren sind:

1. Eigenwerte sind immer reell.

2. Eigenvektoren bilden eine orthogonale Basis.

Nach dem hier formulierten Maximierungsproblem ergibt der Eigen-vektor des maximalen Eigenwertes die Orientierung der lokalen Umge-bung.

13.3.2 Klassifizierung von Eigenwerten

Die Mächtigkeit des Tensoransatzes wird deutlich, wenn wir die Eigen-werte des Strukturtensors klassifizieren. Klassifizierungskriterium istdie Anzahl der Eigenwerte, die null sind. Ist ein Eigenwert null, bedeu-tet dies, dass sich die Grauwerte in Richtung des korrespondierendenEigenvektors nicht verändern.

Die Anzahl der Eigenwerte mit dem Wert null hängt mit dem Rangeiner Matrix eng zusammen, der als die Dimension des Unterraums, für


Tabelle 13.1:Klassifizierung des Eigenwertes des Strukturtensors in 2D-Bildern.

Bedingung Rang(J) Erläuterung

λ1 = λ2 = 0 0 Beide Eigenwerte sind null. Die mittlere quadrier-te Größe des Gradienten (λ1 + λ2) ist null. Dielokale Umgebung ist konstant.

λ1 > 0, λ2 = 0 1 Ein Eigenwert ist null. Die Werte ändern sich alsoin Richtung des zugehörigen Eigenvektors nicht.Die lokale Umgebung ist eine einfache Nachbar-schaft mit idealer Orientierung.

λ1 > 0, λ2 > 0 2 Beide Eigenwerte sind ungleich null. Die Grau-werte ändern sich in allen Richtungen. Im Spe-zialfall λ1 = λ2 sprechen wir von einer isotropenGrauwertstruktur, da sie sich gleichmäßig in al-len Richtungen ändert.

den Jk ≠ 0, definiert ist. Der Raum, für den Jk = 0, nennt man Null-raum. Die Dimension des Nullraumes ist die Dimension der Zeilen- undSpaltenvektoren der Matrix minus ihrem Rang; sie ist gleich der Anzahlder Null-Eigenwerte.

Wir werden hier den zweidimensionalen und den dreidimensionalenFall im Detail besprechen. Tabellen 13.1 und 13.2 beschreiben die Fällein zwei bzw. drei Dimensionen.

Praktisch wird nicht geprüft, ob die Eigenwerte null sind, sondernnur, ob sie unter einer kritischen Grenze liegen, die vom Rauschpegel imBild bestimmt wird.

13.3.3 Orientierungsvektor

Mit einfachen Faltungs- und Punktoperationen haben wir im vorigen Ab-schnitt die Komponenten des Strukturtensors berechnet. Hier lösen wirnun das Eigenwertproblem zur Bestimmung des Orientierungsvektors.Im Zweidimensionalen wird der Orientierungswinkel durch Rotation desTrägheitstensors auf das Hauptachsensystem bestimmt:

[λ1 00 λ2

]=

[cosθ − sinθsinθ cosθ

][J11 J12

J12 J22

][cosθ sinθ− sinθ cosθ

].

Bei Beachtung der trigonometrischen Identitäten sin 2θ = 2 sinθ cosθund cos 2θ = cos2 θ − sin2 θ ergibt die Ausführung der Matrixmultipli-kationen den folgenden Ausdruck:


Tabelle 13.2: Klassifizierung des Eigenwertes des Strukturtensors in 3D-(Volumen)Bildern.

Bedingung Rang(J) Erläuterung

λ1 = λ2 = λ3 = 0 0 Die Grauwerte ändern sich nicht; es liegteine konstante Umgebung vor.

λ1 > 0, λ2 = λ3 = 0 1 Die Grauwerte ändern sich nur in einerRichtung, die durch den Eigenvektor desEigenwertes ungleich null bestimmt wird.In der Umgebung haben wir Grenzen zwi-schen zwei Objekten oder eine geschich-tete Textur. In einem Orts/Zeit-Bild be-deutet das die konstante Bewegung ei-nes räumlich orientierten Musters („ebe-ne Welle“).

λ1 > 0, λ2 > 0, λ3 = 0 2 Die Grauwerte ändern sich in zwei Rich-tungen und sind konstant in einer dritten.Der Eigenvektor des Eigenwertes mit demWert null gibt die Richtung der konstan-ten Grauwerte an.

λ1 > 0, λ2 > 0, λ3 > 0 3 Die Grauwerte ändern sich in allen dreiRichtungen.

⎡⎢⎣ λ1 0

0 λ2

⎤⎥⎦ =

⎡⎢⎣ cosθ − sinθ

sinθ cosθ

⎤⎥⎦

⎡⎢⎣ J11 cosθ − J12 sinθ J11 sinθ + J12 cosθ

−J22 sinθ + J12 cosθ J22 cosθ + J12 sinθ

⎤⎥⎦ =

⎡⎢⎣ J11 cos2 θ + J22 sin2 θ–J12 sin 2θ 1/2(J11–J22) sin 2θ + J12 cos 2θ

1/2(J11–J22) sin 2θ + J12 cos 2θ J11 sin2 θ + J22 cos2 θ + J12 sin 2θ

⎤⎥⎦ .

Nun können wir die Matrixkoeffizienten auf der linken und der rech-ten Seite der Gleichung vergleichen. Da die Matrizen symmetrisch sind,haben wir drei Gleichungen mit den drei Unbekannten θ, λ1 und λ2.Obwohl das Gleichungssystem nichtlinear ist, kann es leicht nach demWinkel θ aufgelöst werden. Ein Vergleich der Nichtdiagonalelemente aufbeiden Seiten ergibt zunächst

1/2(J11 − J22) sin 2θ + J12 cos 2θ = 0 (13.11)


und nach elementaren Umformungen den Orientierungswinkel:

tan 2θ = 2J12

J22 − J11. (13.12)

Ohne dass wir irgendwelche Bedingungen vorgegeben haben, hat sichdie erwartete Winkelverdoppelung für die Orientierung eingestellt. Dasich tan 2θ aus einem Quotienten ergibt, können wir den Dividenden alsdie y- und den Divisor als die x-Komponente eines Vektors betrachten.Daraus können wir den vektoriellen Orientierungsoperator o bilden, wieihn Granlund [1978] eingeführt hat:

o =[J22 − J11

2J12

]. (13.13)

Das Argument dieses Vektors ergibt den Orientierungswinkel und derBetrag ein Bestimmtheitsmaß der lokalen Orientierung.

Das Ergebnis von (13.13) ist bemerkenswert, da die Berechnung derKomponenten des Orientierungsvektors aus denen des Orientierungs-tensors nur eine Subtraktion und eine Multiplikation mit zwei erfordert.Da diese Komponenten des Orientierungsvektors alles sind, was wir fürdie weiteren Verarbeitungsschritte brauchen, sind wir nicht auf den Win-kel und den Betrag des Vektors angewiesen. Damit ist die Lösung desEigenwertproblems in zwei Dimensionen trivial.

13.3.4 Kohärenz

Der Orientierungsvektor reduziert eine lokale Struktur auf eine lokaleOrientierung. Dabei werden von den drei unabhängigen Komponentendes symmetrischen Tensors nur zwei verwendet. Können wir in einerNachbarschaft keine orientierte Struktur feststellen, wissen wir nicht, obwir es mit konstanten Grauwerten oder verteilten Orientierungen zu tunhaben. Diese Information steckt in der noch nicht benutzten Summe derDiagonalelemente des Tensors, J11+J22, die das mittlere Betragsquadratdes Gradienten liefert. Daraus schließen wir, dass ein guter Strukturope-rator auch die dritte Komponente berücksichtigen muss. Eine passendelineare Kombination stellt folgende Gleichung dar:

s =⎡⎢⎣ J11 + J22

J22 − J11

2J12

⎤⎥⎦ . (13.14)

Dieser Strukturoperator enthält die beiden Komponenten des Orientie-rungsvektors und zusätzlich das mittlere Betragsquadrat des Gradien-ten, der ein rotationsinvarianter Parameter ist. Vergleichen wir das Be-tragsquadrat des Gradienten mit dem Betrag des Orientierungsvektors,


können wir einen Bereich konstanter Grauwerte und eine isotrope Grau-wertstruktur ohne Vorzugsrichtung unterscheiden. Im ersten Fall sindbeide quadrierten Größen null, im zweiten nur der Betrag des Orien-tierungsvektors. Haben wir ein perfekt orientiertes Muster, sind beideGrößen gleich. Das Verhältnis zwischen diesen Größen scheint ein gutesKohärenzmaß cc für lokale Orientierung zu sein:

cc =√(J22 − J11)2 + 4J2

12

J11 + J22= λ1 − λ2

λ1 + λ2. (13.15)

Die Kohärenz cc variiert zwischen null und eins. Sie ist bei einer idealenOrientierung (λ2 = 0, λ1 > 0) eins, bei einer isotropen Grauwertstruktur(λ1 = λ2 > 0) jedoch null.

13.3.5 Farbkodierung des 2D-Strukturtensors

In Abschn. 13.2.3 haben wir eine Farbdarstellung des Orientierungsvek-tors diskutiert. Es erhebt sich die Frage, ob es auch möglich ist, denStrukturtensor als Farbbild darzustellen. Ein symmetrischer 2D-Tensorhat drei unabhängige Informationen (13.14), die gut zu den drei Frei-heitsgraden passen, die wir bei Farbe zur Verfügung haben, zum BeispielIntensität, Farbton und Sättigung.

Für eine Farbdarstellung des Strukturtensors brauchen wir im Ver-gleich zum Orientierungsvektor nur zwei kleine Änderungen. Zunächstwird statt der Länge des Orientierungsvektors das Betragsquadrat desGradienten auf die Intensität abgebildet. Dann wird das Kohärenzmaß(13.15) für die Sättigung verwendet. In der Farbdarstellung des Orientie-rungsvektors ist die Sättigung immer eins.

Sein Winkel wird als Farbton dargestellt.Für die praktische Anwendung ist eine leichte Modifikation dieser

Farbdarstellung nützlich. Der quadrierte Betrag des Gradienten zeigt zugroße Variationen, als dass er in dem kleinen dynamischen Bereich ei-nes Bildschirmes mit nur 256 Helligkeitsstufen dargestellt werden kann.Damit wird eine entsprechende Normalisierung notwendig. Die Grund-idee dieser Normalisierung ist der Vergleich des quadrierten Betrags desGradienten mit dem Rauschpegel. Wenn der Gradient deutlich oberhalbdes Rauschpegels liegt, wird er als signifikante Information betrachtet.Dies legt die folgende Normalisierung der Luminanz I nahe:

I = J11 + J22

(J11 + J22)+ γσ 2n, (13.16)

wobei σn eine Schätzung der Standardabweichung des Rauschpegels ist.Diese Normalisierung bewirkt einen raschen Übergang der Beleuchtungs-stärke von eins, wenn der Betrag des Gradienten größer alsσn ist, zu null,wenn der Gradient kleiner als σn ist. Der Faktor γ wird zur Optimierungder Darstellung verwendet.


13.3.6 Implementierung

Der Strukturtensor (Abschn. 13.3.1) und der äquivalente Trägheitsten-sor (Abschn. 13.5.1) können direkt aus einer Kombination von linea-rer Faltung und nichtlinearen Punktoperationen berechnet werden. Diepartiellen Ableitungen in (13.8) und (13.64) werden durch diskrete Ab-leitungsoperatoren approximiert. Die mit der Fensterfunktion gewich-tete Integration wird durch eine Faltung mit einem Glättungsfilter er-setzt. Bezeichnen wir den diskreten partiellen Ableitungsoperator inRichtung der Koordinate pmitDp und den isotropen Glättungsoperatormit B, können wir die lokale Struktur eines Grauwertbildes mit folgen-dem Strukturtensoroperator berechnen:

Jpq = B(Dp · Dq). (13.17)

Die pixelweise Multiplikation wird zur Unterscheidung von der se-quenziellen Anwendung von Faltungsoperatoren durch · gekennzeich-net. Gleichung (13.17) bedeutet wörtlich: Die Komponente Jpq des Ten-sors wird durch separate Faltungen des Bildes mitDp undDq, pixelweiseMultiplikation der beiden gefalteten Bilder und Glättung des resultieren-den Bildes mit B berechnet.

Diese Operatoren gelten für Bilder beliebiger DimensionW ≥ 2. In ei-nemW -dimensionalen Bild hat der StrukturtensorW(W+1)/2 unabhän-gige Komponenten, drei in 2D- und sechs in 3D- und zehn in 4D-Bildern.Diese Komponenten lassen sich am besten in einem Mehrkanalbild mitW(W + 1)/2 Komponenten speichern.

Die Glättungsoperatoren erfordern die größte Anzahl von Operatio-nen. Deshalb brauchen wir für eine effiziente Implementierung zunächsteinen schnellen Glättungsalgorithmus. Die Basis hierzu bildet die all-gemeine Beobachtung, dass Eigenschaften höherer Ordnung immer eineniedrigere Auflösung zeigen als die Eigenschaften, aus denen sie berech-net wurden. Das bedeutet, dass ein Strukturtensor auf einem gröberenGitter und damit in einem kleineren Bild gespeichert werden kann. Ei-ne bequeme und angemessene Unterabtastung besteht darin, nur jedeszweite Pixel in jeder zweiten Zeile zu speichern. Über dieses Verfahrengelangen wir automatisch zu Mehrgitter-Datenstrukturen, die im Detailin Kapitel 5 besprochen wurden. Die Mehrschrittmittelung wurde in Ab-schn. 11.5.1 diskutiert.

Das Speichern von Eigenschaften höherer Ordnung auf gröberen Ska-len hat außer der Speicherplatzeinsparung den weiteren wichtigen Vor-teil, dass in jedem nachfolgenden Schritt weniger Bildpunkte verarbeitetwerden müssen. Eine lineare Größenreduktion auf die Hälfte führt zueiner Reduktion der Bildpunkte und der Berechnungsschritte auf 1/4 im2D- und auf 1/8 im 3D-Fall.

Abbildung 13.5 zeigt die Schritte zur Berechnung eines Strukturten-sors und daraus berechneter Größen anhand des Ringtestmusters. Die-


a b

c d

e f

g h

i j

Abbildung 13.5: Schritte zur Berechnung des Strukturtensors: a Originalbild;b horizontale AbleitungDx ; c vertikale AbleitungDy ; d – f gemittelte Komponen-ten des Strukturtensors: J11 = B(Dx ·Dx), J22 = B(Dy ·Dy), J12 = B(Dx ·Dy);g quadrierter Betrag des Gradienten J11 + J22; h x-Komponente des Orientie-rungsvektors J11−J22, i y-Komponente des Orientierungsvektors 2J12 und j Ori-entierungswinkel von [–π/2, π/2], abgebildet auf den Grauwertbereich [0,255].


a b

c d

Abbildung 13.6: Systematische Fehler bei der Bestimmung des Orientierungs-winkels bei Verwendung unterschiedlicher Ableitungsoperatoren: a Originalbilddes Ring-Testmusters mit normierten Wellenzahlen von maximal k = 0,7. Feh-lerkarten bei Benutzung b des Sobeloperators (Winkelbereich ±7° in 16 Grau-wertstufen), c des optimierten Sobeloperators und d eines mit der Methode derkleinsten Quadrate optimierten Operators mit r = 3 (bei c und d ist der Winkel-bereich ±0,7° in 16 Grauwertstufen).

ses Testmuster eignet sich besonders für die Orientierungsanalyse, dain einem Bild alle Orientierungen und Wellenzahlen enthalten sind.

Die Genauigkeit des Orientierungswinkels ist von der Implementie-rung des Ableitungsfilters abhängig. Die direkte Implementierung desAlgorithmus unter Verwendung des symmetrischen Differenzenopera-tors (Abschn. 12.4.3) oder des Sobeloperators (Abschn. 12.7.3) resultiertin einem überraschend hohen Winkelfehler (Abb. 13.6a) von mehr als 7°bei einer Wellenzahl k = 0,7. Der Fehler hängt sowohl von der Wellen-


zahl als auch von der Orientierung der lokalen Struktur ab. Der hoheFehler und die Struktur des Fehlerbildes resultieren aus der Transfer-funktion des Ableitungsfilters, da diese bei hohen Wellenzahlen signifi-kante Abweichungen von der Transferfunktion eines idealen Ableitungs-filters zeigt (Abschn. 12.3). Nach (13.12) hängt der Orientierungswinkelvom Verhältnis der Ableitungen ab. Entlang den Achsen ist eine derAbleitungen null, und damit tritt dort kein Fehler auf. Entlang den Dia-gonalen sind die Ableitungen in x- und y-Richtung gleich; deshalb hebtsich der Fehler im Verhältnis der Ableitungen wieder auf.

Der Fehler des Orientierungswinkels kann durch die Verwendung bes-serer Ableitungsfilter deutlich verringert werden. Abbildung 13.6 zeigtden Fehler bei der Abschätzung der Orientierung am Beispiel des opti-mierten Sobeloperators und eines mit der Methode der kleinsten Qua-drate optimierten Operators. Der geringe zusätzliche Aufwand für dieOptimierung der Ableitungsfilter zahlt sich durch eine bessere Schät-zung der Orientierung aus. Der Restfehler von weniger als 0,5° ist für diemeisten Anwendungen ausreichend. Die Ausführungen in Abschn. 12.4–12.7 zu den verschiedenen Ableitungsfiltern ermöglichen die Abwägungvon Rechenaufwand und Genauigkeit.

Eine wichtige Eigenschaft jedes Bildverarbeitungsalgorithmus ist sei-ne Robustheit . Mit diesem Begriff ist die Unempfindlichkeit des Algorith-mus gegenüber Rauschen oder anderen Störungen gemeint. Zwei Fragensind in diesem Zusammenhang wichtig: Erstens, wie groß ist der statisti-sche Fehler der abgeschätzten Eigenschaften in einem verrauschten Bild?Zweitens, ergeben sich überhaupt noch korrekte Werte?

Um die erste Frage zu beantworten, werden die Gesetze der Statis-tik für die Fehlerfortpflanzung benutzt. Sie besagen, dass Rauschen dieAbschätzung lediglich unsicherer, aber nicht fehlerhafter macht. DerMittelwert ist nämlich unter der Voraussetzung, dass wir eine genügendgroße Zahl von Schätzungen durchführen, immer noch korrekt. In ei-nem verrauschten Bild kann ein Operator jedoch auch fehlerbehafteteErgebnisse liefern, sodass der Mittelwert eine signifikante Abweichungvom korrekten Wert aufweist. Im schlimmsten Fall — um die zweite Fra-ge zu beantworten — kann ein Algorithmus sogar instabil werden undunsinnige Ergebnisse liefern.

Abb. 13.7 veranschaulicht, dass die Abschätzung der Orientierung einbesonders robuster Algorithmus ist. Selbst bei einem niedrigen Signal-zu-Rausch-Verhältnis wird die Orientierung bei Verwendung eines pas-senden Ableitungsoperators noch korrekt abgeschätzt. Bei steigendemRauschen nimmt die Kohärenz (Abschn. 13.3.4) ab, und der statistischeFehler der Orientierungswinkelschätzung nimmt zu (Abb. 13.7).


a b

c

0 20 40 60 80 100 1200.9

0.92

0.94

0.96

0.98

1

1.5

5.0

x

d

0 20 40 60 80 100 1200

0.2

0.4

0.6

0.8

115.0

50.0

x

e

-2 -1 0 1 20

0.2

0.4

0.6

0.8

1

5.0

1.5

Winkel[°]

f

Abbildung 13.7: Orientierungsanalyse mit einem verrauschten Ring-Testmusterunter Benutzung des optimierten Sobeloperators: Ringmuster mit einer Amplitu-de von 50 und normalverteiltem Rauschen mit einer Standardabweichung vona 15 und b 50. c und d radialer Schnitt durch das Kohärenzmaß des Ringmustersbei Standardabweichungen des normalverteilten Rauschens von 1,5 und 5 bzw.15 und 50; e und f Histogramme des Winkelfehlers für die gleichen Bedingungen.


13.4 Lokale Wellenzahl und Phase

13.4.1 Phase

In diesem Kapitel haben wir bisher die Analyse einfacher Nachbarschaften be-züglich ihrer Orientierung detailliert besprochen. In diesem Abschnitt betrach-ten wir eine andere elementare Eigenschaft einfacher Nachbarschaften. Entspre-chend der in Kapitel 5 betonten Bedeutung von Skalen für die Bildverarbeitungmüssen wir uns nicht nur fragen, in welchen Richtungen sich die Grauwerte än-dern, sondern auch, wie rasch sie sich ändern. Diese Frage führt uns zur Größeder lokalen Wellenzahl . Der Schlüssel zu ihrer Bestimmung ist die Phase desSignals. Zur Einführung diskutieren wir als einfaches Beispiel das eindimensio-nale periodische Signal

g(x) = g0 cos(kx). (13.18)

Das Argument der Kosinusfunktion wird als die Phase des periodischen Signalsbezeichnet:

φ(x) = kx. (13.19)

Die Gleichung zeigt, dass die Phase eine lineare Funktion der Position und derWellenzahl ist. Wir erhalten also die Wellenzahl des periodischen Signals, indemwir die räumliche Ableitung erster Ordnung des Phasensignals bilden:

∂φ(x)∂x

= k. (13.20)

Diese einfachen Betrachtungen betonen noch einmal die Bedeutung der Phasein der Bildverarbeitung, wie wir es bereits in Abschn. 2.3.5 diskutiert haben.Wir werden zwei verwandte Ansätze zur Bestimmung der Phase eines Signalsbesprechen, die Hilberttransformation (Abschn. 13.4.2) und die Quadraturfilter(Abschn. 13.4.5). Anschließend führen wir effiziente Techniken zur Berechnungder lokalen Wellenzahl aus den Phasengradienten ein.

13.4.2 Hilberttransformation und Hilbertfilter

Um das Prinzip der Berechnung der Phase eines Signals zu erläutern, greifenwir wieder das einfache periodische Signal aus dem vorigen Abschnitt als Bei-spiel auf. Nehmen wir an, dass ein Operator zur Verzögerung des Signalsum eine Phasendifferenz von 90° vorhanden ist; er transformiert das Signalg(x) = g0 cos(kx) in g′(x) = −g0 sin(kx) (Abb. 13.8). Unter Verwendungbeider Signale können wir die Phase von g(x) mit

φ(g(x)) = arctan

(−g′(x)g(x)

)(13.21)

berechnen. Da nur das Verhältnis von g′(x) zu g(x) in (13.21) eingeht, istdie Phase tatsächlich unabhängig von der Amplitude. Berücksichtigen wir dieVorzeichen der beiden Funktionen g′(x) und g(x), kann die Phase über dengesamten Bereich von 360° berechnet werden.

Alles, was wir zur Bestimmung der Phase eines Signals brauchen, ist also einlinearer Operator, der die Phase um 90° verschiebt. Dieser Operator wird als

13.4 Lokale Wellenzahl und Phase 391

Abbildung 13.8: Anwendung eines Hilbertfilters auf das Ring-Testmuster; lin-ker oberer Quadrant: in horizontaler Richtung; rechter unterer Quadrant: invertikaler Richtung.

Hilbertfilter H oder Hilbertoperator H bezeichnet. Er hat folgende Transfer-funktion:

h(k) =⎧⎪⎨⎪⎩

i k > 00 k = 0−i k < 0

. (13.22)

Da die Amplitude nicht verändert wird, ist der Betrag der Transferfunktion eins.Aus der Tatsache, dass das Hilbertfilter wieder ein reelles Signal erzeugen soll,folgt, dass seine rein imaginäre Transferfunktion eine ungerade Symmetrie auf-weisen muss. Daher werden positive Wellenzahlen um 90° (π/2) und negativeum -90° (-π/2) verschoben. Eine Ausnahme ist die Wellenzahl null, bei der auchdie Transferfunktion null ist. Das lässt sich folgendermaßen veranschaulichen:Ein Signal mit der Wellenzahl Null ist eine Konstante und kann als eine Ko-sinusfunktion mit unendlicher Wellenzahl betrachtet werden, die an der Phasenull abgetastet wird. Also ist das gefilterte Signal die zugehörige Sinusfunktion,welche bei der Phase Null verschwindet.

Wegen der Diskontinuität der Transferfunktion des Hilbertfilters im Ursprungist seine Punktantwort unendlich ausgedehnt:

h(x) = − 1πx

. (13.23)

Die Faltung mit (13.23) können wir folgendermaßen schreiben:

gh(x) = 1π

∞∫−∞

g(x′)x′ − xdx′. (13.24)


a

~k0 0.1 0.2 0.3 0.4 0.5

0

0.2

0.4

0.6

0.8

1

23

4

5

b

~k0 0.1 0.2 0.3 0.4 0.5

0.96

0.98

1

1.02

1.042

34

5

Abbildung 13.9: a Transferfunktionen einer Familie von Hilbertoperatoren, dienach der Methode der kleinsten Quadrate nach (13.25) mit R=2–5 Filterkoeffi-zienten optimiert wurden. b Der vergrößerte Ausschnitt aus a verdeutlicht dieAbweichung von einem idealen Hilbertfilter. Da die Filter um k=0,5 symmetrischsind, ist nur der Wellenzahlbereich 0 bis 0,5 gezeigt.

Diese Integraltransformation wird mit Hilberttransformation bezeichnet [145].

Da die Faltungsmaske des idealen Hilbertfilters unendlich ausgedehnt ist, istes unmöglich, ein exaktes diskretes Hilbertfilter für beliebige Signale mit einerkleinen Faltungsmaske zu konstruieren. Deshalb müssen wir die Klasse derSignale, auf die das Filter anzuwenden ist, beschränken. Dazu betrachten wirden folgenden Ansatz zur effektiven Implementierung eines Hilbertfilters.

Zum einen sollte das Filter die Phase exakt um π/2 verschieben. Diese Forde-rung resultiert aus der Tatsache, dass wir Fehler in der Phase nicht tolerierenkönnen, da sie die Information über die Position enthält. Eine wellenzahlabhän-gige Phasenverschiebung würde wellenzahlabhängige Fehler verursachen. AlleFaltungskerne ungerader Symmetrie haben die gewünschte Eigenschaft. Zumanderen kann die Forderung nach dem Betrag von Eins eingeschränkt werden,wenn das Hilbertfilter auf bandpassgefilterte Signale, z. B. eine Laplacepyrami-de, angewandt wird. Das Hilbertfilter muss dann nur im Durchlaßbereich desverwendeten Filters einen Betrag von eins aufweisen. Mit diesem Ansatz ver-meiden wir die Diskontinuitäten der Transferfunktion bei der Wellenzahl vonnull und erhalten einen Faltungskern endlicher Größe.

Hilbertfilter werden wie Interpolationsfilter (Abschn. 10.6.2) und Ableitungs-filter erster Ordnung (Abschn. 12.6) mit der Methode der kleinsten Quadrateoptimiert. Wegen der ungeraden Symmetrie verwenden wir die folgende Trans-ferfunktion:

h(k) = 2iR∑v=1

hv sin((2v − 1)πk

). (13.25)

Da nur Sinusfunktionen mit ungeraden Wellenzahlen vorkommen, ist die Trans-ferfunktion auch um k = 1/2 symmetrisch. Daraus resultiert die Filtermaske

[hR,0, · · · , h2,0, h1,0, –h1,0, –h2, · · · ,0, –hR] (13.26)

mit 4R−1 Koeffizienten, wobei 2R−1 null sind. Abbildung 13.9 zeigt die mit derMethode der kleinsten Quadrate optimierte Transferfunktion für R = 2,3,4,5.


Das Filter mit R = 4 (die Maske enthält 15 Koeffizienten) mit

h = 0,6208,0,1683,0,0630,0,0191 (13.27)

hat beispielsweise einen Amplitudenfehler, der im Wellenzahlbereich von [0,16,0,84] nur wenig größer als 1 % ist, und aufgrund der Konstruktion keinen Pha-senfehler. Die Faltung mit dieser Maske erfordert 4 Multiplikationen und 7Additionen oder Subtraktionen.

13.4.3 Das analytische Signal

Ein reellwertiges Signal und seine Hilberttransformierte können zu einem kom-plexwertigen Signal kombiniert werden:

ga = g − igh. (13.28)

Dieses komplexwertige Signal wird als die analytische Funktion oder das analyti-sche Signal bezeichnet. Nach (13.28) hat das analytische Filter die Punktantwort

a(x) = 1+ iπx

(13.29)

und die Transferfunktion

a(k) =⎧⎪⎨⎪⎩

2 k > 01 k = 00 k < 0

. (13.30)

Alle negativen Wellenzahlen werden also unterdrückt. Obwohl die Transfer-funktion des analytischen Filters reell ist, erzeugt sie wegen ihrer Asymmetrieein komplexes Signal. Bei einem reellwertigen Signal geht keine Informationverloren, wenn wir die negativen Wellenzahlen unterdrücken. Sie können re-konstruiert werden, da die Fouriertransformierte eines reellen Signals hermi-tesch ist (Abschn. 2.3.4). Das analytische Signal kann als andere Darstellungeines reellen Signals mit zwei wichtigen Eigenschaften betrachtet werden. DerBetrag des analytischen Signals ergibt die lokale Amplitude

|A|2 = I · I +H ·H (13.31)

und das Argument die lokale Phase

arg(A) = arctan(−HI

)(13.32)

mit A für den analytischen und H für den Hilbertoperator. Das Originalsignalund seine Hilberttransformierte erhalten wir aus dem analytischen Signal mit(13.28):

g(x) = (ga(x)+ g∗a (x))/2gh(x) = i(ga(x)− g∗a (x))/2. (13.33)

Das Konzept des analytischen Signals macht es auch einfach, die Idee der lo-kalen Phase auf mehrere Dimensionen auszudehnen. Die Transferfunktion desanalytischen Operators verwendet nur die positiven Wellenzahlen, d. h.nur eine


Hälfte des Fourierraumes. Bei mehreren Dimensionen haben wir mehr als eineMöglichkeit, den Fourierraum in zwei Halbräume aufzuteilen. Statt der Wel-lenzahl können wir das Skalarprodukt zwischen dem Wellenzahlvektor k undeinem beliebigen Einheitsvektor n verwenden und dann den Halbraum, für dendas Skalarprodukt kn negativ ist, unterdrücken:

a(k) =⎧⎪⎨⎪⎩

2 kn > 01 kn = 00 kn < 0

. (13.34)

Der Einheitsvektor n gibt die Richtung an, in die das Hilbertfilter angewandtwird. Die Definition (13.34) der Transferfunktion des analytischen Signals im-pliziert, dass der Hilbertoperator nur auf gerichtet gefilterte Signale angewandtwerden kann. Das ergibt sich aus folgenden Überlegungen: Bei eindimensiona-len Signalen haben wir gesehen, dass ein diskretes Hilbertfilter für kleine Wel-lenzahlen nicht geeignet ist (Abb. 13.9). Bei mehreren Dimensionen bedeutetdas, dass ein Hilbertfilter nicht gut arbeitet, wenn kn 1. Alle Wellenzahlen,die fast orthogonal zur Richtung des Hilbertfilters stehen, dürfen also nichtvorhanden sein, wenn man Fehler vermeiden will.

Diese Tatsache macht die Anwendung des Hilbertfilters und damit die Bestim-mung der lokalen Phase bei höherdimensionalen Signalen beträchtlich komple-xer. Es genügt nicht, bandpassgefilterte Bilder wie z. B. eine Laplacepyramidezu verwenden (Abschn. 5.2.3). Zusätzlich müssen die bandpassgefilterten Bil-der weiter in Richtungskomponenten zerlegt werden. Wir benötigen zumindestfür jede Raumrichtung eine Komponente.

13.4.4 Das monogene Signal

Die Erweiterung der Hilberttransformation von einem 1D-Signal zu höherdi-mensionalen Signalen ist nicht zufrieden stellend, da sie nur auf direktional-gefilterte Signale angewendet werden kann. Für Wellenzahlen in der Nähe derTrennebene funktioniert die Hilberttransformation nicht (Abb. 13.8). Daher istes notwendig, nach einer isotropen Erweiterung der Hilberttransformation zusuchen. Offensichtlich kann keine skalare Transformation bei multidimensio-nalen Signalen sowohl isotrop als auch ungerade sein.

Mit einer vektoriellen Transformation können jedoch beide Bedingungen erfülltwerden. Daraus ergibt sich das monogene Signal , das von Felsberg und Sommer[52] in die Bildverarbeitung eingeführt wurde. Das monogene Signal setzt sichaus dem Originalsignal und der Riesztransformation zusammen. Die Transfer-funktion der Riesztransformation ist

h(k) = ik|k| . (13.35)

Der Betrag des Vektors h ist eins für alle k. Daher ist die Riesztransformationisotrop. Sie ist auch ungerade, da

h(−k) = −h(k). (13.36)

Die Riesztransformation kann auf Signale jeder Dimension angewendet werden.Im 1D-Fall reduziert sie sich auf die Hilberttransformation.


Für 2D-Signale kann die Transferfunktion der Riesztransformation unter Ver-wendung von Polarkoordinaten geschrieben werden als

h(k) = i [cosθ, sinθ]T . (13.37)

Die Transferfunktion ähnelt der für den Gradientenoperator (Abschn. 12.2.1,(12.2)). Der Unterschied ist die Division mit dem Betrag der Wellenzahl.

Die Faltungsmaske bzw. PSF der Riesztransformation lautet

h(x) = − x2π |x|3 . (13.38)

Das Originalsignal und das mit der Riesztransformation gefaltete Signal könnenfür ein 2D-Signal zu dem monogenen 3D-Signal zusammengefasst werden:

gm(x) =[p,q1, q2

]Twith p = g,q1 = h1 ∗ g,q2 = h2 ∗ g. (13.39)

Die lokale Amplitude des monogenen Signals ergibt sich wie bei dem analyti-schen Signal ((13.31)) als Betrag des Signals zu

∣∣gm∣∣2 = p2 + q21 + q2

2. (13.40)

Aus dem monogenen Signal kann nicht nur die lokale Phase φ bestimmt wer-den wie aus dem analytischen Signal . Das monogene Signal erlaubt auch dieBestimmung der lokalen Orientierung θ durch die folgenden Beziehungen:

p = a cosφ, q1 = a sinφ cosθ, q2 = a sinφ sinθ. (13.41)

Daher können wir schließen, dass das monogene Signal eine Bestimmung derlokalen Orientierung und Phase miteinander verknüpft. Das ist von großer Be-deutung für die Bildverarbeitung, da die zwei wichtigsten Eigenschaften einerlokalen Umgebung, die lokale Orientierung und Wellenzahl nun in einem ver-einheitlichten Konzept gemeinsam bestimmt werden können.

13.4.5 Quadraturfilter

Quadraturfilter sind eine alternative Möglichkeit, wie wir ein Signalpaar erhal-ten können, das sich lediglich durch eine Phasenverschiebung von 90° (π/2)unterscheidet. Am leichtesten lässt sich die komplexe Form des Quadraturfil-ters erklären. Im wesentlichen ist die Transferfunktion eines Quadraturfiltersfür kn < 0 genauso null wie die des analytischen Filters. Allerdings ist der Be-trag der Transferfunktion nicht eins, sondern kann jede beliebige reellwertigeFunktion h(k) sein:

q(k) =

2h(k) kn > 00 sonst. (13.42)

Das Quadraturfilter transformiert also ebenfalls ein reellwertiges in ein analy-tisches Signal. Im Gegensatz zum analytischen Operator wird jedoch eine Wel-lenzahlwichtung durchgeführt. Aus der komplexen Form des Quadraturfilterskönnen wir das reelle Quadraturfilterpaar ableiten, indem wir berücksichtigen,


dass es die Teile gerader und ungerader Symmetrie von (13.42) darstellt. Damitist

q+(k) = (q(k)+ q(−k))/2,q−(k) = (q(k)− q(−k))/2. (13.43)

Gerader und ungerader Teil des Quadraturfilterpaars weisen eine Phasenver-schiebung von 90° auf und können daher auch zur Berechnung der lokalen Phaseverwendet werden.

Quadraturfilter können auch auf Basis des monogenen Signals (Abschn. 13.4.4)entworfen werden. Diese Quadraturfilter haben dann eine Komponente mehrals die Dimension des Signals. Die Transferfunktion kann geschrieben werdenals

h(k) = [q+(k), ikq+(k)/ |k|

]T . (13.44)

Das bekannteste Quadraturfilterpaar ist das Gaborfilter . Es ist ein Bandpass-filter, das einen Wellenzahlbereich um das Zentrum k0 mit einer GaußschenGlockenkurve selektiert. Die komplexe Transferfunktion des Gaborfilters hatalso folgende Form:

g(k) =

exp(−|k− k0|2σ 2

x/2)

kk0 > 00 sonst. (13.45)

Wenn |k0|σx > 3, vereinfacht sich (13.45) zu

g(k) = exp(−|k− k0)|2σ 2

x/2). (13.46)

Verwenden wir die in (13.43) angegebenen Beziehungen, ergeben sich die Trans-ferfunktionen für die gerade und ungerade Komponente zu

g+(k) = 12

[exp

(−|k− k0|2σ 2

x/2)+ exp

(−|k+ k0|2σ 2

x/2)],

g−(k) = 12

[exp

(−|k− k0|2σ 2

x/2)− exp

(−|k+ k0|2σ 2

x/2)].

(13.47)

Die Punktantwort dieser Filter kann leicht mithilfe des Verschiebungstheorems(Theorem 2.3, S. 55, R4) berechnet werden:

G+(x) = cos(k0x) exp

(−|x|

2

2σ 2x

),

G−(x) = i sin(k0x) exp

(−|x|

2

2σ 2x

).

(13.48)

Durch Kombination zu einer komplexen Filtermaske wird daraus

g(x) = exp(ik0x) exp

(−|x|

2

2σ 2x

). (13.49)

Gaborfilter werden gerne für Bildanalysen im Orts- oder Wellenzahlraum ver-wendet. Abbildung 13.10 zeigt eine Anwendung [Riemer, 1991; Riemer et al.,1991]. Ein Bild kleinskaliger, winderzeugter Wasseroberflächenwellen wurde


a

b c

d e

f g

Abbildung 13.10: Analyse eines Bildes (a, 40 cm × 30 cm) winderzeugter Was-seroberflächenwellen. Die Helligkeit ist proportional zur Neigung der Wellen inWindrichtung. Gerader Teil (b, d, f) und Betragsquadrat (Energie, c, e, g) desgaborgefilterten Bildes mit Schwerpunktwellenlängen von 48, 24 bzw. 12 mm.


a b c

d e f

Abbildung 13.11: Analyse eines 5 s langen Orts/Zeit-Schnitts in Windrich-tung durch eine Bildsequenz von winderzeugten Wasseroberflächenwellen. DieZeitachse verläuft vertikal. Gerader Teil (a–c) und Betragsquadrat (Energie, d–f)gaborgefilterter Bilder mit Schwerpunktwellenlängen bei 48, 24 bzw. 12 mm.

durch eine Serie von Gaborfiltern zerlegt. Die Schwerpunktwellenlänge k0 wur-de in x-Richtung gelegt, parallel zur Windrichtung. Die zentralen Wellenlängender Filter wurden auf 1,2; 2,4 und 4,8 cm festgelegt und die Bandbreiten pro-portional zur zentralen Wellenzahl eingestellt.

Die linke Spalte der Bilder in Abb. 13.10 zeigt die Filterung mit dem geradenGaborfilter, die rechte Spalte die lokale Amplitude, die ein Maß für die Energieder Wellen darstellt. Die gefilterten Bilder zeigen, dass Wellen mit unterschied-lichen Wellenlängen teilweise gekoppelt sind.

In Bereichen, in denen die Wellen großer Wellenlänge große Amplituden haben,weisen auch die kleinskaligen Wellen (Kapillarwellen) große Amplituden auf.Die Energie der Wellen ist nicht gleichmäßig über die Wasseroberfläche verteilt.

Die Ausdehnung dieser Analyse auf Bildsequenzen gibt einen direkten Einblickin die komplexen nichtlinearen Wellen-Wellen-Wechselwirkungen. In Abb. 13.11ist die zeitliche Entwicklung einer Zeile des Bildes aus Abb. 13.10 dargestellt.Wie wir genauer in Abschn. 14.2.4 besprechen werden, ist die Steigung zurZeitachse der Strukturen in diesen Orts/Zeit-Bildern proportional zur Geschwin-digkeit der bewegten Objekte. Man kann schön zeigen, dass die kleinskaligenWellen von großen Wellen moduliert werden und dass die Gruppengeschwin-


digkeit (Geschwindigkeit der Wellenenergie) der kleinen Wellen geringer als diePhasengeschwindigkeit der Kapillarwellen ist.

13.4.6 Lokale Wellenzahlbestimmung

Zur Bestimmung der lokalen Wellenzahl müssen wir lediglich die erste räum-liche Ableitung des Phasensignals berechnen (Abschn. 13.4.1, (13.20)). DieseAbleitung muss in der Richtung bestimmt werden, in der das Hilbert- oder Qua-draturfilter angewandt wurde. Die Phase ergibt sich entweder aus

φ(x) = arctan

(−gh(x)g(x)

)(13.50)

oder aus

φ(x) = arctan

(−p(x)q − (x)

), (13.51)

wobei p und q die Signale bezeichnen, die mit dem geraden bzw. ungeradenTeil des Quadraturfilters gefiltert wurden.

Wegen der dem Phasensignal eigenen Diskontinuitäten ist es allerdings nichtratsam, die partiellen Ableitungen direkt aus diesen Gleichungen zu berech-nen. Eine mit dem Arkustangens berechnete Phase ist auf das Intervall [−π,π[begrenzt und führt unausweichlich zu einem Sprung des Phasensignals zwi-schen π und −π . Wie Fleet [55] zeigte, kann dieses Problem vermieden werden,indem wir den Phasengradienten direkt aus den Gradienten von p(x) und q(x)berechnen. Das Ergebnis ist:

k =∇φ(x) =∇ arctan(−p(x)/q(x)) = q∇p − p∇qp2 + q2

(13.52)

Diese Formulierung des Phasengradienten beseitigt auch die Notwendigkeit derBerechnung trigonometrischer Funktionen und ist daher bedeutend schneller.

Aus dem monogenen Signal (Abschn. 13.4.4)die lokale Wellenzahl zu berechnen,ist deutlich komplizierter, da wir diese für zweidimensionale Signale aus dreiKomponenten gewinnen müssen. Aus (13.41) können wir zwei verschiedeneGleichungen zur Bestimmung der Phase gewinnen:

φ1 = arccot

(p cosθq1

), φ2 = arccot

(p sinθq2

). (13.53)

Es ist notwendig, diese Gleichungen miteinander zu kombinieren, da jede inbestimmte Richtungen keine Ergebnisse liefert. Ein Weg führt über die Rich-tungsableitung (Abschn. 12.2.1). Wenn wir die Phase in Richtung des lokalenWellenzahlvektors ableiten, erhalten wir daraus direkt den Betrag der Wellen-zahl:

k = ∂φ∂k

= cosθ∂φ1

∂x+ sinθ

∂φ2

∂y. (13.54)

Die Terme cosθ und sinθ erhalten wir ebenfalls aus (13.41):

cos2 θ = q21

q21 + q2

1

und sin2 θ = q22

q21 + q2

1

. (13.55)


Daraus berechnet sich der Betrag der lokalen Wellenzahl zu

k = p(q1x + q2y)− q1px − q2pyp2 + q2

1 + q21

. (13.56)

Die Komponenten des Wellenzahlvektork = [k cosθ,h sinθ] ergeben sich durchKombination von (13.56) und (13.54).

13.5 Andere Tensordarstellungen

In diesem Abschnitt untersuchen wir einige weitere alternativen Ansätze zurBeschreibung lokaler Bildstrukturen mittels Tensoren. Der Ansatz mit demTrägheitstensor in Abschn. 13.5.1 geht von Betrachtungen im Fourierraum aus.Schwerpunkt dieses Abschnitts wird jedoch die Synthese von Tensormethodenmit Quadraturfiltern sein, also Techniken, mit denen sich sowohl die lokale Ori-entierung als auch die lokale Wellenzahl bestimmen lassen.

13.5.1 Trägheitstensor

Wir gehen von einer nach (13.1) ideal orientierte Struktur im Wellenzahlraumaus. Zur einfachen Berechnung der Fouriertransformierten von (13.1) drehenwir die x1-Achse des Koordinatensystems in Richtung von n. Dann ist die Grau-wertfunktion in x2-Richtung konstant, und die Fouriertransformierte reduziertsich zu einer δ-Linie in Richtung von n (R5).

Die Bestimmung der lokalen Orientierung im Fourierraum klingt vielverspre-chend, denn alles, was wir zu berechnen haben, ist die Orientierung der Linie,auf der die Spektraldichten ungleich null sind. Bigün und Granlund [15] schla-gen folgende Schritte vor:

• Mit einer Fensterfunktion wird eine kleine Umgebung aus dem Bild selektiert.

• Das mit der Fensterfunktion multiplizierte Bild wird transformiert. Je kleinerdas gewählte Fenster, desto verwaschener ist das berechnete Energiespek-trum (Unschärferelation, Theorem 2.7, S. 59). Selbst bei einer idealen lokalenOrientierung ergibt sich eine bandförmige Verteilung der spektralen Energie.

• Durch Bestimmung einer Regressionsgeraden durch die spektrale Dichtever-teilung lässt sich dann die Richtung der lokalen Orientierung aus der Steigungder Geraden bestimmen.

Der entscheidende Schritt dieser Prozedur ist die Berechnung der Regressions-geraden. Da dieses Problem im Allgemeinen überbestimmt ist, lässt es sichnicht exakt lösen; wir können nur das Fehlermaß minimieren. Ein Standard-fehlermaß ist das Betragsquadrat (L2-Norm; vergl. (2.75) in Abschn. 2.4.1). Beider optimalen Geraden minimieren wir die Summe der Abstandsquadrate allergegebenen Punkte zur Geraden:

∞∫−∞d2(k, n)|g(k)|2dWk→ Minimum. (13.57)

Die Abstandsfunktion wird mit d(k, n) abgekürzt. Das Integral läuft über dengesamten Wellenzahlraum; die Wellenzahlen werden mit der spektralen Dichte

13.5 Andere Tensordarstellungen 401

Abbildung 13.12: Entfernung eines Punktes im Wellenzahlraum von der Gera-den in Richtung des Einheitsvektors n.

|g(k)|2 gewichtet. Gleichung (13.57) ist nicht auf zwei Dimensionen beschränkt,sondern gilt generell für lokale Orientierung oder lineare Symmetrie in einemW -dimensionalen Raum.

Der Distanzvektor d kann aus Abb. 13.12 abgeleitet werden:

d = k− (kT n)n. (13.58)

Das Quadrat des Abstandes ergibt sich dann zu

|d|2 = |k− (kT n)n|2 = |k|2 − (kT n)2. (13.59)

Um den Abstand deutlicher als eine Funktion des Vektors n auszudrücken,schreiben wir ihn folgendermaßen neu:

|d|2 = nT (I(kTk)− (kkT ))n, (13.60)

wobei I die Einheitsmatrix ist. Substituieren wir diesen Ausdruck in (13.57),erhalten wir

nTJ′n→ Minimum, (13.61)

wobei J′ ein symmetrischer Tensor mit den Diagonalelementen

J′pp =∑q≠p

∞∫−∞k2q|g(k)|2dWk (13.62)

und den Nebendiagonalelementen

J′pq = −∞∫−∞kpkq|g(k)|2dWk, p ≠ q (13.63)

ist. Der Tensor J′ hat große Ähnlichkeit mit einer bekannten physikalischenGröße, dem Trägheitstensor . Ersetzen wir die Wellenzahlkoordinaten durchRaumkoordinaten und die spektrale Dichte |g(k)|2 durch die spezifische Dichteρ, sind (13.57) und (13.61) die Gleichungen zur Berechnung der Trägheit einesum die Achse n rotierenden Körpers.


Tabelle 13.3: Eigenwert-Klassifizierung des Strukturtensors in 3D-Bildern.

Bedingung Erläuterung

Ideale lokale Orientierung Der Rotationskörper ist eine Linie. Bei einer Dre-hung um diese Linie verschwindet die Trägheit. Dar-aus folgt, dass der Eigenvektor des Eigenwertes mitdem Wert null mit der Richtung der Linie zusam-menfällt. Der andere Eigenvektor ist zu dieser Linieorthogonal, und der zugehörige Eigenwert ist un-gleich null. Daraus resultiert die Rotationsachse mitmaximaler Trägheit.

Isotrope Grauwertstruktur In diesem Fall ist der Rotationskörper eine Art fla-che, isotrope Scheibe ohne eine Vorzugsrichtung.Beide Eigenwerte sind gleich und die Trägheit ist fürDrehungen um alle Achsen gleich. Es gibt kein Mi-nimum.

Konstante Grauwerte Der Rotationskörper degeneriert zu einem Punkt imUrsprung des Wellenzahlraums. Die Trägheit ist fürDrehungen um jede Achse null, und beide Eigenwer-te verschwinden.

Mit dieser Analogie können wir das Problem der Bestimmung lokaler Orientie-rung neu formulieren. Wir müssen die Achse finden, um die der Körper, derdurch die Spektraldichte im Fourierraum gebildet wird, mit minimaler Trägheitrotiert. Der rotierende Körper kann unterschiedliche Formen annehmen. DieForm des Rotationskörpers hängt mit den unterschiedlichen Lösungen, die wirfür die Eigenwerte des Trägheitstensors und damit für die Lösung des Problemsder lokalen Orientierung erhalten, zusammen (Tabelle 13.3).

Wir haben damit den Trägheitstensoransatz im Fourierraum hergeleitet. Nunwerden wir zeigen, wie die Koeffizienten des Trägheitstensors im Ortsraum be-rechnet werden können. Die Integrale in (13.62) und (13.63) enthalten Aus-drücke der Form

k2q|g(k)|2 = |ikqg(k)|2

und

kpkq|g(k)|2 = ikpg(k)[ikqg(k)]∗.

Integrieren wir diese Ausdrücke, so ergibt sich ein inneres oder Skalarproduktder Funktionen ikpg(k). Da dieses Produkt bei der Fouriertransformation erhal-ten bleibt (R4), können wir die zugehörigen Integrale genausogut im Ortsraumberechnen. Die Multiplikation von g(k) mit ikp im Wellenzahlraum entsprichtder ersten Ableitung in Richtung xp im Ortsraum:

J′pp(x) =∑q≠p

∞∫−∞w(x − x′)

(∂g∂xq

)2

dWx′

J′pq(x) = −∞∫−∞w(x − x′) ∂g

∂xp∂g∂xq

dWx′.

(13.64)


In (13.64) haben wir bereits die Wichtung mit der Fensterfunktion w berück-sichtigt, um eine lokale Umgebung zu selektieren.

Der in Abschn. 13.3.1 (13.8) diskutierte Strukturtensor ist mit dem Trägheits-tensor eng verwandt:

J′ = Spur(J)I − J. (13.65)

Aus dieser Beziehung sehen wir, dass beide Matrizen die gleichen Eigenvekto-ren haben. Die Eigenwerte λp stehen über folgende Gleichung miteinander inBeziehung:

λp =n∑q=1

λq − λ′p, λ′p =n∑q=1

λq − λp. (13.66)

Daraus folgt, dass die Eigenwertanalyse mit jeder der beiden Matrizen durchge-führt werden kann. Beim Trägheitstensor wird die Richtung der lokalen Orien-tierung durch den minimalen Eigenwert gegeben, für den Strukturtensor jedochdurch den maximalen Eigenwert.

13.5.2 Weitere äquivalente Ansätze

In ihrem Artikel über die Analyse gerichteter Muster („Analyzing oriented pat-terns“) wählten Kass und Witkin [115] eine — auf den ersten Blick — völligandere Methode. Tatsächlich ist sie jedoch äquivalent zur Tensormethode; daswerden wir nun zeigen. Die Autoren gingen von gerichteten Ableitungen miteinem DoG-Filter (Abschn. 12.7.6) aus. In Operatornotation kann man für denresultierenden Operator schreiben:

R(Θ) = [cosΘ sinΘ][ Dx(B1 −B2)Dy(B1 −B2)

]= [cosΘ sinΘ]

[ Rx

Ry

],

wobei B1 und B2 zwei Gaußsche Glättungsmasken mit unterschiedlichen Va-rianzen bezeichnen. Die Richtung, in der diese gerichtete Ableitung im Sinnequadratischer Abweichungen maximal ist, gibt die Richtung des Normalenvek-tors senkrecht auf Linien konstanter Grauwerte an. Aus diesem Ansatz ergibtsich der folgende Ausdruck für die Varianz der gerichteten Ableitung:

V (Θ) = B(R(Θ) · R(Θ)). (13.68)

Die gerichtete Ableitung wird quadriert und dann mit einer Binomialmaske ge-glättet. Der zugehörige Trägheitstensor hat folgende Form:[ B(Ry · Ry) −B(Rx · Ry)

−B(Rx · Ry) B(Rx · Rx)

]. (13.69)

Der Ansatz von Kass und Witkin ist also mit der allgemeinen Trägheitstensor-methode, die in Abschn. 13.5.1 besprochen wurde, identisch. Sie verwendenlediglich einen speziellen Typ eines Ableitungsfilters.

Ohne von den früheren Arbeiten von Bigün und Granlund [15] und den zeitglei-chen Untersuchungen von Knutsson [125] zu wissen, schlugen Rao und Schunck[181] und Rao [180] den gleichen Strukturtensor (von ihnen als Momententensorbezeichnet) vor, den wir bereits in Abschnitt 13.3.1 besprochen haben.


13.5.3 Polar separierbare Quadraturfiltersätze

Quadraturfilter eröffnen einen anderen Weg der Analyse einfacher Nachbar-schaften zur Bestimmung sowohl der lokalen Orientierung als auch der loka-len Wellenzahl . Historisch betrachtet war diese aus den Arbeiten von Gran-lund [71] hervorgegangene Technik die erste für die Analyse lokaler Struktu-ren. Die Techniken des Trägheits- und Strukturtensors kamen erst später auf[15, 115, 180, 181].

Der Quadraturfiltermethode liegt die Idee zugrunde, Strukturen in einem be-stimmten Bereich von Wellenzahlen und Richtungen zu extrahieren. Um dielokale Orientierung zu bestimmen, müssen wir eine ganze Reihe von gerich-teten Filtern anwenden, wobei jedes Filter für Strukturen anderer Orientierungempfindlich ist. Dann vergleichen wir die Filterantworten und erhalten eine ma-ximale Filterantwort von dem Richtungsfilter, dessen Richtung am besten mitder lokalen Orientierung übereinstimmt. Ähnlich kann eine Serie von Quadra-turfiltern zur Bestimmung der lokalen Wellenzahl eingesetzt werden.

Erhalten wir ein ausgeprägtes Maximum von einem der Filter, jedoch nur ge-ringe Antworten von den übrigen Filtern, enthält die Nachbarschaft ein lokalorientiertes Muster. Sind die Filterantworten vergleichbar, besteht die Nachbar-schaft aus einer Verteilung unterschiedlich gerichteter Muster. Soweit scheintdas Konzept einfach zu sein; allerdings müssen noch ein paar Probleme gelöstwerden. Welche Eigenschaften müssen die Richtungsfilter für eine genaue Be-stimmung der lokalen Orientierung erfüllen, wenn dies überhaupt möglich ist?Um eine möglichst hohe Rechengeschwindigkeit zu erreichen, müssen wir diekleinstmögliche Zahl von Filtern anwenden, die zur Interpolation des Winkelsder lokalen Orientierung nötig sind. Was jedoch ist die Minimalzahl?

Dieser Abschnitt basiert auf Arbeiten von Granlund [71], Knutsson [124] undKnutsson et al. [126]. Sie wurden inzwischen in der Monografie von Granlundund Knutsson [72] zusammengefaßt. Während die genannten Autoren die Qua-draturfiltersatztechnik für mehrere Dimensionen formuliert haben, werden wirhier nur den zweidimensionalen Fall betrachten. Zunächst besprechen wir dieKonstruktion von Quadraturfiltern, die für die Detektion sowohl der lokalen Ori-entierung als auch der lokalen Wellenzahl geeignet sind. Dies führt uns zu polarseparierbaren Quadraturfiltern (Abschn. 13.5.3). In einem zweiten Schritt zei-gen wir, wie der in Abschn. 13.3.3 definierte Orientierungsvektor mithilfe einereinfachen Vektoraddition der Antworten der Quadraturfilter (Abschn. 13.5.4)zusammengesetzt werden kann. Ähnlich untersuchen wir in Abschn. 13.5.5die Berechnung der lokalen Wellenzahl. Abschnitt 13.5.6 schließt den Kreismit Betrachtungen über den Strukturtensor, der ebenfalls aus einer Menge vonQuadraturfiltern berechnet werden kann. Die zu Beginn dieses Kapitels (Ab-schn. 13.3) diskutierten Tensormethoden unterscheiden sich also von der Qua-draturfiltersatztechnik lediglich in einigen feinen Details, führen ansonsten je-doch zu identischen Ergebnissen.

Für einen angemessenen Satz von Richtungsfiltern sollte jedes Filter eine ge-drehte Kopie des nächsten Filters sein. Diese Forderung impliziert, dass dieTransferfunktion der Filter in einen Winkelteil d(φ) und einen Wellenzahlteilr(k) separiert werden kann. Solch ein Filter wird polar separierbar genannt:

q(k,φ) = r (k)d(φ), (13.70)


wobei k =√k2

1 + k22 der Betrag und φ = arctan(k2/k1) das Argument der Wel-

lenzahl ist. Für einen Satz von Richtungsfiltern ist nur der Winkelteil der Trans-ferfunktion wichtig, da der radiale Teil für alle Filter gleich sein muss, allerdingsvon beliebiger Form sein kann. Das Gegenteil gilt für einen Filtersatz zur Be-stimmung der lokalen Wellenzahl.Knutsson [124] schlug das folgende grundlegende Quadraturfilter vor:

r (k) = exp

[− (lnk− lnk0)2

(B/2)2 ln 2

]

d(φ) =

cos2l(φ−φk) |φ−φk| < π/20 sonst.

(13.71)

In dieser Gleichung wird die komplexe Notation für Quadraturfilter verwendet(Abschn. 13.4.5). Die Filterrichtung istφk; der Einheitsvektor in dieser Richtungist dk = [cosφk, sinφk]. Das Filter ist kontinuierlich, da die Kosinusfunktionin der Teilungsebene für die beiden Halbräume (|φ−φk| = π/2 oder dkk = 0)null ist. Verwenden wir den Einheitsvektor dk in Richtung des Filters, könnenwir den Winkelteil auch folgendermaßen schreiben:

d(k) =(kdk)2l (kdk) > 00 sonst. (13.72)

In (13.71) bezeichnet die Konstante k0 die maximale Wellenzahl; B bestimmtdie Halbwertsbreite der Wellenzahl in Oktaven und l die Winkelauflösung desFilters. Mit einer logarithmischen Wellenzahlskala hat das Filter die Form ei-ner Gaußfunktion. Daher hat der radiale Teil eine lognormale (logarithmischnormalverteilte) Form.Bei dem geraden und ungeraden Filter des reellen Quadraturfilterpaars sind dieradialen Teile gleich, lediglich die Winkelteile unterscheiden sich:

d+(φ) = cos2l(φ−φk)d−(φ) = i cos2l(φ−φk) signum(cos(φ−φk)).

(13.73)

Abbildung 13.13 zeigt den radialen und den Winkelteil der Transferfunktionenfür verschiedene k0 und φk.Wir erhalten einen Satz von Richtungsfiltern durch die Auswahl entsprechendunterschiedlicher φk:

φk = πkK

k = 0,1, · · · , K − 1. (13.74)

Knutsson verwendet vier Filter mit 45°-Inkrementen in den Richtungen 22,5°,67,5°, 112,5° und 157,5°. Diese Richtungen haben den Vorteil, dass nur ein Fil-terkern konstruiert werden muss. Die Kerne für die Filter der anderen Rich-tungen ergeben sich durch Spiegelung an den Achsen und Diagonalen. DieseFilter werden im Wellenzahlraum konstruiert. Die Filterkoeffizienten erhaltenwir durch inverse Fouriertransformation. Wählen wir eine kleine Filtermaske,schneiden wir einen Teil der Filterkoeffizienten, die ungleich null sind, ab. Da-raus resultieren Abweichungen von der idealen Transferfunktion. Aus diesemGrund hat Knutsson die Koeffizienten des Filterkerns so optimiert, dass dieideale Transferfunktion möglichst gut approximiert wird. Nach Knutsson istdazu eine Filtermaske mindestens der Größe 15× 15 nötig.


a

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

11/8 1/4

1/2

~k

b

0 0.5 1 1.5 2 2.5 30

0.2

0.4

0.6

0.8

10 π / 4 π / 2 3 4π /

φ

Abbildung 13.13: a Radial- und b Winkelteil eines Quadraturfilters nach (13.71)mit B = 1 und l = 1 mit unterschiedlichen maximalen Wellenzahlen und inunterschiedlichen Richtungen.

a

b

Abbildung 13.14: Berechnung der lokalen Orientierung durch Vektoradditionder vier Filterantworten. Gezeigt ist ein Beispiel mit isotroper Umgebung in Be-zug auf die Orientierung: Alle vier Filterantworten sind gleich. Die Winkel derVektoren entsprechen den Filterrichtungen in a und den verdoppelten Filterrich-tungswinkeln in b.

13.5.4 Bestimmung des Orientierungsvektors

Die lokale Orientierung kann aus den Antworten der vier Quadraturfilter durchVektoraddition berechnet werden. Die Idee des Ansatzes ist einfach. Wir weisenden einzelnen Richtungsfiltern einen Orientierungsvektor zu. Der Betrag desVektors entspricht der Antwort des Quadraturfilters. Die Richtung des Vektorsist gegeben durch den doppelten Winkel der Filterrichtung (Abschn. 13.3.3). Indieser Darstellung zeigt jede Filterantwort, wie genau die Richtung des unter-suchten Musters mit der Richtung des Filters übereinstimmt. Eine Abschätzungdes Orientierungsvektors ist dann durch die Vektorsumme der zu den einzelnenFiltern gehörenden Orientierungsvektoren gegeben.


Verwenden wir für den Orientierungsvektor eine Darstellung mit komplexenZahlen, können wir die Filterantwort des Filters in Richtung φk schreiben als

Qφk = |Q| exp(2iφk) (13.75)

und den Orientierungsvektor als Vektorsumme

O =K−1∑k=0

Qφk. (13.76)

Warum die Verdoppelung der Vektorenwinkel gegenüber denjenigen der zu-gehörigen Orientierungsfilter notwendig ist, zeigt das Beispiel in Abb. 13.14, indem die Antwort aller vier Filter gleich ist. Es liegt also keine lokale Orientierungvor und die Umgebung enthält Strukturen in alle Richtungen. Die Vektorsummealler Filter ist null, wenn wir den Orientierungswinkel verdoppeln (Abb. 13.14b),nicht jedoch, wenn wir diesen Schritt auslassen (Abb. 13.14a).

Nach diesen mehr qualitativen Betrachtungen wollen wir belegen, dass wir dielokale Orientierung exakt berechnen können, wenn eine ideale Orientierung ineine beliebige Richtung φ0 vorliegt. Zugleich ergibt sich dabei, wie viele Filtermindestens notwendig sind. Die Berechnungen lassen sich vereinfachen, wennwir nur die winkelabhängigen Terme berücksichtigen, da die Filterantwortendie gleiche Wellenzahlabhängigkeit zeigen. Der eilige Leser mag diesen Beweisüberspringen.

Unter Verwendung von (13.71), (13.74) und (13.75) können wir den Winkelteilder Filterantwort des k-ten Filters folgendermaßen formulieren:

dk(φ0) = exp (2π ik/K) cos2l(φ0 −πk/K).Die Kosinusfunktion wird zerlegt in die Summe zweier komplexer Exponential-funktionen:

dk(φ0) = 122l exp (2π ik/K) [exp (i(φ0 −πk/K))+ exp (−i(φ0 −πk/K))]2l

= 122l exp (2π ik/K)

2l∑j=0

(2lj

)exp

(ij(φ0 −πk/K)

)exp

(−i(2l− j)(φ0 −πk/K))

= 122l

2l∑j=0

(2lj

)exp

(i(j − l)2φ0

)exp

(2π i(1+ l− j)(k/K)) .

Nun summieren wir die Vektoren aller K Richtungsfilter:

K−1∑k=0

dk = 122l

2l∑j=0

(2lj

)exp

(i(j − l)2φ0

) K−1∑k=0

exp(2π i(1+ l− j)(k/K)) .

Der Schlüssel zur Lösung der komplexen Doppelsumme liegt in einer Analyseder inneren Summe über k. Mit j = l+1 ist der Exponent null. Die Summandenselbst sind dann 1, die Summe K. Ansonsten stellt die Summe eine Partialsum-me der geometrischen Reihe mit dem Faktor exp

(2π i(1+ l− j)(k/K)) dar. Ihr

Summenwert ist

K−1∑k=0

exp(2π i(1+ l− j)(k/K)) = 1− exp

(2π i(1+ l− j))

1− exp(2π i(1+ l− j)/K) . (13.77)


a

bc

Abbildung 13.15: Vektoraddition der Filterantworten von K Richtungsfiltern zurBestimmung der lokalen Orientierung; a K = 2; b K = 3; c K = 4; der Summen-vektor ist verstärkt gezeichnet.

Wir können (13.77) nur heranziehen, wenn der Nenner ≠ 0 ∀j = 0,1, · · · ,2l.Daraus folgt, dass K > 1+ l. Unter diesen Bedingungen verschwindet die Sum-me. Dieses Ergebnis lässt sich einfach geometrisch interpretieren: Die Summebesteht aus gleichmäßig auf dem Einheitskreis verteilten Vektoren, wobei zweibenachbarte Vektoren jeweils um den Winkel 2πk/K gegeneinander verdrehtsind.

Damit reduziert sich die Summe in (13.77) auf K für j = l+1, andernfalls ist sienull. Also enthält die Summe über j nur den Term mit j = l+1. Das Endergebnis

K−1∑k=0

dk = K22l

(2ll+ 1

)exp (i2φ0) (13.78)

ist ein Vektor, bei dem der Winkel der lokalen Orientierung verdoppelt ist. Da-mit ist der Beweis erbracht.

Aus dem Beweis der Korrektheit der Vektoradditionstechnik ergibt sich auchdie Minimalzahl der erforderlichen Richtungsfilter: Aus l > 0 und K > l + 1schließen wir, dass mindestens K = 3 Richtungsfilter notwendig sind. DieseBedingung lässt sich intuitiv verstehen. Haben wir nur zwei Filter (K = 2),liegen deren Orientierungsvektoren und der Summenvektor auf einer Geraden(Abb. 13.15a), und eine Bestimmung der Orientierung ist nicht möglich. Erstmit drei oder vier Vektoren kann der Summenvektor alle Richtungen annehmen(Abb. 13.15b und c).

Mit einer ähnlichen Gedankenfolge wie oben können wir eine weitere wesent-liche Eigenschaft der Richtungsfilter beweisen. Die Summe über die Transfer-funktionen der K Filter resultiert für K > l in einer isotropen Funktion:

K−1∑k=0

cos2l(φ−πk/K) = K22l

(2ll

)K22l

(2l)!l!2

. (13.79)

Mit anderen Worten: die Summe aller Filterantworten ergibt eine orientierungs-invariante Antwort, es gibt keine Vorzugsrichtung. Das ist der tiefere Grund,warum die lokale Orientierung einfach und exakt mit einer sehr begrenzten Zahlvon Filtern und einer einfachen linearen Prozedur wie einer Vektoraddition be-stimmt werden kann.


13.5.5 Bestimmung der lokalen Wellenzahl

Die lognormale Form des radialen Teils des Quadraturfilters ermöglicht einedirekte Bestimmung der lokalen Wellenzahl eines engbandigen Signals. Nach(13.71) können wir den radialen Teil der Transferfunktion des Quadraturfiltersschreiben als

rl(k) = exp

[− (lnk− lnkl)2

2σ 2 ln 2

]. (13.80)

Wir untersuchen das Verhältnis der Ausgabe bei zwei unterschiedlichen radia-len Zentralfrequenzen k1 und k2 und erhalten:

r2

r1= exp

[− (lnk− lnk2)2 − (lnk− lnk1)2

2σ 2 ln 2

]

= exp

[2(lnk2 − lnk1) lnk+ ln2 k2 − ln2 k1

2σ 2 ln 2

]

= exp[(lnk2 − lnk1)[lnk− 1/2(lnk2 + lnk1)]

σ 2 ln 2

]

= exp

[ln(k/

√k2k1) ln(k2/k1)σ 2 ln 2

]

=(

k√k1k2

)ln(k2/k1)/(σ2 ln 2)

Allgemein ist das Verhältnis zweier unterschiedlicher Radialfilter direkt propor-tional zur lokalen Wellenzahl. Das Verhältnis wird besonders einfach, wenn derExponent des letzten Ausdrucks eins ist. Dies ist beispielsweise der Fall, wennk2/k1 = 2 und σ = 1. Dann ist

r2

r1= k√

k1k2. (13.81)

13.5.6 Bestimmung des Strukturtensors

Im letzten Abschnitt dieses Kapitels werden wir die in Abschn. 13.5 diskutier-te Quadraturfiltersatztechnik in Beziehung zur Tensortechnik (Abschn. 13.3)setzen. Der Strukturtensor kann aus den Antworten dieser Filter berechnetwerden. Granlund und Knutsson [72] stellen eine allgemeine Gleichung zur Be-rechnung des Strukturtensors aus den Quadraturfilterantworten vor:

J(x) =K−1∑k=0

Qkg(x)(αdk ⊗ dk − βI

), (13.82)

wobeiQkg(x) die Amplitude des k-ten Quadraturfilters ist, I die Einheitsmatrixund α = 4/3, β = 1/3 im Zweidimensionalen.Wir zeigen diese Beziehung an einer Quadratur mit drei Filtern. Diese zeigen indie Richtungen 0°, 60° und 120°. Damit ergeben sich die Einheitsrichtungsvek-toren zu

d0 = [1,0]T

d1 = [1/2,

√3/2

]Td2 = [−1/2,

√3/2

]T .(13.83)


Mit diesen Werten für dk kann (13.82) folgendermaßen geschrieben werden:

J(x) = Q0g(x)[

1 00 –1/3

]

+ Q1g(x)[

0 1/√

31/√

3 2/3

]

+ Q2g(x)[

0 –1/√

3–1/

√3 2/3

].

(13.84)

Die Matrizen liefern den Beitrag der einzelnen Quadraturfilter zu den zugehö-rigen Elementen des Strukturtensors. Bei einem isotrop orientierten Muster istdie Antwort aller Quadraturfilter gleich. Bezeichnen wir sie mit q(x), ergibt(13.84) den korrekten Strukturtensor für ein isotrop orientiertes Muster:

J(x) =[q(x) 0

0 q(x)

]. (13.85)

Umgekehrt ist die Antwort für ein gerichtetes Muster q(x) cos2(φ0 −φk), undwir erhalten

J(x) = q(x)[

cos2(φ0) sin(2φ0)/2sin(2φ0)/2 sin2(φ0)

]. (13.86)

Wieder ist dies die korrekte Form des Strukturtensors für eine ideal orientierteStruktur in Richtung φ0. (Dies kann zum Beispiel gezeigt werden, indem wirprüfen, ob die Determinante der Matrix null ist, und indem wir den Orientie-rungswinkel nach (13.12) berechnen.)

Es gibt nur einen feinen, aber wichtigen Unterschied zwischen der Quadratur-filtertechnik und der Strukturtensormethode. Die Quadraturfiltertechnik erfor-dert keine Mittelung zur Berechnung der Komponenten des Strukturtensors.Die Mittelung ist jedoch ein wichtiges Element dieser Methode, ohne die dasKohärenzmaß (siehe (13.15) in Abschnitt 13.3.4) immer eins wäre.


13.1: Lokale Orientierungsanalyse

Interaktive Demonstration der lokalen Orientierungsanalyse mit diversenDifferenzenfiltern (dip6ex13.01)

13.2: Lokale Orientierung und Rauschen

Interaktive Demonstration des Einflusses von Rauschen auf die lokale Ori-entierung (dip6ex13.02)

13.3: ∗Orientierung und Richtung

Erklären Sie den Unterschied zwischen Orientierung und Richtung und ge-ben Sie je ein Beispiele an für vektorielle Bildverarbeitungsoperatoren, dieeinen Richtungs- bzw. Orientierungsvektor liefern.


13.4: ∗∗Mittelung beim Strukturtensor

1. Warum ist es notwendig, die einzelnen Komponenten des Strukturten-sors über eine gewisse Nachbarschaft zu mitteln ((13.8) und (13.17)).Oder umgekehrt gefragt, welche Information würde der Strukturtensorliefern oder nicht liefern, wenn die Mittelung wegfallen würde?

2. Kennen Sie tensorielle Bildverarbeitungsoperatoren, bei denen keine Mit-telung notwendig ist?

13.5: ∗∗Orientierungsanalyse überlagerter Muster

In Abschn. 13.3 haben wir ausführlich diskutiert, dass der Strukturtensorbei einer ideal orientierten Struktur nur den Rang eins hat, sich dann einfachder Orientierungsvektor (Amplitude und Richtung der Struktur) berechnenlässt, und dass das Kohärenzmaß eins ist. Wie sieht aber der Strukturten-sor aus, wenn sich zwei ideal orientierte Strukturen, die in unterschiedlicheRichtungen laufen überlagern? Ohne Beschränkung der Allgemeinheit kön-nen Sie davon ausgehen, dass die beiden Richtungen einen Winkel von±θ/2zur x-Achse haben. Die Amplitude sei verschieden. Sie können von einemsinosoidalen Signal ausgehen.

1. Welcher Orientierungswinkel berechnet sich aus dem Strukturtensor?

2. Welchen Wert nimmt die Kohärenz an?

3. Interpretieren Sie die Ergebnisse!

13.6: Hilbertfilter

Interaktive Demonstration diverser Hilbertfilter (dip6ex13.03)

13.7: ∗∗Faltungsmaske für Hilbertfilter

1. Welche generellen Bedingungen muss eine Faltungsmaske erfüllen, dieein Hilbertfilter über einen gewissen Wellenzahlbereich sein soll?

2. Kann eine Maske mit einer endlichen Anzahl von Filterkoeffizienten einideales Hilbertfilter sein, d. h. die ideale Transferfunktion für alle Wellen-zahlen erfüllen?

3. Ist es möglich mit einem rekursiven Filter ein ideales Hilbertfilter zu rea-lisieren?

13.8: Lokale Phase und Wellenzahl; Hilberttransformation

Interaktive Demonstration der Bestimmung der lokalen Phase und Wellen-zahl mithilfe der Hilberttransformation und Quadraturfiltern (dip6ex13.04)

13.9: ∗∗Lokale Amplitude, Phase und Wellenzahl

Die lokale Phase, Amplitude und Wellenzahl sind Größen, mit denen sichlokale Struktureigenschaften in Signalen beschreiben lassen. Berechnen Siediese drei Größen für die folgenden einfachen eindimensionalen Signaleunter Anwendung der Hilberttransformation

1. Sinuswelle: a0 sinkx,

2. Sinuswelle mit einem Oberton: a0 sinkx + a1 sin 2kx mit a1 a0 und


3. Überlagerung zweier Sinuswellen gleicher Amplitude und geringfügig ver-schiedener Wellenzahlen:a sin[(k+∆k/)2x]+ a sin[(k−∆k/)2x] mit ∆k k

Interpretieren Sie die berechneten Ergebnisse!

13.10: Lokale Phase und Wellenzahl; Riesztransformation

Interaktive Demonstration der Bestimmung der lokalen Phase und Wellen-zahl mithilfe der Hilbert- und Riesztransformation (dip6ex13.05)

13.11: ∗∗Einfaches 1D-Quadraturfilter

Stellt das einfache Filterpaar

[−1 0 2 0 − 1] /4 and [1 0 − 1] /2

ein brauchbares Quadraturfilterpaar dar?

1. Berechnen Sie die Transferfunktion beider Filter!

2. Berechnen Sie den Phasenunterschied zwischen beiden Filtern!

3. Vergleichen Sie die Amplituden beider Transferfunktionen!


Der Quadraturfilter-Ansatz (Abschn. 13.5) wird im Detail in der Monografievon Granlund und Knutsson [72] beschrieben, die Trägheitstensormethode (Ab-schn. 13.5.1) in einem Artikel von Bigün und Granlund [15]. Poularikas [174]behandelt die Mathematik der Hilberttransformation. Die Erweiterung des ana-lytischen Signals auf höhere Dimensionen (Abschn. 13.4.4) wurde erst kürzlichvon Felsberg und Sommer [52] publiziert. Mehr zur Mathematik des monoge-nen Signals und der geometrischen Algebra für das Computersehen ist in derMonografie von Sommer [214] zu finden.

14 Bewegung

14.1 Einführung

Die Bewegungsanalyse war lange Zeit eine spezielle Forschungsrichtung,die mit der allgemeinen Bildverarbeitung nicht viel zu tun hatte. DieseTrennung hatte zwei Gründe. Zum Ersten waren die Techniken zur Be-wegungsanalyse in Bildsequenzen andere. Zum Zweiten beschränkte dergroße Speicherplatz und die Rechenleistung, die zur Verarbeitung vonBildsequenzen notwendig waren, die Bewegungsanalyse auf einige spe-zialisierte Institute, die sich die teure Ausrüstung leisten konnten. Bei-des trifft heute nicht mehr zu. Aufgrund der allgemeinen Fortschrittein der Bildverarbeitung unterscheiden sich die in der Bewegungsanaly-se verwendeten Methoden nicht mehr von den bei anderen Bildverar-beitungsaufgaben eingesetzten. Außerdem ermöglichen Fortschritte beider Computer-Hardware und bei Algorithmen nun auch die Analyse vonBildsequenzen auf Standard-PCs und Workstations.

Wir können daher Bewegung als lediglich ein anderes Merkmal be-trachten, das zur Identifizierung und Charakterisierung von Objektenund zum Verstehen von Szenen verwendet wird. Die Integration der Be-wegungsanalyse in die allgemeine Bildverarbeitung lässt sich mit demÜbergang von der Fotografie von Einzelbildern zum Film vergleichen.Nur mit Bildsequenzen können wir dynamische Prozesse erkennen undanalysieren. Aus der Bildsequenzanalyse resultieren viele Möglichkeitenfür wissenschaftliche und technische Anwendungen wie, um nur einigezu nennen, die Untersuchung von Fließ- und Transportprozessen, vonbiologischen Wachstumsprozessen sowohl im molekularen Bereich alsauch im gesamten Ökosystem, von Veränderungen im Tages- oder Jah-resrhythmus, von Prozessabläufen in der Industrie und von Verkehrs-szenen, ferner die Steuerung autonomer Fahrzeuge und Roboter. Alledynamischen Vorgänge, die zeitliche Veränderungen bewirken, welchesichtbar gemacht werden können, sind potenzielle Aufgaben für die Bild-sequenzanalyse.

Die Bewegungsanalyse ist trotz allem immer noch eine herausfor-dernde Aufgabe, die einiges an Spezialwissen erfordert. Daher disku-tieren wir in Abschn. 14.2 ihre grundlegenden Probleme und Prinzipien.Dann wenden wir uns den verschiedenen Techniken zur Bestimmungvon Bewegung zu. Wie in vielen anderen Bereichen der Bildverarbeitungist die Literatur voll von einer verwirrenden Vielfalt verschiedenster An-


414 14 Bewegung

a b

c d

Abbildung 14.1: a bis d Zwei Bildpaare der Baustelle der neuen Kopfklinikder Universität Heidelberg. Was hat sich jeweils vom linken zum rechten Bildverändert?

sätze. Hier wird versucht, die verschiedenen Konzepte auf einheitlicheWeise als Filteroperationen in Orts/Zeit-Bildern darzustellen, um die Be-ziehungen zwischen den verschiedenen Konzepten transparent zu ma-chen.

In diesem Sinne diskutieren wir als elementare Verfahren zur Be-wegungsschätzung differenzielle (Abschn. 14.3), Tensor- (Abschn. 14.4),Korrelations- (Abschn. 14.5) und Phasenmethoden (Abschn. 14.6).

14.2 Grundlagen

14.2.1 Bewegung und Grauwertveränderungen

Intuitiv verbinden wir Bewegung mit Veränderungen. Also beginnen wirdie Diskussion der Bewegungsanalyse mit der Betrachtung der Unter-schiede zwischen zwei Bildern einer Sequenz. In Abb. 14.1a und b se-hen wir ein Bildpaar von einer Baustelle an der Universität Heidelberg.Zwischen dem linken und rechten Bild bestehen Unterschiede, welchejedoch nicht direkt ins Auge springen. Wenn wir aber die beiden Bil-

14.2 Grundlagen 415

a b

c d

Abbildung 14.2: a bis d Zwei Bildpaare aus einem Labor. Welche Unterschiedebestehen jeweils zwischen dem linken und rechten Bild?

der voneinander subtrahieren, werden die Unterschiede sofort sichtbar(Abb. 14.3a). Links unten im Bild hat sich ein LKW bewegt, währendder Wagen dahinter offensichtlich parkt. In der Bildmitte sehen wir denUmriss eines Fußgängers, der in den Originalbildern kaum zu erkennenist. Die hellen Flecken im oberen Bildteil sind Fahrradfahrer auf einemRadweg im Hintergrund. Aus der größeren Verschiebung der Doppel-konturen im Differenzbild können wir abschätzen, dass sie sich im Ver-gleich zum Fußgänger schneller bewegen. Selbst solch eine qualitativeBeschreibung zeigt, dass die Bewegungsanalyse uns beträchtlich hilft,eine Szene zu verstehen. Ohne beispielsweise die sich bewegenden Rad-fahrer wäre es viel schwerer, den Radweg zu erkennen.

Abbildung 14.1c und d zeigt — leicht versetzt — dieselbe Szene. Nunkönnen wir jedoch die Veränderungen bereits im Originalbild erkennen.Betrachten wir Kanten, so sehen wir, dass die Bilder etwas in horizon-taler Richtung gegeneinander verschoben sind. Was ist geschehen? Of-fensichtlich wurde die Kamera geschwenkt. Im Differenzbild Abb. 14.3berscheinen alle Objektkanten als helle Linien. An den Stellen jedoch,an denen die räumlichen Grauwertveränderungen im Originalbild kleinsind, ist das Differenzbild dunkel. Daraus lässt sich schließen, dass Be-

416 14 Bewegung

a b

Abbildung 14.3: Differenzbild a der Bilder a und b in Abb. 14.1, b der Bilder cund d in Abb. 14.1.

a b

Abbildung 14.4: Differenzbild a der Bilder a und b in Abb. 14.2, b der Bilder cund d in Abb. 14.2.

wegung nur an den Stellen erkannt wird, an denen Grauwertverände-rungen in der Szene auftreten. Diese einfachen Beobachtungen machendie zentrale Rolle der räumlichen Grauwertveränderungen für die Bewe-gungsbestimmung deutlich.

Soweit können wir unsere Erfahrungen in der Aussage zusammen-fassen, dass Bewegung in zeitlichen Grauwertveränderungen resultierenkann. Leider ist der umgekehrte Schluss, dass alle zeitlichen Grauwert-veränderungen auf Bewegung zurückzuführen sind, nicht zulässig. Aufden ersten Blick sehen die Bilder in Abb. 14.2a und b identisch aus. DasDifferenzbild in Abb. 14.4a zeigt jedoch, dass einige Teile im linken Bildheller sind als im rechten. Offensichtlich haben sich die Lichtverhältnis-se geändert. Tatsächlich wurde eine Lampe außerhalb des Bildausschnit-tes ausgeschaltet, bevor das Bild in Abb. 14.2b aufgenommen wurde. Woaber steht diese Lampe? Das Differenzbild zeigt, dass nicht alle Flächengleich hell sind. Zur Kamera hin gerichtete Flächen sind in beiden Bil-dern etwa gleich hell, während nach links orientierte Flächen deutlich

14.2 Grundlagen 417

a

?

b

Abbildung 14.5: Veranschaulichung des Blendenproblems in der Bewegungs-analyse: a Mehrdeutigkeit der Verschiebungsvektoren an einer Kante; b Eindeu-tigkeit des Verschiebungsvektors an einer Ecke.

dunkler sind. Daraus können wir schließen, dass sich die Lampe linksaußerhalb des Bildausschnittes befindet.

Ein weiteres Bildpaar (Abb. 14.2c und d) zeigt eine wesentlich kompli-ziertere Szene, obwohl die Beleuchtung nicht verändert, sondern ledig-lich die Labortür geschlossen wurde. Natürlich sehen wir im Bereich derTür starke Grauwertunterschiede. Das Schließen der Tür bewirkt jedochzusätzlich eine Veränderung der Lichtverhältnisse. Da in den Bereichunterhalb der Tür nun mehr Licht reflektiert wird, sehen wir auch anden dort gelegenen Objekten Grauwertunterschiede (Abb. 14.4b).

14.2.2 Das Blendenproblem

Bisher haben wir gelernt, dass die Bewegungsanalyse eng mit räumlichenund zeitlichen Grauwertunterschieden zusammenhängt. Beide Größenerhält man recht einfach mit lokalen Operatoren, welche die räumlichenund zeitlichen Ableitungen bilden. Solch ein lokaler Operator „sieht“ je-doch entsprechend der Größe seiner Maske nur einen kleinen Ausschnittdes beobachteten Objekts. Dies lässt sich veranschaulichen, indem wireine Blende auf das Bild legen.

Abbildung 14.5a zeigt eine Kante, die aus der Position der durchgezo-genen Linie zu der Lage der gestrichelten Linie verschoben wurde. DieBewegung von einer Position zur nächsten kann durch einen Verschie-bungsvektor — abgekürzt VV — beschrieben werden. In diesem Fallkönnen wir die Verschiebung nicht eindeutig bestimmen, da der Ver-schiebungsvektor von einem Punkt der Kante im ersten Bild zu einembeliebigen Punkt auf der verschobenen Kante im nächsten Bild zeigenkann (Abb. 14.5a). Wir können lediglich die senkrecht zur Kante liegen-de Komponente des VV bestimmen, während die parallel zur Kante lie-gende unbekannt bleibt. Diese Mehrdeutigkeit wird als Blendenproblembezeichnet. Eine eindeutige Bestimmung des VV ist nur möglich, wenndie Operatormaske die Ecke eines Objekts einschließt (Abb. 14.5b). DasBeispiel zeigt, dass lokale Operatoren nur spärliche Information überBewegung liefern.

418 14 Bewegung

a

?

b

?

Abbildung 14.6: Das Korrespondenzproblem bei a einem deformierbaren zwei-dimensionalen Körper und b einem regelmäßigen Gitter.

14.2.3 Das Korrespondenzproblem

Der Grund für das Blendenproblem liegt in der Tatsache, dass wir einenbestimmten Punkt einer Kante im folgenden Bild einer Bildsequenz nichtwiederfinden können, da wir keine Möglichkeit zur Unterscheidung ver-schiedener Punkte einer Kante haben. In diesem Sinne können wir dasBlendenproblem als Spezialfall des allgemeineren Korrespondenzprob-lems verstehen. Allgemein bedeutet dies, dass wir keine eindeutig mit-einander korrelierten Punkte in zwei aufeinander folgenden Bildern einerSequenz bestimmen können. In diesem Abschnitt betrachten wir weitereBeispiele des Korrespondenzproblems.

Abbildung 14.6a zeigt ein zweidimensionales deformierbares Objekt,z. B. einen Farbklecks, der sich allmählich ausbreitet. Es leuchtet ein,dass eine eindeutige Bestimmung der Verschiebungsvektoren selbst ander Kante des Kleckses nicht möglich ist. Über die Bewegung im Innernkann man überhaupt nichts sagen, da es keine erkennbaren Merkmalegibt, deren Bewegung man verfolgen könnte.

Zunächst könnte man annehmen, dass das Korrespondenzproblembei starren Objekten mit ausgeprägten Grauwertunterschieden nicht auf-tritt. Ein Gitter als Beispiel für eine periodische Textur (siehe Abb. 14.6b)zeigt, dass dies nicht stimmt. Solange wir die Verschiebung des Gittersmit einem lokalen Operator und damit nur in einem Ausschnitt des Ob-jekts betrachten, ist die Verschiebung um ein Vielfaches der Maschen-weite prinzipiell nicht erkennbar. Erst, wenn wir das gesamte Gitter mitseinem Rand sehen, wird die Verschiebung eindeutig bestimmbar.

Eine andere Variante des Korrespondenzproblems tritt bei Bildernmit vielen Objekten auf, die in der Form nicht unterscheidbar sind, z. B.kleine Partikel, die in ein Strömungsfeld zur Messung der Strömungs-geschwindigkeit eingebracht werden. In diesem Fall kann für ein Teil-chen das jeweils korrespondierende im Folgebild nicht bestimmt werden(Abb. 14.7b). Eine Lösung des Problems ergibt sich, wenn wir die auf-

14.2 Grundlagen 419

a b

Abbildung 14.7: Das Korrespondenzproblem bei ununterscheidbaren Teilchen:a der mittlere Teilchenabstand ist größer als die Verschiebungsvektoren; b derumgekehrte Fall. Die gefüllten und offenen Kreise stellen die Teilchen im erstenbzw. zweiten Bild dar.

einander folgenden Bilder in so kurzen Zeitintervallen aufnehmen, dassder mittlere Verschiebungsvektor signifikant kleiner ist als der mittle-re Partikelabstand. Mit dieser zusätzlichen Information können wir dennächsten Nachbarn eines Partikels im folgenden Bild suchen. Solch einAnsatz ist allerdings niemals fehlerfrei, da die Entfernung von Partikelnstatistisch verteilt ist.

Aus diesen einfachen Beispielen wird das grundlegende Problem derBewegungsanalyse klar. Auf einer höheren Abstraktionsebene könnenwir feststellen, dass die physikalische oder reale Korrespondenz realerObjekte nicht mit der visuellen Korrespondenz im Bild übereinstimmenmuss. Das Problem hat zwei Gesichter. Zunächst können wir visuel-le Korrespondenz vorfinden, ohne dass eine physikalische besteht, sobei Objekten oder periodischen Objekttexturen, die nicht voneinanderunterscheidbar sind. Weiter bedingt eine physikalische Korrespondenznoch nicht, dass auch eine visuelle Korrespondenz besteht. So verhältes sich, wenn Objekte keine bestimmten Merkmale haben oder wenn wirdie visuelle Korrespondenz aufgrund von Änderungen der Beleuchtungnicht erkennen können.

14.2.4 Bewegung als Orientierung im Orts/Zeit-Raum

Die Diskussion in den vorangegangenen Abschn. 14.2.1–14.2.3 hat ge-zeigt, dass die Analyse der Bewegung aus nur zwei aufeinander folgen-den Bildern mit ernsthaften Problemen behaftet ist. Es stellt sich dieFrage, ob diese Probleme zumindest teilweise überwunden werden kön-nen, wenn wir die Analyse auf eine ganze Bildsequenz ausdehnen. Beieinem Bildpaar haben wir nur einen „Schnappschuss“ des Bewegungsfel-des, wissen also nicht, wie die Bewegung über die Zeit weitergeht. Damitbekommen wir beispielsweise keine Informationen über Beschleunigun-gen und können nicht beobachten, wie Teile eines Objekts auftauchenund wieder verschwinden.

420 14 Bewegung

a

t

X

ϕ

b

X

y

tϕ

ϕy

x

Abbildung 14.8: Orts/Zeit-Bilder: a zweidimensionales Orts/Zeit-Bild mit einerRaum- und einer Zeitkoordinate; b dreidimensionales Orts/Zeit-Bild.

In diesem Abschnitt betrachten wir die Grundlagen der Bildsequenz-analyse in einem mehrdimensionalen Raum, der über einer Zeitkoordi-nate und ein bis drei Raumkoordinaten aufgespannt ist. Diesen Raumbezeichnen wir als Orts/Zeit-Raum oder xt-Raum.

Ein dreidimensionales Orts/Zeit-Bild kann man sich als Stapel auf-einander folgender Bilder denken und diesen als Bildwürfel darstellen(Abb. 14.9). Auf jeder sichtbaren Fläche des Würfels bilden wir einenQuerschnitt durch den Bildstapel in der entsprechenden Richtung ab.Somit zeigt die Oberseite eine xt-Scheibe und die rechte Seite eine yt-Scheibe. Die Scheiben stammen aus der Zeile und der Spalte, die jeweilsdurch weiße Linien im letzten Bild der Zeitserie auf der Frontseite desWürfels markiert sind.

In einem Orts/Zeit-Bild wird ein Bildpunkt oder Pixel zu einem Vo-xel , d. h., er repräsentiert den Grauwert in einem kleinen Volumenele-ment mit den Ausdehnungen ∆x, ∆y und ∆t. Bei der Erfassung echter3D-Daten kommen wir an die Grenzen unseres visuellen Vorstellungs-vermögens (vgl. die Diskussion in Abschn. 8.1.1). Daraus resultiert dergroße Bedarf an geeigneten Darstellungen solcher Daten zur Visualisie-rung interessierender Eigenschaften.

Wir betrachten zunächst ein einfaches Beispiel mit einer Raum- undeiner Zeitkoordinate (Abb. 14.8a). Ein unbewegliches eindimensionalesObjekt zeigt vertikal orientierte Grauwertstrukturen. Bewegt sich einObjekt, verschiebt es sich von Bild zu Bild und erscheint als geneig-te Grauwertstruktur. Die Geschwindigkeit ist mit der Orientierung inOrts/Zeit-Bildern direkt verknüpft; sie ist im einfachen Fall eines 2D-

14.2 Grundlagen 421

Abbildung 14.9: Eine dreidimensionale Bildsequenz am Beispiel einer Verkehrs-szene auf der Hanauer Landstraße in Frankfurt/Main, dargestellt als Bildquader.Die Zeitachse kommt aus der Tiefe auf den Betrachter zu. Auf der rechten Sei-te des Quaders ist eine yt-Scheibe für die mit einer vertikalen weißen Linie imxy-Bild markierte x-Koordinate zu sehen, während die Oberseite eine mit derhorizontalen weißen Linie markierte xt-Scheibe zeigt (aus Jähne [98]).

Orts/Zeit-Bildes gegeben durch

u = − tanϕ, (14.1)

wobeiϕ der Winkel ist zwischen der t-Achse und der Richtung, in der dieGrauwerte konstant sind. Das Minuszeichen in (14.1) kommt daher, dassWinkel gegen den Uhrzeigersinn positiv gezählt werden. Die Erweiterungauf zwei Raumdimensionen ist einfach; sie ist in Abb. 14.8b gezeigt. DieGeschwindigkeit ergibt sich zu

u = −[

tanϕx

tanϕy

]. (14.2)

Die Winkel ϕx und ϕy sind als die Winkel zwischen den Projektionenauf die xt- und yt-Ebenen eines Vektors in Richtung der konstantenGrauwerte und der t-Achse definiert.

Ein praktisches Bildbeispiel zeigt Abb. 14.9. Die Bewegung auf derbetrachteten Fahrbahn verläuft nahezu in vertikaler Richtung, sodassder yt-Querschnitt als 2D-Orts/Zeit-Bild betrachtet werden kann. Die

422 14 Bewegung

Bewegung ist sofort erkennbar. Halten die Autos an einer Ampel, sinddie Strukturen horizontal orientiert. Phasen mit zunehmender und kon-stanter Geschwindigkeit können davon und auch voneinander einfachunterschieden werden.

Wir können zusammenfassend festhalten: Bewegung erscheint inOrts/Zeit-Bildern als Orientierung. Diese grundlegende Tatsache bildetdie Basis der Bewegungsanalyse im Orts/Zeit-Raum. Der konzeptionelleUnterschied zum Ansatz mit lediglich zwei aufeinander folgenden Bil-dern ist der, dass Geschwindigkeit in Orts/Zeit-Bildern direkt als Ori-entierung und nicht als diskrete Verschiebung gemessen werden kann.Der Unterschied zwischen diesen beiden Konzepten ist größer, als es zu-nächst erscheint. Wir können Algorithmen für die Bewegungsschätzungnun im kontinuierlichen xt-Raum formulieren und analytisch betrach-ten, bevor wir eine passende Diskretisierungsstrategie anwenden. Soist es möglich, eindeutig zwischen prinzipiellen Mängeln eines Ansatzesund Fehlern durch die Diskretisierung zu unterscheiden.

Der vorgestellte Ansatz der Bewegungsanalyse hat viel gemeinsammit dem Problem der Rekonstruktion von 3D-Bildern aus Projektionen(Abschn. 8.6). Tatsächlich können wir uns die Bewegungsanalyse als ei-ne geometrische Bestimmung der Geschwindigkeit durch die Betrach-tung transparenter dreidimensionaler Orts/Zeit-Bilder aus unterschied-lichen Blickwinkeln vorstellen. Bei dem Beobachtungswinkel, der einerbestimmten Geschwindigkeit entspricht, müssen in der Zeitachse alleEinzelbilder direkt übereinander liegen. Die Geschwindigkeit ergibt sichdann aus dem Winkel zwischen der Blickrichtung und der Zeitachse. Be-trachten wir nur die Kante eines bewegten Objektes, so erscheint die-se als eine geneigte Ebene im Orts/Zeit-Bild. Wir können daher unsereBlickrichtung in der Richtung entlang der Kante beliebig ändern und be-kommen dennoch die Kanten im ganzen Bildstapel zur Deckung. So be-gegnen wir wieder dem in Abschn. 14.2.2 betrachteten Blendenproblem,diesmal aus einem anderen Blickwinkel.

14.2.5 Bewegung im Fourierraum

Aus der Einführung des Orts/Zeit-Raums ergibt sich der bedeutende Vor-teil, dass wir Bewegung auch im korrespondierenden Fourierraum, demkν-Raum, analysieren können. Zur Einführung betrachten wir das Bei-spiel einer 3D-Bildsequenz, bei der sich alle Objekte mit konstanter Ge-schwindigkeit bewegen. Solch eine Sequenz g(x, t) lässt sich mit

g(x, t) = g(x − ut) (14.3)

beschreiben. Die Fouriertransformierte dieser Sequenz ist

g(k, ν) =∫t

∫x

g(x − ut) exp[−2π i(kx − νt)]d2xdt. (14.4)

14.2 Grundlagen 423

Mit x′ = x − ut,erhalten wir

g(k, ν) =∫t

⎡⎢⎣ ∫x′

g(x′) exp(−2π ikx′)

⎤⎥⎦ exp(−2π ikut) exp(2π iνt)d2x′dt.

Das innere Integral enthält die räumlichen Koordinaten und resultiert inder räumlichen Fouriertransformation g(k) des Bildes g(x′). Das äuße-re Integral über die Zeitkoordinate reduziert sich auf eine δ-Funktion,sodass sich insgesamt ergibt:

g(k, ν) = g(k)δ(ku− ν). (14.5)

Diese Gleichung besagt, dass ein sich mit der Geschwindigkeit u bewe-gendes Objekt nur einen zweidimensionalen Unterraum des dreidimen-sionalen kν-Raumes besetzt. Die Gleichung für die Ebene ergibt sichdirekt aus dem Argument der δ-Funktion in (14.5):

ν = ku. (14.6)

Diese Ebene schneidet die k1k2-Ebene normal zur Geschwindigkeitsrich-tung, da in dieser Richtung das Skalarprodukt ku verschwindet. DieSteigung der Ebene, ein Zweikomponentenvektor, ergibt die Geschwin-digkeit: ∇kν =∇k(ku) = u.Der Index k im Gradientenoperator besagt, dass die partiellen Ableitun-gen in Bezug auf k berechnet werden.

Diese Betrachtungen zeigen — zumindest prinzipiell —, wie man dieGeschwindigkeit in einer Bildsequenz mit konstanter Geschwindigkeitbestimmen kann. Man berechne die Fouriertransformation der Sequenzund bestimme dann die Steigung der Ebene, auf der sich das Spektrumder Sequenz befindet. Dies funktioniert am besten, wenn die Szene klei-ne Strukturen enthält, d. h. hohe Wellenzahlen, die in viele Richtungenverteilt sind. Die Steigung der Ebene lässt sich jedoch nicht eindeutigbestimmen, wenn das Spektrum auf der Ebene zu einer Linie wird, wasbei räumlich orientierten Grauwertstrukturen geschieht. Dann erhaltenwir aus der Linie im Fourierraum nur die Komponente der Steigung derEbene in Richtung der räumlichen lokalen Orientierung. Damit stoßenwir im kν-Raum wieder auf das Blendenproblem (Abschn. 14.2.2).

14.2.6 Optischer Fluss

Die in Abschn. 14.2.1 diskutierten Beispiele haben gezeigt, dass Bewe-gung und Grauwertveränderungen nicht äquivalent sind. Die Beziehungzwischen beiden wollen wir in diesem Abschnitt quantifizieren. ZweiBegriffe sind in diesem Zusammenhang wichtig: das Bewegungsfeld undder optische Fluss. Das Bewegungsfeld eines Bildes ist die Projektion der

424 14 Bewegung

Bewegungen in der 3D-Szene auf die Bildebene. Diese Größe soll auseiner Bildsequenz extrahiert werden. Der optische Fluss ist als „Grau-wertfluss“ in der Bildebene definiert. Ihn beobachten wir. Der optischeFluss und das Bewegungsfeld sind nur gleich, wenn die Objekte währendihrer Bewegung in der Szene nicht die Beleuchtung in der Bildebene ver-ändern. Obwohl diese Äquivalenz zunächst plausibel erscheint, gilt siebei genauerer Betrachtung tatsächlich nur in sehr wenigen Fällen. Diegrundlegenden Fragen sind also, wie bedeutend die Abweichungen sindund ob wir in der praktischen Anwendung von der Äquivalenz von opti-schem Fluss und Bewegungsfeld ausgehen können.

Zwei klassische Beispiele, bei denen das projizierte Bewegungsfeldund der optische Fluss nicht gleich sind, hat Horn [90] beschrieben. Daserste ist eine sich drehende Kugel mit einer beliebigen gleichmäßigenOberfläche. Solch eine Kugel kann sich durch ihren Schwerpunkt umjede Achse drehen, ohne dass ein optisches Strömungsfeld resultiert.Das gegenteilige Beispiel ist die gleiche Kugel in Ruhe und beleuchtet miteiner sich bewegenden Lichtquelle. Nun ist das Bewegungsfeld null, aberdie Veränderungen der Grauwerte durch die sich bewegende Lichtquellebewirken ein optisches Strömungsfeld.

An dieser Stelle müssen wir zunächst die unterschiedlichen Schreib-weisen für die Bewegung in Bildsequenzen klären, da in der Literaturdurch die vielen unterschiedlichen Termini eine beträchtliche Verwir-rung herrscht. Der optische Fluss oder Bildfluss ist die sichtbare Bewe-gung in der Bildebene. Er hat die Dimension einer Geschwindigkeit,und wir bezeichnen ihn mit f = [f1, f2]T . Wird der optische Flussaus zwei aufeinander folgenden Bildern bestimmt, erscheint er als einVerschiebungsvektor (VV ) von den Merkmalen des ersten zu denen deszweiten Bildes. Liegt an jedem Bildpunkt ein Verschiebungsvektor vor,so spricht man von einem Verschiebungsvektorfeld (VVF ) s = [s1, s2]T .Eine Näherung des optischen Flusses erhalten wir, indem wir das VVFdurch das Zeitintervall zwischen den beiden Bildern dividieren. Wichtigist, dass der optische Fluss ein zum kontinuierlichen Raum gehörenderBegriff und das VVF sein diskretes Gegenüber ist. Das Bewegungsfeldu = [u1, u2]T = [u,v]T in der Bildebene ist die Projektion des dreidi-mensionalen physikalischen Bewegungsfeldes durch die Optik.

Das Konzept des optischen Flusses stammt aus der Hydrodynamik.Auf Bilder übertragen, bewirkt die Bewegung, dass Grauwerte (entspre-chend einem optischen Signal) über die Bildebene „fließen“, ebenso wieVolumenelemente in Flüssigkeiten oder Gasen fließen. In der Hydrody-namik spielt die Kontinuitätsgleichung eine wichtige Rolle. Sie drückt dieTatsache aus, dass Masse in einem Fluss konserviert wird, d. h., Flüssig-keitsteilchen können in einer Strömung nicht verschwinden. Die Frageist nun, ob man eine ähnliche Kontinuitätsgleichung auch für Grauwerteformulieren kann und unter welchen Bedingungen Grauwerte erhaltenbleiben.

14.2 Grundlagen 425

In der Hydrodynamik ergibt sich die Kontinuitätsgleichung für dieDichte der Flüssigkeit zu

∂∂t+∇(u) = ∂

∂t+ uT∇+ ∇u = 0. (14.7)

Diese Gleichung, die für zwei- und dreidimensionale Strömungen gilt, be-schreibt die Massenerhaltung in einer Flüssigkeit in differenzieller Form.Die zeitliche Veränderung der Dichte wird durch die Divergenz der Fluss-dichte u ausgeglichen. Indem wir die Kontinuitätsgleichung über einbeliebiges Volumenelement integrieren, können wir die Gleichung auchin Integralform schreiben:∫

V

(∂∂t+∇(u)

)dV = ∂

∂t

∫V

dV +∮A

uda = 0. (14.8)

Das zweite Volumenintegral wurde unter Verwendung des Gaußschen In-tegraltheorems durch ein Oberflächenintegral um das Volumen ersetzt.da ist ein zum Oberflächenelement dA normaler Vektor. Die Integral-form der Kontinuitätsgleichung besagt, dass die zeitliche Veränderungder Masse durch einen Nettofluss in das Volumen, integriert über diegesamte Oberfläche des Volumens, verursacht wird.

Wie können wir nun für den optischen Fluss f eine ähnliche Konti-nuitätsgleichung, die brightness change constraint equation (BCCE ) oderoptical flow constraint (OFC), ableiten? Die zur Dichte analoge Größeist die Bestrahlungsstärke E oder der Grauwert g. Allerdings sollten wirvorsichtig sein und die Terme in (14.7) näher betrachten. Der linke Termf T∇g beschreibt die zeitliche Veränderung der Helligkeit durch einensich bewegenden Grauwertgradienten.

Der zweite Term mit der Divergenz des Geschwindigkeitsfeldes g∇ferscheint jedoch fraglich. Er würde eine zeitliche Veränderung selbst ineiner Region mit einer konstanten Bestrahlungsstärke bewirken, wenndie Divergenz des Strömungsfeldes ungleich null ist. Solch ein Fall liegtbeispielsweise vor, wenn sich ein Objekt von der Kamera wegbewegt. DieBestrahlungsstärke in der Bildebene bleibt jedoch konstant, wenn sichdie Objektbeleuchtung nicht ändert. Die gesamte eingefangene Strah-lung nimmt zwar mit dem Quadrat der Entfernung des Objektes ab. Daaber die projizierte Fläche des Objekts auf der Bildebene im selben Ver-hältnis abnimmt, ändert sich die Bestrahlungsstärke nicht.

Wir lassen daher den letzten Teil der Kontinuitätsgleichung für denoptischen Fluss weg und erhalten

∂g∂t+ f T∇g = 0. (14.9)

Im eindimensionalen Fall nimmt die Kontinuität des optischen Flus-ses die folgende einfache Form an:

426 14 Bewegung

g

x

t

t+ t∆

∆g

∆ = ∆x u t

Abbildung 14.10: Veranschaulichung der differenziellen Methode zur Bestim-mung der Bewegung im eindimensionalen Fall.

∂g∂t+ f ∂g

∂x= 0, (14.10)

von der aus wir unter der Voraussetzung, dass die räumliche Ableitungnicht verschwindet, direkt die eindimensionale Geschwindigkeit errech-nen können:

f = −∂g∂t

/∂g∂x

. (14.11)

Die Geschwindigkeit ist damit das Verhältnis der zeitlichen zur räum-lichen Ableitung. Diese grundlegende Beziehung kann, wie Abb. 14.10zeigt, auch geometrisch abgeleitet werden. Im Zeitintervall ∆t wird einGrauwert um die Strecke ∆x = u∆t verschoben. Dabei ändert sich derGrauwert um g(x, t + ∆t) − g(x, t). Die Grauwertänderungen könnenauch durch die Steigung der Grauwertkante ausgedrückt werden:

g(x, t +∆t)− g(x, t) = −∂g(x, t)∂x

∆x = −∂g(x, t)∂x

u∆t. (14.12)

Hieraus erhalten wir durch den Grenzübergang ∆t → 0 die Kontinuitäts-gleichung für den optischen Fluss (14.10).

Die Kontinuitätsgleichung des optischen Flusses (14.9) kann nach denÜberlegungen im einleitenden Abschnitt über Bewegung und Grauwert-veränderungen (Abschn. 14.2.1) nur eine erste Näherung sein. Der Grundliegt in der Natur der Reflexion undurchsichtiger Oberflächen, die vonder Blickrichtung, der Oberflächennormalen und den Richtungen deseinfallenden Lichtes abhängt. Jedes Objekt empfängt Strahlung nichtnur direkt von Lichtquellen, sondern auch von allen anderen Objektender Szene, die von dem Objekt aus gesehen werden können.

Die von der Oberfläche eines Objekts ausgehende Strahlungsfluss-dichte hängt also von der Position aller anderen Objekte in einer Szeneab. Im Bemühen um fotorealistische computergenerierte Bilder werden

14.2 Grundlagen 427

solche Probleme im Detail in der Computergrafik studiert. Ein großerSchritt hin zu diesem Ziel war eine als Radiosität bezeichnete Metho-de, die genau die oben beschriebenen Beziehungen der Strahlungsfluss-dichte von Objekten löst [60]. Ein allgemeiner Ausdruck für die Objekt-Strahlungsflussdichte — die mittlerweile berühmte Rendering-Gleichung— geht auf die Arbeiten von Kajiya [113] zurück. In der Bildsequenzver-arbeitung ist es im Prinzip erforderlich, diese Gleichung umzukehrenund dadurch die Oberflächenreflektivität aus der gemessenen Objekt-Strahlungsflussdichte zu bestimmen. Die Oberflächenreflektivität isteine von der Oberflächenorientierung und der Position anderer Objek-te unabhängige Eigenschaft und damit ideal für die Bewegungsanaly-se. Solch ein Ansatz ist jedoch unrealistisch, da er eine Rekonstruk-tion der dreidimensionalen Szene erfordert, bevor die Umkehrung derRendering-Gleichung überhaupt in Angriff genommen werden kann.

Da es keine allgemein gültige Kontinuitätsgleichung für den opti-schen Fluss gibt, ist es wichtig, dass wir mögliche zusätzliche Termemit denjenigen in der Standardkontinuitätsgleichung vergleichen. Al-le anderen Terme hängen im Wesentlichen von der Geschwindigkeit derVeränderungen einer Anzahl von Größen ab, jedoch nicht von den Hellig-keitsgradienten. Ist der Grauwertgradient groß, wird der Einfluss zusätz-licher Terme klein. Daraus können wir schließen, dass die Bestimmungder Geschwindigkeit für steile Grauwertkanten am zuverlässigsten ist,während sie in Regionen mit nur kleinen Grauwertgradienten stark ge-stört sein kann. Diese Schlussfolgerung stimmt mit den Befunden vonVerri und Poggio [230, 231] überein, die den Unterschied zwischen demoptischen Fluss und dem Bewegungsfeld betonen.

Noch eine weitere Beobachtung ist von Bedeutung. Es ist sicher rich-tig, dass der historische Ansatz zur Bestimmung des Verschiebungsvek-tors aus nur zwei aufeinander folgenden Bildern nicht robust ist. Im All-gemeinen können wir nicht unterscheiden, ob Grauwertveränderungenvon einem Verschiebungsvektor herrühren oder aus beliebigen anderenQuellen. In Orts/Zeit-Bildern wird die Bestimmung des optischen Flussesjedoch robuster. Wir werden dies an zwei Beispielen untersuchen.

Zunächst zeigen wir, dass durch globale Beleuchtungsunterschiedeverursachte Grauwertänderungen von solchen, die durch Bewegung er-zeugt wurden, unterschieden werden können. Abbildung 14.11 zeigteine Bildsequenz einer statischen Szene, die mit einer Geschwindigkeitvon fünf Bildern pro Minute aufgenommen wurde. Die zwei Orts/Zeit-Scheiben (Abb. 14.11a und c), deren Ort im ersten Bild der Sequenz(Abb. 14.11b) mit zwei weißen Linien bezeichnet ist, überspannen einePeriode von etwa 3,4 h. Die obere Linie verläuft durch das Hochhaus undden Himmel. Wir erkennen am Bereich des Himmels, dass sich Bewöl-kung und Abschnitte mit direkter Sonnenstrahlung abgewechselt haben.Die untere Linie durchquert mehrere Dächer mit Dachfenstern sowie eineGiebelwand. In beiden xt-Ausschnitten sieht man die Beleuchtungsän-

428 14 Bewegung

a

b

c

Abbildung 14.11: Statische Szene mit Beleuchtungsänderungen. a xt-Quer-schnitt im Bereich der oberen hellen Linie (Himmel in b); b erstes Bild der Se-quenz; c xt-Querschnitt im Bereich der unteren hellen Linie (Dachbereich in b).Die Zeitachse überspannt 3,4 h und läuft von oben nach unten (aus Jähne [98]).

derungen als horizontale Streifen, welche die vertikalen Streifen, die einestatische Szene kennzeichnen, transparent zu überlagern scheinen. Daein horizontales Muster ein sich mit unendlicher Geschwindigkeit be-wegendes Objekt bedeutet, können diese Muster z. B. durch gerichteteFilterung eliminiert werden, ohne dass dies die Bewegungsanalyse stört.

14.2 Grundlagen 429

a

b

Abbildung 14.12: Verkehrsszene an der Stadtgrenze von Hanau: a letztes Bildder Sequenz; bxt-Querschnitt im Bereich der in a markierten Linie. Die Zeitachseüberspannt 20,5 s und läuft von oben nach unten (aus Jähne [98]).

Das zweite Beispiel zeigt, dass die Bewegungsbestimmung in Orts/-Zeit-Bildern noch möglich ist, wenn Überlagerungen auftreten und dielokale Beleuchtung eines Objektes sich ändert, weil es sich dreht. InAbb. 14.12 ist eine Verkehrsszene am Stadtrand von Hanau zu sehen.Auf dem letzten Bild der Sequenz (Abb. 14.12a) erkennt man, dass ei-ne Straßenkreuzung durch die Zweige eines Baumes, der sich rechts imVordergrund befindet, beobachtet wurde. Eine Straße verläuft horizon-tal von links nach rechts, mit der durch eine Ampel geregelten Kreu-

430 14 Bewegung

zung zur Linken. Die Raum/Zeit-Scheibe (Abb. 14.12b) entstammt derBildsequenz im Bereich der horizontalen Linie in Abb. 14.12a. Sie zeigtverschiedene Überlagerungen: Die Autospuren verschwinden unter demstatischen vertikalen Muster der Baumzweige, Laternenpfähle und Am-peln. Zusätzlich sehen wir, dass die Zeitspur des LKWs deutliche Grau-wertveränderungen aufweist, da er an der Kreuzung abbog und sich des-halb die Beleuchtungsbedingungen veränderten, während er sich durchdie Szene bewegte. Trotzdem ist die zeitliche Spur kontinuierlich undverspricht eine zuverlässige Geschwindigkeitsschätzung.

Wir können den Schluss ziehen, dass wir am besten bei der Stan-dardkontinuitätsgleichung für die Bewegungsschätzung bleiben und sieals Grundlage für die in diesem Abschnitt entwickelten Methoden ver-wenden. Wegen der enormen Vielfalt zusätzlicher Terme scheint dieserAnsatz immer noch der sinnvollste und am breitesten anwendbare zusein, da er die fundamentale Kontinuitätsbedingung enthält.

14.3 Differenzielle Methoden erster Ordnung

14.3.1 Grundlagen

Differenzielle Methoden sind der klassische Ansatz für die Bestimmungvon Bewegung aus zwei aufeinander folgenden Bildern. In diesem Ka-pitel diskutieren wir die Frage, wie diese Techniken auf Orts/Zeit-Bilderangewandt werden können. Die Kontinuitätsgleichung für den optischenFluss (14.9) bildet hierzu den Ausgangspunkt:

∂g∂t+ f T∇g = 0. (14.13)

Diese einzelne skalare Gleichung enthält W unbekannte Vektorkompo-nenten im W -dimensionalen Raum. Wir können deshalb schon im zwei-dimensionalen Raum den optischen Fluss f = [f1, f2]T nicht eindeutigbestimmen. Das Skalarprodukt f T∇g ist gleich dem Betrag des Grau-wertgradienten, multipliziert mit der Komponente von f , die in Richtungdes Gradienten, d. h.senkrecht zur lokalen Grauwertkante, verläuft:

f T∇g = f⊥|∇g|.Vom optischen Fluss kann also nur die Komponente senkrecht zur Kan-te bestimmt werden. Dies wird als das Blendenproblem bezeichnet, wel-ches wir bereits qualitativ in Abschn. 14.2.2 besprochen haben. Aus derKontinuitätsgleichung (14.9) erhalten wir

f⊥ = −∂g∂t/|∇g| . (14.14)

Dementsprechend ist es nicht möglich, den kompletten Vektor über Ab-leitungen erster Ordnung an einem einzelnen Punkt im Orts/Zeit-Bild zubestimmen.

14.3 Differenzielle Methoden erster Ordnung 431

14.3.2 Methode der kleinsten Quadrate

Anstelle eines einzigen Punktes können wir eine Nachbarschaft benut-zen, um den optischen Fluss zu bestimmen. Wir nehmen dazu an, dassder optische Fluss in der Nachbarschaft konstant ist und diskutieren,unter welchen Bedingungen eine eindeutige Bestimmung des optischenFlusses möglich ist. Nun haben wir immer noch die beiden Unbekanntenf = [f1, f2]T aber an vielen Punkten die Kontinuitätsgleichung (14.13)für den optischen Fluss. Daher erhalten wir ein überbestimmtes Glei-chungssystem. Es gibt also keine exakte Lösung, sondern nur eine, dieein Fehlerfunktional minimiert. Unter Verwendung der Methode derkleinsten Quadrate suchen wir eine Lösung, die (14.13) innerhalb einerlokalen Nachbarschaft minimiert. Daher ist das Faltungsintegral

‖e‖22 =

∞∫−∞w(x − x′, t − t′)

(f1gx(x′)+ f2gy(x′)+ gt(x′)

)2d2x′dt′

(14.15)zu minimieren. Man beachte, dass f = [f1, f2]

T innerhalb der Nachbar-schaft als konstant betrachtet wird. Es hängt natürlich wie ‖e‖ von xab. Um eine kompakte Schreibweise zu erhalten, lassen wir die expliziteAbhängigkeit von gx , gy und gt mit x′ in den folgenden Gleichungenweg. Als Abkürzung für die partielle Ableitung ∂g/∂p benutzen wir gp.In dem Integral wird das Quadrat der verbliebenen Abweichung von derKontinuitätsgleichung über die Region gemittelt, die von der Fenster-funktion w abhängt. Um die folgenden Gleichungen weiter zu vereinfa-chen, kürzen wir diese gewichtete Mittelungsprozedur ab mit

‖e‖22 =

(f1gx + f2gy + gt

)2 → Minimum. (14.16)

Die Fensterfunktion w bestimmt die Größe der Nachbarschaft. Dasmacht diese Methode so flexibel. Die Mittelung kann, muss aber nicht,auch in die Zeitrichtung ausgedehnt werden. Wenn wir eine rechteckigeUmgebung wählen mit gleichem Wichtungsfaktor für alle Punkte, so ent-spricht dies einer einfachen Blockvergleichs-Technik und einer Mittelungmit einem Rechteckfilter . Da wir jedoch die schlechten Glättungseigen-schaften der Rechteckfilter in (Abschn. 11.3) kennen gelernt haben, isteine Wichtungsfunktion, die langsam zum Rand hin abfällt, eine bessereLösung. Im kontinuierlichen Fall ist eine Gaußfunktion eine gute Wahl,für diskrete Signale ist ein Binomialfilter sinnvoll (Abschn. 11.4).

432 14 Bewegung

Gleichung (14.16) kann gelöst werden, indem wir die partiellen Ab-leitungen

∂ ‖e‖22

∂f1= 2gx

(f1gx + f2gy + gt

)!= 0,

∂ ‖e‖22

∂f2= 2gy

(f1gx + f2gy + gt

)!= 0

(14.17)

null setzen. Aus diesen Bedingungen folgt ein lineares Gleichungssystem

⎡⎣ gxgx gxgy

gxgy gygy

⎤⎦[

f1

f2

]= −

⎡⎣ gxgt

gygt

⎤⎦ , (14.18)

oder in kompakter Matrixschreibweise

Mf = d. (14.19)

Die Ausdrückegpgq stellen eine regularisierte Schätzung dar, die sichaus Faltungen und nichtlinearen Punktoperationen zusammensetzt. InOperatornotation können wir sie durch

B(Dp ·Dq), (14.20)

wobeiDp ein geeigneter Ableitungsoperator erster Ordnung in die Rich-tung p ist (Kapitel 12) und B ein Glättungsfilter (Kapitel 11).

Es ergibt sich die folgende Sequenz von Bildverarbeitungsoperatoren:

1. Anwendung der Ableitungsoperatoren Dp und Dq auf das Bild. Manerhält je ein Bild mit einer Ableitung erster Ordnung in Richtung pbzw. q.

2. Punktweise Multiplikation der zwei Ableitungsbilder.

3. Faltung des resultierenden Bildes mit der Glättungsmaske B. DieWahl der Glättungsmaske bestimmt Größe und Form der Fenster-funktion in (14.20).

Da die punktweise Multiplikation eine nichtlineare Operation ist, darf siein der Reihenfolge nicht mit der Glättung vertauscht werden.

Das lineare Gleichungssystem (14.18) kann gelöst werden, wenn dieMatrix invertierbar ist. Das ist dann der Fall, wenn die Determinante derMatrix nicht null ist:

detM = gxgx gygy − gxgy2 ≠ 0. (14.21)

Aus dieser Ungleichung können wir schließen, dass zwei Bedingungenerfüllt sein müssen:

1. Nicht alle partiellen Ableitungen gx und gy dürfen null sein. In an-deren Worten, die Nachbarschaft darf keine Fläche mit konstantenGrauwerten sein.

14.3 Differenzielle Methoden erster Ordnung 433

2. Die Gradienten in der Nachbarschaft dürfen nicht alle in die gleicheRichtung zeigen. Wäre das der Fall, könnten wir gy durch gx bis aufeinen konstanten Faktor ausdrücken (gy = cgx) und die Determinan-te von M in (14.21) wäre null.

Die Lösung für den optischen Fluss f kann direkt hingeschriebenwerden, da es leicht ist, die 2× 2-Matrix M zu invertieren:

M−1 = 1detM

[gygy −gxgy−gxgy gxgx

]wenn detM ≠ 0. (14.22)

Mit f =M−1d erhalten wir dann[f1

f2

]= − 1

detM

[gxgt gygy − gygt gxgygygt gxgx − gxgt gxgy

]. (14.23)

Die Lösung sieht immer noch recht kompliziert aus. Sie kann durch dieTatsache, dass M eine symmetrische Matrix ist, erheblich vereinfachtwerden. Jede symmetrische Matrix kann in Diagonalform gebracht wer-den durch eine Rotation des Koordinatensystems in das so genannteHauptachsensystem. Dann reduziert sich die Matrix M zu

M′ =⎡⎣ gx′gx′ 0

0 gy′gy′

⎤⎦ , (14.24)

die Determinate zu detM′ = gx′gx′ gy′gy′ , und der optische Fluss ergibtsich zu

[f1′

f2′

]= −

⎡⎢⎢⎢⎢⎣

gx′gtgx′gx′

gy′gtgy′gy′

⎤⎥⎥⎥⎥⎦ . (14.25)

Diese Gleichung reflektiert quantitativ die qualitative Diskussion überdas Blendenproblem, das wir in Abschn. 14.2.2 diskutiert haben. DieHauptachsen sind entlang der Richtungen minimaler und maximaler qua-dratischer Mittelwerte der räumlichen Grauwertänderungen orientiert,die senkrecht aufeinander stehen. Da die Matrix M′ diagonal ist, sindbeide Werte nicht miteinander korreliert. Nun können wir drei Fälle un-terscheiden:

1. gx′gx′ > 0, gy′gy′ > 0: Die Grauwerte ändern sich in alle Richtungen;beide Komponenten des optischen Flusses können bestimmt werden.

2. gx′gx′ > 0, gy′gy′ = 0: Die Grauwerte ändern sich nur in eine Rich-tung (senkrecht zu einer Kante). Dann kann nur die Komponentedes optischen Flusses in x′-Richtung bestimmt werden (Blendenpro-blem). Die Komponente des optischen Flusses parallel zur Kantebleibt unbestimmt.

434 14 Bewegung

3. gx′gx′ = gy′gy′ = 0: Die Grauwerte ändern sich in keine Richtung.In diesem Fall liegt eine Region mit konstanten Grauwerten vor undbeide Komponenten des optischen Flusses bleiben unbestimmt.

Es ist zu beachten, dass allein die Matrix M die Lösung der Methodeder kleinsten Quadrate bestimmt. Diese Matrix beinhaltet keine zeitli-chen Ableitungen, sondern nur räumliche. Das bedeutet, dass die räum-lichen Ableitungen und damit die räumlichen Strukturen des Bildes voll-ständig darüber bestimmen, ob und wie exakt der optische Fluss berech-net werden kann.

14.3.3 Fehleranalyse

Durch Rauschen kann die Bestimmung des optischen Flusses systema-tisch verfälscht werden. Hier zeigen wir, wie wir den Einfluss von Rau-schen in einer sehr allgemeinen Art und Weise analysieren können. Wirnehmen an, dass eine Bildsequenz aus einer sich mit einer konstantenGeschwindigkeit u bewegenden Struktur besteht, überlagert mit mittel-wertfreiem, isotropem Rauschen:

g′(x, t) = g(x − ut)+n(x, t). (14.26)

Dies ist ein sehr allgemeiner Ansatz, da wir keinerlei Annahme über dieForm der Grauwertstruktur machen. Der Ausdruck g(x−ut) besagt nur,dass eine beliebige räumliche Grauwertstruktur sich mit einer konstan-ten Geschwindigkeit u bewegt. Auf diese Weise haben wir eine allgemei-ne Funktion g(x1, x2, t) mit drei Parametern auf eine Funktion mit nurzwei Parametern reduziert: g(x1−u1t, x2−u2t). Wir nehmen weiterhinan, dass die partiellen Ableitungen der Rauschfunktion nicht miteinan-der und mit den partiellen Ableitungen der Bildfunktion korreliert sind.Daher benutzen wir die Bedingungen

n = 0, npnq = σ 2nδp−q, gpnq = 0, (14.27)

und die partiellen Ableitung sind

∇g′ =∇g +∇n g′t = −u∇g + ∂tnt. (14.28)

Diese Bedingungen ergeben folgenden Wert für den optischen Fluss:

f = u(∇g∇gT +∇n∇nT)−1∇g∇gT . (14.29)

Der Schlüssel zum Verständnis dieser Matrixgleichung liegt in der Beob-achtung, dass die Rauschmatrix ∇n∇nT in jedem Koordinatensystemdiagonal ist wegen der aus (14.27) gegebenen Bedingungen. Daher kön-nen wir die Gleichung in das Hauptachsensystem transformieren, in dem∇g∇gT eine Diagonalmatrix ist. Dann erhalten wir

f = u[gx′2 + σ 2

n 0

0 gy′2 + σ 2n

]−1 [gx′2 0

0 gy′2

].

14.4 Tensormethode 435

Solange das Rauschen nicht null ist, existiert die Inverse der ersten Ma-trix immer und wir erhalten

f = u

⎡⎢⎢⎢⎢⎣

gx′2

gx′2 + σ 2n

0

0gy′2

gy′2 + σ 2n

⎤⎥⎥⎥⎥⎦ . (14.30)

Diese Gleichung zeigt, dass die Bestimmung des optischen Flusses zukleineren Werten hin verfälscht ist. Wenn die Varianz des Rauschens sogroß ist wie das Betragsquadrat des Gradienten, dann sind die geschätz-ten Werte nur halb so groß wie die wahren Werte. Dieses Verhalten machtdie differenzielle Methode zu einem nicht robusten Verfahren, da sie beihohem Rauschen falsche Werte liefert.

Wenn das Rauschen vernachlässigbar ist, dann wird der optischeFluss korrekt geschätzt. Dieses Ergebnis steht im Widerspruch zu derweitverbreiteten Feststellung, dass differenzielle Methoden keine genau-en Ergebnisse liefern, falls der Grauwertverlauf nicht gut durch eineTaylorreihen-Entwicklung erster Ordnung approximiert werden kann (sie-he z. B. [210]). Kearney et al. [119] führt z. B. eine Fehleranalyse desGradientenverfahrens durch und kommt zu dem Schluss, dass es fehler-hafte Werte liefert, sobald räumliche Ableitungen zweiter Ordnung nichtvernachlässigt werden können.

Diese widersprüchlichen Aussagen klären sich auf, wenn wir die zu-sätzlichen Fehler betrachten, die durch eine inadäquate Diskretisierungder partiellen Ableitungen verursacht werden (siehe dazu die Diskussionüber optimale Ableitungsfilter in Abschn. 12.4). Der Fehler des optischenFlusses hängt direkt mit den Fehlern in der Richtung des diskreten Gra-dienten zusammen (vergleiche dazu auch die Diskussion über die Ori-entierungsanalyse in Abschn. 13.3.6). Daher sind sorgfältig optimierteregularisierte Gradientenoperatoren, wie wir sie in Abschn. 12.7.5 dis-kutiert haben, unerlässlich für die genaue Bestimmung des optischenFlusses.

14.4 Tensormethode

Die Tensormethode für die Analyse der lokalen Orientierung wurde be-reits in Abschn. 13.3 im Detail besprochen. Da sich Bewegung in 3D-Orts/Zeit-Bildern als Orientierung darstellt, müssen wir lediglich die Ten-sormethode auf drei Dimensionen ausdehnen. Zunächst werden wir inAbschn. 14.4.1 noch einmal das für den Tensoransatz verwendete Opti-mierungskriterium betrachten, um diese Technik von der differenziellenMethode (Abschn. 14.3) zu unterscheiden.

436 14 Bewegung

14.4.1 Optimierungsstrategie

In Abschn. 13.3.1 haben wir festgestellt, dass die optimale Orientierungdadurch gegeben ist, dass sie minimale Abweichungen von der Richtungdes Gradienten aufweist. Wir haben dazu das quadrierte Skalarproduktzwischen dem Gradientenvektor und einem Einheitsvektor eingeführt,der die optimale Orientierung wiedergibt:

(∇gT n)2 = |∇g|2 cos2 (∠(∇g, n)) . (14.31)

Dieses Maß kann in Vektorräumen beliebiger Dimension benutzt werden.Daher nehmen wir für die Orientierung im Orts/Zeit-Raum des Orts/Zeit-Gradienten

∇xtg =[∂g∂x,∂g∂y,∂g∂t

]T=

[gx,gy, gt

]T(14.32)

und schreiben

(∇xtgT n)2 = |∇xtg|2 cos2 (∠(∇xtg, n)). (14.33)

Bei der 2D-Orientierungsanalyse haben wir den Ausdruck∫w(x − x′)

(∇g(x′)T n

)2dWx′ = (∇g n)2

(14.34)

maximiert, um die optimale Orientierung zu finden. Für die Analyse vonBewegung im Orts/Zeit-Raum sind wir nicht interessiert an der Rich-tung maximaler Grauwertänderungen, sondern an der minimaler Grau-wertänderung. Diese Orientierung geben wir mit dem Einheitsvektore3 = [e31, e32, e33]T an. Nach den Überlegungen in Abschn. 14.2.4 (14.2)ergibt sich der optische Fluss aus diesem 3D-Vektor als

f = 1e33

[e31

e32

]. (14.35)

Durch Analogieschluss zu (14.34) minimieren wir deshalb∫w(x − x′, t − t′)

(∇xtg(x′, t′)T e3

)2dWx′dt′ (14.36)

oder kompakter geschrieben

(∇xtgT e3)2 → Minimum. (14.37)

Die Fensterfunktionw wird auch in die Zeitrichtung erweitert und be-stimmt die Größe und die Form der Nachbarschaft um den Punkt [x, t]T ,über die die Orientierung gemittelt wird. Gleichung (14.37) muss mit


dem entsprechenden Ausdruck (14.16), der bei der differenziellen Me-thode minimiert wird, verglichen werden:

(f∇g + gt

)2. (14.38)

Man beachte den geringfügigen Unterschied in den Optimierungsstra-tegien zwischen (14.37) und (14.38). Beides sind Ansätze in dem Sinn,dass der optische Fluss so bestimmt wird, dass die Abweichungen vonder Kontinuitätsgleichung nach der Methode der kleinsten Quadrate mi-nimal werden. Es wird jedoch einmal der optische Fluss direkt bestimmtund einmal ein 3D-Einheitsvektor. Letzteres läuft auf eine Methode dertotalen kleinsten Quadrate hinaus (englisch total least squares) [94]. Die-se Methode ist der Problemstellung besser angepasst, da sie nicht nurdie zeitlichen Ableitungen als fehlerbehaftet betrachtet wie in (14.38),sondern alle Komponenten des Orts/Zeit-Gradienten.

In Analogie zur Diskussion in Abschn. 13.3.1 können wir schließen,dass die Bestimmung des optischen Flusses in Orts/Zeit-Bildern äquiva-lent ist zu dem Problem, den Eigenvektor e3 zu dem kleinsten Eigenwertλ3 des Strukturtensors

J =

⎡⎢⎢⎣gxgx gxgy gxgtgxgy gygy gygtgxgt gygt gtgt

⎤⎥⎥⎦ (14.39)

zu finden, wobei gpgq mit p,q ∈ x,y, t gegeben ist durch

gpgq(x, t) =∫w(x − x′, t − t′)gp(x′, t′)gq(x′, t′)d2x′dt′. (14.40)

An diesem Punkt können wir die Tensormethode mit der differenzi-ellen Technik erster Ordnung vergleichen. Während die Tensormethodeeine Eigenwertanalyse eines symmetrischen Tensors mit sechs regula-risierten Produkten aus räumlichen und zeitlichen partiellen Ableitun-gen durchführt, benutzt die differenzielle Methode nur fünf dieser Ter-me. Nicht benutzt wird der Term gtgt . Wir werden im nächsten Ab-schnitt sehen, dass dieser Zusatzterm es der Tensormethode erlaubt,direkt festzustellen, ob in einer konstanten Nachbarschaft überhaupt ei-ne konstante Geschwindigkeit vorliegt. Dies ist nicht möglich mit derdifferenziellen Methode.

14.4.2 Eigenwertanalyse

Leider ist die Eigenwertanalyse eines symmetrischen 3× 3-Tensors nichtso einfach wie bei einem symmetrischen 2× 2-Tensor. In zwei Dimen-sionen konnten wir das Eigenwertproblem direkt lösen. So haben wir in

438 14 Bewegung

Abschn. 13.3.3 die drei unabhängigen Komponenten des symmetrischen2× 2-Tensors in die drei Parameter Orientierung sowie Bestimmtheits-und Kohärenzmaß transformiert.

Der symmetrische 3× 3-Tensor enthält nun sechs unabhängige Kom-ponenten, und wir müssen eine korrespondierende Anzahl von Para-metern finden, die die lokale Struktur des Orts/Zeit-Bildes adäquat be-schreiben. Wieder ist es hilfreich, diese sechs Parameter in rotationsva-riante und -invariante Parameter zu zerlegen.

Wie bereits erwähnt, kann die Lösung des Eigenwertproblems nichteinfach angegeben werden, sondern benötigt ein geeignetes numerischesVerfahren. Wir werden dieses Problem nicht behandeln, da es zwar nichteinfach, jedoch ein Standardproblem der numerischen Mathematik ist,für das es eine Anzahl effizienter Lösungen gibt [69, 176]. Wir nehmenalso an, dass wir das Eigenwertproblem gelöst haben und dass ein Satzvon drei orthonormalen Eigenvektoren und drei Eigenwerte zur Verfü-gung stehen. Mit der Lösung des Eigenwertproblems haben wir im We-sentlichen ein Hauptachsen-Koordinatensystem, in welchem der Struk-turtensor diagonal liegt und welches die Eigenwerte als Diagonalelemen-te enthält:

J′ =⎡⎢⎣ λ1 0 0

0 λ2 00 0 λ3

⎤⎥⎦ . (14.41)

Ohne Beschränkung der Allgemeingültigkeit haben wir die Eigenwerteder Größe nach sortiert:

λ1 ≥ λ2 ≥ λ3 ≥ 0. (14.42)

Das Hauptachsen-Koordinatensystem wird von den drei Eigenvek-toren aufgespannt. Die Rotation in dieses Koordinatensystem erfor-dert drei unabhängige Parameter, wie in Abschn. 7.2.2 besprochen. Dreider sechs Parameter werden also zur Beschreibung der Orientierung imOrts/Zeit-Raum benutzt. Diese Information ist in den drei orthonorma-len Eigenvektoren enthalten.

Die übrigen Parameter sind die drei rotationsinvarianten Eigenwer-te. Wir werden nun zeigen, wie die unterschiedlichen Klassen lokalerStrukturen in Orts/Zeit-Bildern durch die drei Eigenwerte unterschiedenwerden können. Dieser Ansatz hilft uns auch zu einer effizienten Imple-mentierung der tensorbasierten Bewegungsanalyse.

Wir können vier Klassen von Nachbarschaften in einem Orts/Zeit-Bildunterscheiden. Sie entsprechen den Rängen 0 bis 3 des symmetrischenTensors:

Konstanter Grauwert. Alle Elemente und Eigenwerte des Tensors sindnull:

λ1 = λ2 = λ3 = 0. (14.43)


Der Rang des Tensors ist gleichfalls null. Daher ist ebenfalls die Ge-schwindigkeit null. Diese Bedingung ist leicht erkennbar. Die Summeder Eigenwerte muss unterhalb einer kritischen Grenze sein, die durchden Rauschpegel in der Bildsequenz bestimmt wird. Da die Summe derEigenwerte gleich der Spur des Tensors ist, brauchen wir keine Eigen-wertanalyse, um diese Bedingung zu prüfen:

Spur(J) =3∑p=1

gpgp < γ, (14.44)

wobei γ ein geeignetes Maß für den Rauschpegel der Bildsequenz ist.Bei allen Punkten, für welche die Bedingung (14.44) erfüllt ist, kann dieEigenwertanalyse entfallen.

Räumliche Orientierung und konstante Bewegung. In diesem Fallsind zwei Eigenwerte null, da die Grauwerte sich nur in einer Richtungändern:

λ1 > 0 und λ2 = λ3 = 0. (14.45)

Der Rang des Tensors ist eins. Die räumliche Grauwertstruktur zeigteine lineare Symmetrie. Auch diese Bedingung lässt sich leicht überprü-fen, ohne eine Eigenwertanalyse durchzuführen, da die Determinantedes oberen 2× 2-Teiltensors unter einer Schwelle γ2 sein muss:

gxgx gygy − gxgy2 < γ2. (14.46)

Der zu dem einzigen Eigenwert ungleich null gehörende Eigenvektor e1

zeigt in Richtung der maximalen Grauwertänderung. Er liefert sowohldie räumliche Orientierung als auch die Geschwindigkeit in dieser Rich-tung. Zu beachten ist, dass wegen des Blendenproblems nur die normaleGeschwindigkeit , d. h., die Geschwindigkeit in Richtung des räumlichenGradienten, errechnet werden kann (Abschn. 14.2.2). Die räumliche Ori-entierung wird durch die beiden Raumkoordinaten des Eigenvektors e1

gegeben. Da der normale optische Fluss in diese Richtung zeigt, ergibter sich aus

f⊥ = −e1t

e21x + e2

1y

[e1x

e1y

], (14.47)

und sein Betrag zu

|f⊥| =√√√√ e2

1t

e21x + e2

1y=

√√√√ e21t

1− e21t. (14.48)

Verteilte räumliche Strukturen und konstante Bewegung. In diesemFall ist nur ein Eigenwert null:

λ1, λ2 > 0 und λ3 = 0. (14.49)

440 14 Bewegung

Da die Bewegung konstant ist, bewegt sich das Hauptachsen-Koordina-tensystem mit der Szene. Der Eigenvektor e3 zum Eigenwert null zeigtin die Bewegungsrichtung. Damit ergibt sich der optische Fluss zu

f = 1e3t

[e3x

e3y

](14.50)

und sein Betrag zu

|f | =√√√√e2

3x + e23y

e23t

=√√√√1− e2

3t

e23t

. (14.51)

Verteilte räumliche Strukturen und nichtkonstante Bewegung. Hiersind alle drei Eigenwerte größer als null, und der Rang des Tensors istdrei:

λ1, λ2, λ3 > 0. (14.52)

In diesem Fall kann der optische Fluss nicht sinnvoll berechnet werden.Nach dieser detaillierten Klassifizierung wenden wir uns der Frage

zu, welche drei von der Geschwindigkeit und der räumlichen Orientie-rung der Grauwertparameter unabhängigen rotationsinvarianten Para-meter zur Beschreibung der Struktur aus dem Strukturtensor extrahiertwerden können.

Bestimmtheitsmaß. Der erste Parameter ist sicher wieder ein Bestimmt-heitsmaß, welches ein Maß für die Grauwertänderungen ist. Es bestehendie zwei Möglichkeiten, entweder das mittlere Quadrat des räumlichenGradienten (Spur des oberen 2× 2-Teiltensors) oder das mittlere Qua-drat des Orts/Zeit-Gradienten zu wählen. Aus praktischen Gründen istdas mittlere Quadrat des räumlichen Gradienten vorzuziehen, da derräumliche Gradient sich in einer Sequenz nicht verändert, wenn die Ge-schwindigkeit zunimmt. Das mittlere Quadrat des Orts/Zeit-Gradientendagegen wächst mit zunehmender Geschwindigkeit, da größere zeitlicheGradienten addiert werden. Daher ist überraschenderweise das mittlereQuadrat des Raumgradienten das bessere Bestimmtheitsmaß:

cc = gxgx + gygy. (14.53)

Räumliches Kohärenzmaß. Als zweites Maß verwenden wir die be-reits aus der Analyse lokaler Nachbarschaften bekannte Kohärenz (Ab-schn. 13.3.4) und bezeichnen es als räumliches Kohärenzmaß:

cs = (gxgx − gygy)2 + 4gxgy2

(gxgx + gygy)2 . (14.54)

Sein Wert liegt zwischen null und eins und gibt an, ob nur der normaleoptische Fluss oder beide Komponenten des optischen Flusses bestimmtwerden können.

14.5 Korrelationsmethode 441

Totales Kohärenzmaß. Schließlich benötigen wir ein zusätzliches Maß,das uns sagt, ob wir es mit einer lokalen Nachbarschaft mit konstanterGeschwindigkeit zu tun haben. Es sollte von der räumlichen Kohärenzunabhängig sein. Das folgende Maß, das den größten und den kleinstenEigenwert verwendet, erfüllt diese Bedingung:

ct =(λ1 − λ3

λ1 + λ3

)2

. (14.55)

Das totale Kohärenzmaß ist eins, sobald der Eigenwert λ3 null ist. Diebeiden übrigen Eigenwerte können dann jeden beliebigen anderen Wertannehmen. Die totale Kohärenz geht gegen null, wenn alle drei Eigen-werte gleich sind. Im Gegensatz zu den anderen beiden Maßen cc undcs erfordert die totale Kohärenz eine Eigenwertanalyse, da der kleinsteund der größte Eigenwert für die Berechnung notwendig sind.

Bei der Interpretation des Maßes ist folgender Sonderfall zu beachten:Das totale Kohärenzmaß ist auch eins bei einem räumlich orientiertenMuster und einer nicht konstanten Bewegung. Dieser Fall kann jedochaus der Tatsache erkannt werden, dass dann sowohl die räumliche alsauch die totale Kohärenz eins sind, aber nur ein Eigenwert null ist. Einweiteres einfaches Kriterium ist, dass der Eigenvektor des Eigenwertesnull dann in der xy-Ebene liegt. Daraus ergibt sich, dass e33 = 0, und wirerhalten nach (14.50) einen unendlichen Wert für den optischen Fluss-vektor.

14.5 Korrelationsmethode

14.5.1 Grundlagen

Wie die differenzielle Methode hat auch die Korrelationsmethode ihrenUrsprung in einer Analyse der Verschiebung zwischen zwei aufeinanderfolgenden Bildern. Um ein charakteristisches Merkmal aus dem erstenBild im zweiten zu finden, verwenden wir das erste Bild g(t1) = g1 undvergleichen es mit dem zweiten verschobenen Bild g(t2) = g2 innerhalbeines bestimmten Suchbereichs. In diesem Bereich suchen wir nach derPosition der optimalen Ähnlichkeit zwischen den beiden Bildern. Wannbetrachten wir zwei Merkmale als gleich? Das Ähnlichkeitsmaß sollteunempfindlich gegenüber Beleuchtungsänderungen sein. Wir betrach-ten also zwei räumliche Muster als gleich, wenn sie sich nur um einenkonstanten Faktor α unterscheiden, der die Beleuchtungsunterschiedewiedergibt. In der Sprache der Vektorräume bedeutet dies, dass die bei-den Merkmalsvektoren g1 und g2 parallel sind. Das ist genau dann der

442 14 Bewegung

Fall, wenn in der Cauchy-Schwarz-Ungleichung Gleichheit auftritt:

∣∣∣∣∣∣∞∫−∞g1(x)g2(x − s)d2x

∣∣∣∣∣∣2

≤∞∫−∞g2

1(x)d2x

∞∫−∞g2

2(x − s)d2x. (14.56)

Anders ausgedrückt, wir müssen den Kreuzkorrelationskoeffizienten ma-ximieren:

r(s) =

∞∫−∞g1(x)g2(x − s)d2x

⎛⎝ ∞∫−∞g2

1(x)d2x∞∫−∞g2

2(x − s)d2x

⎞⎠

1/2 . (14.57)

Der Kreuzkorrelationskoeffizient ist ein nützliches Ähnlichkeitsmaß. Erist null bei völlig ungleichen (orthogonalen) Mustern und erreicht einenMaximalwert von eins bei gleichen Merkmalen.

Ähnlich wie bei der differenziellen Methode (Abschn. 14.3) kann dieKorrelationsmethode als Kombination von Faltungs- und Punktopera-tionen durchgeführt werden. Der erste Schritt ist wieder die Einführungeiner Fensterfunktionw in die Definition des Kreuzkorrelationskoeffizi-enten. Dieses Fenster wird über das Bild bewegt, um den lokalen Kreuz-korrelationskoeffizienten zu berechnen. Gleichung (14.57) wird dann zu

r(x, s) =

∞∫−∞w(x − x′)g1(x′)g2(x′ − s)d2x′

⎛⎝ ∞∫−∞w(x − x′)g2

1(x′)d2x′∞∫−∞w(x − x′)g2

2(x′ − s)d2x′⎞⎠

1/2 . (14.58)

oder in der kompakteren Schreibweise, die wir schon in Abschn. 14.3.2und 14.4.1 benutzt haben:

r(x, s) = g1(x)g2(x − s)[g2

1(x)g22(x − s)

]1/2 → Maximum. (14.59)

Der resultierende Kreuzkorrelationskoeffizient ist eine vierdimensio-nale Funktion, die von der Position im Bild x und der Verschiebung sabhängt.

14.5.2 Schnelle iterative Maximumsuche

Die Korrelationsmethode ist in der bislang vorgestellten Form eine sehrrechenaufwendige Operation. Wir können sie beträchtlich beschleuni-gen, wenn wir die Berechnung auf einen schnellen Ansatz zur Suche

14.5 Korrelationsmethode 443

nach der Position des Maximums von r beschränken, da dies alles ist,was uns interessiert.

Eine Möglichkeit zur direkten Berechnung der Position des Maximumsist die Näherung der Kreuzkorrelationsfunktion durch eine Taylorreihe.Wir entwickeln also den Kreuzkorrelationskoeffizienten an der Positiondes Maximums s in eine Taylorreihe zweiter Ordnung:

r(s) ≈ r(s)+ 12rxx(s)(s1 − s1)2 + 1

2ryy(s)(s2 − s2)2+rxy(s)(s1 − s1)(s2 − s2)

= r(s)+ 12(s − s)TH(s)(s − s),

(14.60)

wobei H die in (12.6) definierte Hesse-Matrix ist. Wir wissen die Positi-on des maximalen Korrelationskoeffizienten nicht. Daher nehmen wiran, dass die Ableitungen zweiter Ordnung in der Nähe des Maximumskonstant sind und berechnen das Maximum aus der Position der vor-angegangenen Iteration s(i). Falls wir keine andere Information haben,setzen wir unsere initiale Schätzung auf null: s(0) = 0. Solange wir nochnicht die Position des maximalen Korrelationskoeffizienten gefunden ha-ben, wird die erste Ableitung bei s(i) noch nicht verschwinden und kannaus (14.60) berechnet werden:

∇r(s(i)) = H(s(i))(s(i) − s). (14.61)

Unter der Annahme, dass die Hesse-Matrix invertierbar ist, erhalten wirdaraus folgende Iteration:

s(i+1) = s(i) −H−1(s(i))∇r(s(i)) mit s(0) = 0. (14.62)

Diese Art der Iteration ist als Newton-Raphson-Iteration bekannt [176].Um die Verschiebung zu berechnen, müssen wir also nur die ersten undzweiten Ableitungen des Kreuzkorrelationskoeffizienten berechnen.

14.5.3 Bewertung und Vergleich

Im Gegensatz zu den differenziellen Methoden, die auf der Kontinuitätdes optischen Flusses basieren, erlaubt der Korrelationsansatz Verände-rungen der Lichtintensität zwischen den beiden Bildern insofern, dassdie Beleuchtung innerhalb eines gewählten Fensters global unterschied-lich sein kann. Dadurch sind Techniken, die auf der Korrelationsme-thode basieren, sehr hilfreich für einen Sonderfall der Bewegungsana-lyse, nämlich die Verarbeitung von Stereobildern, bei denen zwischendem linken und dem rechten Bild wegen der zwei unterschiedlichen ver-wendeten Kameras immer geringe Intensitätsvariationen auftreten. Tat-sächlich ist die im vorigen Abschnitt beschriebene schnelle Suche nachMaxima der Standardansatz zur Bestimmung der Disparität von Stereo-bildern. Quam [178] verwendet diese Methode zusammen mit einer

444 14 Bewegung

Grob-zu-fein-Strategie und Nishihara [164] in einer modifizierten Ver-sion mit dem Vorzeichen des Laplacian-of-Gaussian-Filters als Merkmal.Nishihara berichtet eine Genauigkeit von etwa 0,1 Bildpunkten für kleineVerschiebungen. Gelles et al. [66] können mit der KorrelationsmethodeBewegungen in Zellen mit einer Präzision von etwa 0,02 Bildpunkten be-stimmen. Allerdings benutzen sie einen aufwendigeren Ansatz durchBerechnung des Zentroids der Kreuzkorrelationsfunktion. Der modella-daptierte Ansatz von Diehl und Burkhardt [43] kann als erweiterte Kor-relationsmethode angesehen werden, da er auch Rotation und andereBewegungsformen zulässt. Aufgrund der nichtlinearen Parameter istein iterativer Ansatz erforderlich.

Die Korrelationsmethode unterscheidet sich von allen anderen in die-sem Buch diskutierten Methoden zur Bewegungsbestimmung, weil ihrKonzept auf dem Vergleich von nur zwei Bildern basiert. Selbst wenn wirdie Korrelationsmethode durch mehrere Korrelationen auf mehr als zweiBilder ausdehnen, bleibt sie ein Ansatz mit einem diskreten Zeitschritt,dem die Eleganz der anderen Methoden fehlt, die im kontinuierlichenRaum formuliert werden können. Ein weiterer Nachteil der Korrelati-onsmethode ist der hohe Rechenaufwand.

14.6 Phasenmethode

14.6.1 Grundlagen

Mit Ausnahme der rechenaufwendigen Korrelationsmethode reagieren alle an-deren Methoden, die den optischen Fluss berechnen, mehr oder weniger emp-findlich auf zeitliche Änderungen der Beleuchtung. Es stellt sich damit die Fra-ge, ob wir statt des Grauwerts selbst ein anderes Merkmal benutzen können,das unempfindlicher gegenüber Beleuchtungsänderungen ist, aber immer nochdie wesentliche Bildinformation enthält. Fleet und Jepson [58] und Fleet [55]schlagen vor, die Phase für die Berechnung des optischen Flusses zu verwen-den. Wir haben die kritische Rolle der Phase bereits in Abschn. 2.3.5 und 13.4.1besprochen. In Abschn. 2.3.5 wurde gezeigt, dass die Phase der Fouriertransfor-mierten eines Signals die entscheidende Information trägt. Ein Bild ist immernoch zu erkennen, wenn die Amplitudeninformation verloren ist, nicht jedoch,wenn die Phase fehlt [138]. In unserem Zusammenhang ist nun wichtig, dass dieglobale Beleuchtung nur die Amplitude eines Signals beeinflusst, nicht jedochseine Phase.Als Einführung in die Phasenmethode betrachten wir eine ebene 1D-Welle mitder Wellenzahl k und der Frequenz ν , die sich mit einer Phasengeschwindigkeitvon u = ν/k vorwärts bewegt:

g(x, t) = g0 exp[−2π i(φ(x, t))] = g0 exp[−2π i(kx − νt)]. (14.63)

Die Position und damit auch die Verschiebung wird durch die Phase bestimmt.Die Phase hängt sowohl von der räumlichen als auch der zeitlichen Koordinateab. Bei einer ebenen Welle variiert die Phase linear in Zeit und Raum:

φ(x, t) = 2π(kx − νt) = 2π(kx −ukt), (14.64)

14.6 Phasenmethode 445

wobei k die Wellenzahl ist und ν die Frequenz der Welle. Die Berechnungder zeitlichen und räumlichen Ableitungen der Phase, d. h. des Gradienten imOrts/Zeit-Raum, liefert sowohl die Wellenzahl als auch die Frequenz der sichbewegenden periodischen Strukturen:

∇xtφ =[φxφt

]= 2π

[k

−ν]. (14.65)

Die Geschwindigkeit ergibt sich dann als das Verhältnis der Frequenz zur Wel-lenzahl:

u = νk= −∂tφ

/∂xφ . (14.66)

Diese Formel ist der auf dem optischen Fluss basierenden Schätzung (14.11)sehr ähnlich. In beiden Fällen ist die Geschwindigkeit als Verhältnis der zeitli-chen und räumlichen Ableitungen ausgedrückt.

Die direkte Berechnung der partiellen Ableitungen aus dem Phasensignal ist we-gen der dem Phasensignal eigenen Diskontinuität nicht ratsam (Beschränkungauf das Hauptintervall [−π,π[). Wie bereits in Abschn. 13.4.6 diskutiert, ist esmöglich, die Phasengradienten direkt aus dem Ergebnis eines Quadraturfilter-paars zu berechnen. Bezeichnen wir das Quadraturfilterpaar mit p(x, t) undq(x, t), ergibt sich der Orts/Zeit-Phasengradient aus (vgl. (13.52))

∇xtφ(x, t) = p(x, t)∇xtq(x, t)− q(x, t)∇xtp(x, t)p2(x, t)+ q2(x, t)

. (14.67)

Mit (14.66) ist der aus der Phase berechnete optische Fluss

f = − pqt − qptp qx − qpx . (14.68)

14.6.2 Bewertung und Vergleich

Zunächst scheint die Phasenmethode nichts Neues zu bieten. Der Ersatz desGrauwerts durch die Phase ist jedoch eine deutliche Verbesserung, weil die Pha-se viel weniger als der Grauwert selbst von der Beleuchtung abhängt. Verwen-den wir nur das Phasensignal, kann sich die Amplitude der Grauwertvariationenverändern, ohne dass Geschwindigkeitsschätzungen überhaupt beeinträchtigtwerden.

Bisher haben wir nur eine ideale periodische Grauwertstruktur betrachtet. ImAllgemeinen setzen sich Bilder jedoch aus Grauwertstrukturen mit unterschied-lichen Wellenzahlen zusammen, aus denen wir keine sinnvollen Phasenschät-zungen erhalten können. Also müssen wir das Bild in einzelne Wellenzahlbe-reiche zerlegen. Dies impliziert, dass die Phasenmethode nicht für zweidimen-sionale Verschiebungen geeignet ist, sondern im Wesentlichen ein 1D-Konzeptdarstellt, welches Bewegung einer linear orientierten Struktur, z. B. einer ebe-nen Welle, in Richtung ihrer Grauwertgradienten misst. Aus dieser Tatsacheleiten Fleet und Jepson [57] ein neues Paradigma der Bewegungsanalyse ab. DasBild wird mit direktionalen Filtern zerlegt, und in jeder der Komponenten wirddie Normalengeschwindigkeit bestimmt. Das zweidimensionale Bewegungsfeldwird dann aus diesen Normalengeschwindigkeiten zusammengesetzt. Dieser

446 14 Bewegung

Ansatz hat den Vorteil, dass die Zusammensetzung zu einem vollständigen Be-wegungsfeld in einen zweiten Verarbeitungsschritt verlegt wird, der an die imBild auftretende Bewegungsform angepasst werden kann. Daher können mitdiesem Ansatz auch komplexere Fälle wie die Überlagerungen transparenterObjekte gehandhabt werden.Fleet und Jepson [57] verwenden einen Satz von Gaborfiltern (Abschn. 13.4.5)mit einer Winkelauflösung von 30° und einer Bandbreite von 0,8 Oktaven für diegerichtete Bandpasszerlegung. Alternativ können eine Bandpasszerlegung undHilbertfilter (Abschn. 13.4.2) verwendet werden. Die Motivation für diese Ideestammt aus der Tatsache, dass die Zerlegung mit einem Satz von Gaborfiltern,wie von Fleet und Jepson vorgeschlagen, keine einfache Rekonstruktion desOriginalbildes ermöglicht. Die gaborzerlegten Teilbilder addieren sich nichtexakt zum Originalbild. Die resultierende Transferfunktion besitzt vielmehreine beträchtliche Welligkeit, wie Riemer [189] zeigt.Eine Bandpasszerlegung mit zum Beispiel einer Laplacepyramide [24, 25] hatnicht diesen Nachteil (Abschn. 5.2.3). Zusätzlich ist sie vom Rechenaufwandher effizienter. Andererseits stehen wir dem Problem gegenüber, dass wir kei-ne gerichtete Zerlegung erhalten. Jähne [96, 97] zeigt, wie das Konzept derLaplacepyramide effizient zu einer pyramidalen Richtungszerlegung erweitertwerden kann. Jede Ebene der Pyramide wird weiter in zwei oder vier gerichteteKomponenten zerlegt, die sich direkt zu den zugehörigen isotrop gefiltertenPyramidenebenen addieren (siehe auch Abschn. 5.2.4).

14.6.3 Vom normalen Fluss zum 2D-Fluss

Da die Phasenmethode lediglich den optischen Fluss senkrecht zur Richtungder herausgefilterten Strukturen liefert, brauchen wir eine Technik zur Bestim-mung des zweidimensionalen optischen Flusses aus dem normalen Fluss. Diegrundlegende Beziehung zwischen beiden Flüssen ist wie folgt. Wir nehmenan, dass f⊥ ein normaler Flussvektor ist. Er ist das Ergebnis der Projektiondes 2D-Flussvektors f in die Richtung des normalen Flusses. Dann können wirschreiben:

f⊥ = f⊥f , (14.69)

wobei f⊥ ein Einheitsvektor in Richtung des normalen Flusses ist. Aus (14.69)ist offensichtlich, dass wir den unbekannten zweidimensionalen optischen Flussüber die Methode der kleinsten Quadrate berechnen können, wenn uns mehr alszwei Schätzwerte des normalen Flusses in unterschiedliche Richtungen vorlie-gen. Dieser Ansatz ergibt auf ähnliche Weise wie in Abschn. 14.3.2 das folgendelineare Gleichungssystem:⎡

⎣ f⊥xf⊥x f⊥xf⊥y

f⊥xf⊥y f⊥yf⊥y

⎤⎦[

fxfy

]=

⎡⎣ f⊥xf⊥

f⊥yf⊥

⎤⎦ (14.70)

mit

f⊥pf⊥q =∫w(x − x′, t − t′)f⊥pf⊥qd2x′dt′ (14.71)

und

f⊥pf⊥ =∫w(x − x′, t − t′)f⊥pf⊥d2x′dt′. (14.72)

14.7 Weitere Methoden 447

14.7 Weitere Methoden

14.7.1 Differenzielle Methoden zweiter Ordnung

Die differenzielle Methode erster Ordnung hat das grundlegende Problem, dassmit der Kontinuität des optischen Flusses nur eine Bedingung für die beiden un-bekannten Komponenten des optischen Flusses vorliegt (Abschn. 14.3.1). Bisherkonnten wir dieses Defizit nur dadurch wettmachen, dass wir die Geschwindig-keit in einer Nachbarschaft als konstant betrachtet haben und dadurch diesezur Bestimmung des optischen Flusses heranziehen konnten (Abschn. 14.3.2).Ein anderes Vorgehen ist es, mehr als ein Eigenschaftsbild oder Mehrkanalbil-der zu benutzen. Damit haben wir zwei oder mehr unabhängige Bedingungenan einem Punkt und sind damit in der Lage, beide Komponenten des optischenFlusses lokal zu bestimmen. Der entscheidende Punkt ist jedoch, dass wirk-lich zusätzliche Information eingebracht wird. Es hilft nicht, wenn die neueBedingung mit schon vorhandenen korreliert ist.Auf diesem Wege kommen wir zu einer wichtigen Verallgemeinerung der dif-ferenziellen Methode. Wir können jede beliebige Vorverarbeitung auf Bildse-quenzen anwenden oder beliebige Eigenschaften extrahieren und darauf diebisher diskutierten Methoden anwenden. Wenn die Kontinuität des optischenFlusses im Originalbild erhalten ist, so gilt dies auch für jedes abgeleitete Eigen-schaftsbild. Wir können dabei sowohl nichtlineare Punktoperationen als auchNachbarschaftsoperationen anwenden.Wir diskutieren zuerst die Methode von Girosi et al. [67]. Er wendete die Kon-tinuität des optischen Flusses auf zwei Eigenschaftsbilder an, nämlich die hori-zontale und vertikale räumliche Ableitung:

f∇gx + gxt = 0

f∇gy + gyt = 0.(14.73)

Daraus ergibt sich eine differenzielle Methode zweiter Ordnung mit der Lösung

f = −H−1∇gt falls detH ≠ 0, (14.74)

wobei H die Hesse-Matrix ist, wie sie in (12.6) definiert wurde.Wenn wir auch die normale Kontinuitätsgleichung für den optischen Fluss er-gänzen, ergibt sich folgendes überbestimmtes Gleichungssystem mit drei Glei-chungen und zwei Unbekannten:⎡

⎢⎣ gx gygxx gxygxy gyy

⎤⎥⎦

⎡⎣ f1

f2

⎤⎦ = −

⎡⎢⎣ gtgxtgyt

⎤⎥⎦ . (14.75)

In diesem Zusammenhang sind auch Bilder, die mit verschiedenen Sensorenaufgenommen werden, eine vielversprechende Methode. Markandey und Flinch-baugh [147] benutzten z. B. multispektrale Bilder, aufgenommen im Sichtbarenund im Infraroten. Bildsequenzanalyse von Szenen, die mit Lichtquellen ausunterschiedlichen Richtungen beleuchtet wurden, sind von Woodham [243] un-tersucht worden. Diese Vorgehensweise ist besonders interessant, da damitdirekte Reflexe von glänzenden Oberflächen detektiert werden können, und da-mit eine wichtige Quelle von Fehlern ausgeschlossen werden kann.

448 14 Bewegung

14.7.2 Differenzialgeometrische Modellierung

Die Diskussion in den vorangegangenen Abschnitten hat gezeigt, dass die räum-liche Struktur der Grauwerte die Bewegung bestimmt. Diese grundlegende Tat-sache wird beim bisherigen Ansatz nicht angemessen berücksichtigt, da er sichlediglich auf räumliche Ableitungen erster Ordnung stützt. Differenzielle Me-thoden zweiter Ordnung erlauben eine direkte, lokale Lösung unter der Voraus-setzung, dass die Hesse-Matrix invertiert werden kann (14.73). In diesem Ab-schnitt betrachten wir die differenziellen Methoden unter dem Gesichtspunktder Differenzialgeometrie. Wir nehmen an, dass sich die Grauwertstrukturen inzwei aufeinander folgenden Bildern nur durch eine lokal konstante Verschie-bung s unterscheiden:

g (x − 1/2s, t1) = g (x + 1/2s, t2) . (14.76)

Dieser Ansatz enthält eine andere Formulierung der Kontinuitätsgleichung un-ter der Annahme, dass lokal nur eine Translation des Bildes stattfindet unterVernachlässigung jeglicher Rotationen oder Deformationen von Oberflächen-elementen. Wir gehen also davon aus, dass sich das Geschwindigkeitsfeld ineiner kleinen Nachbarschaft nicht ändert. Aus Symmetriegründen verteilen wirdie Verschiebung gleichmäßig über die beiden Bilder. Unter der Voraussetzung,dass der Verschiebungsvektor s und die Größe des Oberflächenelements kleinist, können wir die Grauwerte im Punkt x = 0 in eine Taylorreihe entwickeln.Zunächst betrachten wir eine Entwicklung erster Ordnung, d. h. wir approximie-ren die Grauwertverteilung mit einer Ebene:

g (x ± 1/2s) = g0 +∇g · (x ± 1/2s) . (14.77)

Die Ebenen beider Bilder unterscheiden sich nur durch die Verschiebung s. Wirsortieren die Terme in (14.77) nach zunehmender Potenz von x, um einen Ko-effizientenvergleich durchführen zu können:

g (x ± 1/2s) = g0 ± 1/2∇g s︸︷︷︸Offset

+ ∇g︸︷︷︸Steigung

x. (14.78)

Die ersten zwei Terme enthalten den Offset und der dritte die Steigung derEbene. Nun können wir die Verschiebung s = (p, q)T aus der Bedingung ablei-ten, dass beide Ebenen identisch sein müssen. Also müssen auch die beidenKoeffizienten identisch sein, und wir erhalten zwei Gleichungen:

g0(t1)− g0(t2) = 1/2(∇g(t1)+∇g(t2)) s,

∇g(t1) = ∇g(t2).(14.79)

Die zweite Gleichung besagt, dass der Gradient in beiden Bildern gleich seinmuss. Andernfalls wäre ein Ebenenfit der räumlichen Grauwerte auch keinesinnvolle Darstellung. Die erste Gleichung entspricht der Kontinuität des op-tischen Flusses (14.9). In (14.79) ist nur die zeitliche Ableitung bereits diskretals Differenz der mittleren Grauwerte beider Bilder ausgedrückt. Daher ist derGradient durch den mittleren Gradienten in beiden Bildern ersetzt. Zusätzlichverwenden wir das Verschiebungsvektorfeld (VVF) s anstelle des optischen Flus-ses f . Wie erwartet, ergibt ein Ebenenfit der Grauwertverteilung nichts Neues.


Immer noch können wir die Geschwindigkeitskomponente lediglich in Richtungdes Grauwertgradienten bestimmen. Daher müssen wir (14.76) in eine Taylor-reihe zweiter Ordnung entwickeln und erhalten

g (x ± 1/2s) = g0

+ gx · (x ± 1/2s1)+ gy ·(y ± 1/2s2

)+ 1/2gxx · (x ± 1/2s1)2 + 1/2gyy ·

(y ± 1/2s2

)2

+ gxy · (x ± 1/2s1)(y ± 1/2s2

).

Nagel [159] führte eine ähnliche Modellierung der Grauwertgeometrie durch,indem er sie in eine Taylorreihe zweiter Ordnung expandierte. Er erhielt al-lerdings komplexe nichtlineare Gleichungen, die nur unter bestimmten Bedin-gungen einfach zu lösen sind. Diese Bedingungen nannte er Grauwertecke undGrauwertextremum. Der Grund für die unterschiedlichen Ergebnisse liegt imLösungsansatz. Nagel verglich die Taylorreihen zweier Bilder im Sinne der Me-thode der kleinsten Quadrate, während hier ein direkter Koeffizientenvergleichdurchgeführt wird.Ein Vergleich der Koeffizienten des Fits zweiter Ordnung ergibt insgesamt sechsGleichungen. Die quadratischen Terme ergeben drei Gleichungen, die besagen,dass alle räumlichen Ableitungen zweiter Ordnung in beiden Bildern überein-stimmen müssen:

gxx(t1) = gxx(t2),gyy(t1) = gyy(t2),gxy(t1) = gxy(t2).

Ist dies nicht der Fall, lässt sich entweder die Grauwertverteilung nicht adäquatdurch eine Taylorreihe zweiter Ordnung beschreiben, oder die Voraussetzungeiner konstanten Verschiebung in der Nachbarschaft ist nicht erfüllt. Der Ko-effizientenvergleich der Terme nullter und erster Ordnung resultiert in den fol-genden drei Gleichungen:

−(g0(t2)− g0(t1)) = 12

(gx(t1)+ gx(t2)

)s1

+ 12

(gy(t1)+ gy(t2)

)s2,

−(gx(t2)− gx(t1)) = gxxs1 + gxys2,

−(gy(t2)− gy(t1)) = gyys2 + gxys1.

(14.81)

Überraschenderweise liefert der Koeffizientenvergleich für die Terme nullterOrdnung (Offset) das gleiche Ergebnis wie der Ebenenfit (14.79). Das bedeutet,dass das VVF durch einen einfachen Ebenenfit korrekt berechnet wird, selbstwenn die Grauwertverteilung nicht mehr durch eine Ebene wiedergegeben wird,sondern durch ein Polynom zweiter Ordnung.Die beiden anderen Gleichungen können als ein einfaches lineares Gleichungs-system mit zwei Unbekannten geschrieben werden:⎡

⎣ gxx gxy

gxy gyy

⎤⎦

⎡⎣ s1

s2

⎤⎦ = −

⎡⎣ gx(t2)− gx(t1)gy(t2)− gy(t1)

⎤⎦ . (14.82)

450 14 Bewegung

Die 2× 2-Matrix auf der linken Seite lässt sich leicht invertieren, falls gxxgyy −(gxy)2 nicht verschwindet. Aus diesem Grund ist es möglich, die Verschiebungzwischen zwei Bildern aus einer lokalen Nachbarschaft abzuschätzen, wennwir die Krümmung der Grauwertverteilung berücksichtigen. Bisher haben wirdie Bedingungen, die eine Grauwertverteilung erfüllen muss, damit (14.81) um-kehrbar wird, noch nicht besprochen. Diese Bedingungen sind gegeben, wennentweder ein Grauwertextremum oder eine Grauwertecke vorliegt. Wie bereitserwähnt, wurden diese Begriffe durch Nagel [159] geprägt. In einem Grauwer-textremum (und ebenfalls in einem Sattelpunkt) sind die beiden Hauptkrüm-mungen ungleich null. Dann ist (14.82) lösbar. An einer Grauwertecke ist nureine Hauptkrümmung null, nicht jedoch der Gradient in dieser Richtung. Da-her kann die erste und zweite Gleichung aus (14.81) zur Bestimmung beiderKomponenten des optischen Flussvektors verwendet werden.

Für die differenzialgeometrische Methode ist keine Glättung erforderlich, da Ab-leitungen zweiter Ordnung nur an einem Punkt verwendet werden. Trotzdemwird für eine stabilere Abschätzung der Ableitungen oft eine Glättung des Bil-des angewandt. Da Faltungsoperationen kommutativ sind, kann diese Glättungauch nach Berechnung der Ableitungen durchgeführt werden.

Die Differenz der räumlichen Ableitungen erster Ordnung in den Bildern zumZeitpunkt t2 und t1 in (14.82) ist eine diskrete Näherung für eine zeitliche Ablei-tung, die durch einen zeitlichen Ableitungsoperator ersetzt werden kann. Dannmuss auch der Verschiebungsvektor durch den optischen Flussvektor ersetztwerden. Damit erhalten wir schließlich die folgende kontinuierliche Formulie-rung des differenzialgeometrischen Verfahrens:⎡

⎣ gxx gxy

gxy gyy

⎤⎦

⎡⎣ f1

f2

⎤⎦ = −

⎡⎣ gxt

gyt

⎤⎦ . (14.83)

14.7.3 Orts/Zeit-Energiemodelle

In der biologischen Bildverarbeitung werden häufig gaborähnliche Quadratur-filter zur Bewegungsbestimmung verwendet (Abschn. 13.4.5). Sie sind die Basisfür so genannte Orts/Zeit-Energiemodelle oder Bewegungsenergiemodelle [3, 4,84]. Diese Begriffe sind leicht missverständlich. Gemeint ist nicht die kineti-sche Energie von sich bewegenden Objekten, sondern die Energie (quadrierteAmplitude) eines Signals an einem Sensor in einem bestimmten Intervall kν .Wir werden nun diesen Ansatz mit der zuvor besprochenen differenziellen Me-thode vergleichen.

Eines der einfachsten Modelle für die eindimensionale Bewegungsanalyse ver-wendet nur drei Quadraturfilter. Dieser Satz gerichteter Filter detektiert Ob-jekte, die sich nach rechts oder links bewegen oder stillstehen. Wir bezeichnenden quadrierten Betrag dieser Quadraturfilter mitR, L und S. Dann erhalten wireine Abschätzung des eindimensionalen optischen Flusses unter Verwendungdes Operators [3, 4]:

U = R−LS . (14.84)

Eine interessante Verbindung zwischen diesem Ansatz und der differenziellenMethode finden wir, wenn wir letztere (Abschn. 14.3.2) auch als Methode zurEnergieextraktion betrachten. Den Vergleich führen wir hier für die Analyse


a

ω

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

k

b

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

ω

k

c

-1

-0.5

0

0.5

1-1

-0.5

0

0.5

1

ω

k

Abbildung 14.13: Transferfunktion der Faltungsoperatoren in (14.88) zur De-tektion von Objekten, die sich nach rechts oder links bewegen oder stillstehen:a R′, b L′ und c S′.

der eindimensionalen Bewegung, also in einem 2D-Orts/Zeit-Bild, durch. In die-sem Fall kann die Lösung der differenziellen Methode in Operatornotation nach(14.25) als

U′ = − Bxt (Dt · Dx)Bxt (Dx · Dx)

(14.85)

geschrieben werden. Wir formulieren diese Gleichung neu mit einer leichtenModifikation, bei der die Operatoren mit der Binomialmaske Bxt geglättet wer-den, bevor wir die Ableitungsoperatoren anwenden (Abschn. 12.7):

U′ = − Bxt [(DtBxt) · (DxBxt)]Bxt [(DxBxt) · (DxBxt)] . (14.86)

Die Glättung mit Bxt ist nichts anderes als eine Regularisierung des Ableitungs-operators. Die Indizes xt bedeuten, dass die Glättung entlang der zeitlichen

452 14 Bewegung

und der räumlichen Achse durchgeführt wird. Verwenden wir

AB = 14

[(A+B)2 − (A−B)2

](14.87)

und die Abkürzungen

R′ = (Dx +Dt)Bxt, L′ = (Dx −Dt)Bxt, S′ = 2DxBxt, (14.88)

können wir (14.86) umschreiben und erhalten einen (14.84) sehr ähnlichen Aus-druck:

U′ = Bxt(R′ ·R′ − L′ · L′)Bxt(S′ · S′) . (14.89)

Die FilterR′, L′ und S′ sind Ableitungen von Binomialfiltern. Die Transferfunk-tionen zeigen, dass Objekte selektiert werden, die sich nach rechts oder nachlinks bewegen oder in Ruhe sind (Abb. 14.13). Diese Filter sind keine Quadratur-filter. Die Quadrierung der Filterantworten und eine weitere Glättung mit Bxtführt jedoch in Näherung zu einer phasenunabhängigen Detektion der quadrier-ten Amplitude wie mit einem Quadraturfilter unter bestimmten Bedingungen.Stellen wir uns eine feinskalige periodische Struktur vor. Die Ableitungsfilterwerden diese Strukturen bewahren, aber den mittleren Grauwert entfernen. Da-her führt die Quadrierung zu einem mittleren Grauwert, dessen Betrag halb sogroß ist wie die Grauwertamplitude, und zu einer schnellen räumlichen Grau-wertoszillation mit der doppelten Wellenzahl (halben Wellenlänge). Wenn dienachfolgende Glättung diese Oszillationen entfernt, ergibt sich wie bei einemQuadraturfilter eine phasenunabhängige Antwort auf das Filter. Anders als beiQuadraturfiltern können wir diese Ergebnisse nur in Regionen erzielen, in de-nen die Skalen der Strukturen fein genug sind, sodass die doppelte Wellenlängemit dem Glättungsfilter entfernt werden kann.


14.1: Genauigkeit der Bewegungsanalyse

Interaktive Demonstration der Genauigkeit von diversen Verfahren zur Be-wegungsanalyse anhand von Testbildsequenzen mit bekannten Geschwin-digkeitsfeldern; Ausgabe der Fehler; Untersuchung des Einflusses von Rau-schen und von zeitlicher Unterabtastung (dip6ex14.01)

14.2: Bewegungsanalyse

Interaktive Demonstration diverser Verfahren zur Bewegungsanalyse mitrealen Bildsequenzen (dip6ex14.02)

14.3: ∗∗Beschleunigte Bewegung

Bei einer beschleunigten Bewegung kann man die Kontinuitätsgleichung desoptischen Flusses folgendermaßen erweitern:

(f + at)∇g + gt = 0


1. Stellen Sie das überbestimmte lineare Gleichungssystem zur Bestimmungdes optischen Flusses f und der Beschleunigung a (4 Parameter in 2D-Bildern) auf, mit einem analogen Ansatz wie in Abschn. 14.3.2.

2. Zeigen Sie anhand des Gleichungssystems, dass unter Verwendung vonnur zwei Bildern einer Sequenz die Beschleunigung nicht bestimmt wer-den kann.

14.4: ∗∗Differenzielle Methode 2. Ordnung

Bei der differenziellen Methode nach (14.74) kann der optische Fluss ohneweitere Mittelung direkt bestimmt werden. An welchen Grauwertstrukturenzweiter Ordnung ist eine eindeutige Bestimmung des optischen Flusses aus(14.74) möglich? Umfasst dies alle Arten von Grauwertstrukturen zweiterOrdnung, an denen es prinzipiell möglich ist?


Zur Bewegungsanalyse gibt es die folgenden Monografien: Singh [210], Fleet [56]und Jähne [98]. Einen guten Überblick verschaffen auch die Artikel von Beau-chemin und Barron [9] und Jähne und Haußecker [103, Kapitel 10]. Letztererbeinhaltet auch die Schätzung von Bewegungsfeldern höherer Ordnung. Leser,die sich für die visuelle Detektion von Bewegung in biologischen Systemen inter-essieren, seien auf die Monografie von Smith und Snowden [211] verwiesen. DieErweiterung der Bewegungsanalyse auf Parameter dynamischer Prozesse undBeleuchtungsänderungen ist in Haußecker und Fleet [82], Haußecker [81] undJähne [101] beschrieben. Methoden zur Analyse komplizierter Bewegungsfelderwerden von Jähne et al. [102] behandelt.

15 Textur

15.1 Einführung

In Kapitel 11 und 12 haben wir Glättung und Kantendetektion bespro-chen und in Kapitel 13 einfache Nachbarschaften. Nun werden wir die-se wichtigen Bausteine verwenden und erweitern, um komplexe Muster,die in der Bildverarbeitung als Textur bezeichnet werden, zu analysie-ren. Solche Muster machen den Unterschied zwischen einer künstlichenObjektwelt, deren Oberflächen lediglich durch Farb- und Reflexionsei-genschaften gekennzeichnet sind, und realen Bildern aus.

Wir können Muster mit unserem Sehsystem leicht erkennen und von-einander unterscheiden (Abb. 15.1). Sehr viel schwieriger ist die Charak-terisierung und Unterscheidung der eher „diffusen“ Größen einer Texturmit exakt definierten Parametern, die es einem Computer ermöglichen,diese Aufgabe durchzuführen.

In diesem Kapitel werden wir systematisch Operatoren zur Analyseund Unterscheidung von Mustern untersuchen. Mithilfe dieser Operato-ren lassen sich selbst komplexe Muster mit wenigen, jedoch charakte-ristischen Größen beschreiben. Dabei reduzieren wir das Problem derMustererkennung auf die einfache Unterscheidung von Grauwerten.

Wie können wir eine Textur definieren? Ein beliebiges, über einengroßen Bereich eines Bildes ausgedehntes Muster wird sicher nicht alsTextur erkannt. Eine grundlegende Eigenschaft der Textur ist also daskleine elementare Muster, das sich periodisch oder quasiperiodisch imRaum wiederholt wie das Muster auf einer Tapete. Es genügt also, daskleine Grundmuster und die Wiederholungsregeln zu beschreiben. Letz-tere definieren die charakteristische Größe der Textur.

Die Texturanalyse lässt sich mit der Analyse von Festkörperstruktu-ren vergleichen, einem Forschungsbereich, den wir in der Festkörperphy-sik, in der Chemie und in der Mineralogie finden. Ein Festkörperphysikerbeschäftigt sich mit den Wiederholungsmustern und der Verteilung vonAtomen in der Elementarzelle. Die Texturanalyse wird durch die Tat-sache verkompliziert, dass sowohl das Muster als auch die periodischeWiederholung signifikanten zufälligen Schwankungen unterliegen kann(Abb. 15.1).

Texturen können hierarchisch aufgebaut sein, d. h., sie können bei un-terschiedlicher Vergrößerung sehr unterschiedlich aussehen. Ein schö-nes Beispiel ist die in Abb. 15.1a dargestellte Gardine. Bei der größten


456 15 Textur

a b

c d

e f

Abbildung 15.1: Texturbeispiele: a Gardine; b Holz; c Hundefell; d Raufaserta-pete; e und f Stoff.

Auflösung liegt unsere Aufmerksamkeit auf dem einzelnen Gewebefaden(Abb. 15.2a), und die charakteristische Größe ist die Dicke der Fäden,welche auch eine lokale Orientierung aufweisen. Bei der nächstgröbe-ren Auflösung erkennen wir die Maschen des Gewebes (Abb. 15.2b) mitdem Maschendurchmesser als charakteristischer Größe. In dieser Ebe-ne ist die lokale Orientierung gleichmäßig in alle Richtungen verteilt. Beinoch geringerer Vergrößerung erkennen wir die einzelnen Maschen nichtmehr, sondern nur noch die Falten des Vorhangs (Abb. 15.2c). Auch sie

15.1 Einführung 457

a b c

Abbildung 15.2: Hierarchische Organisation eines Musters, gezeigt am Beispielder Gardine aus Abb. 15.1a durch Aufnahme in unterschiedlichen Auflösungen.

werden durch eine eigene charakteristische Größe gekennzeichnet, dieFaltendichte und ihre Orientierung. Diese Betrachtungen unterstreichendie Bedeutung der mehrskaligen Texturanalyse. Die an anderer Stelle indiesem Buch diskutierten mehrskaligen Datenstrukturen (Kapitel 5) sindalso wesentlich für die Texturanalyse.

Bedingt durch die Aufgabenstellung, lassen sich die Texturparame-ter generell in zwei Klassen unterteilen. Die erste Klasse enthält dierotations- und größeninvarianten Parameter, die zweite dagegen die nichtrotations- und nicht größeninvarianten. Stellen wir uns eine typischeindustrielle oder wissenschaftliche Anwendung vor, bei der es daraufankommt, zufällig in einem Bild orientierte Objekte zu erkennen. Esinteressiert uns die Unterscheidung der Objekte voneinander, nicht dieOrientierung der einzelnen Objekte. Texturparameter, die von der Orien-tierung abhängen, sind also uninteressant. Wir können sie zwar nutzen,aber nur, wenn die Objekte eine charakteristische Form haben, die es unserlaubt, ihre Orientierung zu bestimmen. Ähnliche Argumente gelten fürgrößeninvariante Eigenschaften. Befinden sich die interessierenden Ob-jekte in unterschiedlichen Entfernungen von der Kamera, sollten die zuihrer Erkennung verwendeten Texturparameter zusätzlich größeninva-riant sein. Sind sie es nicht, ist die Objekterkennung abhängig von derEntfernung zur Kamera. Verändern sich jedoch die Textureigenschaftenmit der Vergrößerung wie im Beispiel der Gardine in Abb. 15.1a gibt esüberhaupt keine größeninvarianten Textureigenschaften. Damit wird dieVerwendung von Mustern zur Objektcharakterisierung bei unterschied-lichen Entfernungen zu einer schwierigen Aufgabe.

In den bisherigen Beispielen haben uns mehr die Objekte selbst alsihre Orientierung im Raum interessiert. Die Oberflächenorientierung istein Schlüsselmerkmal in einer anderen Bildverarbeitungsaufgabe, näm-lich der Rekonstruktion einer dreidimensionalen Szene. Wissen wir, dassdie Oberfläche eines Objekts ein gleichmäßiges Muster hat, können wirOrientierung und Größe des Musters zur Analyse der Orientierung derFläche im Raum verwenden. Dazu benötigen wir die charakteristischenGrößen und Orientierungen der Textur.

458 15 Textur

Die Texturanalyse ist einer der Bereiche der Bildverarbeitung, bei demes noch an Grundlagen fehlt. Dementsprechend finden wir in der Li-teratur viele unterschiedliche empirische und semiempirische Ansätze.Mit diesen Ansätzen werden wir uns hier nicht beschäftigen, sondernmit einer einfachen Methode, die aus elementaren Operatoren komplexeTexturoperatoren aufbaut.

Für die Texturanalyse benötigen wir nur vier fundamentale Textur-operatoren:

• Mittelwert ,

• Varianz,

• Orientierung und

• Größe.

Diese Operatoren werden in unterschiedlichen Ebenen der Bildverarbei-tungshierarchie angewandt. Haben wir z. B. die lokale Orientierung undGröße berechnet, können Mittelwert- und Varianzoperatoren wiederumangewandt werden, diesmal aber nicht, um Mittelwert und Varianz derGrauwerte, sondern der lokalen Orientierung und der lokalen Größe zuberechnen.

Die vier elementaren Texturoperatoren lassen sich in die oben er-wähnten zwei Klassen aufteilen. Mittelwert und Varianz sind rotations-und größeninvariant, während die Operatoren Orientierung und Größenatürlich gerade die Orientierung bzw. die Größe bestimmen. Somit ha-ben wir die wichtige Klassentrennung der Parameter bereits vollzogen.Die Bedeutung dieses Ansatzes liegt in der Einfachheit und Orthogo-nalität des Parametersatzes sowie in der Möglichkeit, ihn hierarchischanzuwenden.

15.2 Statistik erster Ordnung

15.2.1 Grundlagen

Alle Texturparameter, die auf einer Statistik erster Ordnung, d. h. lokalenGrauwerthistogrammen beruhen, sind invariant gegenüber einer Permu-tation der Pixel. Daher hängen sie weder von der Orientierung noch derGröße der Objekte ab. Letzteres allerdings nur, solange feine Struktu-ren bei gröberen Auflösungen nicht verschwinden. Daher können wirdiese Klasse von Texturparametern als rotations- und skaleninvariantbetrachten.

Diese Invarianz der Statistik erster Ordnung gegenüber Pixelpermu-tationen hat jedoch auch einen gravierenden Nachteil. Texturen, die beigleicher Verteilung der Grauwerte unterschiedliche räumliche Muster ha-ben, können nicht unterschieden werden. Dazu ein einfaches Beispiel.Eine Textur mit gleich breiten weißen und schwarzen Streifen und ei-

15.2 Statistik erster Ordnung 459

ne Textur mit einem schwarz/weißen Schachbrettmuster haben die glei-che bimodale Grauwertverteilung bei völlig unterschiedlicher räumlicherStruktur der Muster.

Daher können viele Texturen anhand von Parametern, die aus loka-len Histogrammen berechnet wurden, nicht unterschieden werden. Füreine bessere Unterscheidungsmöglichkeit müssen weitere Klassen vonTexturparametern eingesetzt werden.

15.2.2 Lokale Varianz

In Abschn. 3.2.2 haben wir gelernt, wie Grauwertverteilungen außer durchden Mittelwert auch durch Varianz und höhere Momente charakterisiertwerden. Für die Texturanalyse müssen diese Parameter in einer lokalenNachbarschaft gemittelt werden. Dies führt uns zu einem neuen Opera-tor zur Schätzung der lokalen Varianz.

Im einfachsten Fall können wir eine Maske M wählen und die Para-meter allein aus den Pixeln in diesem Fenster berechnen. Der Varianz-operator z. B. ergibt sich dann zu

vmn = 1P − 1

∑m′,n′∈M

(gm−m′,n−n′ − gmn

)2 . (15.1)

Die Summe läuft über die P Bildpunkte des Fensters. Der Ausdruckgmn bezeichnet den über dasselbe Fenster M berechneten Mittelwertder Grauwerte im Punkt [m,n]T :

gmn =1P

∑m′,n′∈M

gm−m′,n−n′ . (15.2)

Wichtig ist zu beachten, dass der Varianzoperator nicht linear ist. Trotz-dem ähnelt er der allgemeinen Form einer Nachbarschaftsoperation, derFaltung. Die Kombination von (15.1) und (15.2) macht deutlich, dass derVarianzoperator aus einer linearen Faltung und nichtlinearen Punktope-rationen besteht:

vmn = 1P − 1

⎡⎢⎣ ∑m′,n′∈M

g2m−m′,n−n′ −

⎛⎝ 1P

∑m′,n′∈M

gm−m′,n−n′

⎞⎠2

⎤⎥⎦ , (15.3)

oder in Operatorschreibweise:

V = R(I · I)− (R ·R). (15.4)

Der Operator R bezeichnet eine Glättung über alle Bildpunkte mit ei-nem Rechteckfilter der Größe des Fensters W . Der Operator I ist derIdentitätsoperator. Der Operator I · I führt also eine nichtlineare Punk-toperation durch, nämlich die Quadrierung der Grauwerte jedes Pixels.

460 15 Textur

a b

c d

Abbildung 15.3: Auf verschiedene Bilder angewandter Varianzoperator:a Abb. 11.6a; b Abb. 15.1e; c Abb. 15.1f; d Abb. 15.1d.

Schließlich subtrahiert der Varianzoperator das Quadrat eines geglätte-ten Grauwertes von den geglätteten quadrierten Grauwerten. Aus derDiskussion der Glättung in Abschn. 11.3 wissen wir, dass ein Rechteck-filter kein gutes Glättungsfilter ist. Wir erhalten also einen besseren Va-rianzoperator, wenn wir das Rechteckfilter R durch ein Binomialfilter Bersetzen:

V = B(I · I)− (B · B). (15.5)

Der Varianzoperator ist isotrop und darüber hinaus auch größeninva-riant, solange das Fenster größer als die größte Struktur in den Texturenist und solange keine feinen Strukturen der Textur verschwinden, wennObjekte weiter von der Kamera entfernt sind. Daraus lässt sich vermu-ten, dass ein größeninvarianter Texturoperator nur existiert, wenn dieTextur selbst größeninvariant ist.

Abbildung 15.3 zeigt die Anwendung des Varianzoperators (15.5) mitB16 auf verschiedene Bilder. In Abb. 15.3a stellt sich der Varianzoperatorals isotroper Kantendetektor dar, da das Originalbild Bereiche mit mehroder weniger gleichmäßigen Grauwerten enthält. Die übrigen drei Bei-spiele in Abb. 15.3 zeigen Varianzbilder gemusterter Oberflächen. Der

15.3 Rotations- und größenvariante Texturparameter 461

Varianzoperator kann die Bereiche mit den feinen horizontalen Strei-fen in Abb. 15.1e von den gleichmäßigeren Flächen unterscheiden. Sieerscheinen als gleichmäßige helle Bereiche im Varianzbild (Abb. 15.3b).Die beiden Texturen in Abb. 15.3c kann der Varianzoperator jedoch nichtunterscheiden. Da die Auflösung noch deutlich kleiner ist als die Wie-derhollänge der Textur, kann der Varianzoperator keinen einheitlichenMittelwert der Varianz in dem Muster liefern. Für die Raufasertapete(Abb. 15.3d) liefert der Varianzoperator keine gleichförmige Antwort,da die Strukturen zu starke Fluktuationen aufweisen.

15.2.3 Höhere Momente

Neben der Varianz können wir auch die höheren Momente der Grauwert-verteilung verwenden (siehe Abschn. 3.2.2 für eine detaillierte Beschrei-bung). Wir wollen die Bedeutung dieses Ansatzes mit zwei Beispielenrecht unterschiedlicher Grauwertverteilungen illustrieren, einer Normal-verteilung und einer bimodalen Verteilung:

p(g) = 1√2πσ

exp(−g − g

2σ 2

), p′(g) = 1

2

(δ(g + σ)+ δ(g − σ)) .

Beide Verteilungen haben denselben Mittelwert und dieselbe Varianz,unterscheiden sich jedoch in Momenten höherer Ordnung.

15.3 Rotations- und größenvariante Texturparameter

15.3.1 Lokale Orientierung

Da die lokale Orientierung bereits detailliert in Kapitel 13 diskutiert wur-de, besprechen wir hier nur einige Beispiele, um die Bedeutung der loka-len Orientierung für die Texturanalyse zu veranschaulichen. Im Hinblickdarauf, dass dieses Buch lediglich Grauwertbilder enthält, beschränkenwir uns auf Kohärenzbilder der lokalen Orientierung.

Abbildung 15.4 zeigt das in Abschn. 13.3 definierte Kohärenzmaß fürdie lokale Orientierung. Dieses Maß ist für eine ideal orientierte Textur,bei der sich die Grauwerte nur in einer Richtung ändern, eins und für ei-ne verteilte Grauwertstruktur null. Das Kohärenzmaß geht gegen eins inBereichen mit horizontal zueinander verlaufenden Streifen des Stoffes(Abb. 15.4a) und in den dichten Bereichen des Hundefells (Abb. 15.4b).Die Orientierungsanalyse der Gardine (Abb. 15.1a) ergibt ein interessan-tes Kohärenzmuster (Abb. 15.4c). Die Kohärenz ist hoch entlang der ein-zelnen Fäden, nicht jedoch dort, wo sich zwei Fäden kreuzen, und in denmeisten Teilen des durch die Maschen hindurch sichtbaren Hintergrun-des. Die Kohärenz der lokalen Orientierung des Bildes einer Raufaserta-pete (Abb. 15.1d) ergibt ein ungleichmäßiges Kohärenzbild (Abb. 15.4d),da diese Textur keine vorherrschende lokale Orientierung aufweist.

462 15 Textur

a b

c d

Abbildung 15.4: Kohärenz der lokalen Orientierung a eines Stoffes mit Regionenhorizontal verlaufender Streifen (Abb. 15.1e), b eines Hundefells (Abb. 15.1c), ceiner Gardine (Abb. 15.1a) und d einer Raufasertapete (Abb. 15.1d).

15.3.2 Lokale Wellenzahl

In Abschn. 13.4 haben wir die Berechnung der lokalen Wellenzahl auseinem Quadraturfilterpaar unter Verwendung entweder eines Hilbertfil-ters (Abschn. 13.4.2) oder eines Quadraturfilters (Abschn. 13.4.5) bespro-chen. In diesem Abschnitt werden wir diese Techniken zur Berechnungder charakteristischen Größe einer Textur nutzen, indem wir zuerst ei-ne gerichtete pyramidale Zerlegung [96] als Bandpassfilter einsetzen unddann Hilbertfilter verwenden.

In dem Stoffstück in Abb. 15.5a sind in bestimmten Bereichen hori-zontal zueinander verlaufende Streifen zu erkennen. Dieses Bild wirdzuerst bandpassgefiltert unter Verwendung der Ebenen eins und zweider vertikalen Komponente einer gerichteten pyramidalen Zerlegung desBildes (Abb. 15.5b). Abbildung 15.5c zeigt die Näherung der lokalenWellenzahl (Komponente in vertikaler Richtung). Die Bereiche, in de-nen die Amplitude der zugehörigen Struktur nicht deutlich höher ist alsder Rauschpegel, sind ausgeblendet (Abb. 15.5d). In allen Bereichen mithorizontalen Streifen konnte eine lokale Wellenzahl berechnet werden.


a b

c d

e

0

500

1000

1500

2000

2500

3000

0 0.05 0.1 0.15 0.2

Abbildung 15.5: Bestimmung der charakteristischen Größen eines Stoffmus-ters durch Berechnung der lokalen Wellenzahl: a Originalmuster, b gefiltert miteinem gerichteten Bandpass, der die Ebenen eins und zwei der vertikalen Kom-ponente einer gerichteten pyramidalen Zerlegung verwendet, c Schätzung derlokalen Wellenzahl (alle Strukturen unterhalb einer bestimmten Grenze werdenauf Schwarz abgebildet), d Amplitude der lokalen Wellenzahl und e Histogrammder lokalen Wellenzahlverteilung (Einheit: Anzahl der Perioden pro Pixel).

Das Histogramm in Abb. 15.5e zeigt, dass die häufigste lokale Wellen-zahl etwa 0,133 beträgt. Sie entspricht einer Struktur, die etwa 7,5 malpro Wellenlänge abgetastet wird. Beachtenswert ist die lang ausgezoge-ne Verteilung zu kleinen Wellenzahlen hin. Die Textur muss also einezweite, größere Struktur enthalten. Dies ist tatsächlich der Fall mit denschmalen diagonalen Streifen.

464 15 Textur

a b

c d

e

0

500

1000

1500

2000

2500

30003500

0 0.05 0.1 0.15 0.2

Abbildung 15.6: Wie Abb. 15.5, jedoch auf eine Holzmaserung angewendet.

Abbildung 15.6 zeigt die gleiche Analyse für eine Holzstruktur. Dies-mal ist das Muster mehr zufällig. Trotzdem ist es möglich, die lokaleWellenzahl zu bestimmen. Es ist wichtig, die Bereiche auszublenden, indenen das bandpassgefilterte Bild keine wesentlichen Amplituden auf-weist. Wird diese Maskierung nicht durchgeführt, ist die Schätzung derlokalen Wellenzahl erheblich gestört. Mit der Maskierung erhalten wir ei-ne enge Verteilung der lokalen Wellenzahl mit einem Maximum bei einerWellenzahl von 0,085.


a b

c d

Abbildung 15.7: Anwendung des Varianzoperators auf die Ebenen 0 bis 3 derLaplacepyramide des Bildes aus Abb. 15.1f.

15.3.3 Pyramidale Texturanalyse

Die Laplacepyramide stellt eine Alternative zum lokalen Wellenzahlope-rator dar, da sie eine Bandpasszerlegung eines Bildes durchführt. DieseZerlegung berechnet nicht direkt eine lokale Wellenzahl, aber wir erhal-ten eine Reihe von Bildern, welche die Textur auf unterschiedlichen Ska-len des Musters zeigen.

Der Varianzoperator nimmt mit einer Laplacepyramide eine sehr ein-fache Form an, da der mittlere Grauwert — mit Ausnahme der geringstenAuflösungsstufe — null ist:

V = B(L(p) · L(p)). (15.6)

Abbildung 15.7 zeigt, wie die unterschiedlichen Texturen des Bildesaus Abb. 15.1f in unterschiedlichen Ebenen der Laplacepyramide erschei-nen. Bei den feinsten Auflösungen in den Ebenen null und eins der Pyra-mide wird die Varianz durch die Textur selbst dominiert. So erscheint inAbb. 15.7a und b die Varianz um die punktförmigen Stiche in einem derbeiden Muster besonders ausgeprägt. In der zweiten Ebene der Laplace-pyramide (Abb. 15.7c) sind die Stiche durch Glättung verschwunden; die

466 15 Textur

Varianz wird klein in diesem Muster, während sie in Bereichen mit größe-ren vertikal und diagonal verlaufenden Stichen immer noch signifikantist. Die dritte Ebene schließlich (Abb. 15.7d) ist zu grob für beide Musterund wird von den Kanten zwischen den Bereichen der beiden Muster, dieunterschiedliche mittlere Grauwerte aufweisen, dominiert.

Die Laplacepyramide eignet sich sehr gut für die Analyse hierarchischorganisierter Texturen, die in unterschiedlichen Vergrößerungen ver-schiedene Charakteristika zeigen, so zum Beispiel die in Abschn. 15.1besprochene Gardine. Auf diese Weise können wir solche Operatorenwie die lokale Varianz und die lokale Orientierung in jeder Ebene derPyramide anwenden. Die gleichzeitige Anwendung der Varianz und derlokalen Orientierung in verschiedenen Skalen liefert viele Eigenschaften,die es ermöglichen, selbst komplexe hierarchisch organisierte Muster zuunterscheiden. Zu beachten ist, dass die Anwendung dieser Operationenauf alle Ebenen der Pyramide bei 2D-Bildern die Anzahl der Berechnun-gen nur um den Faktor 4/3 erhöht.


15.1: Statistische Parameter zur Texturanalyse

Interaktive Demonstration statistischer Parameter zur Texturanalyse(dip6ex15.01)

15.2: Lokale Orientierung zur Texturanalyse

Interaktive Demonstration der Texturanalyse durch Orientierungsanalysemit dem Strukturtensor (dip6ex15.02)

15.3: Texturanalyse auf Pyramiden

Interaktive Demonstration der Texturanalyse mit einem Multiskalenansatzauf Pyramiden; Bestimmung der lokalen Wellenzahl und lokaler Strukturei-genschaften (dip6ex15.03)

15.4: ∗∗Merkmale für die Texturanalyse

Durch welche Merkmale kann man Texturen charakterisieren? Geben Sieeine möglichst systematische Aufstellung der Merkmale an und orientierenSie sich bei der Aufstellung der Liste nicht an den Bildverarbeitungsopera-tionen, die notwendig sind zur Bestimmung der entsprechenden Parameter,sondern an den Eigenschaften der Texturen, indem Sie von einfachen Mus-tern (konstanter Grauwert) zu immer komplizierteren Mustern übergehen.Bitte nicht nur aufzählen, sondern auch Ihre Vorgehensweise kurz erläu-tern.

15.5: ∗∗Strukturtensor für die Texturanalyse

Welche Arten von Texturen können mit dem Strukturtensor unterschiedenwerden und welche nicht?


(Hinweis: Die Nichtunterscheidbarkeit kann man am besten angeben, indem man Beispiele von Texturen angibt, die zu dem gleichen Strukturtensorführen.)

15.6: ∗∗Invariante Texturmerkmale

Zeigen Sie, welcher der angegeben Texturoperatoren invariant gegenübereiner Skalenänderung, einer Richtungsänderung und einer Helligkeitsände-rung im Bild ist:

1. Varianzoperator: (G− BG)22. Lokales Grauwerthistogramm berechnet in einer lokalen Umgebung

3. Lokales Histogramm der Ableitung in x-Richtung

4. Betrag des Grauwertgradienten

5. Winkel des Orientierungsvektors

6. Kohärenz der lokalen Orientierung

7. Varianz des Winkels des Orientierungsvektors

Gibt es eine Möglichkeit, die Merkmale, die von der Bildhelligkeit abhängendagegen invariant zu machen? Wenn ja, wie?


Die Lehrbücher von Jain [108, Abschn. 9.11], Pratt [175, Kapitel 17], Abmayr[1, Abschn. 7.3] behandeln auch die Texturanalyse. Weitere Referenzen für dieTexturanalyse sind die Monografie von Rao [180], das Handbuch von Jähne et al.[104, Vol. 2, Chapter 12] und die Workshop Proceedings herausgegeben vonBurkhardt [22].

Teil IV

Bildanalyse

16 Segmentierung

16.1 Einleitung

Alle bisher besprochenen Bildverarbeitungsoperationen dienten letzt-lich einer besseren Erkennung von Objekten. Dazu wurden geeignetelokale Objektmerkmale extrahiert, die eine Unterscheidung von anderenObjekten und vom Hintergrund erlauben. Im nächsten Schritt entschei-den wir nun für jeden einzelnen Bildpunkt, ob er zu einem Objekt gehörtoder nicht. Dabei entsteht ein Binärbild , und die Operation wird als Seg-mentierung bezeichnet. Gehört ein Bildpunkt zu einem Objekt, hat erden Wert eins, sonst null. Die Segmentierung steht an der Grenze zwi-schen der ersten Stufe der Bildverarbeitung und der Bildanalyse. Nachder Segmentierung wissen wir, welcher Bildpunkt zu welchem Objektgehört. Damit ist ein Bild in Regionen eingeteilt, und wir kennen dieDiskontinuitäten als die Ränder der Regionen. Nach der Segmentierungkönnen wir auch die Form der Objekte mit den in Kapitel 19 diskutiertenOperationen analysieren.

In diesem Kapitel besprechen wir sowohl elementare Segmentierungs-verfahren als auch fortgeschrittene mathematische Methoden zur Eintei-lung eines Bildes in Regionen und Ergänzung unvollständiger Daten. Beiden elementaren Segmentierungsverfahren können wir von grundlegendverschiedenen Konzepten ausgehen. Pixelbasierte Methoden verwendennur die Grauwerte der einzelnen Pixel (Abschn. 16.2). Regionenorien-tierte Verfahren (Abschn. 16.4) untersuchen Grauwerte in zusammen-hängenden Regionen, und kantenbasierte Methoden (Abschn. 16.3) er-kennen Kanten und versuchen ihnen zu folgen. Allen drei Verfahrenist gemeinsam, dass sie nur auf lokaler Information basieren und diesesogar nur teilweise nutzen. Pixelbasierte Methoden beachten die lokaleNachbarschaft überhaupt nicht, sondern nur einzelne Bildpunkte. Kan-tenbasierte Techniken achten nur auf Diskontinuitäten, und regionen-basierte Verfahren analysieren lediglich homogene Bereiche. Wenn wirdie geometrische Form eines Objekts kennen, bietet sich die modellba-sierte Segmentierung an (Abschn. 16.5). Wir diskutieren einen Ansatzfür die Houghtransformation, der direkt von Grauwertbildern ausgeht(Abschn. 16.5.3).


472 16 Segmentierung

ab

0 50 100 150 200 2500

2000

4000

6000

8000

10000

12000

14000

0 50 100 150 200 2500

2000

4000

6000

8000

10000

12000

14000

g

c d e

Abbildung 16.1: Segmentierung mit einem globalen Schwellwert: a Originalbild;b Histogramm; c bis e oberer rechter Sektor von a, segmentiert mit globalenSchwellwerten von 110, 147 bzw. 185.

16.2 Pixelorientierte Segmentierung

Die punktorientierte oder pixelbasierte Segmentierung stellt vom Ansatzher die einfachste Methode dar. Es spricht auch einiges dafür, zuerst dieeinfachste Methode zu probieren. Ehe wir eine komplizierte Segmentie-rungsprozedur anwenden, sollten wir die ganze Palette bisher beschrie-bener Techniken nutzen, um solche Merkmale zu extrahieren, die einObjekt eindeutig charakterisieren. Es ist immer besser, ein Problem anseinen Wurzeln anzugehen. Wenn ein Bild beispielsweise ungleichmäßigbeleuchtet ist, sollte als Erstes die Beleuchtung optimiert werden. Ist diesnicht möglich, ist der nächste Schritt die Identifizierung der Ursache fürdie fehlerhafte Beleuchtung und die Verwendung entsprechender Bild-verarbeitungstechniken zur Korrektur. Eine mögliche Technik haben wirin Abschn. 10.3.2 diskutiert.

Haben wir ein gutes Merkmal zur Separierung eines Objekts vom Hin-tergrund gefunden, zeigt das Histogramm der Grauwerte — oder allge-meiner der Merkmalswerte — eine bimodale Verteilung mit zwei getrenn-ten Maxima wie in Abb. 16.1b. Wir können nicht erwarten, dass die Wahr-scheinlichkeit für Grauwerte zwischen den beiden Peaks null ist. Selbstwenn scharfe Objektkanten vorliegen, wird es wegen der endlichen Breiteder Punktantwort des optischen Systems und Bildsensors (Abschn. 7.6.1und 9.2.1) dazwischen liegende Grauwerte geben. Je kleiner die Objekte

16.2 Pixelorientierte Segmentierung 473

a

b

0 50 100 150 200 250 300 3500

50

100

150

200

250

y

c d e

Abbildung 16.2: Segmentierung eines Bildes mit ungleichmäßigem Hintergrund:a Originalbild; b Profil der Spalte 55 (markiert in a); c bis e die ersten 64 Spaltenaus a nach Segmentierung mit einem globalen Schwellwert von 90, 120 bzw.150.

sind, desto mehr Fläche in dem Bild wird von den Randbereichen der Ob-jekte eingenommen. Diese füllen dann den Grauwertebereich zwischenden Werten für die Objekte und den Hintergrund auf (Abb. 16.1b).

Wie können wir unter diesen Umständen eine optimale Schwelle fürdie Segmentierung finden? In dem in Abb. 16.1 gezeigten Beispiel er-scheint dies einfach, da Hintergrund und Objekte relativ gleichmäßigeGrauwerte aufweisen. Wir erhalten also eine gute Segmentierung füreinen großen Bereich von Grenzwerten. Erst bei einem niedrigen Grenz-wert von 110 treten Löcher in den Objekten auf (Abb. 16.1c), währendbei einem hohen Wert von 185 zu nahe am Grauwert des Hintergrundeseinige Hintergrundpunkte als Objektbildpunkte segmentiert werden.

Bei genauem Hinsehen fällt in Abb. 16.1 jedoch auf, dass sich dieGröße der segmentierten Objekte mit dem Schwellwert deutlich ändert.Ein korrekt gewählter Schwellwert ist also kritisch für eine fehlerfreieBestimmung der geometrischen Merkmale eines Objekts. Dies ist ohneWissen über den Typ der Kante zwischen Objekt und Hintergrund nicht


ab

0 100 200 300 400 500 6000

50

100

150

200

250

x

c d

Abbildung 16.3: Segmentierung eines Bildes mit ungleichmäßiger Hintergrund-beleuchtung: a Originalbild (Histogramm dazu siehe Abb. 10.10b); b Profil derZeile 186 (markiert in a); c Segmentierung des Bildes in a mit einem optimalenglobalen Schwellwert; d Segmentierungsergebnis, nachdem das Bild zuerst aufden ungleichmäßigen Hintergrund korrigiert wurde (Abb. 10.10c).

möglich. Im Falle einer symmetrischen Kante entspricht der korrekteSchwellwert dem mittleren Grauwert aus Hintergrund- und Objektbild-punkten.

Dieses einfache Verfahren versagt jedoch, sobald der Hintergrundnicht homogen ist oder Objekte mit unterschiedlichen Grauwerten vor-kommen Abb. 16.2 und 16.3. In Abb. 16.2b sind die segmentierten Buch-staben in dem oberen helleren Bildteil dünner als im unteren. Eine solcheGrößenverfälschung kann für manche Aufgabenstellungen, wie z. B. eineZiffernerkennung, toleriert werden. Sie stellt jedoch eine schwerwiegen-de Verfälschung dar, wenn die Größe und Form von Objekten vermessenwerden soll.

In weniger günstigen Fällen kann es unmöglich sein, einen globalenGrenzwert zu finden, der alle Objekte, sogar solche, die sich klar vomHintergrund abheben, segmentiert. Abbildung 16.3a zeigt ein Bild mitzwei unterschiedlich gefärbten kreisförmigen Objekten. Der Grauwert

16.3 Kantenbasierte Segmentierung 475

der helleren Kreise liegt nahe am Wert des Hintergrundes. Dementspre-chend weist auch das Histogramm (Abb. 10.10b) keine separaten Maximafür den Hintergrund und die hellen Kreise auf. Wegen der Überlappungder Grauwertverteilungen lassen sich selbst mit einem optimalen globa-len Schwellwert einige der hellen Objekte in der linken Bildhälfte nichtkorrekt segmentieren. Am rechten Bildrand wird sogar ein Teil des Hin-tergrundes als Objekt erkannt. Wenn wir allerdings zunächst die un-gleichmäßige Beleuchtung korrigieren (Abb. 10.10), erreichen wir eineperfekte Segmentierung (Abb. 16.3d). Wir haben allerdings immer nochdas Problem, dass die Bereiche der dunklen Kreise zu groß sind, da derGrenzwert zu nahe am Hintergrundgrauwert liegt.

16.3 Kantenbasierte Segmentierung

16.3.1 Prinzip

In Abschn. 16.2 wurde festgestellt, dass die punktorientierte Segmentie-rung selbst bei perfekter Beleuchtung zu einem Fehler der Größe seg-mentierter Objekte führt, wenn die Objekte Variationen in ihren Grau-werten zeigen (Abb. 16.2 und 16.3). Bei einem dunklen Hintergrund wer-den weniger helle Objekte immer zu klein, die hellsten dagegen immer zugroß segmentiert. Die Ursache für diesen Fehler liegt darin, dass sich dieGrauwerte an den Objektkanten nur allmählich vom Hintergrund zumObjektwert ändern. Die korrekte Größe ergibt sich nur, wenn wir denMittelwert der Objekt- und der Hintergrundgrauwerte als Schwellwertverwenden. Allerdings ist dieses Verfahren nur dann möglich, wenn alleObjekte denselben Grauwert aufweisen oder wenn wir für jedes Objekteinen eigenen Schwellwert festlegen.

Mit einer kantenbasierten Segmentierung lässt sich der Fehler bezüg-lich der Größe der segmentierten Objekte weitgehend vermeiden ohneVerwendung komplizierter regionenorientierter Schwellwertverfahren.Die kantenorientierte Segmentierung gründet in der Tatsache, dass diePosition einer Kante durch den Maximalwert der Ableitung erster Ord-nung oder einen Nulldurchgang der Ableitung zweiter Ordnung charak-terisiert ist (Abb. 12.1). Wir müssen also lediglich nach einem lokalenMaximum des Betrags des Grauwertgradienten suchen und dann diesesMaximum entlang der Objektkante verfolgen.

16.3.2 Fehler durch ungleichmäßige Beleuchtung

In diesem Abschnitt untersuchen wir die Verfälschungen verschiedenerSegmentierungstechniken, die durch eine inhomogene Hintergrundhel-ligkeit und variierende Objekthelligkeit induziert werden. Wir nehmenan, dass die Objektkante adäquat durch eine Stufenkante modelliertwird, die durch eine symmetrische Punktantwort h(x) verschmiert wird.


Der Einfachheit halber beschränken wir uns auf den eindimensionalenFall. Dann können wir die Helligkeit eines Objekts im Bild mit einer Kanteim Ursprung schreiben als

g(x) = g0

x∫−∞h(x)dx mit

∞∫−∞h(x)dx = 1. (16.1)

Wir nehmen weiterhin an, dass sich die Hintergrundhelligkeit durch einequadratische Variation der Form

b(x) = b0 + b1x + b2x2 (16.2)

beschreiben lässt. Dann ergibt sich die totale Helligkeit im Bild zu

g(x) = g0

x∫−∞h(x)dx + b0 + b1x + b2x2. (16.3)

Die erste und zweite Ableitung sind

gx(x) = g0h(x)+ b1 + 2b2x,

gxx(x) = g0hx(x)+ 2b2.(16.4)

Um das Maximum können wir die Punktantwort h(x) durch eine Parabelapproximieren: h(x) ≈ h0 − h2x2. Mit dieser Näherung erhalten wir

gx(x) ≈ g0h0 − g0h2x2 + b1 + 2b2x,

gxx(x) ≈ −2g0h2x + 2b2.(16.5)

Die Kantenposition ergibt sich als Nulldurchgang der zweiten Ableitung.Daher ist die Verschiebung der Kantenlage, xb, aus (16.5) gegeben durch

xb ≈ b2

g0h2. (16.6)

Aus dieser Gleichung können wir folgende Schlussfolgerungen ziehen:

1. Kantenbasierte Segmentierung liefert selbst dann eine korrekte Kan-tenlage, wenn die Hintergrundhelligkeit linear variiert.

2. Im Gegensatz zur intensitätsbasierten Segmentierung (Abschn. 16.2)hängt die kantenbasierte Segmentierung nicht von der Intensität g0

der Kante ab.

3. Kantenbasierte Segmentierung ergibt nur dann eine falsche Kanten-position, wenn sich die Hintergrundhelligkeit nichtlinear mit der Po-sition ändert. Dann ist der Fehler in der Kantenposition gegeben alsdas Verhältnis der Krümmung der Hintergrundhelligkeit zur maxi-malen Krümmung der Punktantwort. Das bedeutet, dass der Fehler

16.4 Regionenorientierte Verfahren 477

wächst, je verschmierter die Kanten sind. Der Fehler ist auch um-gekehrt proportional zu der Objekthelligkeit. Damit sind vor allemObjekte mit schwachem Kontrast anfällig gegen systematische Fehlerin der Bestimmung der Kantenposition.

16.3.3 Kantenverfolgung

Kantenbasierte Segmentierung ist eine sequenzielle Methode. Im Gegen-satz zur punktorientierten und den meisten regionenorientierten Seg-mentierungsverfahren kann sie nicht parallel an allen Bildpunkten gleich-zeitig durchgeführt werden, sondern der nächste Schritt hängt von denvorangegangenen Schritten ab. Dies läuft typischerweise folgenderma-ßen ab: Ein Bild wird Zeile für Zeile nach Maxima des Betrags des Gra-dienten abgetastet. Wird ein Maximum gefunden, versucht ein Kontur-verfolgungsalgorithmus, dem Maximum des Gradienten um das Objektherum zu folgen, bis der Ausgangspunkt wieder erreicht ist. Dann wirddas nächste Maximum des Gradienten gesucht. Die kantenbasierte Seg-mentierung berücksichtigt wie das regionenorientierte Verfahren, dassein Objekt eine zusammenhängende Region ist.

16.4 Regionenorientierte Verfahren

16.4.1 Grundlagen

Regionenorientierte Verfahren bringen einen neuen Aspekt in den Seg-mentierungsprozess, der den punktorientierten fehlt. Bei diesen wirdein Bildpunkt aufgrund seines Grauwertes dem Objekt zugeordnet, un-abhängig davon, was mit den Nachbarpixeln geschieht. Damit können,losgelöst vom eigentlichen Objekt, einzelne isolierte Punkte oder kleineBereiche entstehen. Das entscheidende Merkmal eines Objekts ist aber,dass es zusammenhängend ist.

In diesem Abschnitt sollen nicht die Standardmethoden wie „split andmerge“ oder Regionenwachstumsverfahren diskutiert werden. Dazu seiauf Rosenfeld und Kak [192] oder Jain [108] verwiesen. Wir befassenuns hier mit einem Verfahren, das versucht, die zentralen Probleme derSegmentierung zu lösen.

Wenn wir bei der Segmentierung nicht vom Originalbild, sondern ei-nem Merkmalsbild ausgehen, repräsentieren die Merkmale nicht eineneinzelnen Bildpunkt, sondern bereits eine kleine Nachbarschaft, derenGröße von der Maskengröße des verwendeten Operators abhängt. Anden Objekträndern jedoch, an denen die Maske Bildpunkte von Objektund Hintergrund einschließt, können in anderen Bereichen verwendeteMerkmale nicht berechnet werden. Korrekt wäre ein Verfahren, mit demdie Maskengröße an den Objekträndern entweder auf die Punkte des Ob-jekts oder des Hintergrundes beschränkt wird. Wie lässt sich dies jedoch


erreichen, wenn wir Objekt und Hintergrund erst nach Berechnung derMerkmale unterscheiden können?

Dieses Problem lässt sich nicht in einem Schritt lösen, sondern nurüber ein iteratives Verfahren, bei dem Merkmalsberechnung und Seg-mentierung abwechselnd aufeinander folgen. Dies funktioniert im Prin-zip so: Im ersten Schritt werden die Merkmale ohne Berücksichtigungder Objektränder berechnet. Dann wird eine vorläufige Segmentierungdurchgeführt. Anschließend werden die Merkmale unter Nutzung dervorläufigen Segmentierung erneut berechnet, indem die Maske der Nach-barschaftsoperationen an den Objekträndern entweder auf Objekt- oderHintergrundpixel beschränkt wird, je nach Lage des zentralen Pixels inder Maske. Merkmalsberechnung und Segmentierung werden wieder-holt, bis das Verfahren gegen ein stabiles Ergebnis konvergiert.

16.4.2 Pyramid-Linking

Das von Burt [24] vorgeschlagene pyramid linking ist ein effektiver Algo-rithmus der im vorigen Abschnitt beschriebenen Art. Wir erläutern ihnan einem eindimensionalen Beispiel mit einer verrauschten Stufenkante(Abb. 16.4). In diesem Fall ist das berechnete Merkmal einfach der mitt-lere Grauwert. Der Algorithmus besteht aus den folgenden Schritten:

1. Berechnung der Gaußpyramide. Wie in Abb. 16.4a gezeigt, werden dieGrauwerte von vier benachbarten Pixeln gemittelt und ergeben einenBildpunkt auf der nächsthöheren Pyramidenebene. Dies entsprichteiner Glättungsoperation mit einem Rechteckfilter.

2. Segmentierung durch Pyramid-Linking. Da jeder Bildpunkt einen Bei-trag zu zwei Bildpunkten auf der nächsthöheren Ebene leistet, ist nunzu entscheiden, zu welchem er wahrscheinlich gehört. Die Entschei-dung fällt einfach durch Vergleich der Grauwerte und Wahl des amnächsten liegenden. Diese Verknüpfung wird in Abb. 16.4b durch ei-ne Kante, die die beiden Pixel verbindet, angezeigt. Das Verfahrenwird für alle Ebenen der Pyramide durchgeführt. Im Ergebnis bildendie Verbindungen zwischen den Pyramidenebenen eine neue Daten-struktur. Ausgehend von der obersten Pyramidenebene, ist ein Bild-punkt mit mehreren in der nächsttieferen Ebene verbunden. Solcheine Datenstruktur wird in der Informatik als Baum bezeichnet. DieVerbindungen sind die Kanten, die Datenpunkte, die die Grauwer-te der Bildpunkte darstellen, die Knoten. Der Knoten in der oberstenEbene wird als Wurzel des Baumes bezeichnet und die Endknoten, diekeine weiteren Verbindungen haben, als Blätter . Ein Knoten, der miteinem anderen in einer tieferen Ebene verbunden ist, wird Vaterkno-ten genannt. Dementsprechend wird der Knoten in der niedrigerenEbene, der mit einem in einer höheren Ebene verknüpft ist, Sohnkno-ten genannt.

16.4 Regionenorientierte Verfahren 479

50 46 38 34 38 54 50 58 58 50 58 66 50 58 46 54

45 39 44 55 56 56 55 53

43 49 56 55

49 53

51

G(0)

G(1)

G(2 )

G(3)

G(4)

50 46 38 34 38 54 50 58 58 50 58 66 50 58 46 54

45 39 44 55 56 56 55 53

43 49 56 55

49 53

51

G(0)

G(1)

G(2 )

G(3)

G(4)

50 46 38 34 38 54 50 58 58 50 58 66 50 58 46 54

48 37 0 52 55 62 54 50

41 0 56 52

41 55

51

G(0)

G(1)

G(2 )

G(3)

G(4)

50 46 38 34 38 54 50 58 58 50 58 66 50 58 46 54

48 36 38 54 54 62 54 50

42 38 56 52

41 55

51

G(0)

G(1)

G(2 )

G(3)

G(4)

(41) (41) (55) (55)

(41) (41) (41)

(41) (41) (55) (55)

(55) (55) (55) (55) (55)

(55) (55) (55) (55)(55)(55)(55)(55) (55)(41) (41)(41)

a

b

c

d

Wurzel

KnotenKante

Blatt

Abbildung 16.4: Pyramid-Linking-Segmentierungsverfahren mit einer eindi-mensionalen verrauschten Kante: a Berechnung der Gaußpyramide; b Verbin-dung jedes Knotens mit einem Vaterknoten; c erneute Berechnung der mittlerenGrauwerte; d Endergebnis nach mehreren Iterationen der Schritte b und c.


a b

c d

Abbildung 16.5: Stark verrauschte Bilder a eines Panzers und c eines Blutkör-perchens, segmentiert mit dem Pyramid-Linking-Algorithmus in b zwei und ddrei Regionen; nach Burt [24].

3. Mittelung miteinander verbundener Bildpunkte. In diesem Schritt wirddie Baumstruktur verwendet, um den mittleren Grauwert neu zu be-rechnen, indem diesmal nur die verbundenen Bildpunkte berücksich-tigt werden (Abb. 16.4c). Der neue Grauwert jedes Vaterknotens wirdalso aus dem Mittelwert aller seiner Sohnknoten berechnet. DiesesVerfahren beginnt in der untersten Ebene und wird durch alle Ebe-nen der Pyramide bis zur Wurzel fortgesetzt.

Die letzten beiden Schritte werden iterativ bis zu einem stabilen Er-gebnis wiederholt (Abb. 16.4d). Eine Analyse des Verbindungsbaumszeigt das Ergebnis der Segmentierungsprozedur. In Abb. 16.4d erkennenwir zwei Teilbäume, die ihre Wurzeln in der dritten Ebene der Pyrami-de haben. In der nächstniedrigeren Ebene entspringen vier Teilbäume.Die Grauwertunterschiede in dieser Ebene sind jedoch deutlich kleiner.Wir können also schließen, dass die Grauwertstruktur in zwei Regionengeteilt wird. Das Endergebnis der Segmentierung ergibt sich durch Über-tragung des Grauwertes an den Wurzeln der beiden Teilbäume auf diemit ihnen verbundenen Knoten in der untersten Ebene. Diese Werte sindin Abb. 16.4d in Klammern angegeben.

In Abb. 16.5 ist die Anwendung des Pyramid-Linking auf zweidimen-sionale Bilder gezeigt. Beide Beispiele machen deutlich, dass selbst sehr

16.5 Modellbasierte Segmentierung 481

verrauschte Bilder mit dieser Methode erfolgreich segmentiert werdenkönnen.

Das Pyramid-Linking verbindet Segmentierung und die effiziente Be-rechnung der Mittelwerte von Merkmalen mithilfe eines Baumes auf ei-ner Pyramide. Der Vorteil ist, dass die Anzahl der Segmentierungsebe-nen nicht vorher bekannt sein muss, sondern sich automatisch aus derBaumstruktur ergibt. Weitergehende Details zum Pyramid-Linking sindbei Burt et al. [26] und Pietikäinen und Rosenfeld [171] zu finden.

16.5 Modellbasierte Segmentierung

16.5.1 Einleitung

Alle bisher besprochenen Segmentierungsverfahren verwenden lediglichlokale Information. In Abschn. 1.6 (Abb. 1.16) ging es um die bemerkens-werte Eigenschaft des menschlichen Auges, Objekte zu erkennen, selbstwenn sie nicht vollständig dargestellt sind. Es ist einleuchtend, dass In-formationen, wie sie lokale Nachbarschaftsoperatoren liefern, für dieseAufgabe nicht ausreichen. Notwendig ist spezifisches Wissen über diegeometrische Form der Objekte, welche mit der lokalen Information ver-glichen werden muss.

Diese Gedanken führen uns zur modellbasierten Segmentierung, dieangewandt werden kann, wenn die exakte Form der im Bild enthaltenenObjekte bekannt ist. Wir betrachten hier nur den einfachen Fall vongeraden Objektkanten.

16.5.2 Parameterraum, Houghtransformation

Das Verfahren, das wir hier diskutieren, erkennt gerade Kanten, selbstwenn sie durch Rauschen unterbrochen oder nur teilweise sichtbar sind.Um das Verfahren zu erläutern, gehen wir zunächst einmal von einemsegmentierten Bild aus, welches gerade Kantenstücke dieses Typs ent-hält. Aus der Tatsache, dass ein solcher Kantenpunkt auf einer Geradenliegt, ergeben sich aussagekräftige Bedingungen, die verwendet werdenkönnen, um die Lage der Kante zu bestimmen. Alle Punkte

[xn,yn

]Teiner Geraden müssen die folgende Bedingung erfüllen:

yn = a0 + a1xn, (16.7)

wobei a0 und a1 Achsenabschnitt und Steigung der Geraden sind. Wirkönnen (16.7) auch als Bedingung für die Parameter a0 und a1 lesen:

a1 = ynxn

− 1xna0. (16.8)


a10

5

0

-5-6 -4 -2 0 2 4 6

a0

a1

x

y

b6

4

2

0

-2

-40 1 2 3 4

a1

a0

ay

x xa

n

n n1 0

1= −

Abbildung 16.6: Houghtransformation von Geraden: der Datenraum[x,y

]T(a) wird auf den Modellraum [a0, a1]T (b) abgebildet.

Dies ist wieder die Gleichung für eine Gerade in einem neuen Raum,der von den Parametern a0 und a1 aufgespannt wird. In diesem Raumhat die Gerade den Offset yn/xn und eine Steigung von −1/xn.

Mit nur einem Punkt auf einer Kante können wir a0 und a1 nichtmehr länger frei wählen, sondern die beiden Parameter müssen Glei-chung (16.8) erfüllen.

Der von den Modellparametern a0 und a1 aufgespannte Raum wirdals Modellraum bezeichnet. Jeder Punkt reduziert den Modellraum aufeine Gerade. Wir können also für jeden Punkt im Datenraum eine Geradeim Modellraum zeichnen (Abb. 16.6). Liegen alle Punkte im Datenraumauf einem geraden Kantenstück, treffen sich alle zugehörigen Geradenim Modellraum in dem Punkt, der die Parameter a0 und a1 des Kanten-stücks im Datenraum definiert. Da ein Liniensegment viele Punkte ent-hält, erhalten wir eine solide Abschätzung der beiden Linienparameter.Ein Geradenstück im Datenraum wird auf diese Weise auf einen Punktim Modellraum abgebildet. Die Transformation aus dem Datenraum inden Modellraum über eine Modellgleichung wird als Houghtransforma-tion bezeichnet.

Für praktische Anwendungen wird die Geradengleichung (16.7) nichtverwendet, da die Steigung einer Geraden unendlich werden kann unddamit für einen diskreten Modellraum unbrauchbar ist. Eine andere Mög-lichkeit besteht darin, den Steigungswinkel der Geraden und den Ab-stand der Geraden vom Ursprung des Koordinatensystems zu verwen-den. Mit diesen beiden Parametern können wir die Geradengleichung

16.5 Modellbasierte Segmentierung 483

a b

c d

Abbildung 16.7: Orientierungsbasierte schnelle Houghtransformation: a und bungleichmäßig beleuchtete verrauschte Quadrate; c und d Hough-Modellraummit der Entfernung d (horizontale Achse) und dem Winkel θ (vertikale Achse) derGeraden nach (16.9) für a bzw. b.

schreiben als

nx = d oder x cosθ +y sinθ = d, (16.9)

wobei n ein normal zur Geraden stehender Vektor ist und θ der Winkeldieses Vektors zur x-Achse des Bildkoordinatensystems.

Der Nachteil der Houghtransformation für die Liniendetektion ist derhohe Rechenaufwand. Für jeden Bildpunkt ist eine Gerade im Parame-terraum zu berechnen, und jeder Punkt im Modellraum, durch den dieGerade läuft, muss inkrementiert werden.


16.5.3 Orientierungsbasierte schnelle Houghtransformation

Eine signifikante Beschleunigung der Houghtransformation lässt sichdurch Verwendung zusätzlicher Information aus den ersten Schrittender Bildverarbeitung erreichen. Die Analyse der lokalen Nachbarschaf-ten mit der Strukturtensormethode erlaubt nicht nur die Erkennung vonKanten, sondern liefert auch die Steigung der Kanten. Deshalb habenwir zwei Informationen für jeden Bildpunkt, falls er auf einer Kante liegt:die Stelle, durch die die Kante geht, und ihre Orientierung. Damit ist ei-ne Gerade vollständig beschrieben. Entsprechend korrespondiert jederPunkt auf einer Geraden im Bildraum nicht mehr mit einer Geraden —wie in Abschn. 16.5.2 diskutiert —, sondern mit einem einzigen Punktim Parameterraum. Durch die Eins-zu-Eins-Korrespondenz wird die Be-rechnung der Houghtransformation beträchtlich beschleunigt. Für jedenBildpunkt müssen wir einfach einen Punkt zum Parameterraum hinzu-fügen.

Die Anwendung der orientierungsbasierten Houghtransformation aufeine schwierige Segmentierungsaufgabe ist in Abb. 16.7 zu sehen. Abbil-dung 16.7a, b zeigt ungleichmäßig beleuchtete verrauschte Bilder einesQuadrates. Um dessen Kanten zu extrahieren, ist mit der orientierungs-basierten Houghtransformation keine Segmentierung der Kanten erfor-derlich. Wir müssen lediglich die Komponenten des Strukturtensors mitden in Abschn. 13.3.6 beschriebenen Techniken ermitteln. Dann werdenfür jeden Bildpunkt θ und d nach (16.9) berechnet. Als Wichtungsfak-tor für den Beitrag eines Punktes zum Parameterraum verwenden wirdie Länge des Orientierungsvektors. Auf diese Weise werden die Punkteentsprechend dem Zuverlässigkeitsmaß für die lokale Orientierung unddamit der Kantenstärke in den Parameterraum eingetragen.

Im Hough-Parameterraum (Abb. 16.7c und d) tauchen vier Clusterentsprechend den vier Seiten des Quadrats auf. Die Cluster erscheinenin Paaren, da je zwei Seiten zueinander parallel liegen und sich nur durchdie Entfernung zum Bildzentrum unterscheiden. Beachtenswert ist, wiegut die Technik selbst bei hohem Rauschpegel funktioniert.


16.1: Einfache Segmentierungsverfahren

Interaktive Demonstration einfacher Segmentierungsverfahren(dip6ex16.01)

16.2: Houghtransformation

Interaktive Demonstration der Houghtransformation(dip6ex16.02)


16.3: ∗Segmentierung bei konstantem Hintergrund

Bei allen Segmentierungsverfahren stellt sich die Frage nach systematischenFehlern. Ein Bild enthalte Objekte mit unterschiedlicher, aber homogenerHelligkeit bei konstantem Hintergrund h. Für die Rechnungen reicht es,zwei Objekte mit den unterschiedlichen Helligkeiten g1 und g2 zu betrach-ten. Die Objekte haben eine Länge l > 5 und sind mit einer rechteckigenPunktantwort mit 5 Pixel Breite bei der Bildaufnahme verschmiert worden.Dem Bildsignal ist ein mittelwertfreies weißes Rauschen mit der Varianz σ 2

überlagert.Drei Segmentierungsverfahren stehen zur Auswahl:

P Pixelbasierte Segmentierung mit konstanter globaler Schwelle t.G Kantenorientierte Segmentierung auf Basis von Ableitungsfiltern erster

Ordnung. Die Kantenposition ergibt sich aus dem Maximum des Betragsdes Gradientenoperators.

L Kantenorientierte Segmentierung auf Basis von Ableitungsfiltern zweiterOrdnung. Die Kantenposition ergibt sich als Nulldurchgang des Laplace-operators.

Beantworten Sie folgende Fragen für diese drei Segmentierungsverfahren:

1. Wie groß muss der Helligkeitsunterschied zwischen Objekt und Hinter-grund sein, damit das Objekt statistisch zuverlässig vom Hintergrundunterschieden werden kann? Der Differenz zwischen den Signalen undden gewählten Schwellen soll dabei mindestens dreimal der Standardab-weichung σ des Rauschens entsprechen.

2. Kommt es bei einem der Verfahren zu Verfälschung der Objektgröße?Wenn ja, berechnen Sie diese und diskutieren Sie vergleichend die einzel-nen Verfahren.

16.4: ∗Segmentierung bei variierendem Hintergrund

Beantworten Sie die gleichen Fragen wie in Aufgabe 16.3 für folgendes Bild-modell: Ein Objekt mit der konstanten Helligkeit g vor einem inhomogenenHintergrund mit quadratischer Hintergrundfunktion:

h = h0 + h1x + h2x2

(Hinweis: Es ist ausreichend, das Problem eindimensional zu diskutieren.)


Pitas [172, Kapitel 6] und Umbaugh [224, Abschn. 2.4]behandeln eine Reihe vonAlgorithmen zur Segmentierung. Forsyth und Ponce [62, Kapitel 14] beschäfti-gen sich mit Segmentierung durch Clusterverfahren.

17 Regularisierung und Modellierung

17.1 Einführung

17.1.1 Vereinigung lokaler Analyse mit globalem Wissen

Das in Abschn. 16.5 besprochene modellbasierte Segmentierungsverfah-ren ist ein erster Schritt, globale Information bei der Erkennung von Ob-jekten zu berücksichtigen. Es ist jedoch wenig flexibel, da eine exakteParametrisierung der zu detektierenden Objekte erforderlich ist. Für diemeisten realen Objekte ist es jedoch nicht möglich, solch ein explizitesModell aufzustellen.

In diesem Kapitel diskutieren wir daher einen sehr allgemeinen An-satz zur Verknüpfung lokaler mit globaler Information, der kein expli-zites Modell des Objekts erfordert, sondern flexible Bedingungen zurBerücksichtigung globaler Information verwendet. Die zugrunde liegen-de Idee ist wie folgt: Auf der einen Seite sollte ein Modell den im Bildenthaltenen Daten so weit wie möglich entsprechen. Diese Forderungwird Ähnlichkeitsbedingung genannt. Auf der anderen Seite sollten diemodellierten Daten einige globale Bedingungen erfüllen. Im einfachstenFall könnte dies eine Glattheitsbedingung sein.

Im Allgemeinen wird es nicht möglich sein, exakte Lösungen zu be-kommen. Da reale Bilddaten immer ein gewisses Maß an Unsicherheitenthalten, hat auch eine exakte Anpassung an die Daten keinen Sinn. Wirerwarten vielmehr eine gewisse Abweichung der berechneten Modellwer-te von den gemessenen Bilddaten, die wir mit der erwarteten Standard-abweichung des Rauschens der Daten vergleichen können.

Daher kommen wir zu einem globalen Optimierungsproblem. Die bei-den besprochenen Bedingungen müssen in geeigneter Weise miteinanderkombiniert werden, um eine Lösung mit einem minimalen Fehler bei ei-ner vorgegebenen Fehlernorm zu finden.

Dieser Ansatz kann auf eine Fülle von Bildverarbeitungsaufgaben an-gewendet werden. Darunter sind so verschiedene Aufgaben wie

• Restaurierung von Bildern, die bei der Bildgewinnung Störungen aus-gesetzt wurden (Kapitel 7),

• Berechnung von Tiefenbildern aus Stereobildern oder irgendeinemanderen auf Triangulation basierenden Sensor zur Tiefenbildgewin-nung (Kapitel 8.2),


488 17 Regularisierung und Modellierung

• Berechnung von Tiefenbildern mit Methoden wie Gestalt aus Schattie-rung oder photometrischem Stereo (Kapitel 8.5),

• Rekonstruktion von Bildern aus 3D-Bildaufnahmetechniken wie derTomografie (Abschn. 8.6), die keine direkten Bilder liefern,

• Berechnung von Bewegung oder Verschiebungsvektorfeldern aus Bild-sequenzen (Kapitel 14),

• Aufteilung eines Bildes in Regionen (Segmentierung, Kapitel 16) und

• Berechnung von Objektgrenzen (aktive Konturen oder snakes).

Die meisten der berechneten Parameter sind skalare Felder. Manchevon ihnen, wie Bewegungsfelder oder Oberflächennormalen, sind jedochVektorfelder. Daher werden wir die hier besprochenen Methoden aufVektorfelder ausdehnen.

Aber ehe wir damit beginnen, ist es sinnvoll, sich einige generelle Ge-danken über den Zweck und die Grenzen der Modellierung zu machen(Abschn. 17.1.2). Nachdem wir den generellen Ansatz der auf Variati-onsmethoden basierenden Bildmodellierung in Abschn. 17.2 besprochenhaben, wenden wir uns in Abschn. 17.2.5 der wichtigen Frage zu, wie Dis-kontinuitäten bei globalen Glattheitsbedingungen adäquat berücksich-tigt werden können. Der Variationsansatz führt zu partiellen Differenzi-algleichungen, die äquivalent zu Transportgleichungen mit Diffusions-und Reaktionstermen sind. Daher wirft die Diskussion in Abschn. 17.3ein anderes, interessantes Licht auf das Problem der Bildmodellierung.

Im zweiten Teil dieses Kapitels wenden wir uns diskreten Methodender Bildmodellierung zu und zeigen, dass sie als ein diskretes inversesProblem verstanden werden kann (Abschn. 17.4). Elektrische Netzwerkesind dafür ein illustratives Anwendungsbeispiel (Abschn. 17.6.2). In Ab-schn. 17.5 zeigen wir schließlich am Beispiel der inversen Filterung, wieinverse Probleme effektiv gelöst werden können.

17.1.2 Zweck und Grenzen von Modellen

Der Begriff Modell reflektiert die Tatsache, dass alle natürlichen Phä-nomene nur bis zu einer gewissen Grenze korrekt beschrieben werdenkönnen. Eines der wichtigsten Prinzipien in allen naturwissenschaftli-chen Disziplinen ist die Suche nach der einfachsten und allgemeinstenBeschreibung eines Sachverhaltes, die die Beobachtungen mit der kleins-ten möglichen Abweichung wiedergibt. Wenige grundlegende Gesetzeder Physik beschreiben auf diese Weise eine Vielfalt von Phänomenenquantitativ.

Im gleichen Sinne sind Modelle nützliche und gültige Näherungen fürBildverarbeitungsaufgaben. Modelle müssen jedoch mit entsprechenderVorsicht verwendet werden. Auch wenn die Daten perfekt mit den Mo-dellannahmen übereinzustimmen scheinen, gibt es keine Garantie, dassdie Modellannahmen korrekt sind.

17.1 Einführung 489

weiß

weiß

schwarz

schwarz

weiß

weiß

falsche Kantendetektion

Position x

Grauwertprofil

weiß

weißdünnes schwarzes Objekt

dickes schwarzes Objekt

Beleuchtung

a b

c d

g

g

schattierter Bereich

Abbildung 17.1: Demonstration eines systematischen Fehlers, der nicht aus demwahrgenommenen Bild abgeleitet werden kann. a und c Zeichnung des Objektesund der Beleuchtungsbedingungen. b und d resultierende Grauwertprofile derAbbildungen a bzw. c .

In Abb. 17.1 ist ein illustratives Beispiel gezeigt. Das Modell geht voneinem flachen, schwarzen Objekt aus, das vor einem weißen Hintergrundliegt und gleichmäßig beleuchtet wird (Abb. 17.1a). Das Objekt kannanhand der niedrigen Grauwerte im Bild klar erkannt werden, und dieÜbergänge zwischen den hohen und den niedrigen Werten kennzeichnendie Kanten des Objektes.

Hat jedoch das schwarze Objekt eine nicht zu vernachlässigende Di-cke und wird die Szene durch paralleles, schräg einfallendes Licht be-leuchtet (Abb. 17.1c), erhalten wir exakt den gleichen Profiltyp wie beiden Annahmen in Abb. 17.1a. Wir sehen also im Bild keine Abweichun-gen von den Modellannahmen. Tatsächlich wird jedoch nur die rechteKante noch korrekt detektiert. Die linke Kante ist aufgrund des schat-tierten Bereiches nach links verschoben. Dadurch erscheint das Objektzu groß.

Abb. 17.2 zeigt ein weiteres Beispiel. Ein schwarzes, flaches Objektfüllt die Hälfte des Bildes auf einem weißen Hintergrund. Das Histo-gramm, das die Verteilung der Grauwerte darstellt, zeigt eine bimodaleForm mit zwei Spitzen gleicher Höhe. Daraus schließen wir, dass imBild im Wesentlichen nur zwei Grauwerte vorkommen, der untere ge-hört zum schwarzen Objekt und der obere zum weißen Hintergrund,und jeder füllt die Hälfte des Bildes.

Das bedeutet jedoch nicht, dass jedes bimodale Histogramm von ei-nem Bild herrührt, in dem ein schwarzes Objekt auf einem weißen Hin-tergrund das halbe Bild ausfüllt. Viele andere Interpretationen sind mög-


p(g)Histogramm

g

a b c

? ?

Abbildung 17.2: Systematische Abweichung von einer Modellannahme (schwar-zes Objekt, weißer Hintergrund), die nicht aus dem Bildhistogramm abgeleitetwerden kann.

lich. So kann auch ein weißes Objekt auf einem schwarzen Hintergrundvorliegen. Das gleiche bimodale Histogramm ergibt sich ebenso bei ei-nem Bild, in dem Objekt und Hintergrund schwarz-weiß gestreift sind.In diesem Fall würde eine Segmentierung, die alle Pixel unterhalb einesbestimmten Grenzwerts als zum Objekt und die übrigen zum Hinter-grund gehörig identifiziert, nicht das Objekt extrahieren, sondern dieschwarzen Streifen. Solch eine einfache Methode funktioniert nur, wenndas Modell die Annahme erfüllt, dass Objekt und Hintergrund einfarbigsind.

Diese beiden Beispiele zeigen, dass wir selbst in einfachen Fällen inSituationen geraten können, in denen die Modellannahmen zu stimmenscheinen — wie sich aus bestimmten Kenngrößen des Bildes, z. B. demHistogramm, ableiten lässt —, tatsächlich aber sind sie falsch. Währenddie falschen Modellannahmen in einfachen Fällen noch relativ leicht zuerkennen sind, ist dies bei komplexeren Situationen und Modellen sehrviel schwieriger, wenn nicht gar unmöglich.

17.2 Kontinuierliche Modellierung I: Variationsansatz

Wie in der Einleitung (Abschn. 17.1.1) diskutiert, benötigt ein mathematischsolider Ansatz zur Bildmodellierung eine Modellfunktion oder Zielfunktion undein Fehlerfunktional. Letzteres misst die restlichen Abweichungen zwischenden gemessenen Daten und den berechneten Modellwerten.

Bei der Bildsegmentierung wäre eine stückweise glatte Funktion f(x) eine ge-eignete Zielfunktion. Die freien Parameter dieses Modells sind die Grauwertein den einzelnen Regionen und die Grenzkurven zwischen den Regionen. Diesebeiden Parameter sollten in solch einer Weise variiert werden, dass die Abwei-chungen zwischen der Modellfunktion f(x) und den Bilddaten g(x) minimalsind.

Die globalen Vorgaben dieses Segmentierungsmodells sind trotz der Allgemein-heit des Ansatzes noch recht starr. Es würde bei inhomogener Beleuchtung ver-sagen. Glattheitsbedingungen sind ein allgemeinerer Ansatz. Sie besagen, dass

17.2 Kontinuierliche Modellierung I: Variationsansatz 491

wir nur langsame Änderungen der Werte erwarten. Damit können wir auch Seg-mentierungsprobleme mit inhomogener Ausleuchtung lösen. Allerdings müs-sen wir in der Lage sein, Diskontinuitäten zu erkennen, um an diesen Stellendie Glattheitsbedingung abzuschwächen.

Solche allgemeinen globalen Bedingungen lassen sich in sehr allgemeiner Weisemit der Variationsrechnung formulieren und lösen. Ehe wir die Variationsrech-nung auf die Bildmodellierung anwenden, ist es sinnvoll, mit einem einfachenBeispiel aus der Physik zu beginnen.

17.2.1 Zeitliche Variationsprobleme: ein einfaches Beispiel

Die Variationsrechnung hat weite Verbreitung in den Naturwissenschaften ge-funden. Sie ist besonders in der Physik zu Hause. Alle grundlegenden Konzepteder theoretischen Physik können als Extremalprinzipien beschrieben werden.Das wahrscheinlich am besten bekannte ist das Hamiltonprinzip, aus dem dieLagrangegleichung der theoretischen Mechanik resultiert [68].

Zur Illustration diskutieren wir die Bewegung eines Massenpunktes. Ohne ex-terne Kräfte bewegt er sich mit konstanter Geschwindigkeit. Je höher seineMasse ist, desto höhere Kräfte sind notwendig, um seine Geschwindigkeit zu än-dern. Daher wirkt seine Masse gegen Geschwindigkeitsänderungen, wenn sichder Massenpunkt durch ein räumlich und zeitlich sich änderndes PotenzialfeldV(x, t) bewegt, das auf ihn die Kraft F = Vx(x, t) ausübt. Das Hamiltonprinzipbesagt, dass die Bewegung einer Kurve folgt, für die folgendes Integral extremalwird:

t2∫t1

(12mx2

t − V(x, t))

dt. (17.1)

Die zeitliche Ableitung von x ist in (17.1) mit xt bezeichnet. Die Funktion imIntegral wird Lagrangefunktion L(x,xt, t) genannt. Die Lagrangefunktion hängtüber das Potenzial V(x, t) vom Ort x und der Zeit t ab und über die kinetischeEnergie mx2

t /2 des Massenpunktes von der zeitlichen Ableitung der Position,d. h. der Geschwindigkeit.

Die obige Integralgleichung wird mit der Euler-Lagrange-Gleichung gelöst:

∂L∂x

− ddt

∂L∂xt

= 0 oder kurz Lx − ddtLxt = 0. (17.2)

Mithilfe dieser Gleichung kann die Integralgleichung (17.1) für eine vorgegebeneLagrangefunktion in eine Differenzialgleichung umgeformt werden.

Zur Illustration berechnen wir die Bewegung eines Massenpunktes in dem har-monischen Potenzialtopf V(x) = εx2/2. Die Lagrangefunktion dieses Systemsist

L(x,xt, t) = T − V = 12m(xt)2 − 1

2εx2. (17.3)

Die Ableitungen der Lagrangefunktion ergeben sich zu

∂L∂x

= −εx, ∂L∂xt

=mxt,ddt

∂L∂xt

=mxtt. (17.4)


Aus der Euler-Lagrange-Gleichung (17.2) erhalten wir die einfache Differenzial-gleichung zweiter Ordnung

mxtt + εx = 0, (17.5)

die eine harmonische Schwingung des Massenpunktes in dem Potenzialtopf mitder Kreisfrequenz ω = √

ε/m beschreibt.

17.2.2 Räumliche und raumzeitliche Variationsprobleme

Für die Bildverarbeitung müssen wir Variationsprobleme für in Raum und Zeitvariierende Variable formulieren. Der Pfad des Massenpunktes x(t), eine Ska-larfunktion, muss durch eine räumliche Funktion f(x) ersetzt werden, d. h.durch eine Vektor-Skalar-Funktion einer mehrdimensionalen Vektorvariablen.Bei Bildsequenzen ist eine der Komponenten von x die Zeit t.Konsequenterweise hängt die Lagrangefunktion nun von der Vektorvariablenx ab. Weiterhin ist sie nicht nur eine Funktion von f(x) und x, sondern zu-sätzliche Variable, die von räumlichen partiellen Ableitungen von f abhängen,spielen eine Rolle. Sie sind notwendig, sobald wir fordern, dass f an einemPunkt von f in der Nachbarschaft abhängen soll. Zusammenfassend ergibt sichdie folgende allgemeine Gleichung für das Fehlerfunktional ε(f ) als ein Varia-tionsintegral für f zu

ε(f ) =∫Ω

L(f , fxw ,x

)dxW → Minimum. (17.6)

Das Integral wird über einen bestimmten Bereich des Raumes Ω ∈ RW berech-net. Gleichung (17.6) enthält bereits das Wissen, dass der Extremwert ein Mi-nimum ist. Dies ergibt sich aus der Tatsache, dass f an bestimmten Punktenmit zusätzlichen Bedingungen eine minimale Abweichung von den gegebenenFunktionen zeigen sollte.Die zugehörige Euler-Lagrange-Gleichung ist:

Lf −W∑w=1

∂xwLfxw = 0. (17.7)

Der Variationsansatz kann auch auf vektorielle Eigenschaften wie die Geschwin-digkeit bei Bildsequenzen ausgedehnt werden. Dann hängt die Lagrangefunkti-on von der vektoriellen Eigenschaft f = [f1, f2, . . . , fP ]

T , den partiellen Ablei-tungen jeder Komponente fp der Eigenschaft in alle Richtungen (fp)xw sowieexplizit von der Koordinate x ab:

ε(f ) =∫Ω

L(f , (fp)xw ,x

)dxW → Minimum. (17.8)

Aus dieser Gleichung erhalten wir eine Euler-Lagrange-Gleichung für jede Kom-ponente fp der vektoriellen Eigenschaft:

Lfp −W∑w=1

∂xwL(fp)xw = 0. (17.9)


17.2.3 Ähnlichkeitsbedingungen

Der Ähnlichkeitsterm wird benutzt, um die Gleichheit zwischen dem model-lierten und dem gemessenen Merkmal zu bestimmen. Im einfachsten Fall, z. B.der Segmentierung, ist das gemessene Merkmal der Grauwert selbst, und derÄhnlichkeitsterm S ergibt sich zu

L(f ,x) = S(f ,x) = ‖f(x)− g(x)‖n. (17.10)

Diese Formulierung des Ähnlichkeitsterms in der Lagrangefunktion bedeutet,dass die Abweichung zwischen dem modellierten Merkmal und dem gemesse-nen Bild nach der Ln-Norm minimal sein sollte. Die am häufigsten verwendeteNorm ist die L2-Norm, aus der die bekannte Methode der kleinsten Quadrate(least squares, LS) resultiert.

Zur Modellierung der aus den Bilddaten abgeleiteten Merkmale sind komplexereÄhnlichkeitsterme erforderlich. Für eine lineare Restaurierung gehen wir davonaus, dass das Originalbild f(x) durch eine Faltungsoperation mit der Punktant-wort h(x) verfälscht wurde (Näheres siehe Abschn. 17.5). Daher ergibt sich dasgemessene Bild g(x) zu

g(x) = h(x)∗ f(x). (17.11)

Eine minimale Abweichung zwischen dem gemessenen und rekonstruierten Bildergibt sich durch den Ähnlichkeitsterm

S(f ,x) = ‖h(x)∗ f(x)− g(x)‖n. (17.12)

Als letztes Beispiel betrachten wir die Ähnlichkeitsbedingung für die Bewe-gungsbestimmung. In Abschn. 14.3.2 haben wir diskutiert, dass der optischeFluss die Kontinuitätsgleichung (14.9) erfüllen sollte:

f (x, t)T ∇g(x, t)+ gt(x, t) = 0. (17.13)

In (14.15) benutzten wir die Methode der kleinsten Quadrate, um die Abwei-chung von der Kontinuitätsgleichung zu minimieren. Allgemeiner geschriebenergibt sich mit der Ln-Norm folgender Ähnlichkeitsterm:

S(f ,x, t) = ‖f T ∇g + gt‖n. (17.14)

Diese Gleichung besagt wiederum nichts anderes, als dass die Kontinuitätsglei-chung für den optischen Fluss (14.9) möglichst gut erfüllt sein sollte. Zu be-achten ist, dass die Gleichheit nun auch explizit von der Zeit abhängt, da dasMinimierungsproblem von Bildern auf Orts/Zeit-Bilder ausgedehnt wird.

Am Beispiel der Bewegungsbestimmung lernen wir, dass die Ähnlichkeitsbedin-gungen allein bei einem Variationsansatz nicht viel nutzen. Mit (17.14) hängt dieLagrangefunktion nur vom optischen Fluss f ab. Um die Euler-Lagrange Glei-chungen zu berechnen, müssen wir lediglich die partiellen Ableitungen des Ähn-lichkeitsterms (17.14) nach den Komponenten des optischen Flusses, ∂L/∂fi,berücksichtigen:

Lfi = 2(f T ∇g + gt

)gxi . (17.15)

Durch Einsetzen von (17.15) in (17.9) erhalten wir(f T ∇g + gt

)gx = 0 und

(f T ∇g + gt

)gy = 0 (17.16)


oder, als Vektorgleichung geschrieben,(f T ∇g + gt

)∇g = 0. (17.17)

Diese Gleichungen bedeuten zunächst, dass der optische Fluss nicht bestimmtwerden kann, wenn der räumliche Gradient von ∇g ein Nullvektor ist. An-sonsten ergibt sich nur die Bedingung, dass lokal die Kontinuität des optischenFlusses erhalten sein muss, aber es bestehen keinerlei Einschränkungen fürdie zeitliche oder räumliche Variation des optischen Flusses. Dieses Beispieldemonstriert eindrücklich die Grenzen der lokalen Ähnlichkeitsbedingungen.Wirklicher Fortschritt kann nur erreicht werden, wenn globale Bedingungen mit-berücksichtigt werden.

Deshalb ist es notwendig, einen weiteren Term zu der Lagrangefunktion hinzu-zufügen, der auch von den Ableitungen von f abhängen muss:

L(f ,∇f ,x) = S(f ,x)+ R(f ,∇f ,x). (17.18)

17.2.4 Globale Glattheitsbedingungen

Einer der grundlegenden globalen Regularisierer ist die Glattheit. Bei vielen Bild-verarbeitungsproblemen ist es sinnvoll zu fordern, dass eine zu modellierendeGröße sich nur langsam im Raum (und in der Zeit) ändert. Dies ist z. B. bei ei-ner Segmentierung der Fall. Ein Objekt ist durch die Tatsache gekennzeichnet,dass es eine zusammenhängende Region mit konstanten oder nur langsam sichändernden Merkmalen ist. Ebenso ist die Tiefe einer Oberfläche oder das Ge-schwindigkeitsfeld eines sich bewegenden Objektes zumindest in den meistenPunkten kontinuierlich.

Aus diesen Gründen suchen wir nun nach passenden Glattheitsbedingungen, diewir zur Lagrangefunktion hinzufügen, um neben einer möglichst geringen Ab-weichung von den Daten auch eine räumlich glatte Lösung zu erzwingen. Solchein Term erfordert räumliche partielle Ableitungen der modellierten Merkmale.Der einfachste Term, der nur Ableitungen erster Ordnung enthält, gilt für einskalares Merkmal f in einem 2D-Bild:

R(fx, fy

)= α2

(f 2x + f 2

y

)= α2|∇f |2. (17.19)

Für ein vektorielles Merkmal f = [f1, f2]T ergibt sich

R (∇f1,∇f2) = α2(|∇f1|2 + |∇f2|2

). (17.20)

In diesem zusätzlichen Term tauchen die partiellen Ableitungen als quadrier-te Summe auf. Das bedeutet, dass wir den Glattheitsterm mit derselben Norm(L2-Norm, Summe der kleinsten Quadrate) auswerten können wie den Ähnlich-keitsterm. Außerdem sind in dieser Formel alle partiellen Ableitungen gleichgewichtet. Der Faktor α2 steht für das relative Gewicht des Glattheitsterms imVergleich zum Ähnlichkeitsterm.

Das komplette Fehlerfunktional für die Bewegungsbestimmung mit Ähnlichkeits-und Glattheitsterm ergibt sich dann zu

L (f ,∇f1,∇f2,x) =(f T ∇g + gt

)2 +α2(|∇f1|2 + |∇f2|2

). (17.21)


Durch Einsetzen dieser Lagrangefunktion in die Euler-Lagrange Gleichung (17.9)erhalten wir folgendes Differenzialgleichungssystem:

(∇gT f + gt)gx −α2((f1)xx + (f1)yy

)= 0,

(∇gT f + gt)gy −α2((f2)xx + (f2)yy

)= 0.

(17.22)

In einer Vektorgleichung zusammengefasst, ergibt sich

(∇gT f + ∂g

∂t

)︸︷︷︸

Ähnlichkeitsterm

∇g − α2∆f︸︷︷︸Glattheitsterm

= 0. (17.23)

Wie der optische Fluss aus dieser Formel resultiert, lässt sich leicht ableiten.Zunächst stellen wir uns vor, dass die Intensität sich in einer Richtung starkändert. Der Ähnlichkeitsterm dominiert dann über den Glattheitsterm, und dieGeschwindigkeit wird entsprechend dem lokalen optischen Fluss berechnet. Istdagegen die Änderung der Intensität klein, dominiert der Glattheitsterm. Dielokale Geschwindigkeit wird so berechnet, dass sie so weit wie möglich der Ge-schwindigkeit in der Nachbarschaft entspricht. Mit anderen Worten, die Fluss-vektoren werden aus den sie umgebenden Flussvektoren interpoliert.

Dieser Prozess sei durch ein Extrembeispiel weiter veranschaulicht. Betrach-ten wir ein helles Objekt mit konstanter Helligkeit, das sich vor einem dunklenHintergrund bewegt. Der Ähnlichkeitsterm verschwindet innerhalb des Objek-tes vollständig, während an Kanten nur die senkrecht zur Kante stehende Ge-schwindigkeitskomponente aus diesem Term berechnet werden kann. Dies istin der Physik ein altes und wohlbekanntes Problem: Wie berechnen wir die Po-tenzialfunktion ∆f = 0 ohne Quellen und Senken bei gegebenen Randbedin-gungen an den Rändern des Objekts?

Die Gleichung ∆f = 0 ist die so genannte Laplacegleichung. In Bereichen, fürdie der Ähnlichkeitsterm null ist, können wir sofort auf die Form der Lösungschließen. Da die Ableitungen zweiter Ordnung null sind, sind die räumlichenAbleitungen erster Ordnung konstant. Daraus resultiert ein modelliertes Merk-mal f , das sich linear im Raum ändert.

17.2.5 Kontrollierte Glattheit

Nach Diskussion der grundlegenden Eigenschaften der Glattheitsbedingungenwenden wir uns nun der Frage zu, wie wir räumliche und zeitliche Unstetig-keiten mit dem Variationsansatz angemessen behandeln können. Bei einemSegmentierungsproblem ist das modellierte Merkmal an den Objektkanten un-stetig. Das Gleiche gilt für den optischen Fluss. Die bisher formulierte Glatt-heitsbedingung erlaubt jedoch keine Diskontinuitäten. Wir haben eine globaleGlattheitsbedingung aufgestellt und erhalten deswegen ein global glattes Merk-malsfeld auch dann, wenn die Daten Diskontinuitäten haben. Wir müssen daherMethoden entwickeln, diese in den Daten zu erkennen und bei der Modellierungadäquat zu berücksichtigen.

Wir werden zunächst die prinzipiellen Möglichkeiten zur Variation des Minimal-problems innerhalb des gewählten Rahmens diskutieren. Dafür schreiben wir


die Integralgleichung (17.6) für das Minimalproblem um, indem wir das Wissenüber die Bedeutung der Lagrangefunktion aus dem vorigen Abschnitt einsetzen:∫

Ω

(S(f )︸︷︷︸

Ähnlichkeitsterm

+ R(fxp))

︸︷︷︸Glattheitsterm

dWx → Minimum. (17.24)

Um Diskontinuitäten zu berücksichtigen, sind zwei Vorgehensweisen möglich:

1. Integrationsbereich. Der Integrationsbereich ist eine der Möglichkeiten zurLösung der Diskontinuitäten im Merkmal f . Befinden sich innerhalb des In-tegrationsbereichs Diskontinuitäten, resultieren fehlerhafte Werte. Wir müs-sen also Algorithmen finden, welche die Kanten in f erkennen und als Kon-sequenz die Integrationsfläche auf die segmentierten Bereiche beschränken.Dies ist offensichtlich ein schwieriges iteratives Verfahren. Erstens fallen dieKanten im Bild selbst nicht notwendigerweise mit den Kanten des Merkmalsf zusammen.Zweitens liegt in vielen Fällen, insbesondere bei der Bewegungsanalyse nurein lückenhaftes Merkmalsfeld vor, sodass eine Segmentierung in einzelneRegionen nicht möglich ist.

2. Glattheitsterm. Die Modifizierung des Glattheitsterms ist eine andere Mög-lichkeit zur Lösung des Diskontinuitätsproblems. An Punkten, an denen eineDiskontinuität vermutet wird, kann die Glattheitsbedingung aufgeweicht wer-den oder ganz verschwinden. Damit sind Diskontinuitäten erlaubt. Auch diesist ein iterativer Algorithmus. Der Glattheitsterm muss eine Steuerungsfunk-tion enthalten, die unter bestimmten Bedingungen die Glattheitsbedingungabschaltet. Diese Eigenschaft wird kontrollierte Glattheit genannt [219].

Im Folgenden diskutieren wir zuerst zwei Verfahren zur Modifizierung der In-tegrationsfläche. Die Modifikation des Glattheitsterms wird im Detail in Ab-schn. 17.3 behandelt.

Integration entlang von geschlossenen Nulldurchgängen. Hildreth[85] verwendet das laplacegefilterte Bild und limitiert alle weiteren Berechnun-gen auf die Nulldurchgänge, da diese Grauwertkanten darstellen (Abschn. 12.3),d. h. die Merkmale, anhand deren wir die normal zur Kante liegende Geschwin-digkeitskomponente berechnen können. Der große Vorteil dieses Ansatzes ist,dass durch die Vorauswahl vielversprechender Merkmale die erforderlichen Be-rechnungen beträchtlich reduziert werden.Durch Auswahl der Nulldurchgänge wird die Glattheitsbedingung auf eine be-stimmte Konturlinie beschränkt. Dies erscheint hilfreich, da ein Nulldurchgangwahrscheinlich ein Objekt umgrenzt oder innerhalb von ihm liegt, jedoch nichtdie Objektränder nach außen verlässt. Dies ist jedoch nicht notwendigerweiseder Fall. Besteht ein Nulldurchgang innerhalb eines Objektes, sollte die Ge-schwindigkeit entlang der Kontur keine Diskontinuitäten zeigen. Wählen wirfür die Glattheitsbedingung eine Kontur anstelle einer Fläche, ändert sich dasIntegral von einem Flächen- zu einem Linienintegral entlang einer Kontur s:∮ (

nT f − f⊥)2 +α2

[((f1)s)

2 + ((f2)s)2]

ds → Minimum. (17.25)

n ist ein Einheitsvektor normal zur Kante und f⊥ die Geschwindigkeitsnormalezur Kante.


a b

Abbildung 17.3: Zwei Bilder der Hamburger Taxiszene, die vom Fachbereich fürInformatik der Universität Hamburg aufgenommen wurde und seither eine derbekanntesten Testsequenzen für die Bildfolgenanalyse geworden ist.

Die Ableitungen der Geschwindigkeit werden entlang der Konturlinie berech-net. Die normal zur Kante liegende Komponente f⊥ ergibt sich unmittelbar ausdem Ähnlichkeitsterm, während der parallel zur Kante liegende Geschwindig-keitsterm aus der Glattheitsbedingung entlang der gesamten Kante abgeleitetwerden muss.

Bei aller Eleganz dieses Verfahrens hat es auch einen schwerwiegenden Nach-teil. Es ist nicht sicher, dass Nulldurchgänge nur ein Objekt einschließen. Wirkönnen also nicht annehmen, dass das optische Flussfeld entlang den Null-durchgängen kontinuierlich ist. Da nur Kanten zur Berechnung des optischenFlussfeldes verwendet werden, kann nur eine Komponente des Verschiebungs-vektors lokal berechnet werden. Auf diese Weise werden alle Merkmale, dieentweder als Grauwertmaxima oder Grauwertecken auftreten und eine eindeu-tige Bestimmung eines Verschiebungsvektors erlauben, vernachlässigt.

Begrenzung der Integration auf segmentierte Regionen. Ein regione-norienterter Ansatz lässt solche Punkte nicht aus, versucht aber dennoch, dieGlattheit innerhalb von Objekten zu beschränken. Wieder werden Nulldurch-gänge zur Aufteilung des Bildes in Regionen verwendet. Die regionenbegrenzteGlattheit missachtet lediglich die Kontinuitätsbedingung an den Regionengren-zen. Der einfachste Ansatz für diese Bedingungsform ist die Begrenzung derIntegrationsflächen auf die verschiedenen Regionen und die separate Auswer-tung der Flächen.

Wie erwartet bewirkt eine auf Regionen begrenzte Glattheitsbedingung Diskon-tinuitäten an den Grenzen (Abb. 17.4d) in klarem Kontrast zu dem global geglät-teten optischen Fluss in Abb. 17.4c. Wir können das Taxi sofort an den Grenzendes optischen Flusses erkennen.

Wir sehen aber auch, dass das Auto in weitere Teilregionen mit unterschiedli-chem optischen Fluss aufgeteilt ist, wie dies an dem Taxischild auf dem Dachund den Rück- und Seitenfenstern zu erkennen ist. Die kleinen Regionen zeigeninsbesondere einen optischen Fluss, der sich signifikant von dem in größerenRegionen unterscheidet. Eine einfache regionenlimitierte Glattheitsbedingungspiegelt also nicht die Tatsache wieder, dass innerhalb von Objekten separier-


a b

c d

Abbildung 17.4: Bestimmung des optischen Flusses in der Taxiszene (Abb. 17.3)mit der Methode der dynamischen Pyramide: a bis c Drei Ebenen des optischenFlussfeldes unter Verwendung einer globalen Glattheitsbedingung; d Endergebnisdes optischen Flusses unter Verwendung der regionenorientierten Glattheitsbe-dingung. Freundlicherweise zur Verfügung gestellt von M. Schmidt und J. Deng-ler, Deutsches Krebsforschungszentrum, Heidelberg.

te Regionen existieren können. Der optische Fluss kann über diese Grenzenhinweg glatt sein.

17.3 Kontinuierliche Modellierung II: Diffusionsmodelle

In diesem Abschnitt betrachten wir die kontinuierliche Modellierung unter ei-nem neuen Blickwinkel. Das quadratische Fehlerfunktional für die Bewegungs-bestimmung (17.23) (

∇g f + ∂g∂t

)∇g −α2∆f = 0 (17.26)

kann als die stationäre Lösung eines Diffusions-Reaktions-Systems mit homoge-ner Diffusion betrachtet werden, wenn wir die Konstante α2 als die Diffusions-konstante D betrachten:

∂f∂t

= D∆f −(∇g f + ∂g

∂t

)∇g. (17.27)

17.3 Kontinuierliche Modellierung II: Diffusionsmodelle 499

In dieser Gleichung ist im Vergleich zur instationären partiellen Differenzialglei-chung für homogene Diffusion (siehe (5.17) in Abschn. 5.3.1) ein zusätzlicherQuellterm hinzugefügt, der den Ähnlichkeitsterm darstellt. Die Quellstärke istproportional zu der Abweichung von der Kontinuitätsgleichung für den opti-schen Fluss. Daher modifiziert dieser Term die Werte von f , damit sie dieKontinuitätsgleichung möglichst gut einhalten.

Nach diesem einleitenden Beispiel können wir die Beziehung zwischen dem Feh-lerfunktional des Variationsansatzes und einem Diffusions-Reaktions-System inallgemeiner Weise formulieren. Die Euler-Lagrange-Gleichung

W∑w=1

∂xwLfxw − Lf = 0, (17.28)

die das Fehlerfunktional

ε(f ) =∫Ω

L(f , fxw ,x

)dxW (17.29)

für die skalare Orts/Zeit-Funktion f(x),x ∈ Ω minimiert, kann als Gleichge-wichtslösung des Diffusions-Reaktions-Systems

ft =W∑w=1

∂xwLfxw − Lf (17.30)

betrachtet werden.

Im Folgenden werden wir den Aspekt der Modellierung, den wir bisher nur kurzin Abschn. 17.2.5 betrachtet haben, nämlich die lokale Modifikation des Glatt-heitsterms genauer analysieren. In der Sprache der Diffusionsmodelle bedeutetdies eine lokal variierende Diffusionskonstante im ersten Term auf der rechtenSeite von (17.30). Aus der obigen Diskussion wissen wir, dass zu jedem Ansatzfür eine lokal variierende Diffusionskonstante ein entsprechendes Fehlerfunk-tional für den Variationsansatz existiert.

Im Abschn. 5.3.1 haben wir den homogenen Diffusionsprozess betrachtet, dereine Multiskalenrepräsentation eines Bildes, den linearen Skalenraum, erzeugt.Wenn nun der Glattheitsterm abhängig gemacht wird von lokalen Eigenschaf-ten des Bildes, wie z. B. einer Funktion des Gradienten, dann führt der dazu-gehörige inhomogene Diffusionsprozess zu der Erzeugung eines nichtlinearenSkalenraums. Bezüglich der Modellierung ist der interessante Punkt hier, dasseine Bildsegmentierung erreicht werden kann, ohne einen Ähnlichkeitsterm zubenutzen.

17.3.1 Inhomogene Diffusion

Der einfachste Ansatz für einen räumlich variierenden Glattheitsterm, der Dis-kontinuitäten berücksichtigt, ist, den Diffusionskoeffizienten an Kanten zu re-duzieren. Damit wird die Diffusionskonstante abhängig von der Kantenstärke,die durch den Betrag des Gradienten gegeben ist:

D(f) = D(|∇f |2). (17.31)


Mit einer lokal variierenden Diffusionskonstanten erhalten wir das Diffusions-Reaktions-System

ft =∇(D(|∇f |2)∇f

)− Lf . (17.32)

Es wäre nicht korrekt, D(|∇f |2)∆f zu schreiben, wie wir aus der Ableitung derinstationären Diffusionsgleichung in Abschn. 5.3.1 sehen können. Mit (17.32)ist der Glattheitsterm (Regularisierungsterm) R in der Lagrangefunktion

R = R(|∇f |2), (17.33)

wobei sich die Diffusionskonstante als Ableitung der Funktion R ergibt: D = R′.Davon können wir uns durch Einsetzen von (17.33) in (17.28) leicht überzeugen.

Perona und Malik [170] verwenden die folgende Abhängigkeit vom Betrag desGradienten:

D(|∇f |) = D0λ2

|∇f |2 + λ2, (17.34)

wobei λ ein einstellbarer Parameter ist. Bei kleinen Gradienten |∇f | λ nähertsich die Diffusionskonstante D0, während sie bei großen Gradienten |∇f | λgegen null geht.

So einfach und direkt diese Idee erscheint, sie hat auch ihre Probleme. Je nachder Funktion, die wir für die Beziehung zwischenD und |∇f | ansetzen, kann derDiffusionsprozess instabil werden und zu einer Aufsteilung der Kanten führen.Eine sichere Möglichkeit zur Vermeidung dieses Problems ist die, einen regula-risierten Gradienten zu verwenden, der aus einer geglätteten Version des Bildesberechnet wird [236]. Ein möglicher Ansatz lautet

D = D0

[1− exp

(− cm(|∇(BR ∗ f)(x)|/λ)m

)]. (17.35)

Diese Gleichung besagt, dass die Diffusionskonstante bei kleinen Gradienten-beträgen konstant ist. Überschreitet der Betrag des Gradienten jedoch einengewissen Wert, fällt die Diffusionskonstante rasch auf null ab. Je höher derExponent m ist, desto steiler ist der Übergang. Mit den von Weickert [236] ver-wendeten Werten m = 4 und c4 = 3,31488 fällt der Diffusionskoeffizient von 1bei |∇f |/λ = 1 auf etwa 0,15 bei |∇f |/λ = 2 ab.

Zu beachten ist, dass in (17.35) ein regularisierter Gradient gewählt wurde. Erwird nicht aus dem Bild f(x) direkt, sondern nach Glättung des Bildes mitder binomialen Glättungsmaske Bp berechnet. Ein sorgfältig implementierterregularisierter Gradientenoperator (Abschn. 12.7) reicht aus, den inhomogenenGlättungsprozess zu stabilisieren und das Aufsteilen von Kanten zu vermeiden,sodass keine Vorglättung notwendig ist.

Eine einfache explizite Diskretisierung der inhomogenen Diffusion benutzt diein Abschn. 12.7 diskutierten regularisierten Ableitungsoperatoren. Im erstenSchritt wird ein Gradientenbild mit dem Vektoroperator[ D1

D2

](17.36)

berechnet. Im zweiten Schritt wird das Gradientenbild mit einem Kontrollope-rator S punktweise multipliziert, das die Diffusionskonstante nach (17.34) oder


(17.35) mit D0 = 1 berechnet: [ S ·D1

S ·D2

]. (17.37)

Es ist eins in konstanten Regionen und fällt an Kanten auf kleine Werte ab. Imdritten Schritt wird der Gradientenoperator ein zweites Mal angewendet:

[D1,D2][ S ·D1

S ·D2

]= D1(S ·D1)+D2(S ·D2). (17.38)

Weickert [237] benutzt ein anspruchsvolleres implizites Lösungsschema. Die-ses ist jedoch deutlich rechenaufwendiger und weniger isotrop als das expliziteSchema in (17.38), wenn es mit den in Abschn. 12.7.5 vorgestellten, sorgfältigauf Isotropie optimierten Gradientenoperatoren benutzt wird.

Eine noch einfachere, aber nur näherungsweise Implementierung der inhomo-genen Diffusion benutzt binomiale Glättungsfilter (Abschn. 11.4) und den Ope-rator

I + S · (B− I). (17.39)

Dabei hat der Kontrolloperator S Werte zwischen 0 und 1.

Abb. 17.5 zeigt die Anwendung der inhomogenen Diffusion auf die Segmen-tierung verrauschter Bilder. Das Testbild enthält ein Dreieck und ein Rechteck.Eine normale Glättung kann das Rauschen signifikant unterdrücken, die Kantenwerden jedoch unscharf (Abb. 17.5b). Bei der inhomogenen Diffusion bleibendie Kanten scharf und wir erreichen dennoch eine fast perfekte Segmentierungdes Dreiecks und des Rechtecks (Abb. 17.5c). Der einzige Nachteil besteht dar-in, dass die Kanten selbst verrauscht bleiben, da dort die Glättung unterdrücktwurde.

17.3.2 Anisotrope Diffusion

Wie im letzten Beispiel gezeigt, hat die inhomogene Diffusion den entscheiden-den Nachteil, dass die Diffusion nicht über Kanten geht; diese bleiben in allenRichtungen verrauscht. Kanten werden allerdings nur durch eine senkrecht zuihnen verlaufende Diffusion unscharf, nicht jedoch, wenn die Diffusion parallelläuft. In diesem Fall werden die Kanten sogar stabilisiert.

Ein Verfahren, mit dem die Diffusion von der Kantenrichtung unabhängig wird,wird als anisotrope Diffusion bezeichnet. Mit diesem Ansatz läuft der Flussnicht länger parallel zum Gradienten, sodass die Diffusion nicht mehr durcheine skalare Diffusionskonstante beschrieben werden kann. Wir brauchen nuneinen Diffusionstensor :

j = −D∇f = −⎡⎣ D11 D12

D12 D22

⎤⎦[

f1

f2

]. (17.40)

Mit einem Diffusionstensor erhalten wir das Diffusions-Reaktions-System

ft =∇(D(∇f∇fT )∇f

)− Lf , (17.41)


a b

c d

Abbildung 17.5: a Originalbild, geglättet über b lineare Diffusion, c inhomogene,aber isotrope Diffusion und d anisotrope Diffusion. Aus Weickert [236].

und der dazugehörige Glattheitsterm in der Lagrangefunktion ist

R = SpurR(∇f∇fT

)(17.42)

mit D = R′.Am besten erschließen sich die Eigenschaften des Diffusionstensors, wenn dersymmetrische Tensor durch eine Rotation des Koordinatensystems in sein Haupt-achsensystem gebracht wird. Dann reduziert sich (17.40) auf

j′ = −⎡⎣ D′1 0

0 D′2

⎤⎦[

f ′1f ′2

]= −

[D′1f

′1

D′2f′2

]. (17.43)

Nun ist die Diffusion in den beiden Achsenrichtungen entkoppelt. Die beidenKoeffizienten auf der Diagonalen, D′1 und D′2, sind die Eigenwerte des Diffusi-onstensors. In Analogie zur isotropen Diffusion kann die allgemeine Lösung


der anisotropen Diffusion im Ortsraum mit σ ′1(t) =√

2D′1t und σ ′2(t) =√

2D′2tfolgendermaßen geschrieben werden:

f(x, t) = 12πσ ′1(t)σ

′2(t)

exp

(− x′2

2σ ′1(t)

)∗ exp

(− y ′2

2σ ′2(t)

)∗ f(x,0) (17.44)

Die Gleichung besagt, dass die anisotrope Diffusion einer kaskadierten Faltungmit zwei eindimensionalen Gaußschen Faltungsmasken mit unterschiedlicherStandardabweichung, die in Richtung der Hauptachsen des Diffusionstensorsausgerichtet werden, äquivalent ist. Ist einer der beiden Eigenwerte des Dif-fusionstensors signifikant größer als der andere, erfolgt die Diffusion nur inRichtung des zugehörigen Eigenvektors. Die Grauwerte werden also nur in die-ser Richtung geglättet. Die räumliche Verschmierung ist — wie bei jedem Dif-fusionsprozess — proportional zur Quadratwurzel der Diffusionskonstanten(5.21).

Unter Ausnutzung dieser Eigenschaft der anisotropen Diffusion ist es einfach,einen Diffusionsprozess zu implementieren, der hauptsächlich entlang der Kan-ten glättet, nicht aber senkrecht dazu.

Mit dem folgenden Ansatz wird nur Glättung über Kanten hinweg verhindert[236]:

D′1 = 1− exp

(− cm(|∇(Br ∗ f)(x)|/λ)m

)D′2 = 1.

(17.45)

Wie Scharr und Weickert [197] gezeigt haben, ist wie bei der inhomogenen Diffu-sion wiederum eine effektive und genaue Implementierung mit regularisiertenAbleitungsoperatoren erster Ordnung, die auf minimale Anisotropie optimiertwurden, möglich:

[D1,D2][ S11 S12

S12 S22

][ D1

D2

]=

D1(S11 · D1 + S12 · D2)+D2(S12 · D1 + S22 · D2).(17.46)

mit

[ S11 S12

S12 S22

]=

[cosθ sinθ− sinθ cosθ

][ S′1 00 S′2

][cosθ − sinθsinθ cosθ

].

Spq, S′1 und S′2 sind Kontrollbilder mit Werten zwischen 0 und 1, mit denendie Diffusion parallel zu Kanten ausgerichtet wird. S′1 und S′2 werden direktaus (17.45) berechnet, die Richtung der Kante, der Winkel θ, kann z. B. mit demStrukturtensor berechnet werden (Abschn. 13.3).

Im Unterschied zur inhomogenen Diffusion werden bei der anisotropen Diffu-sion die Kanten ebenfalls geglättet (Abb. 17.5d). Allerdings hat die Glättungentlang der Kanten den Nachteil, dass die Ecken wie bei der linearen Diffusi-on unscharf werden. Dies geschieht wiederum mit der inhomogenen Diffusionnicht (Abb. 17.5c).


Abbildung 17.6: Illustration der linearen Regression mit der Methode der kleins-ten Quadrate.

17.4 Diskrete Modellierung: inverse Probleme

Im zweiten Teil dieses Kapitels wenden wir uns der diskreten Modellierung zu.Diese kann natürlich als direkte Diskretisierung der partiellen Differenzialglei-chungen des Variationsansatzes abgeleitet werden. Ohne es explizit zu sagen,haben wir dies in Abschn. 17.3 durch die iterativen diskreten Schemata für in-homogene und anisotrope Diffusion bereits getan.

Es ist jedoch sinnvoller, die diskrete Modellierung unabhängig zu entwickeln,weil wir dann weitere Einblicke in die Modellierung erhalten. Wir nehmen jetztalso nochmals einen anderen Standpunkt ein und betrachten die Modellierungals ein lineares diskretes inverses Problem. Als Einführung beginnen wir mitdem bekannten Problem der linearen Regression und entwickeln von diesemBeispiel ausgehend die Theorie der inversen Modellierung.

17.4.1 Ein einfaches Beispiel: lineare Regression

Der Fit einer Geraden durch eine Menge experimenteller Daten x,y ist ein einfa-ches Beispiel eines diskreten inversen Problems. Wie in Abb. 17.6 gezeigt, wirdder Parameter y als Funktion der Variable x gemessen. In diesem Fall habenwir nur zwei Modellparameter, den Achsenabschnitt a0 und die Steigung a1 der

Geraden y = a0 + a1x. Mit einem Satz von Q Datenpunkten[xq,yq

]erhalten

wir das lineare Gleichungssystem

⎡⎢⎢⎢⎢⎢⎣

1 x1

1 x2

......

1 xQ

⎤⎥⎥⎥⎥⎥⎦

[a0

a1

]=

⎡⎢⎢⎢⎢⎢⎣y1

y2

...yQ

⎤⎥⎥⎥⎥⎥⎦ , (17.47)

17.4 Diskrete Modellierung: inverse Probleme 505

das wir mitMp = d (17.48)

abkürzen können. Dabei wird dieQ× 2-MatrixM als Design- oder Modellmatrixbezeichnet. Die Matrix bestimmt sowohl den Typ des Modells (hier eine lineareRegression mit zwei Parametern) als auch die gewählten unabhängigen Mess-punkte xq. Der Modell- oder Parametervektor p enthält die zu bestimmendenParameter und der Datenvektor d die gemessenen Daten xq.

Haben wir nur zwei unterschiedliche Punkte (x1 ≠ x2), erhalten wir eine exak-te Lösung des linearen Gleichungssystems. Liegen mehr als zwei Punkte vor,resultieren mehr Gleichungen als Unbekannte. Wir bezeichnen ein solches Glei-chungssystem als überbestimmtes inverses Problem. In einem solchen Fall ist esnicht mehr möglich, eine exakte Lösung zu erhalten. Wir können nur eine Schät-zung der Modellparameter pest berechnen, bei der die Abweichung der tatsäch-lichen Daten d von den durch das Modell vorhergesagten Daten dpre = Mpest

minimal ist. Diese Abweichung kann durch einen Fehlervektor e ausgedrücktwerden:

e = d − dpre = d −Mpest. (17.49)

17.4.2 Fehlernormen

Zur Minimierung des Fehlervektors ist ein geeignetes Maß notwendig. Dazukönnen wir Normen benutzen, die wir bereits bei den Vektorräumen mit inne-rem Produkt in Abschn. 2.3.1 verwendet haben. Allgemein wird die Ln-Normdes Q-dimensionalen Vektors e folgendermaßen definiert:

‖e‖n =⎛⎝ Q∑q=1

|eq|n⎞⎠1/n

. (17.50)

Einen Sonderfall stellt die L∞-Norm dar:

‖e‖∞ = maxn|eq|. (17.51)

Bekannter ist die L2-Norm; bezogen auf einen Fehlervektor, stellt sie die Summeder quadratischen Abweichungen dar (Methode der kleinsten Quadrate):

‖e‖2 =⎛⎝ Q∑q=1

(dq − dpre,q)2⎞⎠1/2

. (17.52)

Höhere Normen bewerten größere Abweichungen mit einer stärkeren Wichtung.Die Statistik der Daten bestimmt, welche Norm die richtige ist. Es lässt sich zei-gen, dass dies für die Normalverteilung (Gaußsche Glockenkurve) die L2-Normist [153].

17.4.3 Lösung nach der Methode der kleinsten Quadrate

Das überbestimmte lineare inverse Problem wird im Sinne einer minimalen L2-Norm des Fehlervektors folgendermaßen gelöst:

pest =(MTM

)−1MTd mit ‖e‖2

2 =∥∥d −Mpest

∥∥→ Minimum. (17.53)


Diese Lösung kann wie folgt plausibel gemacht werden:

Mpest = d∣∣∣MT

MTMpest = MTd∣∣∣∣(MTM

)−1

pest =(MTM

)−1MTd

(17.54)

Eine Lösung setzt voraus, dass die Inverse von MTM existiert.

Im Rest dieses Abschnitts leiten wir die Lösung des überbestimmten diskretenlinearen inversen Problems (17.48) her, die mit der L2-Norm den Fehlervektor e(17.49) minimiert:

‖e‖22 =

Q∑q′=1

⎛⎝dq′ − P∑

p′=1

mq′p′pp′

⎞⎠

⎛⎝dq′ − P∑

p′′=1

mq′p′′pp′′

⎞⎠ .

Durch Ausmultiplizieren und Vertauschen der Summen erhalten wir:

‖e‖22 =

P∑p′=1

P∑p′′=1

pp′pp′′Q∑q=1

mqp′mqp′′

︸︷︷︸A

− 2P∑

p′=1

pp′Q∑q=1

mqp′dq

︸︷︷︸B

+Q∑q=1

dqdq

(17.55)

Wir ermitteln ein Minimum für diesen Ausdruck, indem wir die partiellen Ab-leitungen nach den zu optimierenden Parametern pk berechnen. Nur die Aus-drücke A und B in (17.55) hängen von pk ab:

∂A∂pk

=P∑

p′=1

P∑p′′=1

(δk−p′′pp′ + δk−p′pp′′

) Q∑q′=1

mq′p′mq′p′′

=P∑

p′=1

pp′Q∑q′=1

mq′p′mq′k +P∑

p′′=1

pp′′Q∑q′=1

mq′kmq′p′′

= 2P∑

p′=1

pp′Q∑q′=1

mq′p′mq′k,

∂B∂pk

= 2Q∑q′=1

mq′kdq′ .

Daraus erhalten wir die gesamte Ableitung und setzen sie gleich null:

∂‖e‖22

∂pk= 2

P∑p′=1

pp′Q∑q′=1

mq′kmq′p′ − 2Q∑q′=1

mq′kdq′ = 0.

Um die Summen als Matrix-Matrix- und Matrix-Vektor-Multiplikationen auszu-drücken, ersetzen wir die Matrix M an zwei Stellen durch ihre Transponierte


MT , sodassP∑

p′=1

pp′Q∑q′=1

mTkq′mq′p′ −

Q∑q′=1

mTkq′dq′ = 0

und erhalten schließlich die Matrixgleichung

MT︸︷︷︸P×Q

M︸︷︷︸Q×P︸︷︷︸

P×P

pest︸︷︷︸P

︸︷︷︸P

= MT︸︷︷︸P×Q

d︸︷︷︸Q︸︷︷︸

P

. (17.56)

Diese Gleichung kann gelöst werden, wenn die quadratische und symmetrischeP × P -Matrix MTM invertierbar ist. Dann gilt:

pest =(MTM

)−1MTd. (17.57)

Die Matrix (MTM)−1MT wird als die generalisierte Inverse M−g von M bezeich-net.

17.4.4 Geometrische Betrachtung linearer Gleichungssysteme

Es ist hilfreich, lineare Gleichungssysteme geometrisch zu veranschaulichen.Die P Modellparameter p spannen einen P -dimensionalen Vektorraum auf. Die-ser kann als Raum aller möglichen Lösungen eines inversen Problems mit P Mo-dellparametern betrachtet werden. Nun fragen wir uns, was es bedeutet, wennwir einen Punkt dq haben. Nach (17.48) resultiert ein Punkt in einer linearenGleichung, die alle Modellparameter p beinhaltet:

P∑k=p′

mqp′pp′ = dq oder mqp = dq. (17.58)

Diese Gleichung kann als das Skalarprodukt einer Zeile q der Modellmatrixmq mit dem Modellvektor p betrachtet werden. Im Modellraum stellt dieseGleichung eine (P − 1)-dimensionale Hyperebene aller Vektoren p mit einemNormalenvektor mq und einer Entfernung dq vom Ursprung des Modellrau-mes dar. Damit etabliert die lineare Gleichung eine Eins-zu-Eins-Beziehung zwi-schen einem Punkt im Datenraum und einer (P − 1)-dimensionalen Hyperebe-ne im Modellraum. Diese Abbildung von Punkten in den Modellraum wird alsHoughtransformation (Abschn. 16.5.2) bezeichnet.

Abbildung 17.7a illustriert die Lösung eines linearen Gleichungssystems mitdrei Unbekannten. Mit drei Gleichungen ergeben sich drei Ebenen im Modell-raum, die sich in einem Punkt schneiden, wenn die korrespondierende 3× 3-Modellmatrix invertierbar ist. Selbst bei einem überbestimmten Gleichungssys-tem muss die Lösung nicht notwendigerweise eindeutig sein. Abbildung 17.7bzeigt den Fall von fünf Ebenen, die sich alle in einer Geraden schneiden. Dann istdie Lösung nicht eindeutig, sondern nur auf die Schnittgerade beschränkt. Fallsdiese Gerade entlang einer Achse orientiert ist, kann der entsprechende Modell-parameter jeden beliebigen Wert annehmen. Die anderen beiden Parameter sinddagegen festgelegt. Im Fall einer beliebig orientierten Schnittgeraden sind die


a b

Abbildung 17.7: Geometrie der Lösung eines linearen Gleichungssystems mitdrei Unbekannten. a Gleichungssystem mit exakter Lösung; b überbestimmtesGleichungssystem mit nichteindeutiger Lösung.

Dinge komplizierter. Dann sind die Parameterkombinationen senkrecht zu derGeraden festgelegt, nicht aber die Parameterkombinationen, die durch die Gera-de beschrieben werden. Wenn wir zur Lösung des linearen Gleichungssystemsdie Methode der Singularwertzerlegung benutzen, können wir das Gleichungs-system auch unter solchen Bedingungen lösen und die bestimmbaren von dennicht bestimmbaren Parameterkombinationen trennen [69, 176].

Ein überbestimmtes lineares Gleichungssystem, das keine eindeutige Lösunghat, ist keineswegs eine mathematische Kuriosität. In der Bildverarbeitung istes eher ein häufig auftretendes Problem. Wir haben es bereits kennen gelernt,z. B. beim Blendenproblem der Bewegungsbestimmung (Abschn. 14.3.2).

17.4.5 Fehler der Modellparameter

Ein überbestimmtes lineares Gleichungssystem, das durch Minimierung der L2-Norm gelöst wurde, ermöglicht eine Fehleranalyse. Wir können nicht nur dieAbweichungen zwischen den modellierten und gemessenen Daten studieren,sondern auch die Fehler des berechneten Modellparametervektors pest abschät-zen.

Die mittlere Abweichung zwischen den gemessenen und den durch das Modellvorhergesagten Werten kann direkt mit der Norm des Fehlervektors in Verbin-dung gebracht werden. Der Schätzwert der Varianz ergibt sich zu

σ 2 = 1Q− P ‖e‖

2 = 1Q− P ‖d −Mpest‖2

2. (17.59)

Um nicht eine Verfälschung des Schätzwerts der Varianz zu erhalten, muss dieNorm durch die Anzahl der Freiheitsgrade Q − P und nicht durch Q dividiertwerden.

Nach (17.57) ist der berechnete Parametervektor pest eine Linearkombinationdes Datenvektors d. Daher können wir das Fehlerfortpflanzungsgesetz (3.27)aus Abschn. 3.3.3 anwenden. Die Kovarianzmatrix (Definition in (3.19)) des


Parametervektors pest ergibt sich mit (AB)T = BTAT zu

cov(pest) =(MTM

)−1MT cov(d) M

(MTM

)−1. (17.60)

Falls die einzelnen Elemente des Datenvektors d miteinander unkorreliert sindund die gleiche Varianz σ 2 haben, d. h. cov(d) = σ 2I, vereinfacht sich (17.60)zu

cov(pest) =(MTM

)−1σ 2. (17.61)

In diesem Fall stellt die inverse Matrix (MTM)−1 bis auf den Faktor σ 2 direktdie Kovarianzmatrix des Parametervektors dar. Das bedeutet, dass die Diago-nalelemente die Varianzen der einzelnen Parameter enthalten.

17.4.6 Regularisierung

Bei den bisherigen Betrachtungen enthält das Fehlerfunktional (17.52) nur einenÄhnlichkeitsterm, aber keinen Regularisierungs- oder Glattheitsterm. Für vielediskrete Probleme — wie z. B. die in Abschn. 17.4.1 diskutierte lineare Regressi-on — hat ein solcher Term keinen Sinn. Wenn die zu bestimmenden Parameterjedoch die Elemente einer Zeitserie oder Punkte eines Bildes sind, dann wer-den solche Terme wichtig. Ein geeigneter Glattheitsparameter könnte dann dieNorm der Zeitserie oder des Bildes sein, die mit einem Ableitungsfilter gefaltetwurden:

‖r‖2 = ‖h∗p‖22 . (17.62)

In der Sprache der Matrixalgebra kann die Faltung durch eine Vektor-Matrix-Multiplikation ausgedrückt werden:

‖r‖2 = ‖Hp‖22 . (17.63)

Wegen der Faltungsoperation hat die Matrix H eine besondere Form. Nur dieKoeffizienten um die Diagonale sind ungleich null und alle Werte in Diagona-lenrichtung sind gleich.Als ein Beispiel betrachten wir den gleichen Glattheitsterm, den wir beim Varia-tionsansatz in Abschn. 17.2.4 benutzt haben, die erste Ableitung. Diese kannz. B. durch eine Vorwärtsdifferenz approximiert werden, aus der sich die Matrix

H =

⎡⎢⎢⎢⎢⎢⎣−1 1 0 0 . . . 0

0 −1 1 0 . . . 00 0 −1 1 . . . 0...

.... . .

. . .. . .

...

⎤⎥⎥⎥⎥⎥⎦ (17.64)

ergibt.Die Minimierung des kombinierten Fehlerfunktionals mit der L2-Norm

‖e‖22 = ‖d −Mp‖2

2︸︷︷︸Ähnlichkeit

+α2 ‖Hp‖22︸︷︷︸

Glattheit

(17.65)

führt auf die folgende Lösung [153]:

pest =(MTM +α2HTH

)−1MTd. (17.66)


m1 m2 m3

mN+1

mN

m2N

mMN

Abbildung 17.8: Illustration der algebraischen Rekonstruktion aus Projektionen:Ein Projektionsstrahl dk durchquert die Bildmatrix. Alle Pixel, die vom Strahlgetroffen werden, tragen zur Projektion bei.

Die Struktur der Lösung ist der ohne Glattheitsterm in (17.53) ähnlich. Dieserbewirkt lediglich in der zu invertierenden Matrix den Zusatzterm α2HTH.

Im nächsten Abschnitt lernen wir, wie ein Bild auf einen Vektor abgebildet wer-den kann. Dann ist es möglich, diskrete inverse Probleme auch auf Bilddatenanzuwenden.

17.4.7 Algebraische tomografische Rekonstruktion

In diesem Abschnitt diskutieren wir ein komplexes Beispiel eines linearen inver-sen Problems mit Bilddaten, die Rekonstruktion von Projektionen (Abschn. 8.6).Um die inversen Methoden so, wie wir sie bisher diskutiert haben, anwenden zukönnen, müssen Bilddaten auf Vektoren abgebildet werden, die Bildvektoren.Diese Abbildung ist leicht durchzuführen, indem die Bildpunkte der Bildma-trix Zeile für Zeile neu nummeriert werden (Abb. 17.8). Auf diese Weise wirdeine M ×N-Bildmatrix in einen Spaltenvektor mit der Dimension P = M × Ntransformiert:

p =[m1,m2, . . . ,mp, . . . ,mP

]T. (17.67)

Jetzt denken wir uns einen Projektionsstrahl, der die Bildmatrix durchläuft(Abb. 17.8). Dann können wir jedem Bildpunkt des Bildvektors einen Wich-tungsfaktor zuordnen, der den Beitrag des Bildpunktes zum Projektionsstrahldarstellt. Diese Faktoren können wir in einem anderen P -dimensionalen Vektorgq kombinieren:

gq =[gq,1, gq,2, . . . , gq,p, . . . , gQ,P

]T. (17.68)


Die Gesamtemission bzw. -absorption entlang dem q-ten Projektionsstrahl dqergibt sich dann als Skalarprodukt der beiden Vektoren gq und p:

dq =P∑p=1

gq,pmp = gqp. (17.69)

Kreuzen Q Projektionsstrahlen die Bildmatrix, erhalten wir ein lineares Glei-chungssystem mit Q Gleichungen und P Unbekannten:

d︸︷︷︸Q

= M︸︷︷︸Q×P

p︸︷︷︸P

. (17.70)

Der Datenvektor d enthält alle gemessenen Projektionen und der Parameter-vektor p alle zu rekonstruierenden Pixel der Bildmatrix. Die Modellmatrix Mbeschreibt die Beziehung zwischen diesen beiden Vektoren, indem sie angibt,wie die Projektionsstrahlen bei einer vorgegebenen Anordnung die Bildmatrixdurchqueren. Mit entsprechenden Wichtungsfaktoren kann direkt die begrenz-te Auflösung des Detektors und die Größe der Strahlungsquelle berücksichtigtwerden.

Die algebraische tomografische Rekonstruktion ist eine sehr allgemeine undflexible Methode. Im Gegensatz zur gefilterten Rückprojektion (Abschn. 8.6.3)ist sie nicht auf eine Parallelprojektion beschränkt. Die Strahlen können dieBildmatrix in beliebiger Weise durchkreuzen und im Prinzip sogar gekrümmtsein. Als zusätzlichen Vorteil erhalten wir eine Abschätzung des Fehlers derRekonstruktion.

Es ist jedoch zu bedenken, dass die algebraische Rekonstruktion die Lösungsehr großer Gleichungssysteme erfordert. Der Modellvektor enthält Pixel ei-nes Bildes. Selbst bei moderater Auflösung mit 256× 256 Bildpunkten mussdie Inverse einer 65536× 65536-Matrix berechnet werden. Diese Matrix enthält4 · 109 Punkte und kann direkt nicht mehr in einem 32-Bit-Rechner gespeichertwerden. Daher müssen spezielle Techniken zur Lösung solcher großen Glei-chungssysteme entwickelt werden.

17.4.8 Weitere Beispiele inverser Probleme

Probleme dieser Art finden wir oft bei der Analyse experimenteller Daten in denNaturwissenschaften. Ein Experimentator betrachtet ein diskretes inverses Pro-blem folgendermaßen: Er führt ein Experiment durch, dessen Messergebnisse erin einem Q-dimensionalen Datenvektor d kombiniert. Diese Daten sollen miteinem Modell des beobachteten Prozesses verglichen werden. Die Parameterdieses Modells sind durch einen P -dimensionalen Modellparametervektor p ge-geben. Nun nehmen wir an, dass die Beziehung zwischen dem Modell und demDatenvektor linear ist. Sie kann dann durch eine Modellmatrix M beschriebenwerden, und wir erhalten (17.70).

In der Bildverarbeitung sind inverse Probleme ebenfalls weit verbreitet. Sie bein-halten nicht nur die Liste von Aufgaben, die zu Beginn dieses Kapitels vorge-stellt wurden (Abschn. 17.1.1), sondern auch Optimierungsprobleme im Filter-entwurf. In diesem Buch werden optimierte Filter für die Interpolation (Ab-schn. 10.6.2) und Kantendetektion (Abschn. 12.6 und 12.7.5) behandelt.


17.5 Inverse Filterung

In diesem Abschnitt untersuchen wir eine spezielle Klasse von inversen Proble-men, die in der Bildverarbeitung sehr häufig auftaucht, und zeigen, wie mansehr große inverse Probleme durch schnelle iterative Verfahren lösen kann.

17.5.1 Bildrestaurierung

Systeme zur Bilderzeugung sind wegen der physikalischen Grenzen optischerSysteme nicht perfekt. Daher sind Bilder nie mit ihrem Original identisch undinsbesondere von begrenzter Auflösung. Für viele technische und wissenschaft-liche Anwendungen ist es aber von entscheidender Bedeutung, die Auflösungzu verbessern. Wenn optische Mittel nicht mehr ausreichen, können die Me-thoden der Bildverarbeitung weiterbringen. Zu den Ursachen für eine Vermin-derung der Bildqualität zählen Fehlbedienungen oder Konstruktionsfehler vonAbbildungssystemen. Dazu gehören Unschärfen durch fehlerhafte Fokussie-rung, durch Bewegung von Objekten oder der Kamera, durch ein mechanischinstabiles optisches System oder durch Fehler in der Konstruktion optischerSysteme. Solche Fehler sind häufiger, als man glaubt. Ein berühmtes jüngeresBeispiel ist der Defekt in der Optik des Weltraumteleskops Hubble.

Ein Fehler in den Testprozeduren für die Vermessung des Hauptspiegels führtezu einer signifikanten Restaberration des Teleskops. Die Korrektur bekannterund unbekannter Bildstörungen wird Restaurierung genannt.

Es stellt sich die Frage, ob Störungen umkehrbar sind, und wenn ja, in welchemAusmaß. Klar ist, dass Information, die in einem gestörten Bild nicht mehr ent-halten ist, auch nicht mehr wiederhergestellt werden kann. Um diesen Punktzu verdeutlichen, nehmen wir den Extremfall an, dass nur der mittlere Grau-wert eines Bildes erhalten geblieben ist. Dann haben wir keine Möglichkeit, denBildgehalt zu rekonstruieren. Andererseits enthalten Bilder eine Menge redun-danter Information, sodass wir hoffen können, dass eine Bildstörung wichtigeInformation nur teilweise zerstört, auch wenn wir sie nicht mehr direkt „sehen“können.

Im Abschn. 7.6 und 9.2.1 haben wir gesehen, dass sich ein optisches System ein-schließlich der Digitalisierung als ein lineares verschiebungsinvariantes Systemdarstellt und sich deshalb gut durch eine Punktantwort und eine Transferfunk-tion beschreiben lässt.

Die erste Aufgabe wird es sein, die Störung des Bildes so genau wie möglichzu beschreiben. Dies ist möglich entweder durch eine theoretische Analysedes Bildaufnahmesystems oder experimentell durch die Benutzung geeigneterTestbilder. Wenn dies nicht möglich ist, bleibt das gestörte Bild die einzigeInformationsquelle.

17.5.2 Bildstörungen

Durch die vielfältigen Möglichkeiten der Bilderzeugung (Kapitel 7) gibt es auchviele Gründe für Bildstörungen. Die Bildschärfe ist durch eine Reihe von Lin-senfehlern (Aberrationen) begrenzt. Allerdings ist selbst bei einem perfektenoptischen System die Schärfe durch die Beugung elektromagnetischer Wellen

17.5 Inverse Filterung 513

a

~k0 0.2 0.4 0.6 0.8 1

-0.2

0

0.2

0.4

0.6

0.8

1

1

24

8

b

Abbildung 17.9: a Transferfunktionen für kreisförmige Unschärfe. Die Pa-rameter für die verschiedenen Kurven sind der Radius des Unschärfekreises;b defokussiertes Bild des Ringtestmusters.

an der Eingangsöffnung (Blende) des optischen Systems begrenzt. Neben die-sen inhärent in einem optischen System vorhandenen Bildstörungen führt oftDefokussierung dazu, dass ein Bild unscharf wird. Weitere Ursachen für Bildun-schärfen sind unerwünschte Bewegungen und Vibrationen des Kamerasystemswährend der Belichtungszeit. Besonders sensitiv für diese Art von Störungensind Systeme mit einem kleinen Bildwinkel bzw. langer Brennweite. Auch Objek-te, die sich während der Belichtungszeit um mehr als ein Pixel in der Bildebenebewegen, erzeugen Unschärfen.

Da Defokussierung und Linsenaberrationen direkt mit dem optischen Systemzusammenhängen, diskutieren wir sie in diesem Abschnitt gemeinsam. Der Ef-fekt einer Unschärfe oder einer Aberration wird durch die Punktantwort (PSF )h(x) oder die optische Transferfunktion (OTF ) h(k) beschrieben; siehe Ab-schn. 7.6. Damit ist die Beziehung zwischen dem Objekt g(x) und dem Bildg′(x) gegeben durch

g′(x) = (h∗ g)(x) • g′(k) = h(k)g(k). (17.71)

Aberrationen sind in der Regel schwieriger zu handhaben, da sie mit der Entfer-nung von der optischen Achse stark zunehmen, damit eigentlich nicht verschie-bungsinvariant sind und deshalb nicht durch eine ortsinvariante PSF beschrei-ben werden können. Andererseits verändern sich Aberrationen nur langsamund kontinuierlich mit der Position im Bild. Solange die resultierende Unschär-fe auf einen Bereich begrenzt ist, in dem die Aberration als konstant betrachtetwerden kann, lässt sie sich noch mit der Theorie der linearen verschiebungs-invarianten Systeme behandeln. Der einzige Unterschied ist der, dass PSF undOTF mit der Position im Bild variieren.

Die Punktantwort hat die Form der Blende, wenn die Defokussierung die domi-nante Ursache der Unschärfe ist. Die meisten Blenden lassen sich näherungswei-se durch eine Kreisscheibe beschreiben. Die Fouriertransformierte einer Kreis-scheibe mit dem Radius r ist eine Besselfunktion (R5):

1πr 2

Π( |x|

2r

) • J1(2π|k|r)

π|k|r . (17.72)


a b

Abbildung 17.10: Simulation der Bewegungsunschärfe mit dem Ringmuster:a kleine und b große horizontale Bewegungsunschärfe.

Diese Besselfunktion (Abb. 17.9a) hat eine Serie von Nullstellen und eliminiertdamit bestimmte Wellenzahlen vollständig. Dieser Effekt ist in Abb. 17.9b an-hand eines defokussierten Bildes des Ringtestmusters gezeigt.

Während Unschärfen durch Defokussierung und Aberrationen des optischenSystems dazu neigen, isotrop zu sein, sind Unschärfeeffekte aufgrund von Bewe-gung in der Regel eindimensionale Verschmierungen in der Bewegungsrichtung(Abb. 17.10b). Im einfachsten Fall ist die Bewegung während der Belichtungs-zeit konstant, sodass die PSF der Bewegungsunschärfe eine eindimensionaleRechteckfunktion ist. Ohne Beschränkung der Allgemeingültigkeit nehmen wirzunächst an, dass die Bewegung entlang der x-Achse verläuft. Dann ist (R4,R5)

hBl(x) = 1u∆t

Π(xu∆t

) • hBl(k) = sinc(ku∆t), (17.73)

wobei u der Betrag der Geschwindigkeit und ∆t die Belichtungszeit ist. Darausergibt sich die Unschärfelänge ∆x = u∆t.Ist die Geschwindigkeit u in eine andere Richtung orientiert, kann (17.73) fol-gendermaßen verallgemeinert werden:

hBl(x) = 1|u|∆tΠ

(xu|u|∆t

)δ(ux) • hBl(k) = sinc(ku∆t), (17.74)

wobei u = u/|u| ein Einheitsvektor in Richtung der Bewegungsunschärfe ist.

17.5.3 Entfaltung

Defokussierung, Bewegungsunschärfe und 3D-Abbildungstechniken wie Fokus-serien und konfokale Laserabtastmikroskopie (Abschn. 8.2.4) haben gemein-sam, dass die Objektfunktion g(x) mit einer Punktantwort gefaltet wird. Des-halb sind die prinzipiellen Verfahren zur Rekonstruktion oder Restauration derObjektfunktion die gleichen. Im wesentlichen handelt es sich um eine Entfal-tung oder inverse Filterung, da die Effekte der Faltung mit der PSF rückgängiggemacht werden müssen. Unter Benutzung der Beziehungen in (17.71) ist die in-verse Filterung im Prinzip ein einfacher Vorgang. Die Wirkung des Faltungsope-rators H wird durch die Anwendung des inversen Operators H−1 umgekehrt.


Im Fourierraum können wir dann folgendermaßen schreiben:

GR = G′

H′ = H−1 · G′. (17.75)

Das rekonstruierte Bild GR ergibt sich dann aus einer inversen Fouriertransfor-mation:

GR = F−1H−1 · FG′. (17.76)

Der Rekonstruktionsprozess setzt sich also aus den folgenden Schritten zusam-

men: Das fouriertransformierte Bild FG′ wird mit der inversen OTF H−1

mul-tipliziert und dann in den Ortsraum rücktransformiert. Die inverse Filterungkann auch im Ortsraum durch Faltung mit einer durch die rücktransformierteinverse OTF gegebenen Maske durchgeführt werden:

GR = (F−1H−1)∗G′. (17.77)

Auf den ersten Blick erscheint die inverse Filterung einfach. Bei näherem Hin-sehen zeigt sich jedoch, dass (17.76) und (17.77) in den meisten Fällen nichtanwendbar sind. Die Ursache liegt darin, dass die OTF oft in weiten Bereichennull ist. Das ist z. B. für die OTF der Bewegungsunschärfe (17.74) und der Defo-kussierung (17.72) der Fall. In diesen Bereichen wird die inverse OTF unendlich.

Nicht nur die Nullstellen der OTF sind problematisch, sondern auch alle Berei-che, in denen die OTF klein wird, da hier Rauschen einen großen Einfluss hat.Für eine quantitative Analyse benutzen wir das folgende einfache Bilderzeu-gungsmodell:

G′ = H ∗G+N • G′ = H · G+ N (17.78)

Gleichung (17.78) besagt, dass Rauschen nach der Störung zum Bild addiertwird. Mit diesem Modell ergibt die inverse Filterung nach (17.75) unter derVoraussetzung, dass H überall ungleich null ist:

GR = H−1· G′ = G+ H−1· N (17.79)

Dies bedeutet, dass das restaurierte Bild das Originalbild Gmit dem durch H−1

verstärkten Rauschen ist.

Geht H gegen null, werden H−1

und entsprechend auch der Rauschpegel sehrgroß. Aus (17.78) und (17.79) geht ferner hervor, dass sich das Signal-zu-Rausch-Verhältnis nicht verbessert hat, sondern gleich geblieben ist, da der Rauschpegelund die Nutzinformation im Bild mit demselben Faktor multipliziert werden.

Als Schlussfolgerung können wir festhalten, dass die inverse Filterung die Bild-qualität nicht im geringsten verbessert. Es wird sogar deutlich, dass sich jedelineare Technik so verhält. Wir können mit linearen Techniken lediglich diedurch die Störungen abgeschwächten Strukturen so weit verstärken, wie derRauschpegel eine nicht mehr akzeptable Schwelle nicht überschreitet.

Als Beispiel für die inverse Filterung betrachten wir die 3D-Rekonstruktion auseiner mikroskopischen Fokusserie. Eine Fokusserie ist ein Bildstapel von Mi-kroskopbildern, bei denen die scharfgestellte Ebene schrittweise verstellt wird.Wegen der geringen Schärfentiefe erscheinen in jedem Bild nur Objekte in einer


a b c d

e f g h

Abbildung 17.11: 3D-Rekonstruktion einer Fokusserie eines Zellkerns, die mitkonventioneller Mikroskopie aufgenommen wurde. Obere Reihe: a–c ausgewähl-te Originalbilder; d xz-Querschnitt senkrecht zur Bildebene. Untere Reihe: e–hRekonstruktionen der darüberliegenden Bilder; freundlicherweise zur Verfügunggestellt von Dr. Schmitt und Prof. Dr. Komitowski, Deutsches Krebsforschungs-zentrum, Heidelberg.

dünnen Schicht scharf abgebildet (Abschn. 7.4.3). Deswegen ergibt der Bild-stapel unmittelbar ein dreidimensionales Bild. In ihm sind allerdings die 3D-Objekte durch die 3D-Punktantwort der optischen Abbildung gestört.

Gewisse Objektstrukturen sind daher ganz herausgefiltert, und unscharf ab-gebildete Objekte überlagern die scharf abgebildeten. Durch inverse Filterungkann man versuchen, diese Effekte zu verringern.

Offensichtlich ist eine genaue Kenntnis der PSF für eine gute Rekonstruktionwesentlich. In Abschn. 7.6.1 haben wir die 3D-PSF optischer Systeme unter Ver-nachlässigung von Linsenfehlern und Auflösungsgrenzen durch Beugung be-rechnet. Nun müssen wir berücksichtigen, dass stark vergrößerte mikroskopi-sche Bilder eine beugungsbegrenzte Auflösung besitzen.

Die beugungsbegrenzte 3D-PSF wurde von Erhardt et al. [48] berechnet. Im we-sentlichen ändert die Auflösungsgrenze den Doppelkegel der PSF (Abb. 7.13)nur in der Nähe der scharf eingestellten Ebene. Hier wird ein Punkt nicht aufeinen Punkt abgebildet, sondern auf ein Beugungsscheibchen. Im Ergebnis fälltdie OTF für höhere Wellenzahlen in der kxky -Ebene ab. In erster Näherungkönnen wir die durch Beugung limitierte Auflösung als zusätzliches Tiefpass-filter betrachten. Die PSF und OTF der geometrischen Optik werden mit diesemzusätzlichen Tiefpassfilter gefaltet bzw. mulipliziert.

Der einfachste Ansatz für eine optimale Rekonstruktion ist die Begrenzung derinversen OTF auf die Wellenzahlkomponenten, die nicht unter eine kritische


Grenze gedämpft sind. Diese Grenze ist vom Rauschen im Bild abhängig. Aufdiese Weise wird die echte inverse OTF durch eine effektive inverse OTF ersetzt,die in den Wellenzahlbereichen, die nicht rekonstruiert werden können, wiedergegen null geht.

Abb. 17.11 zeigt das Ergebnis einer solchen Rekonstruktionsprozedur am Bei-spiel einer 64× 64× 64-Fokusserie, die von dem Kern einer Krebszelle aus ei-ner Rattenleber aufgenommen wurde. Die Auflösung ist in allen Richtungen0,22µm. Die Bilder verifizieren die theoretischen Betrachtungen. Die Rekon-struktion verbessert die Auflösung in der xy-Bildebene beträchtlich, währenddie Auflösung in z-Richtung — wie erwartet — deutlich schlechter bleibt. Struk-turen, die sich nur in z-Richtung ändern, sind durch die PSF der optischen Ab-bildung komplett aus dem Bildstapel gefiltert worden und können daher nichtmehr rekonstruiert werden.

17.5.4 Iterative inverse Filterung

Eine interessante Variante der inversen Filterung stellen iterative Techniken dar,da sie die Kontrolle über den Grad der Rekonstruktion ermöglichen. Sei H derUnschärfeoperator. Zusätzlich führen wir den neuen OperatorH′ = I −H ein.Dann kann der inverse Operator

H−1 = II −H′ (17.80)

durch eine Taylorreihe angenähert werden:

H−1 = I +H′ +H′2 +H′3 + . . . . (17.81)

Explizit für die OTF im Fourierraum heißt dies:

h−1(k) = 1+ h′ + h′2 + h′3 + . . . . (17.82)

Um zu verstehen, wie die Iteration arbeitet, betrachten wir periodische Struk-turen und dabei zunächst eine, die nur wenig abgeschwächt ist, d. h., h ist nurwenig kleiner als eins. Damit ist h′ klein, und die Iteration konvergiert rasch.

Das andere Extrem hätten wir, wenn die periodische Struktur nahezu verschwun-den ist. Dann ist h′ fast eins. Entsprechend nimmt die Amplitude der periodi-schen Struktur mit jedem Iterationsschritt um den gleichen Betrag zu (lineareKonvergenz). Diese Prozedur hat den entscheidenden Vorteil, dass wir die Ite-ration stoppen können, sobald das Rauschen sichtbar wird.

Eine direkte Implementierung des Iterationsschemas hat wenig Sinn, da mit zu-nehmendem Exponenten die Faltungsmasken immer größer werden und deswe-gen der Rechenaufwand von Iterationsschritt zu Iterationsschritt anwächst.

Ein wesentlich effektiveres Iterationsschema, die Van Cittert-Iteration, benutztdas Horner-Schema zur schnellen Berechnung eines Polynoms:

G0 = G′, Gk+1 = G′ + (I −H)∗Gk. (17.83)

Im Fourierraum kann man leicht die Konvergenz der Iteration untersuchen. Aus(17.83) ergibt sich

gk(k) = g′(k)k∑i=0

(1− h(k))i. (17.84)


Diese Gleichung stellt eine geometrische Reihe dar mit dem Startwert a0 = g′und dem Faktor q = 1 − h. Die Reihe konvergiert nur, wenn |q| = |1 − h| < 1.Dann ist die Summe gegeben durch

gk(k) = a01− qk1− q = g′(k)1− |1− h(k)|k

h(k)(17.85)

und konvergiert gegen den korrekten Wert g′/h. Unglücklicherweise ist dieBedingung für die Konvergenz für alle diejenigen Transferfunktionen nicht er-füllt, die negative Werte haben. Daher kann die Van Cittert-Iteration nicht fürBewegungsunschärfe und Defokussierung angewendet werden.

Eine kleine Modifikation des Iterationsprozesses erlaubt es jedoch, sie auch fürnegative Transferfunktionen einzusetzen. Der einfache Trick besteht darin, dieTransferfunktion zweimal anzuwenden. Die Transferfunktion h2 des kaska-dierten Filters H ∗H ist dann immer positiv.

Das modifizierte Iterationsschema lautet

G0 = H ∗G′, Gk+1 = H ∗G′ + (I −H ∗H)∗Gk. (17.86)

Mit a0 = hg′ und q = 1 − h2 konvergiert die Iteration wiederum gegen denkorrekten Wert

limk→∞

gk(k) = limk→∞

hg′1− |1− h2|k

h2= g′

h, wenn |1− h2| < 1. (17.87)

17.6 Weitere äquivalente Ansätze

Dieser abschließende Abschnitt diskutiert weitere äquivalente Modellansätze,die die Modellierung aus anderen Perspektiven zeigen. Als weiterer kontinuier-licher Ansatz werden Elastizitätsmodelle in Abschn. 17.6.1 vorgestellt und alsweiteren interessanten diskreten Ansatz elektrische Netzwerkmodelle in Ab-schn. 17.6.2.

17.6.1 Elastizitäts-Modelle

An dieser Stelle ist es sinnvoll, ein analoges physikalisches Problem zu betrach-ten, das uns weiteren Einblick gibt, wie sich Ähnlichkeits- und Glattheitstermdie Waage halten. In einem physikalischen Modell entsprechen diese beidenTerme zwei Arten von Kräften.

Wir benutzen wieder das Beispiel der Bewegungsbestimmung und denken unsdie Bilder als auf eine elastische Membran gemalt. Die Bewegung wird die Mem-bran von Bild zu Bild verschieben. Speziell wird nicht uniforme Bewegungdie Membran leicht expandieren oder zusammenziehen. Der Ähnlichkeitstermwirkt wie eine äußere Kraft, die versucht, die Membran in Richtung des loka-len Verschiebungsvektors (VV ) zu verschieben. Die inneren elastischen Kräfteder Membran versuchen, diese Verschiebungen möglichst gleichmäßig über dieganze Membran zu verteilen, und bewirken damit ein glattes Verschiebungsvek-torfeld (VVF ).

17.6 Weitere äquivalente Ansätze 519

Betrachten wir zunächst die externen Kräfte genauer. Es ist nicht sinnvoll, dieVerzerrungen an den Punkten, an denen wir den VV der geschätzten Verschie-bung berechnen können, starr vorzugeben. Vielmehr werden wir um so größereAbweichungen von der berechneten Verschiebung zulassen, je ungenauer siebestimmt werden kann. Physikalisch entspricht dies einem Federnpaar, des-sen Federkonstante proportional zur Genauigkeit ist, mit der der VV bestimmtwerden kann. Der Nullpunkt des Federsystems entspricht dem berechnetenVerschiebungsvektor. Da die Membran zweidimensional ist, werden an jedemPunkt zwei Federpaare benötigt. Die Richtung der Federn wird nach der lokalenOrientierung (Abschn. 13.3) ausgerichtet. An einer Kante kann nur die Verschie-bung senkrecht zur Kante berechnet werden (Blendenproblem, Abschn. 14.2.2).Folglich wird hier nur ein Federnpaar senkrecht zur Kante angebracht; die Ver-schiebung parallel zur Kante ist frei.

Die externen Federkräfte wirken den inneren elastischen Kräften der Membranentgegen, die versuchen, die unterschiedlichen Verschiebungen auszugleichenund die Verformung der Membran minimal zu halten. Unter diesem Blickwinkelkönnen wir die Euler-Lagrange-Gleichung für den optischen Fluss (17.23) nunfolgendermaßen verstehen:(∇g f + gt)∇g︸︷︷︸

Externe Kraft

− α2∆f︸︷︷︸Interne Kraft

= 0. (17.88)

Dabei stellt α2 die Elastizitätskonstante dar. Den äußeren Kräften wird durchdie inneren die Waage gehalten. Bei den inneren Kräften tauchen die zweitenpartiellen Ableitungen des VVF auf, da ein konstanter Gradient des VVF keineinneren Kräfte erzeugt.

Sämtliche Elastizitätseigenschaften der Membran sind in der Konstanten α zu-sammengefaßt. Einen tieferen Einblick in die innere Struktur der Membran er-hält man durch Betrachtung der Lagrangefunktion (17.23)

L(f ,fxp ,x

)= α2

(|∇f 1|2 + |∇f 2|2

)︸︷︷︸

T , Deformationsenergie

+ (∇g f + gt)2︸︷︷︸–V , Potenzial

. (17.89)

Die Lagrangefunktion setzt sich aus dem Potenzial der äußeren Kraft, die ausder Kontinuität des optischen Flusses resultiert, und der Deformationsenergie,die in Bezug zu den inneren Kräften steht, zusammen. Diese Energie taucht hieranstelle der kinetischen Energie im klassischen Beispiel der Lagrangefunktionfür einen Massenpunkt auf (Abschn. 17.2.1), weil das Minimalproblem nicht ineinem Zeit-, sondern in einem Flächenintegral formuliert ist.

Der Term mit der Deformationsenergie kann in mehrere Terme aufgeteilt wer-den, die den verschiedenen Deformationsarten entsprechen:

T(fxp

)= 1

2

⎡⎢⎢⎣((f1)x + (f2)y

)2

︸︷︷︸Dilatation

+

((f1)x − (f2)y

)2 +((f1)y + (f2)x

)2

︸︷︷︸Scherung

+((f1)y − (f2)x

)2

︸︷︷︸Rotation

⎤⎥⎥⎦ .

(17.90)


Daran sehen wir, dass die Elastizitätseigenschaften der Membran optimal derBewegungskinematik angepasst sind. Jede aufgrund der verschiedenen Modider 2D-Bewegung auf der Bildebene mögliche Deformation bekommt gleichesGewicht. Das VVF wird also so berechnet, dass seine Divergenz, Rotation undScherung gleichermaßen minimal gehalten werden.

Physikalisch gesehen ist diese Membran nicht sinnvoll. Die Differenzialglei-chung für eine reale physikalische Membran sieht etwas anders aus [53]:

f − (λ+ µ)∇(∇u)− µ∆u = 0. (17.91)

Die Elastizität einer physikalischen Membran wird durch die beiden Konstantenλ und µ beschrieben. λ = −µ ist nicht möglich, sodass nur der im Vergleich zurModellmembran für das VVF zusätzliche Term mit ∇(∇u) bei einer physikali-schen Membran nie verschwinden kann. Wenn es keine Querkontraktion gibt,kann λ allenfalls null sein.

Bei dem Membranmodell ist nur die Auslenkung stetig, nicht aber deren ers-te Ableitung. Diese Unstetigkeiten treten genau an den Punkten auf, an denendie äußeren Kräfte angreifen. Das sieht man direkt an (17.23). Eine lokal ange-wandte externe Kraft entspricht einer δ-Distribution im Ähnlichkeitsterm. NachIntegration von (17.23) hat das VVF Unstetigkeiten in den Ableitungen ersterOrdnung.

Diese Überlegungen stellen die bisher betrachteten Glattheitsbedingungen inFrage, weil wir wissen, dass die Bewegung ebener Oberflächenelemente keineUnstetigkeiten in der ersten Ableitung aufweist. Eine Glattheit der Ableitun-gen erster Ordnung kann erzwungen werden, wenn wir Ableitungen zweiterOrdnung in den Glattheitsterm (17.23) oder die Deformationsenergie (17.89)einbeziehen.

Physikalisch gesehen wird damit aus einer Membran eine dünne elastische Platte,die nicht wie eine Membran geknickt werden kann.

17.6.2 Netzwerkmodelle

In diesem Abschnitt diskutieren wir die aus der Elektrotechnik stammendenNetzwerkmodelle. Ihr Vorteil ist, dass sie unmittelbar ein diskretes Modell dar-stellen, das direkt auf Bilddaten übertragen werden kann. Die Darstellung indiesem Abschnitt folgt weitgehend den Arbeiten von Harris [78, 79]. Das Stu-dium von Netzwerkmodellen ist aktuell geworden, seit Netzwerkstrukturen di-rekt auf Parallelrechnersystemen, wie z. B. der Connection Machine des Massa-chusetts Institute of Technology (MIT) [79], oder auf hochintegrierten analogenSchaltungen (VLSI) [152] abgebildet werden können.

Eindimensionale Netzwerke. Wir betrachten zuerst den einfacheren eindi-mensionalen Fall. Die Verschiebung entspricht einem elektrischen Potenzial Uin einem elektrischen Widerstandsnetzwerk, in dem alle Knotenpunkte durcheinen Widerstand miteinander verbunden sind (Abb. 17.12). Durch diese Ver-bindungen wird eine Kontinuität des Potenzials erzwungen. An jedem Punktkönnen wir ein Potenzial vorgeben, indem wir an dem entsprechenden Bild-punkt ein externes Potenzial anlegen. Wird nur an einem einzigen Punkt imNetzwerk das Potenzial vorgegeben, so erhält das ganze Netzwerk dieses Po-tenzial. Legen wir an einem zweiten Punkt des Netzwerks ein anderes Potenzial


U0n

Sn

R R R R R R R RUn

Abbildung 17.12: Einfaches diskretes Netzwerkmodell für eine glatte eindimen-sionale Modellierung; nach Harris [79].

an, so ergibt sich eine lineare Potenzialänderung zwischen den beiden Punkten.Die Verknüpfung mit Widerständen besorgt die Glattheit, während die Potenzi-alvorgabe die Ähnlichkeit erzwingt.

Mehrere Arten von Randbedingungen sind möglich: Man kann den Rand der Wi-derstandskette auf ein Potenzial setzen und damit einen festen Wert am Randvorgeben (Randbedingung nullter Ordnung). Eine andere Möglichkeit ist, keineVerbindung am Rand vorzugeben. Dies entspricht dem Nullsetzen der räumli-chen Ableitung erster Ordnung. Dann wird das Potenzial von der nächstliegen-den Potenzialeingabe bestimmt.

Ähnlich, wie beim Elastizitätsmodell (Abschn. 17.6.1) die Verschiebung entspre-chend der Ähnlichkeitsbedingung nicht starr, sondern über Federn vorgegebenwird, ist es im Netzwerkmodell sinnvoll, das Potenzial U0n nicht direkt an denKnotenpunkten n, sondern über einen Widerstand Sn auf das Netzwerk zu ge-ben (Abb. 17.12). Dieser Widerstand wird um so größer gewählt, je unsichererder Ähnlichkeitsterm, d. h. das Vorgabepotential, an der entsprechenden Stelleist.

Die Differenzengleichung für das Netzwerkmodell ergibt sich aus der Kirchhoff-schen Stromsummenregel, dass an jedem Knoten des Netzwerks die Summealler zu- und abfließenden Ströme null sein muss. Mit den Definitionen ausAbb. 17.12 ergibt sich für den Knotenpunkt n des Netzwerks

Un −U0n

Sn+ Un −Un−1

R+ Un −Un+1

R= 0. (17.92)

Die beiden rechten Brüche bilden zusammen den diskreten Ableitungsoperatorzweiter OrdnungD2

x (siehe Abschn. 12.5.2), sodass wir (17.92) folgendermaßenschreiben können:

1S(U −U0)− 1

R∂2U∂x2

= 0. (17.93)

Diese Gleichung ist die eindimensionale diskrete Form der kontinuierlichen Glei-chung (17.23), die wir zum besseren Vergleich für den eindimensionalen Fallwiederholen:

(∂xg)2(f + ∂tg

∂xg

)−α2 ∂2f

∂x2= 0. (17.94)

Nun können wir die Analogie zwischen den VV und dem Netzwerkmodell quan-tifizieren. Der Vorgabe des Potenzials U0 entspricht die Berechnung der lokalenGeschwindigkeit mit −(∂tg)/(∂xg). Der Ähnlichkeitsterm wird statt mit (∂xg)2


Un-1 Un Un+1

R R R R R

_ _ _ _

Abbildung 17.13: Einfaches diskretes Netzwerkmodell für die Modellierung einesskalaren Merkmals mit glatter erster Ableitung; nach Harris [79].

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

R

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

Un-1 Un Un+1

Abbildung 17.14: Einfaches diskretes Netzwerkmodell für ein eindimensionalesVVF, bei dem Ableitungen höherer Ordnung glatt sind;nach Harris [79].

mit dem Leitwert 1/S und der Glattheitsterm statt mit α2 mit dem Leitwert 1/Rgewichtet.

Verallgemeinerte Netzwerke. Nun wenden wir uns der Frage zu, wie eineKontinuität der ersten Ableitung in das Netzwerkmodell integriert werden kann.Harris [78] benutzt dazu ein aktives Subtraktionsmodul, das die Differenz auszwei Signalen bildet. Alle drei Anschlüsse sind sowohl Ein- als auch Ausgänge.Das Potenzial an jeweils einem Ausgang stellt sich entsprechend des Potenzialsan zwei beliebigen anderen Eingängen ein.

Zur Realisierung eines solchen Subtraktionsmoduls bedarf es aktiver elektro-nischer Bauelemente. Abbildung 17.13 zeigt die Integration dieses Subtrakti-onsmoduls in ein Netzwerk. Es berechnet die Potenzialdifferenz zwischen zweiNachbarknoten. Diese Differenz wird dann — statt des Potenzials selbst —auf das Widerstandsnetzwerk gegeben. Dadurch erhalten wir ein Netzwerk, beidem die ersten Ableitungen kontinuierlich bleiben. Es bedarf keiner Phantasie,dieses Modell so zu erweitern, dass die Kontinuität von Ableitungen beliebigerOrdnung gegeben ist. Dazu müssen lediglich mehrere Ebenen mit Subtraktions-modulen übereinander geschaltet werden (Abb. 17.14).


R R

R

R

R

R

R

R

R

R

R R

R

R

R

R

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

_

Un-1 Un Un+1

Abbildung 17.15: Verallgemeinertes eindimensionales Netzwerk mit einer Dis-kontinuität im VVF und einer in der ersten Ableitung des VVF, wie markiert.

Netzwerke mit Diskontinuitäten. Verschiebungsvektorfelder zeigen anden Kanten sich bewegender Objekte Diskontinuitäten. Das Netzwerkmodellermöglicht es, Diskontinuitäten in einfacher Weise zu integrieren. Im Netzwerk-modell mit der Stetigkeitsforderung nur an das VVF selbst (Abb. 17.12) musseinfach an einer Unstetigkeitsstelle der Widerstand weggelassen oder genügendgroß gemacht werden. Dann ist zwischen den entsprechenden Knoten im Netz-werk ein Potenzialsprung möglich. Im Sinne einer kontrollierten Glattheit (Ab-schn. 17.2.5) können wir uns auch ein nichtlineares Modell mit spannungsab-hängigen Widerständen vorstellen. Diskontinuitäten sind an den Stellen desVVF zu vermuten, an denen sich steile Gradienten befinden. Wächst der Ver-bindungswiderstand mit der Spannung, so haben wir einen Mechanismus, mitdem wir implizierte Diskontinuitäten erzeugen können. Diese wenigen Überle-gungen machen deutlich, wie flexibel und anschaulich Netzwerkmodelle sind.

Im verallgemeinerten Netzwerkmodell ist die Integration von Diskontinuitätenetwas komplexer. Hier kann in jeder Stufe des Netzwerks eine Diskontinuitäteingebracht werden, also bei den VVF selbst oder bei jeder Ableitungsstufe, in-dem man einen Widerstand in der entsprechenden Ebene entfernt. Allerdingskann man nicht den betreffenden Widerstand allein auftrennen, sondern mussalle Widerstände von tieferliegenden Knoten, die zur Diskontinuitätsstelle füh-ren, ebenfalls entfernen (Abb. 17.15). Andernfalls bleibt die Kontinuität in denhöheren Ableitungen bestehen und bewirkt eine Kontinuität auch in den niede-ren Ableitungen.

Zweidimensionale Netzwerke. Das Netzwerkmodell kann auch auf höher-dimensionale Probleme übertragen werden. Für ein zweidimensionales Modellmit Kontinuität erster Ordnung bauen wir ein zweidimensionales Netzwerk vonWiderständen. Komplexer ist der Aufbau von verallgemeinerten zweidimen-sionalen Netzwerken mit Kontinuitätsbedingungen höherer Ordnung. In jederStufe hat man nun die Kontinuität von mehreren partiellen Ableitungen zu be-rücksichtigen. Für die erste räumliche Ableitung gibt es zwei partielle Ableitun-gen, eine horizontale und eine vertikale. Für jede dieser Richtungen wird eineeigene Ebene mit Subtraktionsmodulen aufgebaut wie in Abb. 17.13, damit die


R R R R R R R R

C C C C C C C

Un-1 Un Un+1

Abbildung 17.16: Eindimensionales Netzwerk mit Kondensatoren zur Simulati-on iterativer Lösungen.

Glattheitsbedingung erfüllt wird. Wegen weiterer Einzelheiten sei der Leser aufdie Originalliteratur verwiesen [79].

Mehrgitter-Netzwerke. Eines der wichtigsten Probleme bei großen Glei-chungssysteme, die wir hier besprechen, ist es, schnelle iterative Lösungsver-fahren zu finden. Diesen Aspekt können wir auch mit Netzwerken modellieren.Durch die Iteration kommt eine Zeitkonstante ins Spiel, die auf einfache Weisedurch einen zusätzlichen Kondensator an jedem Knotenpunkt simuliert wer-den kann (Abb. 17.16). Das statische Verhalten des Netzwerks und damit dieLösung des Gleichungssytems wird durch den Einbau der Kondensatoren nichtverändert.

Der typische Ausgangspunkt der Iteration ist, dass die VV nur an vereinzel-ten Stellen mit starken Grauwertkanten bekannt sind. Die Frage ist, wie vieleIterationen wir brauchen, bis diese Information an weit entfernte Punkte, vondenen wir keine Verschiebungsinformation haben, weitergetragen wird. ZurBeantwortung dieser Frage leiten wir die Differenzengleichung der Widerstand-Kondensator-Kette her (Abb. 17.16). Sie ergibt sich wiederum aus dem Kirch-hoffschen Stromsummengesetz. Zusätzlich müssen wir nur wissen, dass derStrom, der in einen Kondensator fließt, proportional zu dessen Kapazität Cund der zeitlichen Ableitung der Spannung ∂U/∂t ist. Damit ergibt sich

Un−1 −UnR

+ Un+1 −UnR

− C ∂Un∂t

= 0 (17.95)

oder∂Un∂t

= (∆x)2

RC∂2Un∂x2

. (17.96)

Dabei ist in der zweiten Gleichung ∆x der räumliche Abstand zwischen benach-barten Punkten der Kette, damit eine räumliche Ableitung formuliert werdenkann. τ = RC ist die Zeitkonstante eines einzelnen Widerstand-Kondensator-Kreises. Gleichung (17.96) ist die eindimensionale Formulierung einer sehr be-kannten und quer durch viele Gebiete der Naturwissenschaften angewandtenGleichung, der eindimensionalen Transport- oder Diffusionsgleichung, die wirschon ausführlich in den Abschn. 5.3.1 und 17.3 beschrieben haben. Ohne(17.96) explizit zu lösen, können wir die Frage nach der Zeitkonstanten beant-worten, die zum Transport der Information um eine gewisse Strecke erforder-lich ist. Wir gehen von einem räumlich periodisch variierenden Potenzial mitder Wellenlänge λ aus, dessen Amplitude exponentiell mit einer von der Wel-lenlänge λ abhängigen Zeitkonstanten τλ abnimmt (vergl. Abschn. 5.3.1):

U(x) = U0(x) exp(−t/τ) exp(ikx). (17.97)


Setzen wir diesen Ansatz in (17.96) ein, dann erhalten wir

τλ = τ(∆x k)2

= τ4π2(∆x)2

λ2. (17.98)

Damit haben wir die wesentliche Antwort auf die Frage der Konvergenz der Ite-ration gewonnen: Die Konvergenzzeit wächst quadratisch mit der Wellenlängeder Struktur, die wir glätten wollen. Es dauert also viermal so lange, doppeltso weit entfernte Werte ins Gleichgewicht zu bringen. Nehmen wir einmal will-kürlich an, dass ein Iterationsschritt notwendig ist, um benachbarte Knoten insGleichgewicht zu bringen. Dann brauchen wir für Knoten, die 10 Bildpunktevoneinander entfernt sind, 100 Iterationsschritte. Bei nur wenigen bekanntenWerten ist also die Konvergenz des Verfahrens viel zu langsam.

Abhilfe ist mit Mehrgitterverfahren möglich, die wir in Kapitel 5 diskutiert ha-ben. Sie sind ein effizientes Hilfsmittel zur Beschleunigung der Konvergenz derIteration. Man beginnt die Iteration des Gleichungssystems auf einer grobenStufe. Dann liegen die berechneten Werte eng beieinander. Bei einer Pyramidemit nur sechs Ebenen schrumpfen die Entfernungen auf 1/32. Wir können alsodie großen Strukturen der Lösung mit einer Konvergenzrate berechnen, die umden Faktor 1000 schneller ist als auf dem Originalbild. Auf dieser Stufe erfassenwir nicht die kleinskaligen Variationen. Wir können aber die grobe Lösung alsAusgangspunkt für weitere Iterationen auf der nächstfeineren Auflösungsstufenehmen.

Auf diese Weise können wir die Lösung von Ebene zu Ebene verfeinern underhalten auf der untersten Ebene der Pyramide eine Lösung mit der vollen Auf-lösung. Die Berechnungen in den höheren Ebenen der Pyramide kosten nichtviel Rechenzeit, da die Anzahl der Pixel in allen Ebenen der Pyramide zusammennur um 1/3 höher ist als in der untersten Ebene. Die Berechnung eines VVF derTaxiszene (Abb. 17.3) mit dieser Methode ist in Abb. 17.4 gezeigt.


17.1: Inhomogene und anisotrope Diffusion

Interaktive Demonstration der Glättung mittels inhomogener und anisotro-per Diffusion (dip6ex17.01)

17.2: Regularisierte Bewegungsanalyse

Interaktive Demonstration regularisierter Bewegungsanalyse (dip6ex17.02)

17.3: Iterative inverse Filterung

Interaktive Demonstration iterativer inverser Filterung; Erzeugung von Test-bildern mit Bewegungsunschärfe und Defokusierung (dip6ex17.03).

17.4: ∗∗Ebenenregression

Führen Sie analog zu den Überlegung in Abschn. 17.4.1 die Regression einerEbene durch eine Bildfunktion durch:

d(x,y) = a0 + a1x + a2y


Fragen:

1. Stellen Sie das überbestimmte lineare Gleichungssystem auf (Gm = d).

2. Unter welchen Bedingungen liefert das überbestimmte Gleichungssystemkeine eindeutige least-squares Lösung? Diskutieren Sie dazu die zu inver-tierende Matrix GTG. (Hinweis: Die Überlegungen werden besonders ein-fach, wenn Sie die symmetrische Matrix diagonalisieren, d. h. ins Haupt-achsensystem drehen.)

3. Unter welchen Bedingungen sind die Parameter des Ebenenfits

m = [a0, a1, a2]T

statistisch unkorreliert? (Hinweis: dazu benötigen sie die Kovarianzma-trix von m, die bei statistisch unkorrelierten Messwerten d mit der Vari-anz σ 2 gegeben ist durch cov(m) = (GTG)−1σ 2.)

4. Lösen sie das Gleichungssystem explizit für den Fall von 3× 3 = 9 Punk-ten auf einem quadratischen Gitter mit dem Abstand ∆x zentriert umden Nullpunkt.

5. Wie hängt die Genauigkeit der Regressionsparameter in m vom Abstand∆x ab?

6. Können Sie die Bestimmung der drei Regressionsparameterm = [a0, a1, a2]T

als Faltungsoperationen ausdrücken? Wenn ja, dann berechnen Sie dieentsprechenden Faltungsmasken.

17.5: ∗Inverse Filterung

Die Punktantwort einer 1D-Bildunschärfe sei durch eine der folgenden ein-fachen Masken gegeben

1. H = [1/3,1/3,1/3] (3er Rechteckmaske)

2. H = [1/4,1/2,1/4] (Binomialmaske)

3. H = [1/8,3/4,1/8]Beantworten Sie dazu folgende Fragen

• Kann die Bildunschärfe durch inverse Filterung rückgängig gemacht wer-den?

• Wenn ja, geben Sie die Transferfunktion des inversen Filters an.

• Wenn ja, berechnen Sie die Faltungsmaske für das inverse Filter (Tip:Reihenentwicklung).

17.6: ∗∗Iterative inverse Filterung

Wir gehen davon aus, dass G′ das durch die Faltungsmaske H degradierteBild ist und bezeichnen die Folge der iterativ restaurierten Bilder mit Gk.Drei bekannte Iterationsvorschriften lauten dann:Van Cittert Iteration:

G0 = G′, Gk+1 = G′ + (I −H)∗GkStabilisierte VanCittert Iteration:

G0 = H ∗G′, Gk+1 = H ∗G′ + (I −H ∗H)∗Gk


Regularisierte Iteration:

G0 = H ∗G′, Gk+1 = H ∗G′ + (B−H ∗H)∗Gk(dabei bedeutet I der Identitätsoperator und B eine beliebige Glättungsmas-ke.)Prüfen Sie mit folgenden einfachen Masken

1. H = [1/3,1/3,1/3] (3er Rechteckmaske)

2. H = [1/8,3/4,1/8]folgendes:

• Konvergiert die Iteration?

• Wenn ja, gegen welchen Grenzwert?

(Hinweis: Die Fragen lassen sich am einfachsten im Fourierraum beantwor-ten!)


Das Thema dieses Kapitels erfordert in hohem Maße die Methoden der Matri-xalgebra. Die Monografie von Golub und van Loan [69] gibt einen exzellentenÜberblick. Variationsmethoden in der Bildverarbeitung (Abschn. 17.2) werdenvon Jähne et al. [104, Vol. 2, Chapter 16] und Schnörr und Weickert [199] aus-führlich diskutiert. Eine sehr schöne Abhandlung der Variationsrechnung fin-det sich auch in Courant und Hilbert [34]. Die Benutzung des Membranmodells(Abschn. 17.6.1) wurde zuerst von Broit [20] publiziert, der es zur Bildregistrie-rung in der Computertomografie eingesetzte. Später wurde es von Dengler [41]erweitert und für die Bildfolgenanalyse benutzt. Inzwischen sind Elastizitäts-modelle weit verbreitet und werden in der Bildverarbeitung für so verschiedeneAufgaben wie die Modellierung und Verfolgung von Kanten (aktive Konturen)[116], die Rekonstruktion von 3D-Objekten [221] und die Rekonstruktion vonOberflächen [220] eingesetzt. Die anisotrope Diffusion (Abschn. 17.3) und nicht-lineare Skalenräume sind noch aktiver Gegenstand der Forschung. Eine exzel-lente Übersicht dieses Themas bieten Weickert [236] und Jähne et al. [104, Vol.2, Chapter 15]. Optimale Filter für schnelle anisotrope Diffusion werden vonScharr und Weickert [197] und Scharr und Uttenweiler [196] untersucht.

18 Morphologie

18.1 Einleitung

Durch die in den Kapiteln 16 und 17 besprochene Segmentierung ha-ben wir Objekte aus Bildern extrahiert, d. h. identifiziert, welche Pixelzu welchen Objekten gehören. Nun können wir den nächsten Schrittdurchführen und die Gestalt der Objekte analysieren. In diesem Kapi-tel diskutieren wir eine Klasse von Nachbarschaftsoperationen, die mor-phologischen Operatoren für Binärbilder, mit denen sich die Form vonObjekten modifizieren und analysieren lässt.

18.2 Nachbarschaftsoperationen mit Binärbildern

18.2.1 Binäre Faltung

Operatoren, die Bildpunkte in einer kleinen Nachbarschaft in Beziehungzueinander setzen, haben sich als vielseitige und leistungsfähige Werk-zeuge zur Extraktion von Merkmalen aus Skalar- und Vektorbildern er-wiesen (Kapitel 4). Das Ergebnis solch einer Operation in Binärbildernkann nur null oder eins sein. Also werden Nachbarschaftsoperatoren inBinärbildern die Objektform bearbeiten, indem sie Bildpunkte zu einemObjekt hinzufügen oder aus einem Objekt löschen. In den Abschn. 4.2und 4.3 haben wir die zwei grundlegenden Operationen zur Verknüp-fung benachbarter Bildpunkte in Grauwertbildern besprochen: die Fal-tung („wichten und summieren“) und die Rangordnungsfilterung („sor-tieren und selektieren“).

Bei Binärbildern haben wir in Bezug auf die Art der durchzuführen-den Operationen nicht viel Auswahl. Bildpunkte lassen sich nur mit denlogischen Operatoren der Booleschen Algebra kombinieren. Wir könneneine binäre Faltung einführen, indem wir die Multiplikation der Bildpi-xel mit den Maskenpixeln durch eine Und-Operation und die Summationdurch eine Oder-Operation ersetzen:

g′mn =R∨

m′=−R

R∨n′=−R

mm′,n′ ∧ gm+m′,n+n′ . (18.1)

Die Zeichen ∧ bzw. ∨ stehen für die logische Und-Operation bzw. für dieOder-Operation. Das Binärbild G wird in (18.1) mit einer symmetrischen


530 18 Morphologie

a b c

Abbildung 18.1: b Dilatation und c Erosion eines binären Objekts in a mit einer3× 3-Maske. Die hinzugefügten (Dilatation) bzw. entfernten (Erosion) Bildpunktesind in hellerer Farbe dargestellt.

(2R + 1)× (2R + 1)-Maske M gefaltet. Man beachte, dass im Gegensatzzur Faltung die Maske nicht gespiegelt wird (Abschn. 4.2.5).

Was bewirkt diese Operation? Nehmen wir einmal an, dass alle Ko-effizienten der Maske auf eins gesetzt werden. Befinden sich ein odermehrere Objektpixel, d. h. Einsen, innerhalb der Maske, ist das Ergebnisder Operation eins, sonst null (Abb. 18.1). Das Objekt wird also aus-gedehnt; kleine Löcher oder Sprünge werden gefüllt, und die Konturenwerden glatter (Abb. 18.2b). Der in (18.1) definierte Operator wird Dila-tationsoperator genannt. Interessanterweise haben wir den gleichen Ef-fekt, wenn wir einen Rangordnungsfilter auf Binärbilder anwenden (sieheAbschn. 4.3).

Betrachten wir dazu den Maximumoperator . Das Maximum wird einssein, wenn eine oder mehrere Einsen innerhalb der Maske vorkommen.Das führt zum gleichen Ergebnis wie die binäre Faltungsoperation in(18.1). Der Minimumoperator hat den gegenteiligen Effekt. Nun ist dasErgebnis nur eins, wenn sich die Maske vollständig innerhalb des Ob-jektes befindet. Auf diese Weise wird das Objekt erodiert. Objekte, diekleiner als die Maske sind, verschwinden völlig, solche, die mit einerschmalen Brücke verbunden sind, werden getrennt (Abb. 18.1c). Auchdie Erosion eines Objekts kann mit der binären Faltung durchgeführtwerden:

g′mn =R∧

m′=−R

R∧n′=−R

mm′,n′ ∧ gm+m′,n+n′ (18.2)

Bei höherdimensionalen Bildern müssen (18.1) und (18.2) lediglichum eine weitere Schleife für jede Koordinate erweitert werden. Im 3D-Raum sieht der Dilatationsoperator beispielsweise folgendermaßen aus:

g′lmn =R∨

l′=−R

R∨m′=−R

R∨n′=−R

ml′m′n′ ∧ gl+l′,m+m′,n+n′ . (18.3)

18.2 Nachbarschaftsoperationen mit Binärbildern 531

Mit der Übertragung des Konzeptes der Nachbarschaftsoperationenfür Grauwertbilder auf Binärbilder haben wir ein wichtiges Werkzeugzur Bearbeitung der Form von Objekten erhalten. In Abb. 18.1 habenwir bereits gesehen, dass sich diese Operationen dazu eignen, kleine Lö-cher und Risse zu füllen oder kleine Objekte zu eliminieren. Die Größeder Maske bestimmt die Wirkung des Operators. Daher wird die Maskeoft als Strukturelement bezeichnet. Eine Erosionsoperation wirkt zumBeispiel wie ein Netz mit Löchern in der Form der Maske. Alle Objekte,die durch die Löcher passen, rutschen hindurch und verschwinden ausdem Bild. Ein Objekt verbleibt nur dann im Bild, wenn die Maske zumin-dest an einem Punkt völlig von Objekt-Bildpunkten bedeckt ist; sonstverschwindet es. Ein Operator, der die Form von Objekten beeinflusst,wird morphologischer Operator genannt.

Der Name stammt aus der Morphologie, welche in der Biologie undden Geowissenschaften die Form von Objekten beschreibt.

18.2.2 Mengenoperationen

Wir haben zur Einführung morphologischer Operationen einen recht un-konventionellen Weg gewählt. Normalerweise werden diese Operationenals Mengenoperationen mit Bildpunkten definiert. Dazu betrachtet manG als Menge aller Pixel der Bildmatrix, die ungleich null sind. M ist dieMenge der Maskenpixel ungleich null. Mit Mp bezeichnet man die mitihrem Referenzpunkt (im Allgemeinen, aber nicht notwendig, Zentrum)zum Bildpunkt p verschobene Maske. Die Erosion wird dann mit

GM = p : Mp ⊆ G (18.4)

definiert und die Dilatation mit

G⊕M = p : Mp ∩G ≠∅. (18.5)

Diese Definitionen sind äquivalent zu (18.1) und (18.2). Wir können nundie Erosion der BildpunktmengeG durch die BildpunktmengeM als Men-ge aller Pixel p ausdrücken, für dieMp vollständig in G enthalten ist. ImGegensatz dazu ist die Dilatation von G durch M die Menge aller Pixel,für die die Schnittmenge von G und Mp nicht die leere Menge ist. Dadieser theoretische Ansatz zu kompakteren und anschaulicheren For-meln führt, werden wir ihn von nun an verwenden. Die Gleichungen(18.1) und (18.2) sind jedoch weiterhin wichtig für die Implementierungmorphologischer Operatoren mit logischen Operationen.

Erosions- und Dilatationsoperatoren können als elementare morpho-logische Operatoren betrachtet werden, aus denen sich komplexere Ope-ratoren erzeugen lassen. Ihre Eigenschaften werden wir im Detail imnächsten Abschnitt untersuchen.

532 18 Morphologie

18.3 Allgemeine Eigenschaften

Morphologische Operatoren teilen die meisten, wenn auch nicht alle Ei-genschaften der linearen Faltungsoperatoren (Abschn. 4.2). Die Eigen-schaften, die wir im Folgenden besprechen, sind nicht auf 2D-Bilder be-schränkt, sondern gelten generell für N-dimensionale Bilddaten.

18.3.1 Verschiebungsinvarianz

Die Verschiebungsinvarianz ergibt sich direkt aus der Definition der Ero-sions- und Dilatationsoperatoren als Faltungen mit binären Daten in(18.1) und (18.2). Verwenden wir den in (4.17) definierten Shift-OperatorS, können wir die Verschiebungsinvarianz eines beliebigen morphologi-schen Operators M in Operatornotation folgendermaßen formulieren:

M (mnSG) = mnS (MG) . (18.6)

18.3.2 Superpositionsprinzip

Für Grauwertbilder ist das Superpositionsprinzip wie folgt definiert:

H (aG+ bG′) = aHG+ bHG′. (18.7)

Bei Binärbildern haben die Faktoren a und b keinen Sinn, und die Sum-me zweier Grauwertbilder entspricht der Vereinigungsmenge oder demlogischen Oder zweier Binärbilder. Wenn das Superpositionsprinzip fürmorphologische Operationen M bei Binärbildern gilt, hat es folgendeGestalt:

M(G∪G′) = (MG)∪(MG′) oder M(G∨G′) = (MG)∨(MG′). (18.8)

Die Operation G ∨ G′ steht für ein punktweises Oder der Elemente derMatrizen G und G′. Im Allgemeinen sind morphologische Operatorennicht additiv im Sinne von (18.8). Während die Dilatationsoperation dasSuperpositionsprinzip erfüllt, gilt dies nicht für die Erosion. Die Erosionder Vereinigungsmenge zweier Objekte ist eine Obermenge der Vereini-gungsmenge zweier erodierter Objekte:

(G∪G′)M ⊇ (GM)∪ (G′ M)(G∪G′)⊕M = (G⊕M)∪ (G′ ⊕M). (18.9)

18.3.3 Kommutativität und Assoziativität

Morphologische Operatoren sind im Allgemeinen nicht kommutativ :

M1 ⊕M2 =M2 ⊕M1, aber M1 M2 ≠M2 M1. (18.10)

18.3 Allgemeine Eigenschaften 533

Wir sehen, dass die Erosion nicht kommutativ ist, wenn wir den Spezi-alfall betrachten, dass M1 ⊃M2. Dann ergibt die Erosion von M2 durchM1 die leere Menge. Werden jedoch Erosions- und Dilatationsmaskennacheinander auf das gleiche Bild G angewandt, sind sie kommutativ:

(GM1)M2 = G (M1 ⊕M2) = (GM2)M1

(G⊕M1)⊕M2 = G⊕ (M1 ⊕M2) = (G⊕M2)⊕M1.(18.11)

Diese Gleichungen sind wichtig für die Implementierung morphologi-scher Operationen. Generell ist die kaskadierte Operation mit k Struk-turelementen M1,M2, . . . ,Mk der Operation mit dem StrukturelementM =M1⊕M2⊕. . .⊕Mk äquivalent (Assoziativität ). Wir können also großeStrukturelemente ebenso zerlegen, wie wir es bei linearen verschiebungs-invarianten Operatoren tun. Ein wichtiges Beispiel ist die Konstruktionseparierbarer Strukturelemente aus horizontalen und vertikalen Elemen-ten M = Mx ⊕My . Ein weniger triviales Beispiel ist der Bau großer ein-dimensionaler Strukturelemente aus solchen, die viele Nullen enthalten:

[1 1 1]⊕ [1 0 1] = [1 1 1 1 1][1 1 1 1 1]⊕ [1 0 0 0 1] = [1 1 1 1 1 1 1 1 1][1 1 1 1 1 1 1 1 1]⊕ [1 0 0 0 0 0 0 0 1]= [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] .

(18.12)

Auf diese Weise können wir große exponentiell wachsende Strukturele-mente mit einer Minimalzahl logischer Operationen zusammenbauen,wie wir große Faltungsmasken durch Kaskadierung in Abschn. 11.5 kon-struiert haben. Schwieriger zu erhalten sind jedoch isotrope, d. h. kreis-förmige Strukturelemente. Das Problem liegt darin, dass die Dilatationhorizontaler und vertikaler Strukturelemente stets zu einem rechtecki-gen Strukturelement, nicht jedoch zu einer kreisförmigen Maske führt.Solch eine Maske lässt sich jedoch durch eindimensionale Strukturele-mente annähern, die in mehrere Richtungen und nicht nur entlang derAchsen laufen. Es ist zu beachten, dass auch Mehrschrittmasken effizi-ent zu großen Masken kaskadiert werden können.

18.3.4 Monotonie

Erosion und Dilatation sind monotone Operationen:

G1 ⊆ G2 G1 ⊕M ⊆ G2 ⊕MG1 ⊆ G2 G1 M ⊆ G2 M. (18.13)

Die Monotonieeigenschaft bedeutet, dass die Teilmengenrelationen inBezug auf Erosion und Dilatation invariant sind.

534 18 Morphologie

18.3.5 Distributivität

Lineare verschiebungsinvariante Operatoren sind distributiv bezüglichder Addition. Für Erosion und Dilatation muss man zwischen der Verei-nigungs- und der Schnittmenge zweier Bilder G1 und G2 unterscheiden:

(G1 ∩G2)⊕M ⊆ (G1 ⊕M)∩ (G2 ⊕M),(G1 ∩G2)M = (G1 M)∩ (G2 M) (18.14)

und(G1 ∪G2)⊕M = (G1 ⊕M)∪ (G2 ⊕M),(G1 ∪G2)M ⊇ (G1 M)∪ (G2 M). (18.15)

Die Erosion ist also distributiv bezüglich der Schnittmengenoperation,die Dilatation aber bezüglich der Vereinigungsoperation.

18.3.6 Dualität

Erosion und Dilatation sind duale Operatoren. Die Erosion mit der Nega-tion eines binären Bildes ist äquivalent mit der Negation der Dilatationdes Originalbildes. Analoges gilt bei Vertauschung von Erosion und Di-latation:

GM = G⊕MG⊕M = GM. (18.16)

18.4 Zusammengesetzte morphologische Operatoren

18.4.1 Öffnen und Schließen

Unter Verwendung der elementaren Erosions- und Dilatationsoperatio-nen entwickeln wir nun weitere Operatoren für die Bearbeitung der Ob-jektform. Während im vorigen Abschnitt der Schwerpunkt auf allge-meinen und theoretischen Aspekten morphologischer Operationen lag,konzentrieren wir uns nun auf die Anwendung.

Die Erosion wird zur Entfernung kleiner Objekte verwendet. Sie hatjedoch den Nachteil, dass alle im Bild verbleibenden Objekte kleiner wer-den. Durch anschließende Dilatation des Bildes mit dem gleichen Struk-turelement lässt sich dies vermeiden. Die Kombination aus Erosion undDilatation wird Öffnen (Opening) genannt:

G M = (GM)⊕M. (18.17)

Das Öffnen siebt alle Objekte aus, die das Strukturelement in keinemPunkt vollständig enthalten, vermeidet jedoch die Größenreduktion allerObjekte (Abb. 18.2c und d). Sie ist auch ideal zur Entfernung von Linien,deren Dicke geringer ist als der Durchmesser des Strukturelementes.Dabei werden auch die Objektgrenzen glatter.

18.4 Zusammengesetzte morphologische Operatoren 535

a b

c d

Abbildung 18.2: Erosion und Opening: a Originalbild; b Erosion mit einer 3× 3-Maske; c Opening mit einer 3× 3-Maske; d Opening mit einer 5× 5-Maske.

Dagegen vergrößert die Dilatation Objekte und füllt kleine Löcherund Risse aus. Die generelle Vergrößerung der Objekte durch die Größeder Strukturelemente kann durch eine nachfolgende Erosion ausgegli-chen werden (Abb. 18.3c und d). Diese Kombination von Dilatation undErosion wird Schließen (Closing) genannt:

G •M = (G⊕M)M. (18.18)

Die Änderung der Fläche von Objekten durch die unterschiedlichen Ope-rationen lässt sich durch die folgenden Beziehungen zusammenfassen:

GM ⊆ G M ⊆ G ⊆ G •M ⊆ G⊕M. (18.19)

Öffnen und Schließen sind idempotente Operatoren:

G •M = (G •M) •MG M = (G M) M, (18.20)

Das bedeutet, dass eine zweite Anwendung einer Schließen- und einerÖffnen-Operation mit dem gleichen Strukturelement keine weiteren Ver-änderungen bewirkt.

536 18 Morphologie

a b

c d

Abbildung 18.3: Dilatation und Closing: a Originalbild; b Dilatation mit einer3× 3-Maske; c Closing mit einer 3× 3-Maske; d Closing mit einer 5× 5-Maske.

18.4.2 Hit-Miss-Operator

Der Hit-Miss-Operator hat seinen Ursprung in der Frage, ob es möglichist, Objekte einer spezifischen Form zu detektieren. Der Erosionsopera-tor kann nur Objekte entfernen, die an keinem Punkt das Strukturele-ment vollständig enthalten, und löscht damit Objekte sehr unterschied-licher Formen. Für die Detektion einer bestimmten Form ist die Kombi-nation von zwei morphologischen Operatoren notwendig. Als Beispieldiskutieren wir die Detektion von Objekten mit drei aufeinander folgen-den horizontalen Bildpunkten.

Erodieren wir das Bild mit einer 1× 3-Maske, die der Form des Ob-jekts entspricht,

M1 = [1 1 1] , (18.21)

werden alle Objekte entfernt, die kleiner als das Zielobjekt sind. Ande-rerseits bleiben alle Objekte erhalten, die größer als die Maske sind, d. h.,für welche die verschobene Maske eine Untermenge des Objektes G ist(Mp ⊂ G, Abb. 18.4d). Wir brauchen also eine zweite Operation, die alleObjekte entfernt, die größer als das Zielobjekt sind.


a b c

d e f

Abbildung 18.4: Veranschaulichung des Hit-Miss-Operators zur Extraktion allerObjekte, die drei horizontal aufeinanderfolgende Bildpunkte enthalten:a Originalbild (in allen folgenden Bildern sind die schwarzen Pixel mit dem Wert1 des Originalbildes als helle graue Pixel dargestellt. Die dunkeln bzw. roten Pixelsind die nach der Operation erzeugten Pixel mit dem Wert 1.),b mit einer 3× 5-Maske (18.22) erodierter Hintergrund,c mit einer 3× 7-Maske (18.24) erodierter Hintergrund,d mit einer 1× 3-Maske (18.21) erodiertes Objekt,e Schnittmenge von b und d; die Objekte mit drei aufeinanderfolgenden Bild-punkten werden extrahiert,f Schnittmenge von c und d; die Objekte mit 3 bis 5 aufeinanderfolgenden Bild-punkten werden extrahiert.

Dies ist durch Analyse des Hintergrundes des Originalbildes möglich.Wir können also als zweiten Schritt eine Erosion des Hintergrundes miteiner 3× 5-Maske M2 durchführen, bei der alle Koeffizienten mit Aus-nahme der Bildpunkte des Hintergrundes, die das Objekt umgeben, nullsind. Dies ist eine Negativmaske für das Objekt:

M2 =⎡⎢⎣ 1 1 1 1 1

1 0 0 0 11 1 1 1 1

⎤⎥⎦ . (18.22)

Der erodierte Hintergrund enthält dann alle Bildpunkte des Hinter-grundes der Form von M2 oder größer (M2 ⊆ G, Abb. 18.4b). Dies ent-spricht allen Objekten, welche die gesuchte Form aufweisen oder klei-ner sind. Da die erste Erosion alle Objekte belässt, die gleich oder grö-

538 18 Morphologie

ßer sind, liefert die Schnittmenge des mit M1 erodierten Bildes mit demmit M2 erodierten Hintergrund alle zentralen Pixel der Objekte mit dreiaufeinander folgenden Bildpunkten (Abb. 18.4e). Der Hit-Miss-Operatorwird allgemein folgendermaßen definiert:

G⊗ (M1,M2) = (GM1)∩ (GM2)

= (GM1)∩ (G⊕M2)

mit M1 ∩M2 = ∅.(18.23)

Die Bedingung M1 ∩M2 = ∅ ist notwendig, da der Hit-Miss-Operatorsonst zur leeren Menge führt. Mit dem Hit-Miss-Operator haben wir einflexibles Werkzeug in der Hand, das die Detektion von Objekten mit einerbestimmten Form ermöglicht. Der Nutzen dieses Operators kann leichtam Beispiel einer anderen Miss-Maske veranschaulicht werden:

M3 =⎡⎢⎣ 1 1 1 1 1 1 1

1 0 0 0 0 0 11 1 1 1 1 1 1

⎤⎥⎦ . (18.24)

Die Erosion des Hintergrundes mit dieser Maske belässt alle Bildpunk-te im Binärbild, für welche die Vereinigung der MaskeM3 mit dem Objektdie leere Menge ist (Abb. 18.4c). Dies kann nur bei Objekten mit einembis fünf aufeinander folgenden Bildpunkten der Fall sein. Der Hit-Miss-Operator mit M1 und M3 liefert also alle Zentralpixel der Objekte mit 3bis 5 horizontal aufeinander folgenden Pixeln und einem 3× 7 großenfreien Hintergrund um das Objekt (Abb. 18.4f).

Da die Hit- und Miss-Masken des Hit-Miss-Operators disjunkt sind,können sie zu einer Maske kombiniert werden. Dabei verwenden wirfolgende Notation: Die kombinierte Maske wird mit 1 gekennzeichnet,wo die Hit-Maske eins ist, mit -1, wo die Miss-Maske eins ist, und mit0, wenn beide Masken null sind. Damit lautet die Hit-Miss-Maske zurDetektion von Objekten mit 3 bis 5 horizontal aufeinander folgendenPixeln und einem 3× 7 freien Hintergrund

M =⎡⎢⎣ −1 −1 −1 −1 −1 −1 −1−1 0 1 1 1 0 −1−1 −1 −1 −1 −1 −1 −1

⎤⎥⎦ . (18.25)

Gibt es bei einer Hit-Miss-Maske keine Elemente mit 0, werden Ob-jekte exakt der Größe, die den Einsen der Maske entspricht, extrahiert.Gibt es Elemente 0 in der Maske, geben die 1-Elemente das Minimumder gesuchten Objekte an. Die Vereinigung der 1-Elemente mit den 0-Elementen spezifiziert dagegen das Maximum der zu detektierenden Ob-jekte.


Ein weiteres Beispiel ist die folgende Hit-Miss-Maske; sie detektiertisolierte Pixel:

MI =⎡⎢⎣ −1 −1 −1−1 1 −1−1 −1 −1

⎤⎥⎦ . (18.26)

Die Operation G/G⊗MI entfernt also isolierte Pixel aus einem Binärbild.Das /-Symbol stellt den Differenzmengen-Operator dar.

Der Hit-Miss-Operator detektiert bestimmte Formen nur dann, wenndie Miss-Maske die Hit-Maske umgibt. Berührt die Hit-Maske die Kan-ten der Hit-Miss-Maske, werden nur bestimmte Formen am Rand einesObjektes detektiert. Die Hit-Miss-Maske

MC =⎡⎢⎣ 0 1 −1

1 1 −1−1 −1 −1

⎤⎥⎦ (18.27)

detektiert beispielsweise die unteren rechten Ecken von Objekten.

18.4.3 Extraktion von Rändern

Wir können morphologische Operatoren auch zur Extraktion der Ränderbinärer Objekte verwenden. Dies ist eine wichtige Operation, da der Ob-jektrand eine kompakte und trotzdem vollständige Repräsentation derGeometrie eines Objektes ist. Aus dem Objektrand können wir weitereFormparameter extrahieren, wie wir später in diesem Kapitel besprechenwerden.

Randpixel haben an zumindest einer Seite keinen Nachbarn. Ein Ero-sionsoperator mit einer Maske, die alle möglichen Nachbarn enthält, ent-fernt also Randpunkte. Diese Masken gibt es für die 4er- und die 8er-Nachbarschaft:

Mb4 =⎡⎢⎣ 0 1 0

1 1 10 1 0

⎤⎥⎦ und Mb8 =

⎡⎢⎣ 1 1 1

1 1 11 1 1

⎤⎥⎦ . (18.28)

Den Rand erhalten wir dann durch die Mengendifferenz (/-Operator) zwi-schen dem Objekt und dem erodierten Objekt:

∂G = G/(GMb)= G∩ (GMb)= G∩ (G⊕Mb).

(18.29)

Wie (18.29) zeigt, können wir den Rand auch als Schnittmenge desObjekts mit dem durch eine Dilatation erweiterten Hintergrund darstel-len. Abb. 18.5 veranschaulicht die Extraktion des 4er- und 8er-Randesbei Binärobjekten unter Verwendung von (18.28).

540 18 Morphologie

a b

c d

Abbildung 18.5: Extraktion von Rändern mit morphologischen Operatoren:a binäres Originalbild; b 8er-Rand, extrahiert mit Mb4, und c 4er-Rand, extra-hiert mit Mb8 (18.28). d 8er-Rand des Hintergrunds, extrahiert nach (18.30).

Auf ähnliche Weise lässt sich der Hintergrund durch Dilatation desObjekts und nachfolgende Subtraktion des Objekts bestimmen:

∂GB = (G⊕Mb)/G. (18.30)

18.4.4 Distanztransformation

Der Rand besteht aus all den Punkten, die eine Entfernung von null zurObjektkante haben. Wenden wir die Randextraktion wieder auf ein Ob-jekt an, das mit der Maske (18.28) erodiert wurde, erhalten wir alle Punk-te, die die Entfernung eins zum Objektrand haben. Eine rekursive An-wendung der Randextraktionsprozedur liefert also die Entfernung allerPunkte des Objekts zum Rand. Solch eine Transformation wird als Dis-tanztransformation bezeichnet und folgendermaßen geschrieben:

D =∞⋃n=1

[(GMn−1

b )/(GMnb) ·n

], (18.31)


wobei die Operation · eine punktweise Multiplikation der n-ten Rand-kurve mit der Zahl n darstellt.

Diese direkte Distanztransformation hat zwei schwerwiegende Nach-teile. Erstens ist sie eine langsame iterative Prozedur. Zweitens liefertsie nicht den gewünschten euklidischen Abstand, sondern — je nach dergewählten Nachbarschaftsart — die Block- oder die Schachbrettdistanz(siehe Abschn. 2.2.3).

Glücklicherweise stehen schnelle Algorithmen für die Berechnungdes euklidischen Abstandes zur Verfügung. Die euklidische Distanz-transformation ist so wichtig, weil sie morphologische Operationen iso-trop macht. Alle morphologischen Operationen leiden unter der Tatsa-che, dass der euklidische Abstand kein natürliches Maß eines Rechteck-gitters ist. Den quadratischen Strukturelementen ist beispielsweise dieSchachbrettdistanz eigen. Sukzessive Dilatation mit solch einer Struk-turelementmaske bewirkt zum Beispiel, dass das Objekt mehr und mehrdie Form eines Quadrates annimmt.

Die euklidische Distanztransformation kann für isotrope Erosions-und Dilatationsoperationen verwendet werden.

Bei einer Erosionsoperation mit dem Radius r bleiben nur Pixel erhal-ten, die einen Abstand größer als r vom Objektrand aufweisen. Ähnlichkann eine isotrope Dilatation durch euklidische Distanztransformationdes Hintergrundes und eine nachfolgende isotrope Erosion des Hinter-grundes realisiert werden.


18.1: Elementare morphologische Operatoren

Interaktive Demonstration elementarer morphologischer Operatoren, wieErodieren, Dilatieren, Öffnen und Schließen (dip6ex18.01)

18.2: ∗Kommutativität morphologischer Operatoren

Prüfen Sie, ob die morphologischen Erosions- und Dilatationsoperatorenkommutativ sind und beweisen Sie ihre Schlussfolgerung. (Hinweis: Ge-genbeispiel finden, falls einer der Operatoren nicht kommutativ ist.)

18.3: Hit-Miss-Operator

Interaktive Demonstration des Hit-Miss-Operators (dip6ex18.02)

18.4: Morphologische Randdetektion

Interaktive Demonstration morphologischer Randerkennung (dip6ex18.03)

18.5: Morphologische Operatoren auf Grauwertbildern

Interaktive Demonstration morphologischer Operatoren auf Grauwertbil-dern (dip6ex18.04)

542 18 Morphologie

18.6: ∗Öffnen und Schließen

Öffnen und Schließen sind zwei wichtigste morphologische Operatoren.1. Was passiert, wenn man ein Öffnen bzw. ein Schließen mit der gleichen

Maske mehrmals hintereinander durchführt?2. Wie muss die Maske eines Öffnen-Operators aussehen, mit dem man alle

horizontalen Linien entfernen möchte, die nur ein Pixel breit sind?

18.7: ∗Kombination morphologischer Operatoren

Was für eine Operation erhält man, wenn man1. ein erodiertes Binärbild von dem Originalbild abzieht,2. das Originalbild von einem dilatierten Binärbild abzieht und3. ein erodiertes Bild von einem dilatierten Binärbild abzieht?Worin unterscheiden sich diese drei kombinierten Operatoren?

18.8: ∗∗Zerlegung morphologischer Operatoren

Faltungen mit großen Faltungsmasken lassen sich effektiv durch Hinter-einanderausführung von kleinen Masken durchführen. Ist dies auch mitmorphologischen Masken (= Strukturelementen) möglich? Untersuchen Siediese Frage an der Hintereinanderausführung der Erosion und Dilatationmit folgenden einfachen Beispielmasken:

[1 1 1] und

⎡⎢⎣ 1

11

⎤⎥⎦ , [1 1 1] und [1 0 0 1 0 0 1]

18.9: ∗Objektdetektion mit Hit-Miss-Operatoren

Mit morphologischen Hit-Miss-Operatoren lassen sich Objekte mit vorgege-bener Form detektieren.1. Zeigen Sie anhand von Berechnung mit Beispielobjekten, dass die Hit-

Miss-Maske ⎡⎢⎣ −1 −1 −1−1 1 −1−1 −1 −1

⎤⎥⎦

isolierte Pixel detektiert.2. Welche Objekte extrahieren die beiden folgenden Hit-Miss-Masken?

[0 1 − 1] und [−1 1 0] ?


Die mathematischen Grundlagen der morphologischen Bildverarbeitung ein-schließlich der vollständigen Beweise für die in diesem Abschnitt erwähntenEigenschaften sind in dem klassischen Buch von Serra [205] nachzulesen. Fürdie praktische Anwendung morphologischer Bildverarbeitungsoperationen sindJähne und Haußecker [103, Kapitel 14], Soille [213] und Abmayr [1, Kapitel 4] zuempfehlen. Die Breite der Theorie und Anwendungen geht aus Tagungsbändenhervor, wie z. B. Serra und Soille [206].

19 Formrepräsentation und -analyse

19.1 Einleitung

Alle Operationen, die wir in den Kapiteln 11–15 zur Extraktion von Ei-genschaften aus Bildern diskutiert haben, liefern als Ergebnis wieder Bil-der. Das trifft auch für die in Kapitel 18 besprochenen morphologischenOperatoren zu, die die Form segmentierter Objekte analysieren und mo-difizieren. Es ist jedoch klar, dass die Form von Objekten viel kompaktergespeichert werden kann. Die vollständige Information über die Gestalteines Objekts ist z. B. in seinen Randpixeln enthalten.

In Abschn. 19.2 beschäftigen wir uns daher mit der Frage, mit wel-chen Datenstrukturen wir segmentierte Objekte repräsentieren können.Folgende Datenstrukturen für binäre Objekte werden behandelt: Lauf-längenkodierung (Abschn. 19.2.1), Baumstrukturen (Abschn. 19.2.2) undRichtungsketten (Abschn. 19.2.3). Zwei weiteren Objektrepräsentatio-nen, den Momenten und den Fourierdeskriptoren, sind wegen ihrer Be-deutung eigene Abschnitte gewidmet (Abschn. 19.3 und 19.4).

Eine kompakte Repräsentation der Form von Objekten hätte nur we-nig Nutzen, wenn es viel Aufwand bedeuten würde, diese zu berechnen,und wenn es schwierig wäre, Formparameter direkt aus der Repräsenta-tion zu ermitteln. Daher behandeln wir in Abschn. 19.5 auch die Frage,wie Formparameter aus den einzelnen Objektrepräsentationen berech-net werden können.

Parameter, die die Form eines Objekts beschreiben, werden benutzt,um sie mit Musterobjekten zu vergleichen oder in Klassen verschiede-ner Gestalt einzuteilen. In diesem Zusammenhang stellt sich die wichtigeFrage, wie diese Parameter invariant bezüglich verschiedener geometri-scher Transformationen gemacht werden können. Objekte können ausverschiedenen Entfernungen und Richtungen betrachtet werden. Daherist es von Interesse, Formparameter zu finden, die größen- oder rotati-onsinvariant oder sogar invariant bezüglich einer affinen oder projekti-ven Abbildung sind.


544 19 Formrepräsentation und -analyse

a)

Originalzeile (hex): 12 12 12 20 20 20 20 25 27 25 20 20 20 20 20 20

Code (hex): 82 83 2 85

b)

Originalzeile (hex): 1 1 1 1 1 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0 1 1 1 1 1 1 1 1

Code (hex) 0 6 3 3 2 1 5 8

Grauwertbild

Binärbild

12 20 25 27 25 20

Abbildung 19.1: Veranschaulichung des Lauflängenkodes für a ein Grauwert-bild und b ein Binärbild.

19.2 Repräsentation der Form

19.2.1 Lauflängenkodierung

Eine kompakte, einfache und weit verbreitete Darstellung eines Bildes istdie Lauflängenkodierung. Sie wird mit der folgenden Prozedur erzeugt:Ein Bild wird Zeile für Zeile abgetastet. Enthält eine Zeile eine Sequenzvon p gleichen Bildpunkten, wird nicht p-mal dieselbe Zahl gespeichert,sondern festgehalten, dass der Wert p-mal auftritt (Abb. 19.1). Auf dieseWeise können große gleichförmige Zeilenelemente sehr effizient gespei-chert werden.

Für Binärbilder ist der Kode besonders effizient, weil nur die beidenWerte null und eins auftreten. Da einer Sequenz von Nullen immer eineSequenz von Einsen folgt, besteht nicht die Notwendigkeit, den Wert desBildpunktes zu speichern. Wir müssen lediglich festhalten, wie oft einPixelwert auftritt (Abb. 19.1b). Ein Problem ist nur der Zeilenanfang, daeine Zeile mit einer Null oder einer Eins beginnen kann. Dieses Problemwird durch die Annahme gelöst, dass eine Zeile mit einer Null beginnt.Beginnt sie tatsächlich aber mit einer Sequenz von Einsen, startet dieLauflängenkodierung mit einer Null, die anzeigt, dass es am Anfang derZeile keine Nullen gibt (Abb. 19.1b).

Die Lauflängenkodierung eignet sich zur kompakten Bildspeicherung.Sie wurde zu einem integrierten Teil einiger Standard-Bildformate wiedes TGA- oder des TIFF -Dateiformats. Allerdings eignet sich die Lauf-längenkodierung weniger für die direkte Verarbeitung von Bildern, dasie nicht objektorientiert ist. Ihre Verwendung konzentriert sich alsoauf die kompakte Bildspeicherung, wobei auch nicht alle Bildtypen mitdiesem Schema erfolgreich komprimiert werden können. Digitalisier-te Grauwertbilder enthalten beispielsweise immer Rauschen, sodass dieWahrscheinlichkeit für eine ausreichend lange Sequenz von Bildpunktenmit dem gleichen Grauwert sehr niedrig ist. Große Datenreduktionsfak-toren können jedoch bei Binärbildern und vielen Typen computererzeug-ter Grauwert- und Farbbilder erzielt werden.

19.2 Repräsentation der Form 545

a b

NW NO SW SO

Abbildung 19.2: Darstellung eines Binärbildes mit einem Regionen-Quadtree:a schrittweise Unterteilung des Binärbildes in Quadranten; b der zugehörigeRegionen-Quadtree.

19.2.2 Baumstrukturen

Die im vorigen Abschnitt diskutierte Lauflängenkodierung ist eine zeile-norientierte Darstellung von Binärbildern. Sie kodiert also eindimensio-nale Daten und nicht zweidimensionale; die zweidimensionale Strukturwird überhaupt nicht berücksichtigt. Eine Baumstruktur (ein Quadtree)basiert dagegen auf dem Prinzip der rekursiven Zerlegung des Raumes,wie in Abb. 19.2 für ein Binärbild gezeigt ist.

Zunächst wird das gesamte Bild in vier gleich große Quadranten zer-legt. Enthält ein Quadrant keine gleichmäßige Region, ist also der Qua-drant nicht vollständig durch das Objekt oder den Hintergrund ausge-füllt, wird er wiederum in vier Unterquadranten zerlegt.

Die Zerlegung endet, wenn nur gleichmäßige Quadranten auftretenoder wenn die Quadranten nur noch einen Bildpunkt enthalten.

Die rekursive Zerlegung kann als eine Datenstruktur dargestellt wer-den, die in der Informatik als Baum bezeichnet wird (Abb. 19.2b). DieZerlegung beginnt in der obersten Ebene des Baumes, der Wurzel . DieWurzel entspricht dem gesamten Binärbild. Sie ist über vier Kanten mitvier Sohnknoten verbunden, die von links nach rechts die QuadrantenNW, NO, SW und SO repräsentieren. Muss ein Quadrant nicht weiter auf-geteilt werden, wird er als End- oder Blattknoten im Baum dargestellt. Erwird als schwarz bezeichnet, wenn der Quadrant zu einem Objekt gehört,und als weiß, wenn er zum Hintergrund gehört. Entsprechend werdenin der Darstellung gefüllte bzw. offene Quadrate verwendet. Knoten, diekeine Blattknoten sind, werden weiter unterteilt und als grau bezeichnet.Sie werden mit offenen Kreisen dargestellt (Abb. 19.2b).

Quadtrees können zum Beispiel mithilfe des so genannten Tiefensu-che-Algorithmus, an der Wurzel beginnend, kodiert werden. Dabei mussnur der Knotentyp durch die Symbole b (schwarz),w (weiß) und g (grau)gespeichert werden.


Wir beginnen den Kode mit dem Wert des Wurzelknotens. Dann lis-ten wir die Werte der Sohnknoten von links nach rechts auf. Jedes Mal,wenn wir auf einen grauen Knoten treffen, setzen wir den Durchlauf desBaums jedoch erst in der nächsttieferen Ebene fort. Diese Regel wirdrekursiv angewandt, d. h., dass wir auf einer Ebene des Baums nur dannvon links nach rechts weitergehen, wenn ein Ast komplett bis zum Blattdurchlaufen wurde. Deshalb wird diese Art des Baumdurchlaufs als Tie-fensuche (depth-first search) bezeichnet.

Der Quadtree aus Abb. 19.2b ergibt beispielsweise den folgendenKode:

ggwwgwwwbbwggwbwbbwgwbwwgbwgbbwww.

Der Kode wird leichter lesbar, wenn wir eine linke Klammer immer dannsetzen, wenn wir im Baum eine Ebene tiefer gehen, und eine rechte Klam-mer, wenn wir wieder aufsteigen:

g(g(wwg(wwwb)b)wg(g(wbwb)bwg(wbww))g(bwg(bbww)w)).

Allerdings ist der Kode auch ohne die Klammern eindeutig. Ein Quadtreeist eine kompakte Darstellung eines Binärbildes, wenn er viele Blattkno-ten in hohen Ebenen enthält. Im schlechtesten Fall jedoch, z. B. bei einemregelmäßigen Schachbrettmuster, befinden sich alle Blattknoten in deruntersten Ebene. Der Quadtree enthält dann ebenso viele Blattknotenwie Bildpunkte und benötigt weit mehr Speicherplatz als die direkte Ma-trixdarstellung des Binärbildes.

Der hier besprochene Regionen-Quadtree ist nur eine von vielen Mög-lichkeiten der rekursiven räumlichen Zerlegung und der Darstellung ei-nes Binärbildes durch eine Baumstruktur. Dreidimensionale Binärbilderkönnen auf ähnliche Weise unterteilt werden. Das 3D-Bild wird in achtgleich große Oktanten zerlegt. Die resultierende Datenstruktur wird alsRegionen-Octree bezeichnet. Quadtrees und Octrees haben bei geogra-phischen Informationssystemen und in der Computergrafik eine großeBedeutung gewonnen.

Quadtrees eignen sich besser für die Kodierung von Bildern als diezeilenorientierte Lauflängenkodierung. Sie sind jedoch weniger geeig-net für die Bildanalyse. Es ist relativ schwer, eine Bildanalyse direkt mitQuadtrees durchzuführen. Ohne weiter in die Details zu gehen, kannman sich dies anhand der einfachen Tatsache plausibel machen, dassein um ein Pixel in beliebige Richtung verschobenes Objekt zu einemvöllig anderen Quadtree führt. Regionen-Quadtrees teilen mit der Lauf-längenkodierung den schwerwiegenden Nachteil, dass sie globale Bild-zerlegungstechniken sind, aber aus Bildern extrahierte Objekte nichtkompakt darstellen.

19.2 Repräsentation der Form 547

a

0

1

2

3

4

5

6

7

b

0

1

2

3

Abbildung 19.3: Richtungskodierung in a einer 8er-Nachbarschaft und b einer4er-Nachbarschaft.

a b

Abbildung 19.4: Darstellung von Rändern mit dem Kettenkode: a 8er-Nachbarschaft; b 4er-Nachbarschaft.

19.2.3 Richtungsketten

Im Gegensatz zur Lauflängenkodierung und zu den Quadtrees sind Rich-tungsketten eine objektbezogene Datenstruktur zur effektiven Darstel-lung des Randes eines Binärobjektes auf einem diskreten Gitter. Statt diePositionen aller Randpixel zu speichern, wählen wir einen Startbildpunktund speichern nur seine Koordinaten. Wenn wir einen Algorithmus ver-wenden, der das Bild Zeile für Zeile abtastet, wird dies der oberste linkeBildpunkt des Objektes sein. Dann folgen wir dem Rand entgegen demUhrzeigersinn.

Bei einer 8er-Nachbarschaft gibt es acht, bei einer 4er-Nachbarschaftvier mögliche Richtungen, in die man weitergehen kann. Diese Richtun-gen können mit einem 3-Bit- oder einem 2-Bit-Kode verschlüsselt werden,wie in Abb. 19.3a und b gezeigt. Extrahierte Ränder sind in Abb. 19.4 füreine 8er- und eine 4er-Nachbarschaft gezeigt.

Die Kettenkodierung hat gegenüber der Matrixdarstellung eines Bi-närobjekts eine Reihe offensichtlicher Vorteile:

Zum Ersten ist die Kettenkodierung kompakt. Stellen wir uns einscheibenförmiges Objekt mit einem Durchmesser von R Bildpunktenvor. Bei einer direkten Matrixdarstellung müssen wir das umgebendeRechteck des Objekts speichern (siehe Abschn. 19.5.4), also etwa R2 Bild-


punkte in R2 Bit. Das umgebende Rechteck ist das kleinste das Objekteinschließende Rechteck. Verwenden wir einen 8er-Rand, hat die Scheibeetwa πR Randpunkte. Die Kettenkodierung der πR Punkte kann in etwa3πR Bit gespeichert werden. Bei Objekten mit einem Durchmesser vonmehr als 10 ist der Kettenkode deshalb eine kompaktere Darstellung.

Zum Zweiten ist der Kettenkode eine translationsinvariante Darstel-lung eines Binärobjekts. Diese Eigenschaft vereinfacht den Vergleichvon Objekten. Allerdings ist der Kettenkode weder rotations- noch ska-lierungsinvariant. Dies ist für die Objekterkennung ein großer Nachteil.Die Kettenkodierung kann jedoch verwendet werden, um rotationsinva-riante Parameter wie die Fläche eines Objekts zu extrahieren.

Zum Dritten ist der Kettenkode eine vollständige Darstellung einesObjekts oder einer Kurve. Daher können wir — zumindest prinzipiell —jedes beliebige Formmerkmal aus der Kettenkodierung berechnen.

Wie in Abschn. 19.5 gezeigt wird, können wir eine Anzahl von Form-parametern — einschließlich des Umfangs und der Fläche — effizienterunter Verwendung der Kettenkodedarstellung berechnen als in der Ma-trixdarstellung eines Binärbildes. Eine Einschränkung ist jedoch, dassdie Kettenkodierung eine digitale Kurve auf einem diskreten Gitter istund als solche den Rand des Objektes nur innerhalb der Präzision einesdiskreten Gitters beschreiben kann.

Ist das Objekt nicht zusammenhängend oder hat es Löcher, ist mehrals eine Kettenkodierung zu seiner Darstellung notwendig. Wir müssenalso die Information speichern, ob ein Rand ein Objekt oder ein Lochumschließt. Sehr einfach ist die Rekonstruktion eines Binärbildes ausder Kettenkodierung. Zunächst können wir den Umriss des Objekteszeichnen, Innen und Außen bestimmen und dann eine Fülloperation zumEinfärben verwenden.

19.3 Momentenbasierte Formmerkmale

19.3.1 Definitionen

Wir könnten fortfahren, Parameter wie die im letzten Abschnitt zu de-finieren. Wir erhalten jedoch eine bessere Einsicht in die Formbeschrei-bung, wenn wir einen systematischen Ansatz wählen. In diesem Ab-schnitt werden wir zunächst Momente für Grauwert- und Binärbilder de-finieren und dann zeigen, wie mit diesem Ansatz hilfreiche Formpara-meter gewonnen werden können. In ähnlicher Weise werden wir Fourier-deskriptoren im nächsten Abschnitt einführen.

In Abschn. 3.2.2 haben wir Momente verwendet, um die Wahrschein-lichkeitsdichtefunktion für Grauwerte zu beschreiben. Hier erweiternwir diese Beschreibung auf zwei Dimensionen und definieren die Mo-

19.3 Momentenbasierte Formmerkmale 549

mente der Grauwertfunktion g(x) eines Objekts durch

µp,q =∫(x1 − x1)p(x2 − x2)q g(x)d2x, (19.1)

mit

xi =∫xig(x)d2x

/∫g(x)d2x. (19.2)

Die Integration wird über die Fläche des Objekts gebildet. Statt des Grau-werts können wir allgemeiner jedes pixelbasierte Merkmal mit nur posi-tiven Werten verwenden, um Objektmomente zu berechnen. Der Vektorx = (x1, x2)wird in Analogie zur klassischen Mechanik als Schwerpunktbezeichnet. Betrachten wir g(x) als die Dichte ρ(x) des Objekts, dannist das Moment nullter Ordnung µ0,0 die Gesamtmasse des Objekts.

Alle in (19.1) definierten Momente stehen zum Schwerpunkt in Bezie-hung. Daher werden sie oft als zentrale Momente bezeichnet. ZentraleMomente sind translationsinvariant und daher zur Beschreibung der Ob-jektform gut geeignet.

Bei diskreten Binärbildern reduziert sich die Berechnung der Momen-te auf

µp,q =∑(x1 − x1)p(x2 − x2)q. (19.3)

Die Summe schließt alle Pixel ein, die zum Objekt gehören. Zur Beschrei-bung der Objektform können wir Momente verwenden, die entwederauf Binär-, auf Grauwert- oder auf Merkmalsbildern beruhen. Die ausGrauwert- oder Merkmalsbildern ermittelten Momente spiegeln nicht nurdie geometrische Form eines Objekts wieder, sondern auch die Vertei-lung der Merkmale innerhalb des Objekts. Als solche unterscheiden siesich grundsätzlich von Momenten, die aus Binärbildern stammen.

19.3.2 Größeninvariante Momente

Oft werden Formparameter benötigt, die nicht von der Größe der Objekteabhängen. Dies ist immer dann der Fall, wenn Objekte verglichen wer-den sollen, die aus unterschiedlichen Entfernungen betrachtet werden.Skalieren wir ein Objekt g(x)mit α, sodass g′(x) = g(x/α), werden dieMomente wie folgt skaliert:

µ′p,q = αp+q+2 µp,q.

Dividieren wir dann die Momente durch das Moment nullter Ordnung,µ0,0, erhalten wir größeninvariante Momente:

µ = µp,qµ(p+q+2)/2

0,0

.


Schwerpunkt

y'y

x'

φ

x

Abbildung 19.5: Hauptachsen des Trägheitstensors eines Objekts für die Rotati-on um den Schwerpunkt.

Da das Moment nullter Ordnung eines Binärobjektes die Fläche des Ob-jekts beschreibt (19.3), sind die normalisierten Momente mit einer ent-sprechenden Potenz der Objektfläche zu skalieren. Momente zweiterOrdnung (p+q = 2) werden beispielsweise mit dem Quadrat der Flächeskaliert.

19.3.3 Momenten-Tensor

Die über die Flächenmessung hinausgehende Analyse der Form beginntmit Momenten zweiter Ordnung. Denn das Moment nullter Ordnung lie-fert die Fläche oder Gesamtmasse eines Binär- bzw. Grauwertobjekts,und die zentralen Momente erster Ordnung sind per Definition null.Auch hier hilft uns die Analogie zur Mechanik, die Bedeutung der Mo-mente zweiter Ordnung µ2,0, µ0,2 und µ1,1 zu verstehen. Sie enthaltenTerme, in denen die Grauwertfunktion, d. h. die Dichte des Objekts, mitdem Quadrat der Entfernung vom Schwerpunkt multipliziert wird. Exaktdie gleichen Terme finden wir auch beim Trägheitstensor wieder, der inAbschn. 13.5.1 besprochen wurde (siehe (13.62) und (13.63)). Die dreiMomente zweiter Ordnung bilden die Komponenten des Trägheitsten-sors für die Rotation des Objekts um seinen Schwerpunkt:

J =[

µ2,0 −µ1,1

−µ1,1 µ0,2

]. (19.4)

Aufgrund dieser Analogie können wir alle Ergebnisse aus Abschn. 13.3auf die Formbeschreibung mit Momenten zweiter Ordnung übertragen.

Die Orientierung des Objekts ist definiert als der Winkel zwischen derx-Achse und der Achse, um die das Objekt mit minimaler Trägheit ge-dreht werden kann. Dies ist der Eigenvektor zum minimalen Eigenwert.

19.4 Fourierdeskriptoren 551

In dieser Richtung hat das Objekt seine größte Ausdehnung (Abb. 19.5).Nach (13.12) ergibt sich der Orientierungswinkel zu

θ = 12

arctan2µ1,1

µ2,0 − µ0,2. (19.5)

Als Maß für die Exzentrizität ε können wir die Größe verwenden,die wir bei der lokalen Orientierung als Kohärenzmaß definiert haben(13.15):

ε = (µ2,0 − µ0,2)2 + 4µ21,1

(µ2,0 + µ0,2)2. (19.6)

Die Exzentrizität nimmt Werte von 0 bis 1 an. Sie ist 0 bei einem rundenObjekt und 1 bei einem linienförmigen Objekt. Sie ist also eine besser de-finierte Größe als die Rundheit mit ihrem nicht normierten Wertebereich(Abschn. 19.5.3).

Die Formbeschreibung durch Momente zweiter Ordnung in dem Mo-menten-Tensor modelliert das Objekt im Wesentlichen als Ellipse. DieKombination der drei Momente zweiter Ordnung zu einem Tensor er-gibt zwei rotationsinvariante Terme, die Spur µ2,0 + µ0,2 des Tensors,welche die radiale Verteilung der Merkmale im Objekt beschreibt, unddie Exzentrizität (19.6), welche ein Maß für die Rundheit ist, sowie einenTerm, der die Orientierung des Objekts misst. Momente erlauben einevollständige Formbeschreibung [182]. Sie wird um so detaillierter, jemehr Momente höherer Ordnung verwendet werden.

19.4 Fourierdeskriptoren

19.4.1 Kartesische Fourierdeskriptoren

Die Fourierdeskriptoren verwenden wie die Kettenkodierung nur die Ob-jektränder, beschreiben eine Kurve jedoch nicht auf einem diskreten Git-ter. Fourierdeskriptoren können für kontinuierliche oder abgetasteteKurven formuliert werden. Betrachten wir die in Abb. 19.6 gezeichnetegeschlossene Kurve. Wir können sie in Parameterdarstellung wiederge-ben, indem wir die Pfadlänge p von einem Startpunkt

[x0, y0

]Taus als

Parameter verwenden.Es ist nicht einfach, eine Kurve mit gleichmäßig voneinander entfern-

ten Abtastpunkten zu erzeugen. Diskrete Randkurven wie Richtungs-ketten haben in dieser Hinsicht schwerwiegende Nachteile. Bei einer8er-Nachbarschaft sind die Abtastpunkte nicht äquidistant, wohl aberbei einer 4er-Nachbarschaft. Hier ist jedoch der Rand ausgefranst, weildie Teilstücke der Randkurve nur in horizontale und vertikale Richtungverlaufen können. Daher ist der Umfang eher zu groß. Es ist also keine


012

3

4

5

P-1P-2

(x ,y )0 0

Abbildung 19.6: Veranschaulichung der Parameterdarstellung einer geschlos-senen Kurve. Der Parameter p ist die Pfadlänge vom Startpunkt

[x0, y0

]Taus

entgegen dem Uhrzeigersinn. Eine äquidistante Abtastung der Kurve mit P Punk-ten ist ebenfalls gezeigt.

gute Idee, eine kontinuierliche Randkurve aus Punkten auf einem regel-mäßigen Gitter zu bilden. Die einzige Alternative ist, Objektränder sub-pixelgenau direkt aus den Grauwertbildern zu extrahieren, was jedochkeine leichte Aufgabe darstellt. Damit ist die korrekte Bestimmung derFourierdeskriptoren aus Konturen in Bildern immer noch ein herausfor-derndes Forschungsthema.

Eine kontinuierliche Randkurve hat die Komponentenx(p) undy(p).Wir können diese beiden Kurven mit den komplexen Zahlen z(p) =x(p)+ iy(p) zu einer zyklischen Kurve kombinieren. Ist P der Umfangder Kurve, dann gilt:

z(p +nP) = z(p) n ∈ Z. (19.7)

Eine zyklische oder periodische Kurve kann in eine Fourierreihe ent-wickelt werden. Die Koeffizienten der Fourierreihe werden folgenderma-ßen bestimmt:

zv = 1P

∫ P0z(p) exp

(−2π ivpP

)dp u ∈ Z. (19.8)

Aus den Fourierkoeffizienten kann wieder die periodische Kurve rekon-struiert werden:

z(p) =∞∑

v=−∞zv exp

(2π ivpP

). (19.9)

Die Koeffizienten zv werden als kartesische Fourierdeskriptoren der Rand-kurve bezeichnet. Die geometrische Bedeutung der Deskriptoren lässtsich leicht erkennen. Der erste Koeffizient

z0 = 1P

∫ P0z(p)dp = 1

P

∫ P0x(p)dp + i

P

∫ P0y(p)dp (19.10)


liefert den Mittelpunkt oder das Zentroid der Randkurve. Der zweiteKoeffizient beschreibt einen Kreis:

z1(p) = z1 exp(

2π ipP

)= r1 exp

(iϕ1 + 2π ip/P

). (19.11)

Der Radius r1 und der Startpunkt bei einem Winkel vonϕ1 werden durchz1 = r1 exp(iϕ1) bestimmt. Der Koeffizient z−1 ergibt ebenfalls einenKreis, der jedoch in entgegengesetzter Richtung (mit dem Uhrzeiger)durchlaufen wird:

z−1(p) = r−1 exp(iϕ−1 − 2π ip/P

), (19.12)

Mit beiden komplexen Koeffizienten zusammen — insgesamt also vierParametern — kann eine Ellipse mit beliebigen Halbachsen a und b, be-liebiger Orientierung ϑ und beliebigem Startwinkel ϕ0 auf der Ellipsegebildet werden. Als Beispiel betrachten wir ϕ1 =ϕ−1 = 0. Dann ist

z1 + z−1 = (r1 + r−1) · cos(

2πpP

)+ i(r1 − r−1) sin

(2πpP

). (19.13)

Dies ist die Parameterform einer Ellipse, deren Halbachsen parallel zuden Achsen des Koordinatensystems ausgerichtet sind und deren Start-punkt auf der x-Achse liegt.

Aus dieser Diskussion sehen wir, dass Fourierdeskriptoren immerpaarweise auftreten. Die Paarung von Koeffizienten höherer Ordnungergibt ebenfalls eine Ellipse. Diese Ellipsen werden jedoch n-mal durch-laufen. Die Überlagerung mit der Basisellipse des ersten Paares bedeutet,dass die Fourierdeskriptoren höherer Ordnung immer mehr Details zurRandkurve beisteuern. Zur Erläuterung betrachten wir die Rekonstruk-tion der Buchstaben T und L mit einer steigenden Zahl von Fourierde-skriptoren (Abb. 19.7). Das Beispiel zeigt, dass nur wenige Koeffizientenzur Beschreibung selbst recht komplizierter Formen notwendig sind.

Fourierdeskriptoren können auch leicht aus abgetasteten Rändern znberechnet werden. Ist der Umfang der geschlossenen Kurve P , müssenN Abtastpunkte in gleichmäßigen Abständen P/N abgegriffen werden(Abb. 19.6). Dann ist

zv = 1N

N−1∑n=0

zn exp(−2π inv

N

). (19.14)

Alle anderen Gleichungen gelten auch für abgetastete Ränder. DieAbtastung hat lediglich die Fourierreihe in eine diskrete Fouriertransfor-mierte mit nur N Wellenzahlkoeffizienten verändert. Die Koeffizientennehmen die Werte von 0 bis N − 1 oder von −N/2 bis N/2− 1 an (sieheauch Tabelle 2.1).


a

b

Abbildung 19.7: Rekonstruktion der Form durch eine steigende Anzahl von Fou-rierdeskriptoren für a den Buchstaben L und b den Buchstaben T (mit 2, 3, 4 und8 Fourierdeskriptorpaaren).

19.4.2 Polare Fourierdeskriptoren

Ein alternativer Ansatz zu den Fourierdeskriptoren verwendet eine an-dere Parametrisierung der Randkurve. Statt der Pfadlänge p wird derWinkel θ verwendet, den die Gerade durch den Mittelpunkt und denbetrachteten Punkt auf der Randkurve mit der x-Achse bildet. Dannbeschreiben wir den Objektrand mithilfe des Objektradius als Funktiondes Winkels. Wir benötigen lediglich eine reellwertige Sequenz r mit NPunkten in gleichen Winkelabständen zur Beschreibung des Randes. DieKoeffizienten der diskreten Fouriertransformierten dieser Sequenz,

rv = 1N

N−1∑n=0

rn exp(−2π inv

N

), (19.15)

werden als polare Fourierdeskriptoren des Rands bezeichnet. Hier istder erste Koeffizient r0 gleich dem mittleren Radius. Polare Fourierde-skriptoren können nicht für alle Randtypen verwendet werden. Die ra-diale Randparametrisierung r(θ) muss eindeutig sein. Aufgrund diesergewichtigen Einschränkung betrachten wir im weiteren nur kartesischeFourierdeskriptoren.

19.4.3 Objektsymmetrien

Symmetrien können in Fourierdeskriptoren leicht detektiert werden. Hatdie Kontur eine m-zahlige Rotationssymmetrie, können nur die Deskrip-toren z1±vm ungleich null sein. Dies ist in Abb. 19.8 am Beispiel derFourierdeskriptoren einer vertikalen Linie, eines Dreiecks und eines Qua-drats gezeigt. Ist die Kontur die Spiegelung einer anderen Kontur, sinddie Fourierdeskriptoren zueinander konjugiert komplex.


a

0-5-10 5 10

b

0-5-10 5 10

c

0-5-10 5 10

d

0-5-10 5 10

Abbildung 19.8: Auswirkung der Symmetrie eines Objekts auf seine Fourierde-skriptoren a des Buchstaben L, b einer Linie, c eines Dreiecks und d eines Qua-drats. Die Abbildungen zeigen die Beträge der Fourierdeskriptoren von v = −16bis v = 16.

Fourierdeskriptoren können auch für nicht geschlossene Kurven ver-wendet werden. Um solche Kurven zu schließen, verfolgen wir sie ein-fach vorwärts und anschließend wieder rückwärts. Offene Kurven kön-nen einfach erkannt werden, da ihre Fläche null ist. Aus (19.17) könnenwir dann schließen, dass |z−v | = |zv |. Beginnt der Durchlauf an einemder Endpunkte, ist sogar z−v = zv .

19.4.4 Invariante Objektbeschreibung

Translationsinvarianz. Die Position des Objekts beeinflusst nur eineneinzigen Koeffizienten, nämlich z0. Alle anderen Koeffizienten sind trans-lationsinvariant.

Skalierungsinvarianz. Wird die Kontur mit einem Koeffizienten α ska-liert, werden auch alle Fourierdeskriptoren mit α skaliert. Bei einem Ob-jekt mit einer Fläche ungleich null, dessen Kontur entgegen dem Uhrzei-gersinn verfolgt wird, ist der erste Koeffizient immer ungleich null. Alsokönnen wir alle Fourierdeskriptoren auf |z1| beziehen, um skalierungs-invariante Deskriptoren für die Objektgestalt zu erhalten. Man beachte,


a

b

Abbildung 19.9: Bedeutung der Phase für die Beschreibung der Gestalt mit Fou-rierdeskriptoren: Neben den Originalbuchstaben (links) sind drei zufällige Pha-senvariationen bei unverändertem Betrag der Fourierdeskriptoren gezeigt.

dass die skalierten Deskriptoren immer noch die vollständige Informa-tion enthalten.

Rotationsinvarianz. Wird eine Kontur um den Winkelϕ0 entgegen demUhrzeigersinn gedreht, wird der Fourierdeskriptor zv entsprechend demVerschiebungstheorem der Fouriertransformation mit dem Phasenfak-tor exp(ivϕ0) multipliziert (Theorem 2.3, S. 55, R4). Durch diese ein-fache Verschiebungseigenschaft wird die Konstruktion rotationsinvari-anter Fourierdeskriptoren einfach. Wir können beispielsweise die Phasealler Fourierdeskriptoren zur Phase ϕ1 von z1 in Beziehung setzen unddie Phasenverschiebung vϕ1 von den Phasen der anderen Deskriptorensubtrahieren. Dann enthalten die Deskriptoren die Phasendifferenz zurPhase des ersten Deskriptors und sind damit bis auf den ersten rotati-onsinvariant.

Sowohl Fourierdeskriptoren (Abschn. 19.4) als auch Momente (Ab-schn. 19.3) liefern die Grundlagen für skalierungs- und rotationsinva-riante Formparameter. Die Fourierdeskriptoren sind das vielseitigereInstrument. Allerdings beschränken sie die Objektbeschreibung auf dieRandkurve, während Momente von Grauwertobjekten auch die räumli-che Verteilung der Grauwerte in einem Objekt berücksichtigen.

Idealerweise beschreiben Formparameter die Form eines Objekts voll-ständig und eindeutig. Das bedeutet, dass unterschiedliche Formen nichtauf denselben Merkmalssatz abgebildet werden dürfen. Der Betrag derFourierdeskriptoren liefert eine skalierungs- und rotationsinvariante, je-doch unvollständige Formbeschreibung. Abbildung 19.9 zeigt am Bei-spiel der Buchstaben T und L, welche unterschiedlichen Objektformen

19.5 Formparameter 557

bei zufälliger Veränderung der Phase unter Beibehaltung der Deskriptor-beträge entstehen.

Nur der komplette Satz der Fourierdeskriptoren gewährleistet dahereine eindeutige Formbeschreibung. Man beachte, dass für jede Invarianzein Freiheitsgrad verloren geht. Bei der Translationsinvarianz lassen wirden Fourierdeskriptor z0 aus (zwei Freiheitsgrade). Bei der Skalierungs-invarianz setzen wir den Betrag des Fourierdeskriptors z1 auf eins (einFreiheitsgrad), und für die Rotationsinvarianz setzen wir alle Phasen zurPhase von z1 in Beziehung (ein weiterer Freiheitsgrad). Liegen alle dreiInvarianzen vor, fehlen uns vier Freiheitsgrade.

Die Eleganz der Fourierdeskriptoren besteht darin, dass diese Invari-anzen in den ersten beiden Fourierdeskriptoren enthalten sind. Normie-ren wir alle anderen Fourierdeskriptoren auf die Phase und den Betragdes zweiten Fourierdeskriptors, haben wir eine vollständige translati-ons-, rotations- und skalierungsinvariante Beschreibung der Form einesObjekts. Lassen wir Fourierdeskriptoren höherer Ordnung weg, könnenwir kontrolliert feine Details aus der Formbeschreibung entfernen.

Ein Maß für Formunterschiede ergibt sich, wenn wir berücksichtigen,dass Fourierdeskriptoren einen komplexwertigen Vektor bilden. Danngilt für den Betrag des Differenzvektors:

dzz′ =N/2−1∑v=−N/2

∣∣zv − z′v∣∣2 . (19.16)

Je nachdem, welche Normalisierung wir auf die Fourierdeskriptoren an-wenden, ist dieses Maß skalierungs- und/oder rotationsinvariant.

19.5 Formparameter

Nach der Diskussion der verschiedenen Möglichkeiten der Darstellungbinärer Objekte, die aus Bilddaten extrahiert wurden, wenden wir unsnun der Frage zu, wie die Form dieser Objekte beschrieben werden kann.Dieser Abschnitt beschränkt sich auf elementare geometrische Parame-ter wie Fläche und Umfang.

19.5.1 Fläche

Einer der einfachsten Formparameter ist die Fläche A eines Objekts. Beieinem diskreten Binärbild ist die Fläche durch die Anzahl der Bildpunk-te gegeben, die zum Objekt gehören. Bei der Matrix- oder Pixellistendar-stellung des Objekts bedeutet daher die Flächenberechnung einfach eineZählung der Pixel. Auf den ersten Blick scheint die Flächenberechnungeines Objekts, das durch den Kettenkode beschrieben ist, eine komplexeOperation zu sein. Das Gegenteil ist jedoch der Fall. Die Flächenberech-nung aus der Kettenkodierung ist weit schneller als die Pixelzählung, da


Tabelle 19.1: Berechnung der Fläche eines Objekts aus dem Kettenkode. ZuBeginn wird die Fläche null gesetzt, B auf einen beliebigen Wert. Mit jedem Schrittwerden die Fläche und der Parameter B entsprechend dem Wert des Kettenkodeserhöht; nach Zamperoni [244].

4er-Kettenkode 8er-Kettenkode Flächenzunahme Zunahme von B

0 0 −B 0

1 −(B + 1/2) 1

1 2 0 1

3 B + 1/2 1

2 4 B 0

5 B − 1/2 -1

3 6 0 -1

7 −(B − 1/2) -1

der Objektrand nur einen kleinen Teil der Pixel eines Objekts enthält undnur zwei Additionen pro Randpixel erfordert.

Der Algorithmus arbeitet ähnlich einer numerischen Integration. Wirstellen uns eine horizontale Basislinie in einer beliebigen vertikalen Po-sition im Bild vor. Dann beginnen wir die Integration der Fläche amobersten Pixel des Objekts. Die Entfernung dieses Punktes zur Basisli-nie bezeichnen wir mit B. Dann folgen wir dem Objektrand und erhöhendie Fläche des Objekts entsprechend den Angaben in Tabelle 19.1. Bewe-gen wir uns beispielsweise nach links (Kettenkode 4), nimmt die Flächeum B zu. Bewegen wir uns nach oben links (Kettenkode 3), nimmt dieFläche um B+1/2 zu, und B muss um 1 erhöht werden, weil sich die Ent-fernung zwischen dem Randpixel und der Basislinie um 1 erhöht hat. Beiallen Bewegungen nach rechts wird die Fläche verringert. Auf diese Wei-se subtrahieren wir die Fläche zwischen dem unteren Rand des Objektsund der Basislinie, welche zunächst bei der Flächenberechnung währendder Bewegung nach rechts zu viel addiert wurde. Es ist zu beachten, dassdie Randlinie beim Kettenkode in der Mitte des Pixels liegt. Er liefert alsokeine Fläche, die der Anzahl der Bildpunkte gleich ist. Eine Linie, die nurein Pixel breit ist, hat keine Fläche, ein Quadrat aus 2× 2 Bildpunktenhat die Fläche eins. Zu Beginn wird die Fläche auf null gesetzt.

Die Fläche kann auch direkt aus den Fourierdeskriptoren berechnetwerden durch

A = πN/2−1∑v=−N/2

v|zv |2. (19.17)

Dies ist ein schneller Algorithmus, der höchstens so viele Operationenbenötigt, wie die Randkurve Punkte enthält. Die Fourierdeskriptoren

19.5 Formparameter 559

haben den zusätzlichen Vorteil, dass wir die Fläche für einen bestimm-ten Glattheitsgrad berechnen können, indem wir nur eine entsprechen-de Anzahl von Fourierdeskriptoren berücksichtigen. Je mehr Fourierde-skriptoren wir verwenden, desto detaillierter wird die Randkurve, wie inAbb. 19.7 gezeigt.

19.5.2 Umfang

Der Umfang ist ein anderer geometrischer Parameter, der einfach aus derKettenkodierung des Objektrandes berechnet werden kann. Wir müs-sen lediglich die Länge der Kettenkodierung zählen und berücksichti-gen, dass diagonale Schritte um den Faktor

√2 länger sind. Der Umfang

p ergibt sich dann bei einer 8er-Nachbarschaft-Kettenkodierung zu

p = ne +√

2no, (19.18)

wobei ne und no jeweils die Anzahl der Kettenkodes mit geradem bzw.ungeradem Kode sind. Die Schritte mit ungeradem Kode gehen in Dia-gonalenrichtung.

Im Gegensatz zur Fläche ist der Umfang ein Parameter, der vomRauschpegel im Bild beeinflusst wird. Je höher der Rauschpegel ist, de-sto welliger und damit länger wird die Berandung eines Objekts bei derSegmentierung.

Das bedeutet, dass Vorsicht geboten ist, wenn aus verschiedenen Bil-dern extrahierte Ränder verglichen werden. Wir müssen uns vergewis-sern, dass die Glattheit der Ränder in allen Bildern vergleichbar ist.

Leider gibt es keine einfache Formel zur Berechnung des Umfangsaus Fourierdeskriptoren, da die Berechnung des Umfangs von Ellipsenzu elliptischen Integralen führt. Allerdings ergibt sich der Umfang inguter Näherung direkt aus der Konstruktion der Randkurve mit Abtast-punkten in gleichmäßigen Abständen durch die Anzahl der Abtastpunk-te multipliziert mit dem mittleren Abstand zwischen den Punkten.

19.5.3 Rundheit

Fläche und Umfang sind die beiden Parameter, welche die Größe einesObjekts auf die eine oder andere Weise beschreiben. Um Objekte ver-gleichen zu können, die aus unterschiedlichen Entfernungen beobachtetwerden, müssen wir Formparameter verwenden, die von der Größe desObjekts in der Bildebene unabhängig sind. Die Rundheit ist einer dereinfachsten Parameter dieser Art. Sie ist folgendermaßen definiert:

c = p2

A. (19.19)

Die Rundheit ist eine dimensionslose Zahl mit einem Minimalwert von4π ≈ 12,57 für Kreise. Sie ist 16 für Quadrate und 12

√3 ≈ 20,8 für


ein gleichseitiges Dreieck. Sie geht generell gegen große Werte für aus-gestreckte, lange Objekte.

Fläche, Umfang und Rundheit sind Formparameter, die nicht von derOrientierung des Objekts auf der Bildebene abhängen. Daher sind siehilfreich zu einer von der Orientierung unabhängigen Unterscheidungvon Objekten.

19.5.4 Umgebendes Rechteck

Ein anderer einfacher und nützlicher Parameter für die grobe Beschrei-bung der Größe eines Objekts ist das umgebende Rechteck (englischbounding box). Es ist definiert als das Rechteck, das gerade groß ge-nug ist, um alle Objektbildpunkte aufzunehmen. Dieses Rechteck lie-fert auch eine grobe Beschreibung der Form des Objekts. Im Gegen-satz zur Fläche (Abschn. 19.5.1) ist sie nicht rotationsinvariant. Sie wirdes jedoch, wenn das Objekt zunächst in eine Standardorientierung ge-dreht wird, zum Beispiel über die Orientierung des Momententensors(Abschnitt 19.3.3). In jedem Fall ist das umgebende Rechteck ein hilfrei-ches Merkmal, wenn eine weitergehende objektorientierte Pixelbearbei-tung wie die Extraktion der Objektpixel notwendig ist.


19.1: ∗∗Repräsentation von binären Objekten

Berechnen Sie von dem unten gezeigten binären Objekt auf einem quadrati-schen Gitter den Lauflängenkode, 4er-Kettenkode und 8er-Kettenkode. Ge-ben sie an, wie viele Bytes für die verschiedenen Kodierungen benötigt wer-den. Alle Zahlen sollen byteweise dargestellt werden.

19.2: ∗∗Umfang

Berechnen Sie unmittelbar aus den in Aufgabe 19.1 aufgestellten Kodierun-gen den Umfang des Objekts. Wie viele Rechenoperationen werden dafürbenötigt?

19.3: ∗∗Fläche

Berechnen Sie unmittelbar aus den in Aufgabe 19.1 aufgestellten Kodie-rungen die Fläche des Objekts. Wie viele Rechenoperationen werden dafürbenötigt?


19.4: Elementare Formparameter

Interaktive Demonstration elementarer Formparameter wie Fläche und Ex-zentrizität (dip6ex19.01)

19.5: Momenten-basierte Formparameter

Interaktive Demonstration momentenbasierter Formanalyse (dip6ex19.02)

19.6: Fourierdeskriptoren

Interaktive Demonstration der Eigenschaften von Fourierdeskriptoren(dip6ex19.03)

19.7: ∗Kartesische und polare Fourierdeskriptoren

Man kann zwei Arten von Fourierdeskriptoren unterscheiden: kartesischeund polare.

1. Wie unterscheiden sich die beiden Deskriptoren?

2. Eignen sich die beiden Deskriptoren für alle Arten von Objektkonturen?

19.8: ∗∗ Eigenschaften von Fourierdeskriptoren

Kartesische Fourierdeskriptoren sind ein wichtiges Hilfsmittel zur Beschrei-bung von Kurvenzügen, weil sich daraus eine ganze Reihe geometrischer Ei-genschaften der Konturen einfach gewinnen lassen. Wir gehen dabei davonaus, dass eine geschlossene Randkurve für ein einfach zusammenhängen-des Objekt vorliegt. Untersuchen Sie die folgenden Fragen:

1. Wie kann man eine Linie erkennen? (Um eine geschlossene Linie zu er-reichen, wird die Kurve einmal vor und einmal zurück durchlaufen.)

2. Wie kann man ein spiegelsymmetrisches Objekt erkennen und dessenSymmetrieachse bestimmen?

3. Wie kann man die Steigung einer Randkurve bestimmen?

4. Kann man mithilfe der Fourierdeskriptoren Kurven glätten?

19.9: ∗∗Detektion gleichschenkliger Dreiecke

Wie kann man mit Fourierdeskriptoren gleichschenklige Dreiecke detektie-ren? Unterscheiden Sie dabei folgende Fälle:

1. Gleich große Dreiecke mit gleicher Orientierung

2. Dreiecke unterschiedlicher Größe aber mit gleicher Orientierung (skale-ninvariante Detektion)

3. Dreiecke mit unterschiedlicher Größe und Orientierung (skalen- und ro-tationsinvariante Detektion).

19.10: ∗∗∗Momente und Fourierdeskriptoren

In der Fachliteratur gibt es einen zum Teil heftigen Streit, ob Fourierde-skriptoren oder Momente die bessere Methode zur Formbeschreibung sind.Was ist Ihrer Meinung nach die bessere Methode? Untersuchen Sie dabeibesonders die Invarianzeigenschaften und die Frage, welche Objektformenmit einer geringen Anzahl von Parametern dargestellt werden können.



Eine ausführliche Behandlung der verschiedenen Baumstrukturen und ihrer An-wendungen gib Samet [194, 195]. Eine detaillierte Diskussion der momenten-basierten Formanalyse mit dem Schwerpunkt auf invarianten Merkmalen findetsich in der Monografie von Reiss [182]. Grauwertbasierte invariante Formmerk-male werden von Burkhardt und Siggelkow [23] diskutiert.

20 Klassifizierung

20.1 Einleitung

Mit der Erfassung und Beschreibung der Form detektierter Objekte mitpassenden Operatoren (Kapitel 19) ist die Bildverarbeitung für mancheAufgabenstellungen beendet, für andere nicht. Das hängt im Wesentli-chen von der Fragestellung an die Bildverarbeitung ab. Am besten lässtsich dieser Unterschied mit praktischen Beispielen verständlich machen.

Viele Anwendungen der Bildverarbeitung beschäftigen sich mit derAnalyse der Größenverteilung und Form von Partikeln wie Blasen, Aero-solen, Tropfen, Pigmenten oder Zellkernen. Mit den in Abschn. 19.5.1und 19.3 besprochenen Methoden bestimmen wir Fläche und Form derdetektierten Partikel. Mit diesen Parametern können die gestellten Fra-gen beantwortet werden. Zum Beispiel können wir Histogramme der Par-tikelfläche berechnen (Abb. 20.1c). Dieses Vorgehen ist für eine ganzeKlasse wissenschaftlicher Anwendungen typisch. Sie ist dadurch cha-rakterisiert, dass die zu untersuchenden Parameter eindeutig und un-mittelbar aus den Bilddaten gewonnen werden können.

Bei komplexeren Anwendungen ergibt sich die Notwendigkeit, ver-schiedene Objektklassen in einem Bild zu unterscheiden, so zum Bei-spiel bei typischen Inspektionsaufgaben in der Industrie. Liegen die Ab-messungen eines Teils innerhalb einer gewissen Toleranzgrenze? SindGegenstände vollständig? Sind irgendwelche Fehler, wie z. B. Kratzer, zuerkennen? Als Ergebnis der Analyse besteht das untersuchte Teil entwe-der den Test oder wird einer bestimmten Fehlerklasse zugewiesen.

Die Zuweisung von Objekten zu bestimmten Klassen ist — wie vie-le andere Aspekte der Bildverarbeitung und -analyse — ein interdiszi-plinäres Problem und nicht spezifisch für die Bildanalyse. In diesemZusammenhang ist die Bildanalyse Teil des allgemeineren Forschungs-gebietes der Mustererkennung. Eine klassische, allgemein bekannte An-wendung der Mustererkennung ist die Spracherkennung. Das gespro-chene Wort ist Teil eines eindimensionalen akustischen Signals (einerZeitserie). Die Aufgabe der Klassifizierung besteht darin, die Laute, Wör-ter und Sätze der gesprochenen Sprache zu erkennen. Die entsprechen-de Aufgabe in der Bildverarbeitung ist Schrifterkennung (optical charac-ter recognition, OCR), also die Erkennung von Buchstaben und Worten ineinem geschriebenen Text.


564 20 Klassifizierung

a b

c

0 500 1000 15000

5

10

15

20

25

30

20000

5

10

15

20

25

30

Häu

figke

it

Fläche

Abbildung 20.1: Schritte zur Analyse der Größenverteilung von Partikeln (Lin-sen): a Originalbild, b Binärbild und c Flächenverteilung.

Die Klassifizierung wird generell dadurch kompliziert, dass die Be-ziehung zwischen den interessierenden Parametern und den Bilddatennicht immer offensichtlich ist. Die Objektklassen können oft nicht ei-nem bestimmten Wertebereich eines Merkmals im Bild zugeordnet wer-den, sondern müssen zunächst anhand von optischen Merkmalen imBild identifiziert werden. Durch welche Eigenschaften können wir z. B.Linsen, Pfefferkörner und Sonnenblumenkerne voneinander unterschei-den (Abb. 20.2)? Die Beziehung zwischen den optischen Eigenschaftenund den Objektklassen erfordert eine sorgfältige Untersuchung der Bild-daten. Wir veranschaulichen die komplexen Beziehungen zwischen Ob-jekteigenschaften und ihren optischen Eigenschaften anhand zweier Bei-spiele.

Die Kartierung von Waldschäden ist eines von vielen großen Proble-men, denen Umweltwissenschaftler gegenüberstehen. Die Aufgabe be-steht darin, über Fernerkundung das Ausmaß der Waldschäden aus Luft-und Satellitenbildern zu kartieren und zu klassifizieren. In diesem Bei-spiel ist der komplexe Zusammenhang zwischen den verschiedenen For-men von Waldschäden und den Bildmerkmalen nicht von vornhereinklar. Es sind vielmehr Untersuchungen notwendig, die diese komple-xen Zusammenhänge erst klären, indem Luftbilder mit am Boden karto-

20.1 Einleitung 565

a b

Abbildung 20.2: Klassifikation: Welche der Samen sind Pfefferkörner, Linsen,Sonnenblumenkerne oder keines von den Dreien? a Originalbild und b Binärbildnach Segmentierung.

grafierten Waldschäden verglichen werden. Es ist zu erwarten, dass einMerkmal nicht ausreichend sein wird, sondern dass unter Umständenviele Merkmale benötigt werden.

In der Medizin und in der Biologie gibt es viele ähnliche Anwendun-gen. Eine der Standardfragen in der Medizin ist die Unterscheidung zwi-schen „gesund“ und „krank“. Auch hier erwarten wir keine einfachen Be-ziehungen zwischen diesen beiden Objektklassen und den Merkmalender Objekte.

Nehmen wir als weiteres Beispiel die Objekte in Abb. 20.3. Wir habenkein Problem dabei, zu erkennen, dass alle Objekte bis auf eines Lampensind. Wie kann jedoch ein Computersystem diese Aufgabe ausführen?Welche Eigenschaften können wir extrahieren, die zur Erkennung derLampen notwendig sind? Obwohl wir leicht die Lampen in Abb. 20.3 er-kennen, fühlen wir uns recht hilflos, wenn wir angeben sollen, wie einComputersystem dies tun sollte. Offensichtlich ist dies ein komplexesProblem. Wir können eine Lampe erkennen, weil wir zuvor schon vieleandere Lampen gesehen haben und dieses gespeicherte Wissen verglei-chen mit dem, was wir in dem Bild sehen. Aber wie ist dieses Wissengespeichert und wie wird der Vergleich durchgeführt? Es ist offensicht-lich, dass dies nicht nur eine Datenbank mit geometrischen Formen seinkann. Wir wissen auch, in welchen Umgebungen Lampen auftauchen undfür welchen Zweck sie benutzt werden. Die Untersuchung von Proble-men dieser Art sind Teil eines Forschungsbereiches, der künstliche Intel-ligenz (KI , englisch artificial intelligence oder AI ) genannt wird.

Im Bezug auf wissenschaftliche Anwendungen ist außerdem ein ande-rer Aspekt der Klassifikation von Interesse. Da bildverarbeitende Techni-ken zu den treibenden Kräften des wissenschaftlichen Fortschritts in denexperimentellen Naturwissenschaften gehören, geschieht es oft, dass un-bekannte Objekte in Bildern auftauchen, für die es noch kein Klassifika-


Abbildung 20.3: Wie können wir erkennen, dass alle Objekte bis auf eines Lam-pen sind?

tionsschema gibt. Dann ist die Aufgabe, aus dem gewonnenen Bildmate-rial neue Objektklassen zu entdecken. Dazu bedarf es Klassifizierungs-methoden, die kein Vorwissen benötigen.

Zusammenfassend können wir festhalten, dass die Klassifikation zweigrundlegende Aufgaben umfasst:

1. Die Beziehung zwischen den Bildeigenschaften (optische Signatur )und den Objektklassen muss so detailliert wie möglich herausgear-beitet werden. Diese Aufgabenstellung gehört zum Teil in das Appli-kationsgebiet und zum Teil in das Gebiet der Bildgewinnung, wie wires in den Kapitel 6–8 behandelt haben.

2. Aus der Vielzahl möglicher Bildeigenschaften müssen wir einen opti-malen Satz herausfinden, mit dem sich mit einer möglichst einfachenKlassifizierungsmethode die Objekte mit möglichst wenig Fehlern indie verschiedenen Klassen einteilen lassen. Die Aufgabe der Klassifi-zierung ist Gegenstand dieses Kapitels. Wir behandeln hier nur einigegrundlegende Fragen wie die Auswahl der geeigneten Art und Anzahlvon Merkmalen (Abschn. 20.2) und einige einfache Klassifizierungs-techniken (Abschn. 20.3).

20.2 Merkmalsraum 567

20.2 Merkmalsraum

20.2.1 Pixel- und objektbasierte Klassifizierung

Wir können zwei Typen von Klassifizierungsprozeduren unterscheiden:die pixelbasierte und die objektbasierte Klassifizierung. In komplexenFällen gelingt eine Objektsegmentierung nicht mit einem einzigen Merk-mal. Dann müssen mehrere Eigenschaften verwendet werden sowie einKlassifizierungsprozess, der unterscheiden kann, welcher Bildpunkt zuwelchem Objekttyp gehört.

Die sehr viel einfachere objektbasierte Klassifizierung kann einge-setzt werden, falls die verschiedenen Objekte gut vom Hintergrund zuunterscheiden sind und sich nicht berühren und überlappen. Wenn dieBilddaten es erlauben, sollte die objektbasierte Klassifizierung verwen-det werden, da der zu bewältigende Datenaufwand sehr viel geringerist. Dann können alle auf Pixeln beruhenden Eigenschaften wie mittlererGrauwert, lokale Orientierung, lokale Wellenzahl und Grauwertvarianz,die zuvor in Kapitel 11–14 besprochen wurden, über die gesamte Objekt-fläche gemittelt werden und zur Beschreibung der Objekteigenschaftendienen. Zusätzlich können wir all die Parameter verwenden, welche dieObjektform beschreiben (Kapitel 19). Manchmal ist es notwendig, bei-de Klassifizierungsprozesse einzusetzen: zuerst den Pixelbasierten zurTrennung der Objekte voneinander und vom Hintergrund und danacheinen Objektbasierten zur Klassifizierung der geometrischen Eigenschaf-ten der Objekte.

20.2.2 Cluster

Eine Gruppe von P Eigenschaften bildet einen P -dimensionalen RaumM, der als Merkmalsraum bezeichnet wird. Jeder Bildpunkt oder jedesObjekt wird in diesem Raum als Merkmalsvektor dargestellt. Wird eineObjektklasse durch die Merkmale gut definiert, sollten alle Merkmals-vektoren dieser Klasse im Merkmalsraum nahe beieinander liegen. Wirbetrachten die Klassifizierung als einen statistischen Prozess und weisenjeder Objektklasse eine P -dimensionale Wahrscheinlichkeitsdichtefunk-tion zu. Diese Funktion können wir abschätzen, indem wir Messwerteeiner bestimmten Objektklasse nehmen, den Merkmalsvektor berechnenund den Wert des zugehörigen Punktes im diskreten Merkmalsraum in-krementieren. Diese Prozedur entspricht der Berechnung eines allgemei-nen P -dimensionalen Histogramms (Abschn. 3.2.1). Besitzt eine Objekt-klasse eine enge Wahrscheinlichkeitsverteilung im Merkmalsraum, spre-chen wir von einem Cluster . Objekte können in bestimmte Objektklassensepariert werden, wenn die Cluster der unterschiedlichen Objektklassengut voneinander getrennt sind. Haben wir weniger gute Merkmale vor-


a

0 500 1000 15000

5

10

15

20

25

30

20000

5

10

15

20

25

30

Häu

figke

it

Fläche

b

Häu

figke

it

Exzentrizität

0 0.2 0.4 0.6 0.8 10

5

10

15

20

25

30

0 0,2 0,4 0,6 0,8 10

5

10

15

20

25

30

c

Exze

ntr

izit

ät

Fläche

0 200 400 600 800 1000 12000

0,2

0,4

0,6

0,8

Abbildung 20.4: Merkmale zur Klassifizierung verschiedener Samenkörner ausAbb. 20.2 in die Klassen Pfefferkörner, Linsen und Sonnenblumenkerne: Histo-gramm der Merkmale a Fläche und b Exzentrizität; c zweidimensionaler Merk-malsraum mit beiden Eigenschaften.

liegen, überlappen sich die Cluster, oder es existieren sogar keine. Indiesen Fällen ist eine fehlerfreie Klassifizierung nicht möglich.

20.2.3 Selektion von Merkmalen

Wir beginnen mit dem Beispiel der Klassifizierung der verschiedenenSamen in Abb. 20.2 in die drei Klassen Pfefferkörner, Linsen und Son-nenblumenkerne. In Abb. 20.4a und b sind die Histogramme der Eigen-schaften Fläche und Exzentrizität abgebildet ((19.6) in Abschn. 19.3.3).Während das Flächenhistogramm zwei ausgeprägte Maxima zeigt, sehenwir bei der Exzentrizität nur eines. In jedem Fall genügt nur eines derbeiden Merkmale zur Unterscheidung der drei Klassen nicht. Mit beidenkönnen wir jedoch zumindest zwei Cluster identifizieren (Abb. 20.4c).Sie bilden die Pfefferkörner und die Linsen ab. Beide Samen sind fastrund und haben demnach eine niedrige Exzentrizität zwischen 0 und 0,2,sodass diese Klassen im Exzentrizitätsdiagramm in einem Peak zusam-


a

1

2

3

m1

Häu

figke

it

b

1

2

3

m2

m1

Abbildung 20.5: a Eindimensionaler Merkmalsraum mit drei Objektklassen. bErweiterung des Merkmalsraums mit einem zweiten Merkmal. Die grau einge-färbten Flächen geben die Bereiche an, in denen die Häufigkeit der entsprechen-den Klasse ungleich null ist. In beiden Fällen sind dieselben Objektklassen gezeigt.

menfallen (Abb. 20.4b). Die Sonnenblumenkerne bilden keinen dichtenCluster, da sie in Form und Größe stark variieren. Offensichtlich könnensie jedoch in der Größe Linsen ähneln, weshalb die Fläche als alleinigesMerkmal nicht ausreicht.

In Abb. 20.4c erkennen wir auch mehrere Ausreißer. Zum einen sindda einige kleine Objekte mit hoher Exzentrizität. Dies sind Objekte amBildrand, die nur teilweise ins Bild hineinragen (Abb. 20.2). Zum ande-ren gibt es auch fünf große Objekte dort, wo Linsen so dicht beieinanderliegen, dass sie zu größeren Objekten verschmolzen erscheinen. DieseObjekte haben außerdem eine große Exzentrizität, weshalb es unmöglichist, sie nur mithilfe der beiden einfachen Parameter Fläche und Exzen-trizität von Sonnenblumenkernen zu unterscheiden.

Kritisch für eine gute Klassifizierung ist die Qualität der Merkma-le. Was bedeutet das? Auf den ersten Blick mag man denken, dass dieVerwendung so vieler Eigenschaften wie möglich die beste Lösung ist.Dies ist jedoch im Allgemeinen nicht der Fall. Abbildung 20.5a zeigteinen eindimensionalen Merkmalsraum mit drei Objektklassen. Die Ei-genschaften der ersten und zweiten Klasse sind recht gut voneinandergetrennt, während die der zweiten und dritten Klasse sich beträchtlichüberlappen. Wie wir in Abb. 20.5b sehen, verbessert ein zweites Merkmaldie Klassifizierung nicht wesentlich, denn die Cluster der zweiten unddritten Klasse überlappen sich immer noch. Eine nähere Betrachtungder Verteilung im Merkmalsraum erklärt uns den Grund: Das zweiteMerkmal sagt nicht viel Neues, sondern variiert parallel mit der erstenEigenschaft; die beiden Merkmale sind also eng korreliert.


Abbildung 20.6: Veranschaulichung der Schrifterkennung am Beispiel von Zei-chen mit sehr ähnlicher Form wie das große O und die Ziffer 0 oder das große I,das kleine l und die Ziffer 1.

Wir wollen noch zwei zusätzliche Tatsachen betrachten. Oft wirdübersehen, wie viele unterschiedliche Klassen mit einigen wenigen Pa-rametern separiert werden können. Nehmen wir an, dass ein Merkmalnur zwei Klassen voneinander trennen kann. Zehn Merkmale könnendann 210 = 1024 Objektklassen separieren. Diese einfache Betrachtungverdeutlicht das hohe Separierungspotenzial einiger weniger Parameter.Das entscheidende Problem ist die gleichmäßige Verteilung der Clusterim Merkmalsraum. Es ist also wichtig, die richtigen Merkmale zu finden,indem wir die Beziehung zwischen den Eigenschaften der Objekte unddenen in den Bildern sorgfältig untersuchen.

20.2.4 Unterscheidung von Klassen im Merkmalsraum

Selbst wenn wir die besten zur Verfügung stehenden Merkmale verwen-den, kann es Klassen geben, die nicht voneinander unterschieden wer-den können. In solch einem Fall ist es immer gut, sich daran zu erinnern,dass die Trennung von Objekten in wohldefinierte Klassen nur ein Modellder Realität ist. Zudem ist der Übergang von einer Klasse zur anderenoft nicht abrupt, sondern allmählich. Zellanomalien sind beispielswei-se in verschiedensten Ausprägungen anzutreffen; es gibt nicht nur dieKlassen „normal“ und „pathologisch“, sondern zusätzlich beliebig vieleZwischenstadien. Wir können also nicht davon ausgehen, in allen Fällenim Merkmalsraum gut voneinander getrennte Klassen zu finden. ZweiSchlussfolgerungen lassen sich daraus ableiten: Erstens haben wir keineGarantie für gut separierte Klassen im Merkmalsraum, selbst wenn wirfür die Klassifizierung optimale Merkmale wählen. Zweitens kann dieseSituation uns dazu zwingen, die Objektklassifizierung neu zu überden-ken. Möglicherweise bilden die vermeintlichen zwei Objektklassen tat-sächlich nur eine einzige Klasse, oder die Visualisierungstechniken zurSeparierung der Klassen waren ungeeignet.

Bei einer anderen wichtigen Anwendung, der Schrifterkennung (opti-cal character recognition, OCR) liegen verschiedene Klassen vor. JedesZeichen ist eine wohldefinierte Klasse. Während die meisten Zeichenleicht voneinander zu unterscheiden sind, sind sich einige sehr ähnlichwie das große O und die Ziffer 0 oder die Buchstaben I und l und dieZiffer 1, d. h., sie liegen im Merkmalsraum dicht beieinander (Abb. 20.6).Solche wohldefinierten Klassen, die sich kaum in ihren Merkmalen un-terscheiden, stellen für die Klassifizierung ein ernstes Problem dar.


Wie können wir also den Buchstaben O von der Ziffer 0 oder ein klei-nes l von einem großen I unterscheiden? Zwei Antworten sind denkbar.Man könnte die Schriften neu gestalten, damit sich die einzelnen Zei-chen besser voneinander unterscheiden. Tatsächlich gibt es Schriftsät-ze, die speziell für die Schrifterkennung entwickelt wurden. Eine zweiteMöglichkeit besteht darin, den Klassifizierungsprozess mit zusätzlicherInformation zu erweitern. Die Voraussetzung dafür ist, dass die Klassi-fizierung nicht auf der Ebene der einzelnen Buchstaben endet, sondernin die Ebene der Worte ausgedehnt wird. Dann lassen sich leicht Re-geln für eine bessere Erkennung aufstellen. Eine einfache Regel, die denBuchstaben O von der Ziffer 0 unterscheiden hilft, ist, dass Buchsta-ben und Ziffern nicht gemischt in einem Wort auftreten. Gegenbeispielezur Demonstration der Bedeutung dieser Regel sind die englischen oderkanadischen Postleitzahlen, die sich aus Buchstaben und Ziffern zusam-mensetzen. Jemand, der keine Übung darin hat, diese Kennungen zulesen, hat ernste Probleme, sie zu entziffern und zu behalten. Ein ande-res Beispiel zur Unterscheidung des großen I vom kleinen l ist die Regel,dass Großbuchstaben nur am Anfang eines Wortes oder in gänzlich großgeschriebenen Worten vorkommen.

Wir beenden diese generellen Betrachtungen mit der Bemerkung, dassdie Untersuchung, ob eine Klassifizierung bei einem gegebenen Problemvon der Natur oder dem Typ der möglichen Merkmale her überhauptdurchführbar ist, mindestens ebenso wichtig ist wie die Wahl einer pas-senden Klassifizierungsmethode.

20.2.5 Hauptachsentransformation

Aus der Diskussion im vorigen Abschnitt ist die Bedeutung der Auswahlder Objekteigenschaften für die Klassifizierung klar geworden. JedesMerkmal sollte neue Information enthalten, komplementär zu der, dieuns bereits ohne das betrachtete Merkmal zu den Objektklassen vorliegt.Objektklassen, die eine ähnliche Verteilung in einem Merkmal aufweisen,sollten sich in einem anderen unterscheiden, oder anders ausgedrückt,die Eigenschaften sollten nicht miteinander korreliert sein. Die Korrelati-on von Eigenschaften kann mit den in Abschn. 3.3 besprochenen statisti-schen Methoden untersucht werden, wenn die Verteilung der Merkmalefür die unterschiedlichen Klassen bekannt ist (überwachte Klassifizie-rung).

Die dabei entscheidende Größe ist die Kreuzkovarianz Cpq zweierMerkmale mp und mq aus dem P -dimensionalen Merkmalsvektor einerObjektklasse:

σpq =(mp −mp

)(mq −mq

). (20.1)


Ist die Kreuzkovarianz σpq null, sind die beiden Merkmale unkorreliertoder orthogonal zueinander. Die Größe

σpp =(mp −mp

)2(20.2)

ist ein Maß für die Varianz der Eigenschaft. Ein gutes Merkmal für einebestimmte Objektklasse sollte eine kleine Varianz aufweisen, da sie einegeringe Ausdehnung des Clusters in der entsprechenden Richtung desMerkmalsraums bedeutet. Mit P Merkmalen können wir eine symmetri-sche Matrix mit den Koeffizienten σpq bilden, die Kovarianzmatrix

Σ =

⎡⎢⎢⎢⎢⎢⎣σ11 σ12 . . . σ1P

σ12 σ22 . . . σ2P...

.... . .

...σ1P σ2P . . . σPP

⎤⎥⎥⎥⎥⎥⎦ . (20.3)

Die Diagonalelemente der Kovarianzmatrix enthalten die Varianzen derP Merkmale, während die anderen Elemente für die Kreuzkovarianzenstehen. Wie jede symmetrische Matrix kann auch die Kovarianzmatrixdiagonalisiert werden (Abschn. 3.3.2ow.t). Diese Prozedur wird als Haupt-achsentransformation bezeichnet. Im Hauptachsen-Koordinatensystemhat die Kovarianzmatrix folgende Gestalt:

Σ′ =

⎡⎢⎢⎢⎢⎢⎢⎣

σ ′11 0 · · · 0

0 σ ′22. . .

......

. . .. . . 0

0 · · · 0 σ ′pp

⎤⎥⎥⎥⎥⎥⎥⎦ . (20.4)

Dies bedeutet, dass ein neues Koordinatensystem existiert, in demalle Merkmale unkorreliert sind. Diese neuen Merkmale sind Linear-kombinationen der alten Merkmale und damit Eigenvektoren der Kova-rianzmatrix (20.3). Die zugehörigen Eigenwerte sind die Varianzen dertransformierten Merkmale. Die besten Merkmale haben die niedrigstenVarianzen. Merkmale mit großen Varianzen sind also nicht besondershilfreich, da sie im Merkmalsraum ausgedehnt sind und damit nicht we-sentlich zur Trennung unterschiedlicher Objektklassen voneinander bei-tragen. Wir können sie also weglassen, ohne die Klassifizierung merklichzu verschlechtern.

Ein einfaches, aber anschauliches Beispiel haben wir, wenn zwei Merk-male nahezu identisch sind wie die Merkmale m1 und m2 in Abb. 20.7.Alle Punkte im Merkmalsraum liegen hier nahe der Winkelhalbierenden;beide Merkmale besitzen eine große Varianz. Im Hauptachsen-Koordi-natensystem ist m′

2 = m1 − m2 ein gutes Merkmal, da es eine enge


m2

m'2

m'1

m1

Abbildung 20.7: Veranschaulichung korrelierter Eigenschaften und der Haupt-achsentransformation.

Verteilung aufweist, während m′1 ebenso nutzlos ist wie m1 und m2 al-

leine. Wir können also den Merkmalsraum ohne irgendwelche Nachteilevon zwei Dimensionen auf eine Dimension reduzieren.

Auf diese Weise lässt sich die Hauptachsentransformation zur Re-duktion der Dimension des Merkmalsraums verwenden, dessen kleine-rer Merkmalssatz den Zweck ebenso gut erfüllt. Dafür ist eine Analyseder Kovarianzmatrix aller Objektklassen notwendig. Es können nur dieMerkmale weggelassen werden, bei denen die Analyse für alle Klassendas gleiche Ergebnis liefert.

Um Missverständnissen vorzubeugen: Die Hauptachsentransforma-tion kann nicht die Qualität der Klassifizierung verbessern. Haben wireinen Merkmalssatz vorliegen, der zwei Klassen nicht voneinander un-terscheiden kann, hilft uns die Transformation desselben Merkmalssat-zes in das Hauptachsen-Koordinatensystem auch nicht weiter. Wir kön-nen jedoch aus einer Gruppe von Merkmalen eine optimale Untermengeauswählen und damit den Rechenaufwand für die Klassifizierung redu-zieren.

20.2.6 Überwachte und unüberwachte Klassifizierung

Wir können das Klassifizierungsproblem als eine Analyse der Strukturdes Merkmalsraums betrachten. Dabei wird ein Objekt als Muster imMerkmalsraum angesehen. Grundsätzlich können wir zwischen über-wachter und unüberwachter Klassifizierung unterscheiden. Unter Über-wachung einer Klassifizierungsprozedur verstehen wir die vorherige Be-stimmung der Cluster im Merkmalsraum mit bekannten Objekten. Damitkennen wir die Anzahl der Klassen, ihren Ort und ihre Ausdehnung. Beider unüberwachten Klassifizierung wird dagegen keine Kenntnis über


die zu klassifizierenden Objekte vorausgesetzt. Wir berechnen die Mus-ter im Merkmalsraum aus den zu klassifizierenden Objekten und analy-sieren anschließend die Cluster im Merkmalsraum. In diesem Fall wis-sen wir auch vorher die Anzahl der Klassen nicht. Sie ergibt sich ausder Anzahl gut voneinander getrennter Cluster im Merkmalsraum. Die-se Methode ist sicher objektiver, aber die Trennung ist möglicherweiseweniger gut.

Schließlich sprechen wir von einem selbstlernenden Verfahren, wennder Merkmalsraum mit jedem neuen zu klassifizierenden Objekt aktua-lisiert wird. Mit diesen Methoden können zeitliche Veränderungen derObjektmerkmale kompensiert werden, die sehr einfache Ursachen habenmögen wie Veränderungen der Beleuchtung, welche in einer industriel-len Umgebung häufig auftreten (Tageslichtverlauf, Alterung oder Ver-schmutzen des Beleuchtungssystems).

20.3 Einfache Klassifizierungsverfahren

In diesem Abschnitt stellen wir Verfahren zusammen, mit denen die Zu-gehörigkeit eines Objektes zu einer Klasse bestimmt werden kann. Sielassen sich sowohl für die nicht überwachte als auch für die überwach-te Klassifizierung anwenden, denn beide Techniken unterscheiden sichnur durch die Methode, mit der Klassen Clustern im Merkmalsraum zu-geordnet werden (Abschn. 20.2.6). Nach der Identifizierung der Clustermit einer der beiden Methoden ist der weitere Klassifizierungsprozessgleich. Ein neues Objekt liefert einen Merkmalsvektor, der mit einer derKlassen assoziiert ist oder als nicht zu einer Klasse gehörig verworfenwird. Verschiedene Klassifizierungsverfahren unterscheiden sich ledig-lich durch die Art, wie die Cluster im Merkmalsraum modelliert werden.

Allen Klassifizierungsverfahren ist gemeinsam, dass sie den Merk-malsraum M auf den Entscheidungsraum D abbilden. Der Entschei-dungsraum ist eine Menge mit Q Elementen, wobei jedes Element einerKlasse der Objekte einschließlich einer Zurückweisungsklasse für nicht-identifizierbare Objekte entspricht. Die Elemente des Entscheidungs-raums sind im Fall einer deterministischen Entscheidung binäre Zahlen.Dann kann nur eines der Elemente eins sein; alle anderen müssen nullsein. Falls der Klassifizierer eine Wahrscheinlichkeitsentscheidung fällt,sind die Elemente des Entscheidungsraums reelle Zahlen. Die Summealler Elemente des Entscheidungsraums muss dann eins sein.

20.3.1 Nachschaumethode

Dies ist das einfachste Klassifizierungsverfahren, aber in einigen Fällenauch das beste, da eine — niemals perfekte — Modellierung der Clus-ter für die verschiedenen Objektklassen nicht vorgenommen wird. Bei

20.3 Einfache Klassifizierungsverfahren 575

der Nachschaumethode wird lediglich jede Zelle des Merkmalsraums ei-ner Klasse zugeordnet und entsprechend markiert. Der Merkmalsraumselbst wird nicht verändert. Normalerweise gehört eine große Zahl vonZellen zu keiner Klasse und ist daher mit 0 markiert.

Wenn sich die Cluster zweier Klassen überlappen, haben wir zwei Zu-ordnungsmöglichkeiten. Zum einen können wir einen Punkt der Klassezuordnen, deren Häufigkeitsverteilung hier die höchste Wahrscheinlich-keit aufweist. Zum anderen können wir uns auf den Standpunkt stel-len, dass in diesem Fall keine eindeutige Zuordnung möglich ist, undden Punkt, d. h. diese Merkmalskombination, als nicht klassifizierbar ein-stufen. Dann wird die Zelle mit 0 markiert. Nach dieser Initialisierungdes Merkmalsraums reduziert sich die Klassifizierung auf eine einfacheLookup- oder Nachschauoperation. Wir müssen für jeden Merkmalsvek-tor m lediglich in der mehrdimensionalen Lookup-Tabelle nachsehen,zu welcher Klasse, wenn überhaupt, er gehört.

Ohne Zweifel ist dies ein schnelles Klassifizierungsverfahren mit ei-nem Minimum an Rechenoperationen. Der Nachteil — wie bei vielenschnellen Techniken — ist die enorme Anforderung an den Speicherplatzfür die Lookup-Tabellen. Ein dreidimensionaler Merkmalsraum mit nur64 Intervallen pro Merkmal braucht beispielsweise 64× 64× 64 = 1/4MByte Speicher, wenn nicht mehr als 255 Klassen benötigt werden unddeshalb ein Byte zur Speicherung aller Klassenindizes genügt. Wir schlie-ßen daraus, dass sich die Nachschaumethode nur für niedrigdimensio-nale Merkmalsräume eignet. Dies legt nahe, die Anzahl der Merkmalezu reduzieren. Alternativ eignen sich Merkmale mit einer engen Vertei-lung der Merkmalswerte aller Klassen, da wir es dann mit einem kleinenWertebereich zu tun haben. Damit reicht für ein Merkmal eine gerin-ge Anzahl Intervalle, und die Speicheranforderungen reduzieren sich soweit, dass die Klassifizierung praktikabel wird.

20.3.2 Quadermethode

Die Quadermethode ist eine einfache Modellierung des Clusters im Merk-malsraum. Die Fläche des Clusters einer Klasse wird dabei möglichsteng von einem Rechteck umgeben (Abb. 20.8). Diese grobe Methode derModellierung funktioniert, wenn wir annehmen, dass die Cluster mehr-dimensionale Normalverteilungen sind. Dann haben die Cluster eine el-liptische Form und passen gut in die sie umgebenden Rechtecke, wenndie Achsen der Ellipsen entlang der Achsen des Merkmalsraums orien-tiert sind. Eine Ellipse mit den Halbachsen a und b hat zum Beispielin einem zweidimensionalen Merkmalsraum eine Fläche von πab, dassie enthaltende Rechteck eine Fläche von 4ab. Das ist keine schlechteKlassifizierung.

Ungünstig ist dagegen die Quaderapproximation von Klassen mit kor-relierten Merkmalen, da die Cluster dann zu lang gezogenen, dünnen


Exze

ntr

izit

ät

Fläche

0 200 400 600 800 1000 12000

0,2

0,4

0,6

0,8

Abbildung 20.8: Illustration der Quadermethode zur Klassifizierung der unter-schiedlichen Samen aus Abb. 20.2 in die Klassen Pfefferkörner, Linsen und Son-nenblumenkerne mithilfe der beiden Merkmale Fläche und Exzentrizität.

Tabelle 20.1: Parameter und Ergebnisse der einfachen Quadermethode zurKlassifizierung der Samenkörner aus Abb. 20.2. Der zugehörige Merkmalsraumist in Abb. 20.8 gezeigt.

Fläche Exzentrizität Anzahl

Gesamtzahl — — 122

Pfefferkörner 100–300 0,0–0,22 21

Linsen 320–770 0,0–0,18 67

Sonnenblumenkerne 530–850 0,25–0,65 15

nicht klassifiziert 19

Objekten entlang der Diagonalen im Merkmalsraum werden. In diesemFall enthält der umschließende Quader viel freien Raum, und die Qua-der neigen wesentlich eher zum Überlappen. In überlappenden Berei-chen ist eine Klassifizierung jedoch unmöglich. Korrelierte Merkma-le können durch eine Hauptachsentransformation vermieden werden(Abschn. 20.2.5). Der Rechenaufwand für die Quadermethode ist gering.Pro Klasse und Dimension des Merkmalsraums müssen zwei Vergleichs-operationen durchgeführt werden, damit entschieden werden kann, obein Merkmal zu einer Klasse gehört oder nicht. Das Maximum an Ver-gleichsoperationen fürQ Klassen und einen P -dimensionalen Merkmals-raum ist also 2PQ. Die Nachschaumethode erfordert dagegen nur PAdressberechnungen und ist unabhängig von der Anzahl der Klassen.

Zum Abschluss dieses Abschnitts diskutieren wir ein realistischesKlassifizierungsproblem. Abbildung 20.2 zeigt drei verschiedene Sa-

20.3 Einfache Klassifizierungsverfahren 577

a b

c d

Abbildung 20.9: Klassifizierte Objekte aus Abb. 20.2, maskiert nach den dreiKlassen a Pfefferkörner, b Linsen, c Sonnenblumenkerne sowie d nicht klassifi-zierte Objekte.

menarten, nämlich Sonnenblumenkerne, Linsen und Pfefferkörner. Die-ses einfache Beispiel weist viele der für ein Klassifizierungsproblem ty-pischen Eigenschaften auf. Obwohl die drei Klassen wohldefiniert sind,müssen die Merkmale, die wir für die Klassifizierung verwenden, sorg-fältig ausgewählt werden. Wir erkennen nicht von vornherein, welcheParameter zu einer erfolgreichen Unterscheidung der drei Klassen füh-ren. Zudem unterliegt die Form der Samen, insbesondere der Sonnen-blumenkerne, beträchtlichen Fluktuationen. Die Merkmalsselektion fürdieses Beispiel wurde bereits in Abschn. 20.2.3 besprochen.

Abbildung 20.8 veranschaulicht die Quadermethode anhand der bei-den Merkmale Fläche und Exzentrizität. Die Rechtecke markieren die fürdie unterschiedlichen Klassen verwendeten Quader. Die Bedingungenfür die drei Quader sind in Tabelle 20.1 zusammengefasst. Das Ender-gebnis der Klassifizierung ist in Abb. 20.9 zu sehen. In jedem der vierBilder sind durch entsprechende Masken nur Objekte, die zu der entspre-chenden Klasse gehören, sichtbar. Von insgesamt 122 Objekten konnten103 zugeordnet werden. Die übrigen 19 wurden aus folgenden Gründenals nicht klassifizierbar abgelehnt:


Exze

ntr

izit

ät

Fläche

0 200 400 600 800 1000 12000

0,2

0,4

0,6

0,8

Abbildung 20.10: Veranschaulichung der Klassifizierung verschiedener Samen-körner aus Abb. 20.2 mit der Methode des geringsten Abstandes in die KlassenPfefferkörner, Linsen und Sonnenblumenkerne mithilfe der Merkmale Fläche undExzentrizität. Ein Merkmalsvektor gehört zu dem Cluster, zu dessen Zentrum erden geringsten Abstand hat.

• Zwei oder mehr Objekte liegen so dicht beieinander, dass sie zu einemverschmolzen erscheinen. Fläche und/oder Exzentrizität nehmen zuhohe Werte an.

• Objekte, die am Bildrand liegen, sind nur teilweise sichtbar. Daherwerden die Fläche zu klein und die Exzentrizität zu groß.

• Drei große Sonnenblumenkerne wurden wegen ihrer zu großen Flä-che zurückgewiesen. Würden wir die erlaubte Fläche für die Klas-se der Sonnenblumenkerne erhöhen, würden auch dicht beieinanderliegende Linsen als zu dieser Klasse gehörig erkannt werden. Sol-che Klassifizierungsfehler lassen sich nur vermeiden, wenn wir mitfortgeschritteneren Segmentierungsverfahren das Verschmelzen vonObjekten verhindern.

20.3.3 Methode des geringsten Abstandes

Die Klassifizierung mit der Methode des geringsten Abstandes ist einanderes einfaches Beispiel der Modellierung von Clustern. Jeder Clusterwird einfach durch seinen Schwerpunktmq repräsentiert. Basierend aufdiesem Modell, ergibt sich eine einfache Einteilung des Merkmalsraums,indem wir den minimalen Abstand des Merkmalsvektors zu allen Klassensuchen. Dazu berechnen wir lediglich die Entfernung des Merkmalsvek-tors m zum Zentrum mq jedes Clusters:

d2q = |m−mq|2 =

P∑p=1

(mp −mqp)2. (20.5)


Das Merkmal wird dann der Klasse zugeordnet, zu der es den kürzes-ten Abstand hat. Geometrisch betrachtet, unterteilt dieser Ansatz denMerkmalsraum, wie in Abb. 20.10 gezeigt. Die Grenzen zwischen denClustern sind Hyperebenen, die senkrecht auf den Vektoren stehen, wel-che zwei Clusterzentren verbinden. Der Schnittpunkt einer Ebene mitdem Verbindungsvektor liegt in der Mitte zwischen den Zentren. DieKlassifizierung mit der Methode des geringsten Abstandes erfordert wiedie Quadermethode einen Rechenaufwand proportional zur Dimensiondes Merkmalsraums und zur Anzahl der Cluster. Sie ist jedoch ein fle-xibles Verfahren, das in verschiedener Weise modifiziert werden kann.

Die Größe der Cluster können wir berücksichtigen, indem wir einenSkalierungsfaktor in die Entfernungsberechnung nach (20.5) einführen.Auf diese Weise muss ein Merkmal näher an einem Cluster geringenAusmaßes sein, um mit ihm assoziiert zu werden. Wir können aucheine maximale Entfernung für jede Klasse definieren (Kreisscheiben inAbb. 20.10). Ist dann die Entfernung eines Merkmalsvektors größer alsdie maximale Entfernung zu allen Clustern, wird das Objekt als zu keinerder Klassen zugehörig identifiziert.

20.3.4 Methode der höchsten Wahrscheinlichkeit

Die Methode der höchsten Wahrscheinlichkeit modelliert die Cluster alsstatistische Wahrscheinlichkeitsdichtefunktionen. Im einfachsten Fallhaben wir P -dimensionale Normalverteilungen. Ausgehend von diesemModell, berechnen wir für jeden Merkmalsvektor die Wahrscheinlichkeit,dass er zu einer der P Klassen gehört. Der Merkmalsvektor wird mit derKlasse assoziiert, für die er die höchste Wahrscheinlichkeit aufweist. Derneue Aspekt dieses Verfahrens ist, dass stochastische Entscheidungenmöglich sind. Es ist nicht notwendig zu entscheiden, ob ein Objekt zueiner bestimmten Klasse gehört, sondern wir müssen ihm lediglich Wahr-scheinlichkeiten für die Zugehörigkeit zu den unterschiedlichen Klassenzuweisen.


20.1: Elementare Klassifizierungsverfahren

Interaktive Demonstration elementarer Klassifizierungsverfahren(dip6ex20.01)

20.2: ∗Klassen und Merkmale

In dieser Aufgabe werden eine Reihe von Klassifizierungsaufgaben beschrie-ben. Vergleichen Sie diese, indem Sie folgende Fragen beantworten:

1. Wie viele Klassen hat das Klassifizierungsproblem?


2. Sind die einzelnen Klassen scharf voneinander getrennt oder gehen diesevielmehr fließend ineinander über?

3. Gibt es eventuell eine hierarchische Klassenstruktur?

4. Was könnten mögliche Merkmale zur Unterscheidung der einzelnen Klas-sen sein?

Folgende Klassifizierungsaufgaben gilt es zu lösen:

A Es liegen Bilder von durch brechende Wellen ins Wasser eingetragene Bla-sen vor. Es soll die Größenverteilung der Blasen bestimmt werden.

B Aufgrund von Merkmalen in Mikroskopbildern sollen Tumorzellen vongesunden Zellen unterschieden werden.

C Auf Grund spektraler Merkmale, die durch Aufnahmen in unterschiedli-chen Spektralbereichen im Sichtbaren und im nahen Infrarot aufgenom-men wurden (10 bis 12 Kanäle), sollen folgende punktförmige Himmels-objekte unterschieden werden: Sterne, entfernte Galaxien und Quasare.

D Optical character recognition (OCR): Auf Formularen sollen Zahlen gele-sen werden, die aus den Ziffern 0 bis 9 bestehen, dem Dezimalpunkt undden Vorzeichen + und −.

E Aus Satellitenbildern sollen Karten mit Landnutzungsarten erstellt wer-den (bebautes Gebiet, Verkehrswege, Wald, landwirtschaftliche Nutzung,etc.).

20.3: ∗Speicher- und Rechenaufwand

Vergleichen Sie den Speicheraufwand und den Rechenaufwand für eine Klas-sifizierungsaufgabe mit 4 Merkmalen. Gehen Sie davon aus, dass jedesMerkmal mit 6 Bit Auflösung vorliegt und dass 4 bekannte Objektklassenvorliegen. Führen Sie den Vergleich für die folgenden Methoden durch:

1. Nachschaumethode

2. Quadermethode

3. Methode des geringsten Abstands

4. Methode der höchsten Wahrscheinlichkeit


Die Klassifizierung wurde hier nur einführend behandelt, ohne den ganzen theo-retischen Hintergrund zu behandeln. Interessierte Leser, die dieses Gebiet ver-tiefen wollen, seien auf einige weiterführende Literatur verwiesen. Aus der Fülleder Literatur über Mustererkennung seien hier nur einige Lehrbücher und Mono-grafien herausgegriffen. Zu den besten klassischen Lehrbüchern gehören Dudaet al. [46] und Webb [235]. In beiden Lehrbüchern liegt der Schwerpunkt aufstatistischen Verfahren. Das Buch von Schürmann [203] zeigt in einzigartigerWeise die Gemeinsamkeiten von Klassifizierungsverfahren auf der Basis klassi-scher statistischer Methoden und von neuronalen Netzen auf. Die Anwendungneuronaler Netze für die Klassifizierung wird in Bishop [16] behandelt. Eine derwichtigsten Neuerungen in der Klassifizierung, die so genannten support vec-tor machines, werden sehr schön von Christianini und Shawe-Taylor [29] undSchöllkopf und Smola [200] beschrieben.

Teil V

Referenzteil

A Referenzmaterial

R1Auswahl von CMOS-Bildsensoren (Abschn. 1.7.1)

C: Sättigungskapazität in Elektronen, FR: Bildrate in s−1, PC: Pixel-Takt-rate in MHz, QE: Spitzenquantenausbeute

Chip FormatH × V

FR PC PixelgrößeH × V, µm

Bemerkungen

Lineare Kennlinie

Micron3

MT9V403656× 491 200 66 9,9× 9,9 QE 0,32 @ 520 nm

Fillfactory2

IBIS54-13001280× 1024 30 40 6,7× 6,7 QE 0,30–0,35 @ 600 nm,

C 60k

Fillfactory2

IBIS4-40002496× 1692 4,5 11,4× 11,4 C 150k

Hohe Bildrate

Fillfactory3

LUPA13001280× 1024 450 40 12,0× 12,0 16 parallele Ausgänge

Micron3 MV40 2352× 1728 240 80 7,0× 7,0 16 × 10-bit-Ausgänge

Micron3,5

MT9M4131280× 1024 600 80 12,0× 12,0 QE 0.27 @ 520 nm, C 63k,

10 × 10-bit-Ausgänge

Micron 4 MV02 512× 512 4000 80 16,0× 16,0 16 × 10-bit-Ausgänge

Logarithmische Kennlinie

IMS HDRC VGA 5 640× 480 25 8 12× 12

PhotonFocus1 1024× 1024 28 28 10,6× 10,6 QE 0.29 @ 600 nm,C 200k, lineare Kennli-nie bei geringer Helligkeitmit einstellbaren Übergangauf eine logarithmischeKennlinie

Quellen:1 http://www.photonfocus.com2 http://www.fillfactory.com3 http://www.photobit.com4 http://www.ims-chips.de5 http://www.pco.de


584 A Referenzmaterial

R2 Auswahl von CCD-Bildsensoren (Abschn. 1.7.1)

C: Ladungs-Sättigungskapazität in Elektronen, eNIR: erhöhte NIR Emp-findlichkeit, FR: Bildrate in s−1, ID: Bilddiagonale in mm, QE: Spitzen-quantenausbeute, Sony (ICX…) und Kodak (KAI…) Sensoren

Chip FormatH × V

FR ID PixelgrößeH × V, µm

Bemerkungen

Interlaced EIA video

ICX278AL 1/4" 768× 494 30 4,56 4,75× 5,55 eNIR

ICX258AL 1/3" 768× 494 30 6,09 6,35× 7,4 eNIR

ICX248AL 1/2" 768× 494 30 8,07 8,4× 9,8 eNIR

ICX082AL 2/3" 768× 494 30 11,1 11,6× 13,5

Interlaced CCIR video

ICX279AL 1/4" 752× 582 25 4,54 4,85× 4,65 eNIR

ICX259AL 1/3" 752× 582 25 6,09 6,5× 6,25 eNIR

ICX249AL 1/2" 752× 582 25 8,07 8,6× 8,3 eNIR

ICX083AL 2/3" 752× 582 25 10,9 11,6× 11,2

Progressive scanning interline

ICX098AL 1/4" 659× 494 30 4,61 5,6× 5,6ICX424AL 1/3" 659× 494 30 6,09 7,4× 7,4ICX074AL 1/2" 659× 494 40 8,15 9,9× 9,9 C 32k, QE 0,43 @ 340 nm

ICX414AL 1/2" 659× 494 50 8.15 9,9× 9,9 C 30k, QE 0,40 @ 500 nm

ICX075AL 1/2" 782× 582 30 8,09 8,3× 8,3ICX204AL 1/3" 1024× 768 15 5,95 4,65× 4,65

ICX205AL 1/2" 1360× 1024 9,5 7,92 4,65× 4,65 C 13k

ICX285AL 2/3" 1360× 1024 10 11,0 6,45× 6,45 eNIR, C 18k,QE 0,65 @ 500 nm

ICX085AL 2/3" 1300× 1030 12,511,1 6,7× 6,7 C 20k, QE 0,54 @ 380 nm

ICX274AL 1/1,8" 1628× 1236 12 8,99 4,4× 4,4

KAI-0340DM1/3"

640× 480 200 5,92 7.4× 7.4 C 20k, QE 0,55 @ 500 nm

KAI-1010M 1008× 1018 30 12,9 9,0× 9,0 QE 0,37 @ 500 nm

KAI-1020M 1000× 1000 49 10,5 7,4× 7,4 C 42k, QE 0,45 @ 490 nm

KAI-2001M 1600× 1200 30 14,8 7,4× 7,4 C 40k, QE 0,55 @ 480 nm

KAI-4020M 2048× 2048 15 21,4 7,4× 7,4 C 40k, QE 0,55 @ 480 nm

KAI-10000M 4008× 2672 3 43,3 9,0× 9,0 C 60k, QE 0,50 @ 500 nm

Quellen:

http://www.framos.de

http://www.kodak.com/global/en/digital/ccd/

http://www.pco.de

585

R3Bildsensoren für Wärmestrahlung (IR, Abschn. 1.7.1)

C: Sättigungskapazität in Millionen Elektronen [Me], IT: Integrationszeit,NETD: Rauschäquivalente Temperaturdifferenz, QE: Spitzenquantenaus-beute

Chip FormatH × V

FR PC PixelgrößeH × V, µm

Bermerkungen

Nahes Infrarot (NIR)

Indigo1 InGaAs 320× 256 345 30× 30 0,9–1,68µm, C 3,5 Me

Mittelwelliges Infrarot (MWIR)

AIM2 PtSi 640× 486 50 12 24× 24 3,0–5,0µm,NETD < 75 mK @ 33 ms IT

Indigo1 InSb 320× 256 345 30× 30 2,0–5,0µm, C 18 Me

Indigo1 InSb 640× 512 100 25× 25 2,0–5,0µm, C 11 Me

AIM2 HgCdTe 384× 288 120 20 24× 24 3,0–5,0µm,NETD < 20 mK @ 2 ms IT

AIM2/IaF FhG3 QWIP 640× 512 30 18 24× 24 3,0–5,0µm,NETD < 15 mK @ 20 ms IT

Langwelliges Infrarot (LWIR)

AIM2 HgCdTe 256× 256 200 16 40× 40 8–10µm,NETD < 20 mK @ 0,35 ms IT

Indigo1 QWIP 320× 256 345 30× 30 8,0–9,2µm, C 18 Me, NETD< 30 mK



Ungekühlte Sensoren

Indigo1 Mikrobolo-meter

320× 240 60 30× 30 7,0–14,0µm,NETD < 120 mK

Quellen:1 http://www.indigosystems.com2 http://www.aim-ir.de3 http://www.iaf.fhg.de/tpqw/frames_d.htm


R4 Eigenschaften der Fouriertransformation (Abschn. 2.3.4)

g(x) • g(k) und h(x) • h(k) sind Fouriertransformationspaare:

g(k) =∞∫−∞g(x) exp

(−2π ikTx

)dWx =

⟨exp

(2π ikTx

)∣∣g(x)⟩ ;

s ≠ 0 ist eine reelle, a und b sind komplexe Zahlen; A ist eine W×W-Matrix, R ist eine orthogonale Drehmatrix (R−1 = RT , detR = 1)

Eigenschaft Ortsraum Fourierraum

Linearität ag(x)+ bh(x) ag(k)+ bh(k)Ähnlichkeit g(sx) g(k/s)/|s|WVerallgemeinerteÄhnlichkeit

g(Ax) g((A−1)Tk

)/detA

Drehung g(Rx) g (Rk)

SeparierbarkeitW∏w=1

gw(xw)W∏w=1

gw(kw)

Verschieb. im x-Raum g(x − x0) exp(−2π ikTx0)g(k)Finite Differenzen g(x + x0/2)− g(x − x0/2) 2i sin(πxT0k)g(k)Verschieb. im k-Raum exp(2π ikT0x)g(x) g(k− k0)Modulation cos(2πkT0x)g(x)

(g(k− k0)+ g(k+ k0)

)/2

Ableitungim x-Raum

∂g(x)∂xp

2π ikpg(k)

Ableitungim k-Raum

−2π ixpg(x)∂g(k)∂kp

Bestimmtes Integral,Mittelwert

∞∫−∞g(x′)dWx′ g(0)

Momente

∞∫−∞xmp xnq g(x)dWx

(i

2π

)m+n (∂m+ng(k)∂kmp ∂knq

)∣∣∣∣∣0

Faltung

∞∫−∞h(x′)g(x − x′)dWx′ h(k)g(k)

Korrelation

∞∫−∞h(x′)g(x′ + x)dWx′ g∗(k) h(k)

Multiplikation h(x)g(x)∞∫−∞h(k′)g(k− k′)dWk′

Inneres Produkt

∞∫−∞g∗(x)h(x)dWx

∞∫−∞g∗(k)h(k)dWk

587

R5Elementare Transformationspaare der kontinuierlichen Fouriertrans-formation

2D- und 3D-Funktionen sind mit † bzw. ‡ markiert.


Delta, δ(x) Konst., 1

Konst., 1 Delta, δ(k)

cos(k0x)12(δ(k− k0)+ δ(k+ k0))

sin(k0x)i2(δ(k− k0)− δ(k+ k0))

sgn(x) =

1 x ≥ 0

−1 x < 0

−iπk

Kasten, Π(x) =

1 |x| < 1/20 |x| ≥ 1/2 sinc(k) = sin(πk)

πk

Scheibe, †1πr 2

Π( |x|

2r

)Bessel,

J1(2πr |k|)πr |k|

Kugel, ‡ Π( |x|

2

)sin(|k|)− |k| cos(|k|)

|k|3/(4π)

Bessel,J1(2πx)

x2(1− k)1/2Π

(k2

)

exp(−|x|), exp(−|x|)† 21+ (2πk)2 ,

2π(1+ (2π|k|)2)3/2

†

R6Unter der Fouriertransformation invariante Funktionen


Gauß, exp(−πxTx

)Gauß, exp

(−πkTk

)

xp exp(−πxTx

)−ikp exp

(−πkTk

)

sech(πx) = 1exp(πx)+ exp(−πx) sech(πk) = 1

exp(πk)+ exp(−πk)

Hyperbel, |x|−W/2 |k|−W/2

1D-δ-Kamm, III(x) =∞∑

n=−∞δ(x −n) III(k) =

∞∑v=−∞

δ(k− v)


R7 Eigenschaften der 2D-DFT (Abschn. 2.3.4)

G und H sind komplexe M×N-Matrizen, G und H ihre Fouriertransfor-mierten,

gu,v = 1MN

M−1∑m=0

N−1∑n=0

gm,nw−muM w−nvN , wN = exp (2π i/N)

gm,n =M−1∑u=0

N−1∑v=0

gu,vwmuM wnvN ,

und a und b komplexe Konstanten. Aufwärtstastung und Replikationum die Faktoren K,L ∈ N ergeben KM×LN-Matrizen. Beweise sind inCooley und Tukey [32] und in Poularikas [174] zu finden.


Mittelwert1MN

M−1∑m=0

N−1∑n=0

Gmn g0,0

Linearität aG+ bH aG+ bH

Aufwärtstastung gKm,Ln guv/(KL)(gkM+u,lN+v = gu,v )

Replikation (Frequenz-Aufwärtstastung)

gm,n (gkM+m,lN+n = gm,n) gKu,Lv

Verschiebung gm−m′,n−n′ w−m′uM w−n′v

N guv

Modulation wu′mM wv′n

N gm,n gu−u′,v−v′

Finite Differenzen (gm+1,n − gm−1,n)/2(gm,n+1 − gm,n−1)/2

i sin(2πu/M)guvi sin(2πv/N)guv

FaltungM−1∑m′=0

N−1∑n′=0

hm′n′gm−m′,n−n′ MNhuvguv

KorrelationM−1∑m′=0

N−1∑n′=0

hm′n′gm+m′,n+n′ MNhuvg∗uv

Multiplikation gmnhmnM−1∑u′=0

N−1∑v′=0

hu′v′gu−u′,v−v′

Inneres ProduktM−1∑m=0

N−1∑n=0

g∗mnhmnM−1∑u=0

N−1∑v=0

g∗uvhuv

NormM−1∑m=0

N−1∑n=0

|gmn|2M−1∑u=0

N−1∑v=0

|guv |2

589

R8Eigenschaften der 1D-Hartleytransformation (Abschn. 2.4.2)

g(x) • g(k) and h(x) • h(k) sind Hartleytransformationspaare:

hg(k) =∞∫−∞g(x) cas(2πkx)dx • g(x) =

∞∫−∞

hg(k) cas(2πkx)dk

mitcas 2πkx = cos(2πkx)+ sin(2πkx).

s ist eine reelle Zahl ungleich null, a und b sind reelle Konstanten.


Linearität ag(x)+ bh(x) ag(k)+ bh(k)Ähnlichkeit g(sx) g(k/s)/|s|Verschiebungim Ortsraum

g(x − x0) cos(2πkx0)g(k)−sin(2πkx0)g(−k)

Modulation cos(2πk0x)g(x)(g(k− k0)+ g(k+ k0)

)/2

Ableitungim Ortsraum

∂g(x)∂xp

−2πkpg(−k)

BestimmtesIntegral,Mittelwert

∞∫−∞g(x′)dx′ g(0)

Faltung

∞∫−∞h(x′)g(x − x′)dx′ [g(k)h(k)+ g(k)h(−k)

+g(−k)h(k)− g(−k)h(−k)]/2Multiplikation h(x)g(x) [g(k)∗ h(k)+ g(k)∗ h(−k)

+g(−k)∗ h(k)− g(−k)∗ h(−k)]/2

Autokorrelation

∞∫−∞g(x′)g(x′ + x)dx′ [g2(k)+ g2(−k)]/2

1. Berechnung der Fourier- aus der Hartleytransformation

g(k) = 12

(hg(k)+h g(−k)

)− i

2

(hg(k)−h g(−k)

)2. Berechnung der Hartley- aus der Fouriertransformation

hg(k) = [g(k)]−([g(k)] = 12

(g(k)+ g∗(k))+ i

2

(g(k)− g∗(k))


R9 Wahrscheinlichkeitsdichtefunktionen (PDF, Abschn. 3.4)

Definition, Mittelwerte (MW) und Varianzen

Name Definition MW Varianz

Diskrete Wahrscheinlichkeitsdichtefunktionen fn (PDF)

Poisson P(µ) exp(−µ)µn

n!, n ≥ 0 µ µ

Binomial B(Q,p) Q!n! (Q−n)!p

n(1− p)Q−n, 0 ≤ n < Q Qp Qp(1− p)

Kontinuierliche Wahrscheinlichkeitsdichtefunktionen f(x) (PDF)

Konstant U(a,b) 1b − a

a+ b2

(b − a)212

Normal N(µ,σ) 1√2πσ

exp

(− (x − µ)

2

2σ2

)µ σ 2

Rayleigh R(σ) xσ2 exp

(− x2

2σ2

), x > 0 σ

√π/2 σ 2(4−π)/2

Chiquadratχ2(Q,σ)

xQ/2−1

2Q/2Γ(Q/2)σQexp

(− x

2σ2

), x > 0 Qσ 2 2Qσ 4

Additionstheoreme für unabhängige Zufallsvariable g1 und g2

PDF g1 g2 g1 + g2

Binomial B(Q1, p) B(Q2, p) B(Q1 +Q2, p)Poisson P(µ1) P(µ2) P(µ1 + µ2)Normal N(µ1, σ1) N(µ2, σ2) N(µ1+µ2, (σ 2

1 +σ 22 )1/2)

Chiquadrat χ2(Q1, σ) χ2(Q2, σ) χ2(Q1 +Q2, σ)

Wahrscheinlichkeitsdichtefunktionen von Funktionen unabhängiger Zu-fallsvariablen gn

PDF Funktion PDF der Funktion

gn: N(0, σ) (g21 + g2

2)1/2 R(σ)

gn: N(0, σ) arctan(g22/g

21) U(0,2π)

gn: N(0, σ)Q∑n=1

g2n χ2(Q,σ)

591

R10Fehlerfortpflanzung (Abschn. 3.2.3, 3.3.3und 4.2.8)

fg ist die PDF einer Zufallsvariablen (ZV) g, a und b sind Konstanten,g′ = p(g) eine differenzierbare monotone Funktion mit der Ableitungdp/dg und der Umkehrfunktion g = p−1(g′).g ist ein Vektor mit P ZVn mit der Kovarianzmatrix cov(g), g′ ein Vektormit Q ZVn und der Kovarianzmatrix cov(g′), M eine Q× P -Matrix unda ein Spaltenvektor mit Q Elementen.

1. PDF, Mittelwert und Varianz der linearen Funktion g′ = ag + b

fg′(g′) = fg((g′ − a)/b)|a| , µg′ = aµg + b, σ 2

g′ = a2σ 2g

2. PDF einer monotonen, differenzierbaren Funktion g′ = p(g)

fg′(g′) = fg(p−1(g′))∣∣dp(p−1(g′))/dg∣∣ ,

3. Mittelwert und Varianz einer differenzierbaren nichtlinearen Funk-tion g′ = p(g)

µg′ ≈ p(µg)+σ 2g

2

d2p(µg)dg2

, σ 2g′ ≈

∣∣∣∣∣dp(µg)dg

∣∣∣∣∣2

σ 2g

4. Kovarianzmatrix einer Linearkombination von ZVn, g′ =Mg + a

cov(g′) =M cov(g)MT

5. Kovarianzmatrix einer nichtlinearen Kombination von ZVn, g′ = p(g)

cov(g′) ≈ J cov(g)JT mit der Jacobi-Matrix J, jq,p = ∂pq∂gp

.

6. Homogenenes stochastische Feld: Faltung eines Zufallsvektors miteinem Filter h: g′ = h∗ g (Abschn. 4.2.8)

(a) g hat die Autokovarianzfunktion c

c′ = c (h h) • c′(k) = c(k)∣∣∣h(k)∣∣∣2

.

(b) g hat die Autokovarianzfunktion c = σ 2δn (unkorrelierte Elemen-te)

c′ = σ 2(h h) • c′(k) = σ 2∣∣∣h(k)∣∣∣2

.


R11 1D-Faltungsfilter (Abschn. 4.2.6, 11.2 und 12.3)

1. Transferfunktion eines 1D-Filters mit einer ungeraden Anzahl vonKoeffizienten (2R + 1, [h−R, . . . , h−1, h0, h1, . . . , hR])

(a) allgemein

h(k) =R∑

v′=−Rhv′ exp(−π iv′k)

(b) gerade Symmetrie (h−v = hv )

hv = h0 + 2R∑

v′=1

hv′ cos(πv′k)

(c) ungerade Symmetrie (h−v = −hv )

hv = −2iR∑

v′=1

hv′ sin(πv′k)

2. Transferfunktionen eines 1D-Filters mit einer geraden Anzahl vonKoeffizienten (2R, [h−R, . . . , h−1, h1, . . . , hR], Faltungsergebnis liegtauf dem Zwischengitter)

(a) gerade Symmetrie (h−v = hv ):

hv = 2R∑

v′=1

hv′ cos(π(v′ − 1/2)k)

(b) ungerade Symmetrie (h−v = −hv ):

hv = −2iR∑

v′=1

hv′ sin(π(v′ − 1/2)k)

3. Transferfunktionen der beiden elementaren Filter

(a) Mittelung zweier benachbarter Punkte

B = [1 1] /2 • b(k) = cos(πk/2)

(b) Differenz zweier benachbarter Punkte

D1 = [1 − 1] • d1(k) = 2i sin(πk/2)

593

R12Rekursive 1D-Filter (Abschn. 4.5)

1. allgemeine Filtergleichung

g′n = −S∑

n′′=1

an′′g′n−n′′ +R∑

n′=−Rhn′gn−n′

2. allgemeine Transferfunktion

h(k) =

R∑n′=−R

hn′ exp(−π in′k)

S∑n′′=0

an′′ exp(−π in′′k)

3. Faktorisierung der Transferfunktion mithilfe der z-Transformationund dem Fundamentalsatz der Algebra

h(z) = h−RzR

2R∏n′=1

(1− cn′z−1)

S∏n′′=1

(1− dn′′z−1)

4. Relaxationsfilter

(a) Filtergleichung (|α| < 1)

g′n = αg′n∓1 + (1−α)gn(b) Punktantwort

±r±n =(1−α)αn n ≥ 0

0 else

(c) Transferfunktion des symmetrischen Filters (kaskadierte Anwen-dung in Vorwärts- und Rückwärtsrichtung)

r (k) = 1

1+ β− β cosπk,

(r (0) = 1, r (1) = 1

1+ 2β

)

mit

β = 2α(1−α)2 , α =

1+ β− √1+ 2β

β, β ∈]− 1/2,∞[


5. Resonanzfilter mit der Transferfunktion eins bei der Resonanz-Wel-lenzahl k0 im Grenzfall kleiner Dämpfung 1− r 1

(a) Filtergleichung (Dämpfungskoeffizient r ∈ [0,1[, Resonanz-Wel-lenzahl k0 ∈ [0,1])

g′n = (1− r 2) sin(πk0)gn + 2r cos(πk0)g′n∓1 − r 2g′n∓2

(b) Punktantwort

h±n =⎧⎪⎨⎪⎩(1− r 2)rn sin[(n+ 1)πk0] n ≥ 0

0 n < 0

(c) Transferfunktion des symmetrischen Filters (kaskadierte Anwen-dung in Vorwärts- und Rückwärtsrichtung)

s(k) = sin2(πk0)(1− r 2)2(1− 2r cos[π(k− k0)]+ r 2

)(1− 2r cos[π(k+ k0)]+ r 2

)(d) Approximation der Transferfunktion bei kleiner Dämpfung

s(k) ≈ 1

1+ (k− k0)2/(1−r2)24r2π2

for 1− r 1

(e) Halbwertsbreite ∆k, definiert durch s(k0 ±∆k) = 1/2

∆k ≈ (1− r)/π

R13 Gauß- und Laplacepyramide (Abschn. 5.2)

1. Konstruktion der Gaußpyramide G(0),G(1), . . . ,G(P) mit P +1 Ebenendurch iterative Glättung und Unterabtastung um einen Faktor zweiin alle Richtungen

G(0) = G, G(p+1) = B↓2G(p)

2. Bedingung für das Glättungsfilter zur Vermeidung von Überlappungs-effekten (Aliasing)

B(k) = 0 ∀kp ≥ 12

3. Konstruktion der Laplacepyramide L(0),L(1), . . . ,L(P) mit P+1 Ebenenaus der Gaußpyramide

L(p) = G(p)− ↑2 G(p+1), L(P) = G(P)

Die letzte Ebene der Laplacepyramide ist die letzte Ebene der Gauß-pyramide.

595

4. Interpolationsfilter zur Aufwärtstastung ↑2 (R22)

5. Iterative Rekonstruktion des Originalbildes aus der Laplacepyramide.Berechne

G(p−1) = L(p−1)+ ↑2 G(p)

beginnend mit der höchsten Ebene (p = P ). Wenn die gleiche Methodezur Aufwärtstastung bei der Konstruktion der Laplacepyramide undder Rekonstruktion des Originalbildes benutzt wird, dann ist diesebis auf Rundungsfehler fehlerfrei.

6. Gemeinsame Skalen- und Richtungszerlegung in zwei Richtungskom-ponenten

G(p+1) = ↓2 BxByG(p)L(p) = G(p)− ↑2 G(p+1)

L(p)x = 1/2(L(p) − (Bx −By)G(p))L(p)y = 1/2(L(p) + (Bx −By)G(p))

R14Elementare Eigenschaften elektromagnetischer Wellen (Abschn. 6.3)

1. Frequenz ν (Zyklen pro Zeit) und Wellenlänge λ (Länge einer Peri-ode) sind durch die Phasengeschwindigkeit c (im Vakuum die Licht-geschwindigkeit c = 2.9979× 108 m s−1) verknüpft:

λν = c2. Klassifizierung der UV-, sichtbaren and IR-Strahlung (Abb. 6.6)

Name Bereich Bemerkungen

VUV (Vakuum-UV) 30–180 nm Starke Absorption durch Luft

UV-C 100–280 nm CIE-Standarddefinition

UV-B 280–315 nm CIE-Standarddefinition

UV-A 315–400 nm CIE-Standarddefinition

Licht 400–700 nm Sichtbar für das menschlicheAuge

VNIR (sehr nahes IR) 0,7–1,0µm IR-Wellenlängenbereich,für den Siliziumsensorenempfindlich sind

NIR (nahes IR) 0,7–3,0µm

TIR (thermisches IR) 3,0–14,0µm Bereich der IR-Strahlung beiUmgebungstemperaturen

MIR (mittleres IR) 3–100µm

FIR (fernes IR) 100–1000µm


3. Energie und Impuls partikulärer Strahlung wie β-Strahlung (Elektro-nen), α-Strahlung (Heliumkerne), Neutronen and Photonen (elektro-magnetische Strahlung):

ν = E/h Bohrsche Frequenzbedingung,λ = h/p de Broglie-Wellenlänge.

R15 Radiometrische und photometrische Größen (Abschn. 6.2)

dA0 ist ein Flächenelement der Oberfläche, θ der Einfallswinkel, Ω derRaumwinkel. Für Größen bezogen auf die Energie, Photonen und Photo-metrie werden oft die Indizes e, p bzw. ν benutzt.

Größe Energiebezogen Photonenbez. Photometrie

Energie StrahlungsenergieQ [Ws]

Photonenzahl[1]

Lichtmenge [lm s]

Energiefluss(Leistung)

Strahlungsleistung

Φ = dQdt

[W]

Photonenfluss[s−1]

Lichtstrom[lumen (lm)]

EinfallendeEnergieflussdichte

Bestrahlungsstärke

E = dΦdA0

[W m−2]

Photonenfluss-dichte [m−2s−1]

Beleuchtungsstärke[lm/m2 = lux [(lx)]

AbgestrahlteEnergieflussdichte

Strahlungsstärke

M = dΦdA0

[W m−2]

Photonenfluss-dichte [m−2s−1]

Leuchtstärke[lm/m2]

Energiefluss proRaumwinkel

Strahlstärke

I = dΦdΩ

[Wsr−1]

[s−1sr−1] Lichtstärke[lm/sr = candela (cd)]

Energieflussdichtepro Raumwinkel

Strahldichte

L = d2ΦdΩdA0 cosθ

[W m−2 sr−1]

[m−2s−1sr−1] Leuchtdichte[cd m−2]

Energie/Fläche Bestrahlung[W s m2]

[m−2] Belichtung[lm s m−2 = lx s]

Berechnung einer photometrischen Größe aus der entsprechenden radio-metrischen Größe durch den spektralen Hellempfindlichkeitsgrad V(λ)bei Tagessehen (photopische Sehbedingungen):

Qv = 683lmW

780 nm∫380 nm

Q(λ)V(λ)dλ

597

Tabelle mit den 1980 durch die CIE standardisierten Werten für denspektralen Hellempfindlichkeitsgrad V(λ) beim Tagessehen

λ [nm] V(λ) λ [nm] V(λ) λ [nm] V(λ)

380 0,00004 520 0,710 660 0,061

390 0,00012 530 0,862 670 0,032

400 0,0004 540 0,954 680 0,017

410 0,0012 550 0,995 690 0,0082

420 0,0040 560 0,995 700 0,0041

430 0,0116 570 0,952 710 0,0021

440 0,023 580 0,870 720 0,00105

450 0,038 590 0,757 730 0,00052

460 0,060 600 0,631 740 0,00025

470 0,091 610 0,503 750 0,00012

480 0,139 620 0,381 760 0,00006

490 0,208 630 0,265 770 0,00003

500 0,323 640 0,175 780 0,000015

510 0,503 650 0,107

R16Farbsysteme (Abschn. 6.2.4)

1. Das menschliche Farbsehen basiert auf drei Arten von Sehzellen mitmaximalen Empfindlichkeiten bei Wellenlängen von 445 nm, 535 nmund 575 nm (Abb. 6.4b).

2. RGB-Farbsystem: additives Farbsystem mit den drei Grundfarbenrot, grün und blau. Dies können entweder monochromatische Far-ben mit den Wellenlängen 700 nm, 646,1 nm und 435,8 nm sein oderrote, grüne und blaue Leuchtstoffe wie sie in RGB-Bildschirmen (z. B.nach der europäischen EBU-Norm) benutzt werden. Mit dem RGB-Farbsystem können nicht alle Farben erzeugt werden (siehe Abb. 6.5a).

3. Farbtafel: Reduktion des 3D-Farbraums auf eine 2D-Farbebene durchNormalisierung mit der Intensität:

r = RR +G + B , g = G

R +G + B , b = BR +G + B .

Es ist ausreichend, die beiden Komponenten r und g zu benutzen,da b = 1− r − g.

4. XYZ-Farbsystem (Abb. 6.5c): additives Farbsystem mit drei virtuellenGrundfarben X, Y und Z , mit denen sich alle möglichen Farben er-zeugen lassen. DieXYZ-Werte ergeben sich durch eine lineare Trans-


formation aus dem EBU-RGB-Farbsystem.⎡⎢⎢⎣XYZ

⎤⎥⎥⎦ =

⎡⎢⎢⎣

0,490 0,310 0,200

0,177 0,812 0,011

0,000 0,010 0,990

⎤⎥⎥⎦

⎡⎢⎢⎣RGB

⎤⎥⎥⎦ .

5. Farbdifferenz- oder YUV -System: Farbsystem mit dem Ursprung amWeiß- oder Unbuntpunkt (Abb. 6.5b).

6. Farbwert-Farbsättigungs-System (HSI): Farbsystem mit Polarkoordi-naten in einem Farbdifferenz-System. Die Sättigung ist durch denRadius und der Farbwert durch den Winkel gegeben.

R17 Wärmestrahlung (Abschn. 6.4.1)

1. Spektrale Verteilung der Strahlungsstärke (Plancksches Strahlungs-gesetz)

Me(λ, T) = 2πhc2

λ5

1

exp(

hckBTλ

)− 1

mit

h = 6,6262× 10−34 J s Plancksche Konstante,kB = 1,3806× 10−23 J K−1 Boltzmannkonstante und

c = 2,9979× 108 m s−1 Lichtgeschwindigkeit im Vakuum.

2. Totale Strahlungsstärke (Stefan-Boltzmannsches Gesetz)

Me = 215

k4Bπ5

c2h3T 4 = σT 4 mit σ ≈ 5.67 · 10−8W m−2K−4

3. Wellenlänge der maximalen Strahlungsstärke (Wiensches Verschie-bungsgesetz)

λm ≈ 2898KµmT

R18 Wechselwirkung von Strahlung mit Materie (Abschn. 6.4)

1. Snellsches Gesetz der Brechung von Licht an einer Grenzfläche zweieroptischer Medien mit den Brechungsindizes n1 und n2

sinθ1

sinθ2= n2

n1

θ1 und θ2 sind der Einfalls- bzw. Ausfallswinkel.

2. Reflektivität ρ: Verhältnis der reflektierten zur einfallenden Strahl-dichte. Fresnel-Gleichungen für Reflektivität von

599

(a) parallel polarisiertem Licht

ρ‖ = tan2(θ1 − θ2)tan2(θ1 + θ2)

,

(b) senkrecht polarisiertem Licht

ρ⊥ = sin2(θ1 − θ2)sin2(θ1 + θ2)

,

(c) unpolarisiertem Licht

ρ = ρ‖ + ρ⊥2

.

3. Reflektivität bei senkrechtem Einfall (θ1 = 0) für alle Polarisationszu-stände

ρ = (n1 −n2)2

(n1 +n2)2= (n− 1)2

(n+ 1)2mit n = n1/n2

4. Totalreflexion: Bei dem Übergang in ein optisch dünneres Medium mitkleinerem Brechungsindex wird über einem kritischen Einfallswinkelθc alle Strahlung reflektiert und keine gelangt in das optisch dünnereMedium.

θc = arcsinn1

n2mit n1 < n2

R19Optische Abbildung

1. Perspektivische Projektion mit dem Lochkamera-Modell

x1 = −d′X1

X3, x2 = −d

′X2

X3

Der Zentralpunkt befindet sich im Ursprung des Weltkoordinatensys-tems [X1, X2, X3]T , d′ ist die Entfernung der Bildebene vom Projekti-onszentrum und die X3-Achse steht senkrecht zur Bildebene.

2. Abbildungsgleichung nach Newton und Gauß

dd′ = f 2 oder1

d′ + f +1

d+ f =1f

d und d′ sind die Entfernungen des Objekts bzw. Bildes vom objekt-seitigen bzw. bildseitigen Brennpunkt des optischen Systems (sieheAbb. 7.7).

3. Lateraler Abbildungsmaßstab

ml = x1

X1= fd= d′

f


4. Axialer Abbildungsmaßstab

ma ≈ d′

d= f 2

d2= d′2

f 2=m2

l

5. Die Blendenzahl nf eines optischen Systems ist das Verhältnis derBrennweite zum Durchmesser der Eintrittspupille

nf = f2r

6. Schärfentiefe (bildseitig)

∆x3 = 2nf

(1+ d

′

f

)ε = 2nf (1+ml)ε

7. Schärfentiefe (objektseitig)

Entfernte Objekte (∆X3 d) ∆X3 ≈ 2nf · 1+ml

m2lε

dmin für Bereich bis unendlich dmin ≈ f 2

4nfε

Mikroskopie (ml 1) ∆X3 ≈ 2nfεml

8. Auflösung eines beugungsbegrenzten optischen Systems

Winkelauflösung ∆θ0 = 0,61λr

Laterale Auflösung in der Bildebene ∆x = 0,61λn′a

Laterale Auflösung in der Objektebene ∆X = 0,61λna

Die Auflösung ergibt sich aus dem Rayleigh-Kriterium (Abb. 7.15b);na und na′ sind die objekt- bzw. bildseitige numerische Apertur desLichtkegels, der in das optische System eintritt:

na = n sinθ0 = 2nnf

= nrf

;

n ist der Brechungsindex.

9. Beziehung zwischen der Bestrahlungsstärke (Beleuchtungsstärke) inder Bildebene E′ und der Strahldichte (Leuchtdichte) L des Objekts(Abb. 7.10)

E′ = tπ(

rf + d′

)2

cos4 θ L ≈ tπ cos4 θn2fL for d f

601

R20Homogenene Punktoperation (Abschn. 10.2)

Punktoperation unabhängig von der Pixelposition

G′mn = P(Gmn)

1. Negativbildung

PN(q) = Q− 1− q2. Detektion von Unter- und Überlauf durch eine [r , g, b] Pseudofarb-

darstellung

Puo(q) =

⎧⎪⎪⎨⎪⎪⎩[0,0,Q− 1] (blau) q = 0

[q, q, q] (grau) q ∈ [1,Q− 2][Q− 1,0,0] (rot) q = Q− 1

3. Kontrastspreizung des Grauwertbereichs [q1, q2]

Pcs(q) =

⎧⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎩

0 q < q1

(q − q1)(Q− 1)q2 − q1

q ∈ [q1, q2]

Q− 1 q > q2

R21Kalibrierung

1. Äquivalisierung des Rauschens (Abschn. 10.2.3)Falls die Varianz des Rauschens grauwertabhängig ist, kann sie durchdie nichtlineare Grauwerttransformation

h(g) = σhg∫0

dg′√σ 2(g′)

+ C

mit zwei freien Parametern σh und C konstant gemacht werden. Beieiner linearen Varianzfunktion (Abschn. 3.4.5)

σ 2g(g) = σ 2

0 +αg

ergibt sich für g ∈ [0, gmax] → h ∈ [0, γgmax] die Transformations-funktion

h(g) = γgmax

√σ 2

0 +Kg − σ0√σ 2

0 +Kgmax − σ0

, σh = γKgmax/2√σ 2

0 +Kgmax − σ0

.


2. Lineare radiometrische Zwei-Punkt-Kalibrierung (Abschn. 10.3.3)Zwei Kalibrierbilder werden aufgenommen, ein Dunkelbild B ohnejegliche Beleuchtung und ein Referenzbild R mit konstanter Bestrah-lungsstärke. Ein kalibriertes Bild, das auf den Nullpunkt (“fixed pat-tern noise”) und die Inhomogenität in der Empfindlichkeit der Bild-sensorelemente korrigiert ist, ergibt sich durch

G′ = cG− BR− B .

R22 Interpolation (Abschn. 10.5)

1. Interpolation einer kontinuierlichen Funktion aus Funktionswertenan Stützstellen im Abstand ∆xw ist eine Faltungsoperation

gr (x) =∑ng(xn)h(x − xn).

Die Forderung der Reproduktion der Funktionswerte an den Stütz-stellen für zur Interpolationsbedingung

h(xn) =

1 n = 0

0 sonst.

2. Ideale Interpolationsfunktion

h(x) =W∏w=1

sinc(xw/∆xw) • h(k) =W∏w=1

Π(kw/2)

3. Diskrete 1D-Filter zur Interpolation von Werten zwischen den vor-handenen Gitterpunkten (Auflösungsverdopplung)

Typ Maske Transferfunktion

Linear[

1 1

]/2 cos(πk/2)

Kubisch[−1 9 9 −1

]/16

9 cos(πk/2)− cos(3πk/2)8

KubischerB-Spline

[1 23 23 1

]/48[

3−√3,√

3− 2

]†

23 cos(πk/2)+ cos(3πk/2)16+ 8 cos(πk)

†Rekursives Filter, das nacheinander in Vorwärts- und Rückwartsrichtung benutzt

wird, siehe Abschn. 10.6.1

603

R23Glättungsfilter (Kapitel 11)

1. Zusammenfassung der allgemeinen Bedingungen


Mittelwerterhaltung∑nhn = 1 h(0) = 1

Verschiebungsfrei,gerade Symmetrie

h−n = hn ((h(k)

)= 0

Monoton von eins aufnull abfallend

— h(k2) ≤ h(k1) if k2 > k1,h(k) ∈ [0,1]

Isotropie h(x) = h(|x|) h(k) = h(|k|)

2. 1D-Rechteckfilter

Maske Transferfunktion Rauschunterdrückung†

3R = [1 1 1]/313+ 2

3cos(πk)

1√3≈ 0,577

4R = [1 1 1 1]/4 cos(πk) cos(πk/2) 1/2 = 0,5

RR = [1 . . . 1]︸︷︷︸R mal

/Rsin(πRk/2)R sin(πk/2)

1√R

†Für weißes Rauschen

3. 1D-Binomialfilter

Maske TF Rauschunterdrückung†

B2 = [1 2 1]/4 cos2(πk/2)

√38≈ 0,612

B4 = [1 4 6 4 1]/16 cos4(πk/2)

√35128

≈ 0,523

B2R cos2R(πk/2)(Γ(R + 1/2)√π Γ(R + 1)

)1/2≈

(1Rπ

)1/4 (1− 1

16R

)†Für weißes Rauschen


R24 Ableitungsfilter erster Ordnung (Kapitel 12)

1. Zusammenfassung der allgemeinen Eigenschaften für ein Ableitungs-filter in die Richtung xw eines W -dimensionalen Signals; w′ bezeich-net eine der möglichen Richtungen und n Vektorindizierung (Ab-schn. 4.2.1)


Mittelwertfrei∑nhn = 0 h(k)

∣∣∣k=0

= 0

Verschiebungsfrei,ungerade Symmetrie

hn1,...,−nw,...,nW =−hn1,...,nw ,...,nW

(H(k)

)= 0

Ableitung 1. Ordnung∑nnw′hn = δw′−w ∂h(k)

∂kw

∣∣∣∣∣k=0

= π iδw′−w

Isotropie h(k) = π ikwb(∣∣∣k∣∣∣) mit

b(0) = 1, ∇kb(∣∣∣k∣∣∣) = 0

2. Ableitungsfilter erster Ordnung

Name Maske Transferfunktion

Dx

[1 −1

]2i sin(πkx/2)

Symmetrische Differenz,D2x

[1 0 −1

]/2 i sin(πkx)

Kubischer B-SplineD2x

±R

[1 0 −1

]/2,[

3−√3,√

3− 2]† i

sin(πkx)2/3+ 1/3 cos(πkx)

†Rekursives Filter, das in Vorwärts- und Rückwärtsrichtung nacheinander angewen-

det wird, siehe Abschn. 10.6.1

605

3. Regularisierte Ableitungsfilter erster Ordnung


2× 2, DxBy 12

⎡⎣ 1 −1

1 −1

⎤⎦ 2i sin(πkx/2) cos(πky/2)

Sobel, D2xB2y

18

⎡⎢⎢⎢⎣

1 0 –1

2 0 –2

1 0 –1

⎤⎥⎥⎥⎦ i sin(πkx) cos2(πky/2)

OptimierterSobel,D2x(3B2

y + I)/4

132

⎡⎢⎢⎢⎣

3 0 –3

10 0 –10

3 0 –3

⎤⎥⎥⎥⎦ i sin(πkx)(3 cos2(πky/2)+ 1)/4

4. Leistungskennzahlen für Kantendetektoren: Winkelfehler, Betrags-fehler und Rauschunterdrückungsfaktor für weißes Rauschen. Diedrei Werte in den zwei Spalten mit den Fehlerangaben beziehen sichauf die Wellenzahlbereiche von 0–0.25, 0.25–0.5 und 0.5–0.75.

Name Winkelfehler [°] Betragsfehler Rauschfaktor

Dx√

2 ≈ 1.414

D2x 1,36 4,90 12,7 0,026 0,151 0,398 1/√

2 ≈ 0.707

D2x±R 0,02 0,33 2,26 0,001 0,023 0,220

√3 ln 3/π ≈ 1.024

DxBy 0,67 2,27 5,10 0,013 0,079 0,221 1

D2xB2y 0,67 2,27 5,10 0,012 0,053 0,070

√3/4 ≈ 0.433

D2x(3B2y + I)/4 0,15 0,32 0,72 0,003 0,005 0,047

√59/16 ≈ 0.480


R25 Ableitungsfilter zweiter Ordnung (Kapitel 12)

1. Zusammenfassung der allgemeinen Eigenschaften für ein Ableitungs-filter zweiter Ordnung in die Richtung xw eines W -dimensionalenSignals; w′ bezeichnet eine der möglichen Richtungen und n Vektor-indizierung (Abschn. 4.2.1)


Mittelwertfrei∑nhn = 0 h(k)

∣∣∣k=0

= 0

Steigungsfrei∑nnw′hn = 0

∂h(k)∂kw′

∣∣∣∣∣k=0

= 0

Verschiebungsfrei,gerade Symmetrie

h−n = hn ((H(k)

)= 0

2. Ableitung∑nn2w′hn = 2δw′−w

∂2h(k)∂k2

w

∣∣∣∣∣k=0

= −2π2δw′−w

Isotropie h(k) = −(πkw)2b(∣∣∣k∣∣∣) with

b(0) = 1, ∇kb(∣∣∣k∣∣∣) = 0

2. Ableitungsfilter zweiter Ordnung


1D-Laplace, D2x

[1 −2 1

]−4 sin2(πkx/2)

2D-Laplace, L

⎡⎢⎢⎣

0 1 0

1 −4 1

0 1 0

⎤⎥⎥⎦ −4 sin2(πkx/2)−4 sin2(πky/2)

2D-Laplace, L′ 14

⎡⎢⎢⎣

1 2 1

2 −12 2

1 2 1

⎤⎥⎥⎦ 4 cos2(πkx/2) cos2(πky/2)− 4

B Notation

Wegen der multidisziplinären Natur der Bildverarbeitung gibt es — imGegensatz zu anderen Gebieten — keine konsistente und allgemein ak-zeptierte Terminologie. Deshalb treten zwei Probleme auf:

• Widersprüchliche Terminologie. Verschiedene Fachgebiete benutzenoft unterschiedliche Symbole und auch Namen für ein- und dieselbeGröße.

• Mehrdeutigkeiten. Wegen der hohen Zahl an Begriffen, die in derBildverarbeitung und den mit ihr verknüpften Fachgebieten benutztwerden, wird oft das gleiche Symbol für unterschiedliche Größen be-nutzt.

Es gibt keine triviale Lösung für diesen unerfreulichen Tatbestand.Daher muss ein vernünftiger Kompromiss gefunden werden. In diesemBuch wurde nach folgenden Richtlinien vorgegangen:

• Einhaltung allgemein akzeptierter Standards. In erster Linie wurdendie von den internationalen Organisationen wie der International Or-ganization for Standardization (ISO) empfohlenen Symbole benutzt.Diese wurden überprüft mit einigen Standard-Lehrbüchern aus ver-schiedenen Fachgebieten [19, 69, 166, 167, 176]. Nur für einige Grö-ßen, die uneinheitlich bezeichnet werden, wurden Abweichungen vonden allgemein benutzten Symbolen vorgenommen.

• Benutzung kompakter Notation. Bei Wahlmöglichkeit zwischen ver-schiedenen Notationen wurde in der Regel die einfacher verständlicheund kompaktere bevorzugt. In einigen Fällen erschien es auch nütz-lich, mehr als eine Schreibweise zu verwenden. Je nach Kontext istes z. B. sinnvoller x = [x1, x2]T oder x = [x,y]T zu schreiben.

• Benutzung eines Symbols für mehrere Größen. Ein- und dasselbe Sym-bol kann verschiedene Bedeutungen haben. Das ist nicht so verwir-rend, wie es auf den ersten Blick scheint, da aus dem Kontext dieBedeutung eindeutig wird. Nur in solchen Fällen wurde auf Symbolemit mehrfacher Bedeutung zurückgegriffen.

Um Leser, die sich von verschiedenen Fachgebieten her der Bildver-arbeitung zuwenden, mit den in diesem Buch benutzten Schreibweisenvertraut zu machen, sei hier auf wichtige Abweichungen von der übli-chen Benutzung in einigen Fachgebieten hingewiesen.


608 B Notation

Wellenzahl. Unglücklicherweise gibt es zwei Definitionen der Wellen-zahl :

k′ = 2πλ

und k = 1λ. (B.1)

Physiker verwenden meistens die Definition unter Einschluss des Fak-tors 2π (k′ = 2π/λ), in Analogie zur Kreisfrequenz ω = 2π/T =2πν . In der Optik und Spektroskopie wird jedoch die Wellenzahlhäufig als inverse Wellenlänge definiert, ohne den Faktor 2π (d. h. alsAnzahl Wellenlängen pro Einheitslänge) und oft mit ν = λ−1 bezeich-net.

Imaginäre Einheit. Die imaginäre Einheit bezeichnen wir mit i. In derElektrotechnik und verwandten Gebieten wird dafür oft der Buchsta-be j verwendet.

Zeitserien und Bildmatrizen. Die allgemein übliche Schreibweise für Ele-mente einer Zeitserie ist nach [166, 167] x[n]. Diese ist jedoch zuumständlich für mehrdimensionale Signale: g[k][m][n]. Daher wirddie kompaktere Schreibweise mit Indizes benutzt (xn und gk,m,n).

Partielle Ableitungen. In Fällen, in denen es nicht zu Uneindeutigkeitenführt, werden partielle Ableitungen durch Indizierung abgekürzt:∂g/∂x = ∂xg = gx .

Typographie Beschreibung

e, i, d, w geradestehende Symbole haben eine besondere Bedeutung;Beispiele: e für die Basis des natürlichen Logarithmus, i =√−1, Differenzialoperator: dg, w = e2π i

a, b, … Schräg (nicht fett): Skalar

g, k, u, x, … Schräge fette Kleinbuchstaben: Vektor , d. h., ein Koordinaten-vektor, eine Zeitserie, eine Bildzeile, …

G, H, J, … Schräge fette Großbuchstaben: Matrix, Tensor , ein diskretesBild, eine 2D-Faltungsmaske, ein Strukturtensor; wird auch fürSignale höherer Dimension benutzt

B, R, F , … kalligraphische Zeichen bezeichnen einen repräsentationsun-abhängigen Operator

N, Z, R, C Bezeichnungen für Mengen von Zahlen oder anderen Größen

609

Akzente Beschreibung

k, n, … Ein Überstrich bezeichnet einen Einheitsvektor .

k, k, x, … Eine Schlangenline bezeichnet eine dimensionslose normali-sierte Größe (einer dimensionsbehafteten Größe).

G, g(k), … Das Dach-Symbol bezeichnet eine Größe im Fourierraum

Index Beschreibung

gn Element n des Vektors g

gmn Element m,n der Matrix G

gp kompakte Schreibweise für eine partielle Ableitung erster Ord-nung einer kontinuierlichen Funktion g in die Richtung p:∂g(x)/∂xp

gpq kompakte Schreibweise für eine partielle Ableitung zweiterOrdnung einer kontinuierlichen Funktion g in die Richtungenp und q: ∂2g(x)/(∂xp∂xq)

Hochzahl Beschreibung

A−1, A−g Inverse der quadratischen Matrix A; generalisierte Inverse der(nichtquadratischen) Matrix A

AT , aT Transponierte einer Matrix oder eines Vektors (für komplexeGrößen wird zusätzlich konjugiert)

aTb, 〈a |b 〉 Skalarprodukt zweier Vektoren

a Konjugierte einer komplexen Zahl

A konjugiert komplexe und transponierte Matrix

610 B Notation

Indizierung Beschreibung

K, L, M , N Anzahl Elemente eines diskreten Bildes in t-, z-, y- und x-Richtung

k, l, m, n Indizierung der Elemente eines diskreten Bildes in t-, z-, y-und x-Richtung

r , s, u, v Indizierung der Elemente eines diskreten Bildes im Fourier-raum in t-, z-, y- und x-Richtung

P Anzahl der Komponenten in einem Mehrkanalbild; Dimensi-on des Merkmalsraums, Anzahl Komponenten, Pyramidenebe-nen oder Messwerte

Q Anzahl von Quantisierungsstufen, Anzahl von Klassen bei derKlassifizierung, Anzahl Regressionsparameter

R Größe der Maske eines Nachbarschaftsoperators

W Dimension eines Signals

p,q,w Indizes für Komponenten in einem Mehrkanalbild, der Dimen-sionen eines multidimensionalen Signals, der Quantisierungs-stufen, etc.

Funktion Beschreibung

cos(x) Kosinus-Funktion

exp(x) Exponential-Funktion

ld(x) Logarithmus zur Basis 2

ln(x) Logarithmus zur Basis e

log(x) Logarithmus zur Basis 10

sin(x) Sinus-Funktion

sinc(x) Sinc-Funktion: sinc(x) = sin(πx)/(πx)

det(G) Determinante einer quadratischen Matrix

diag(G) Vektor mit den Diagonalelementen einer quadratischen Matrix

Spur(G) Spur (Summe der Diagonalelemente) einer quadratischen Ma-trix

cov(g) Kovarianzmatrix einer vektoriellen Zufallsvariablen

E(g), Var(G) Erwartungswert (Mittelwert) und Varianz

611

Bildoperator Beschreibung

· Punktweise Multiplikation zweier Bilder

∗ Faltung

Korrelation

,⊕ morphologische Erosion und Dilatation

,• morphologisches Öffnen und Schließen

⊗ morphologischer Hit-Miss-Operator

∨,∧ boolsches Oder und Und

∪,∩ Vereinigungs- und Schnittmenge

⊂,⊆ Menge ist Untermenge von, Untermenge von oder gleich

Verschiebungsoperator

↓s Abtastung oder Reduktionsoperator: nur jedes ste Elementwird genommen

↑s Expansions- oder Interpolationsoperator: Erhöhung derAnzahl der abgetasteten Werte um den Faktor s; die neuenPunkte werden aus den ursprünglichen interpoliert

612 B Notation

Symbol Definition, [Einheit] Bedeutung

Griechische Zeichen

α [m−1] Absorptionskoeffizient

β [m−1] Streukoeffizient

δ(x), δn kontinuierliche und diskrete δ-Distribution

∆W∑w=1

∂2

∂x2w

Laplace-Operator

ε [1] spezifische Emissivität

ε [m] Radius des Unschärfekreises

κ [m−1] Extinktionskoeffizient, Summe ausAbsorptions- and Streukoeffizient

∇[∂∂x1

, . . . ,∂∂xW

]TGradient

λ [m] Wellenlänge

ν [s−1], [Hz] (Hertz) Frequenz

∇× Rotationsoperator

η n+ iξ, [1] komplexer Brechungsindex

η [1] Quantenausbeute

φ [rad], [°] Phasenverschiebung, Phasendiffe-renz

φe [rad], [°] Azimuthwinkel

Φ [J/s], [W], [s−1], [lm] Strahlungsfluss

Φe, Φp [W], [s−1], [lm] energiebasierter und photonenba-sierter Strahlungsfluss

ρ, ρ‖, ρ⊥ [1] Reflektivität für unpolarisiertes,parallel oder senkrecht polarisiertesLicht

ρ [kg/m3] Dichte

σx Standardabweichung der Zufallsva-riablen x

σ 5.6696 · 10−8Wm−2K−4 Stefan-Boltzmann-Konstante

σs [m2] Streuquerschnitt

τ [1] optische Dichte

τ [1] Transmissivität

τ [s] Zeitkonstante

θ [rad], [°] Inzidenzwinkel

θb [rad], [°] Brewsterwinkel

θc [rad], [°] kritischer Winkel (für Totalreflexion)

weiter auf der nächsten Seite

613


Fortsetzung von der vorherigen Seite

θe [rad], [°] Polarwinkel

θi [rad], [°] Inzidenzwinkel

Ω [sr] (Steradiant) Raumwinkel

ω ω = 2πν , [s−1], [Hz] Kreisfrequenz

Lateinische Zeichen

A [m2] Fläche

a,a a = xtt = ut , [m/s2] Beschleunigung

b(k) Transferfunktion einer Binomialmas-ke

B [Vs/m2] magnetisches Feld

B Binomialmaske

B binomialer Faltungsoperator

c 2.9979 · 108 ms−1 Lichtgeschwindigkeit

C Menge der komplexen Zahlen

d [m] Durchmesser (Apertur) einer Optik,Abstand

d′ [m] Abstand im Bildraum

d(k) Transferfunktion von DD [m2/s] Diffusionskonstante

D Maske eines Differenzenfilters ersterOrdnung

D Differenzenoperator erster Ordnung

e 1.6022 · 10−19 As Elementare elektrische Ladung

e 2.718281 . . . Basis für den natürlichen Logarith-mus

E [W/m2], [lm/m2], [lx] Bestrahlungsstärke oder Beleuch-tungsstärke

E [V/m] elektrisches Feld

e [1] Eigenvektor der Länge eins einer Ma-trix

f , fe [m] (effektive) Brennweite eines optischenSystems

fb, ff [m] rückseitige und frontseitige Brenn-weite

f optischer Fluss

f Merkmalsvektor

F [N] (Newton) Kraft

G Bildmatrix


614 B Notation



H generelle Filtermaske

h 6.6262 · 10−34 Js Plancksche Konstante (Wirkungs-quantum)

h/(2π) [Js]

i√−1 imaginäre Einheit

I [W/sr], [lm/sr] Strahlungsstärke

I [A] elektrischer Strom

I Einheitsmatrix

I Identitätsoperator

J Strukturtensor, Trägheitstensor

kB 1.3806 · 10−23 J/K Boltzmannkonstante

k 1/λ, [m−1] Betrag des Wellenzahl-Vektors

k [m−1] Wellenzahl (Anzahl Wellenlängen proEinheitslänge)

k k∆x/π Wellenzahl normalisiert auf die ma-ximal mögliche Wellenzahl (Nyquist-Wellenzahl)

Kq [l/mol] Quenchkonstante

KI [1] Gleichgewichtskonstante eines pH-Indikators

L [W/(m2sr)], [1/(m2sr)],[lm/(m2sr)], [cd/m2]

Strahlungsdichte

L Maske des Laplaceoperator

L Laplaceoperator

m [kg] Masse

m [1] Abbildungsmaßstab eines optischenSystems

m Merkmalsvektor

M [W/m2], [1/(s m2)] ausgestrahlte Strahlungsflussdichte

Me [W/m2] energiebasierte Strahlungsflussdich-te

Mp [1/(s m2)] photonenbasierte Strahlungsfluss-dichte

M Merkmalsraum

n [1] Brechungsindex

na [1] numerische Apertur eines optischenSystems

nf f/d, [1] Apertur eines optischen Systems


615



n [1] Einheitvektor senkrecht zu einerOberfläche

N Menge der natürlichen Zahlen:1,2,3, . . .

p [kg m/s], [N s] Impuls

p [N/m2] Druck

pH [1] pH-Wert, negativer Logarithmus derProtonenkonzentration

Q [Ws] (Joule), [lm s] Strahlungsenergie

Anzahl Photonen

r [m] Radius

rm,n rm,n =[m∆x,n∆y

]TTranslationsvektor eines Gitter imOrtsraum

rp,q rp,q =[p/∆x,q/∆y

]TTranslationsvektor des reziprokenGitters im Fourierraum

R Φ/s, [A/W] Responsivität eines Strahlungsdetek-tors

R Maske des Rechteckfilters

R Menge der reellen Zahlen

s [A] Sensorsignal

T [K] absolute Temperatur

t [s] Zeit

t [1] Transmissivität

u [m/s] Geschwindigkeit

u [m/s] Geschwindigkeitsvektor

U [V] Spannung, elektrisches Potenzial

V [m3] Volumen

V(λ) [lm/W] spektrale Empfindlichkeit des Sehensim Hellen

V ′(λ) [lm/W] spektrale Empfindlichkeit des Sehensim Dunklen

w e2π i

wN exp(2π i/N)x

[x,y

]T , [x1, x2]T Bildkoordinaten im Ortsraum

X [X, Y , Z]T , [X1, X2, X3]T Weltkoordinaten

Z, Z+ Menge der ganzen Zahlen, Menge derpositiven ganzen Zahlen

Literaturverzeichnis

[1] W. Abmayr. Einführung in die digitale Bildverarbeitung. B. G. Teubner,Stuttgart, 1994.

[2] T. Acharya und P.-S. Tsai. JPEG2000 Standard for Image Compression.Wiley, New York, 2005.

[3] E. H. Adelson und J. R. Bergen. Spatio-temporal energy models for theperception of motion. J. Opt. Soc. Am. A, 2:284–299, 1985.

[4] E. H. Adelson und J. R. Bergen. The extraction of spatio-temporal energyin human and machine vision. In Proceedings Workshop on Motion: Repre-sentation and Analysis, May 1986, Charleston, South Carolina, S. 151–155.IEEE Computer Society, Washington, 1986.

[5] A. V. Aho, J. E. Hopcroft und J. D. Ullman. The Design and Analysis ofComputer Algorithms. Addison Wesley, Reading, MA, 1974.

[6] A. V. Aho, J. E. Hopcroft und J. D. Ullman. The Design and Analysis ofComputer Algorithms. Addison-Wesley, Reading, MA, 1974.

[7] G. R. Arce, N. C. Gallagher und T. A. Nodes. Median filters: theory for oneand two dimensional filters. JAI Press, Greenwich, USA, 1986.

[8] H.-P. Bähr und T. Vögtle, Hrsg. Digitale Bildverarbeitung. Anwendung inPhotogrammetrie und Fernerkennung. Wichmann, Heidelberg, 3. Aufl.,1998.

[9] S. Beauchemin und J. Barron. The computation of optical flow. ACMComputing Surveys, 27(3):433–467, 1996.

[10] K. Behnen und G. Neuhaus. Grundkurs Stochastik. Teubner, Stuttgart, 3.Aufl., 1995.

[11] F. Beichelt. Stochastik für Ingenieure. Teubner, Stuttgart, 1995.

[12] P. W. Besslich und T. Lu. Diskrete Orthogonaltransformation. Algorithmenund Flussgraphen für die Signalverarbeitung. Springer, Berlin, 1990.

[13] A. Beutelsbacher. Lineare Algebra. Vieweg, Braunschweig, 5. Aufl., 2001.

[14] L. M. Biberman, Hrsg. Electro Optical Imaging: System Performance andModeling. SPIE, Bellingham, WA, 2001.

[15] J. Bigün und G. H. Granlund. Optimal orientation detection of linear sym-metry. In Proceedings ICCV’87, London, S. 433–438. IEEE, Washington, DC,1987.

[16] C. M. Bishop. Neural Networks for Pattern Recognition. Clarendon, Oxford,1995.

618 Literaturverzeichnis

[17] R. Blahut. Fast Algorithms for Digital Signal Processing. Addison-Wesley,Reading, MA, 1985.

[18] M. Born und E. Wolf. Principles of Optics. Cambridge University Press,Cambridge, UK, 7. Aufl., 1999.

[19] R. Bracewell. The Fourier Transform and its Applications. McGraw-Hill,New York, 2. Aufl., 1986.

[20] C. Broit. Optimal registrations of deformed images. Diss., Univ. of Penn-sylvania, USA, 1981.

[21] I. N. Bronshtein, K. A. Semendyayev, G. Musiol und H. Muehlig. Handbookof Mathematics. Springer, Berlin, 4. Aufl., 2004.

[22] H. Burkhardt, Hrsg. Workshop on Texture Analysis, 1998. Albert-Ludwigs-Universität, Freiburg, Institut für Informatik.

[23] H. Burkhardt und S. Siggelkow. Invariant features in pattern recognition- fundamentals and applications. In C. Kotropoulos und I. Pitas, Hrsg.,Nonlinear Model-Based Image/Video Processing and Analysis, S. 269–307.John Wiley & Sons, 2001.

[24] P. J. Burt. The pyramid as a structure for efficient computation. In A. Ro-senfeld, Hrsg., Multiresolution image processing and analysis, Bd. 12 vonSpringer Series in Information Sciences, S. 6–35. Springer, New York, 1984.

[25] P. J. Burt und E. H. Adelson. The Laplacian pyramid as a compact imagecode. IEEE Trans. COMM, 31:532–540, 1983.

[26] P. J. Burt, T. H. Hong und A. Rosenfeld. Segmentation and estimation ofimage region properties through cooperative hierarchical computation.IEEE Trans. SMC, 11:802–809, 1981.

[27] J. F. Canny. A computational approach to edge detection. PAMI, 8:679–698, 1986.

[28] R. Chelappa. Digital Image Processing. IEEE Computer Society Press, LosAlamitos, CA, 1992.

[29] N. Christianini und J. Shawe-Taylor. An Introduction to Support VectorMachines. Cambridge University Press, Cambridge, 2000.

[30] C. K. Chui, Hrsg. Wavelets: A Tutorial in Theory and Applications. Acade-mic Press, Boston, MA, 1992.

[31] C. M. Close und D. K. Frederick. Modelling and Analysis of Dynamic Sys-tems. Houghton Mifflin, Boston, 1978.

[32] J. W. Cooley und J. W. Tukey. An algorithm for the machine calculationof complex Fourier series. Math. of Comput., 19:297–301, 1965.

[33] T. H. Cormen, C. E. Leiserson, R. L. Rivest und C. Stein. Introduction toAlgorithms. MIT Press, Cambridge, MA, 2. Aufl., 2001.

[34] R. Courant und D. Hilbert. Methoden der mathematischen Physik. Sprin-ger, Berlin, 4. Aufl., 1993.

[35] H. Czichos, Hrsg. Hütte. Die Grundlagen der Ingenieurwissenschaften.Springer, Berlin, 31. Aufl., 2000.

[36] P.-E. Danielsson, Q. Lin und Q.-Z. Ye. Efficient detection of second de-gree variations in 2D and 3D images. Technical Report LiTH-ISY-R-2155,Department of Electrical Engineering, Linköping University, S-58183 Lin-köping, Sweden, 1999.


[37] P. J. Davis. Interpolation and Approximation. Dover, New York, 1975.

[38] C. DeCusaris, Hrsg. Handbook of Applied Photometry. Springer, New York,1998.

[39] C. Demant, B. Streicher-Abel und P. Waszkewitz. Industrielle Bildverar-beitung. Wie optische Qualitätskontrolle wirklich funktioniert. Springer,Berlin, 2. Aufl., 2002. Mit CD-ROM.

[40] P. DeMarco, J. Pokorny und V. C. Smith. Full-spectrum cone sensitivi-ty functions for X-chromosome-linked anomalous trichromats. J. of theOptical Society, A9:1465–1476, 1992.

[41] J. Dengler. Methoden und Algorithmen zur Analyse bewegter Realweltsze-nen im Hinblick auf ein Blindenhilfesystem. Diss., Univ. Heidelberg, 1985.

[42] R. Deriche. Fast algorithms for low-level vision. IEEE Trans. PAMI, 12(1):78–87, 1990.

[43] N. Diehl und H. Burkhardt. Planar motion estimation with a fast con-verging algorithm. In Proc. 8th Int. Conf. Pattern Recognition, ICPR’86,October 27–31, 1986, Paris, S. 1099–1102. IEEE Computer Society, LosAlamitos, 1986.

[44] R. C. Dorf und R. H. Bishop. Modern Control Systems. Addison-Wesley,Menlo Park, CA, 8. Aufl., 1998.

[45] S. A. Drury. Image Interpretation in Geology. Chapman & Hall, London, 2.Aufl., 1993.

[46] R. O. Duda, P. E. Hart und D. G. Stork. Pattern Classification. Wlley, NewYork, 2. Aufl., 2001.

[47] M. A. H. Elmore, W. C. Physics of Waves. Dover Publications, New York,1985.

[48] A. Erhardt, G. Zinser, D. Komitowski und J. Bille. Reconstructing 3D lightmicroscopic images by digital image processing. Applied Optics, 24:194–200, 1985.

[49] J. F. S. Crawford. Waves, Bd. 3 von Berkely Physics Course. McGraw-Hill,New York, 1965.

[50] O. Faugeras. Three-dimensional Computer Vision. A Geometric Vewpoint.MIT Press, Cambridge, MA, 1993.

[51] O. Faugeras und Q.-T. Luong. The Geometry of Multiple Images. MIT Press,Cambdridge, MA, 2001.

[52] M. Felsberg und G. Sommer. A new extension of linear signal processingfor estimating local properties and detecting features. In G. Sommer,N. Krüger und C. Perwass, Hrsg., Mustererkennung 2000, 22. DAGM Sym-posium, Kiel, Informatik aktuell, S. 195–202. Springer, Berlin, 2000.

[53] R. Feynman. Lectures on Physics, Bd. 2. Addison-Wesley, Reading, Mass.,1964.

[54] M. A. Fischler und O. Firschein, Hrsg. Readings in Computer Vision: Issues,Problems, Principles, and Paradigms. Morgan Kaufmann, Los Altos, CA,1987.

[55] D. J. Fleet. Measurement of Image Velocity. Diss., University of Toronto,Canada, 1990.


[56] D. J. Fleet. Measurement of Image Velocity. Kluwer Academic Publisher,Dordrecht, 1992.

[57] D. J. Fleet und A. D. Jepson. Hierarchical construction of orientation andvelocity selective filters. IEEE Trans. PAMI, 11(3):315–324, 1989.

[58] D. J. Fleet und A. D. Jepson. Computation of component image velocityfrom local phase information. Int. J. Comp. Vision, 5:77–104, 1990.

[59] N. Fliege. Multiraten-Signalverarbeitung. Teubner, Stuttgart, 1993.

[60] J. D. Foley, A. van Dam, S. K. Feiner und J. F. Hughes. Computer Graphics,Principles and Practice. Addison Wesley, Reading, MA, 2. Aufl., 1995.

[61] W. Förstner. Image preprocessing for feature extraction in digital inten-sity, color and range images. In A. Dermanis, A. Grün und F. Sanso, Hrsg.,Geomatic Methods for the Analysis of Data in the Earth Sciences, Bd. 95von Lecture Notes in Earth Sciences. Springer, Berlin, 2000.

[62] D. A. Forsyth und J. Ponce. Computer Vision, a Modern Approach. PrenticeHall, Upper Saddle River, NJ, 2003.

[63] W. T. Freeman und E. H. Adelson. The design and use of steerable filters.IEEE Trans. PAMI, 13:891–906, 1991.

[64] G. Gaussorgues. Infrared Thermography. Chapman & Hall, London, 1994.

[65] P. Geißler und B. Jähne. One-image depth-from-focus for concentrati-on measurements. In E. P. Baltsavias, Hrsg., Proc. ISPRS Intercommissionworkshop from pixels to sequences, Zürich, March 22-24, S. 122–127. RISCBooks, Coventry UK, 1995.

[66] J. Gelles, B. J. Schnapp und M. P. Sheetz. Tracking kinesin driven move-ments with nanometre-scale precision. Nature, 331:450–453, 1988.

[67] F. Girosi, A. Verri und V. Torre. Constraints for the computation of opticalflow. In Proceedings Workshop on Visual Motion, March 1989, Irvine, CA,S. 116–124. IEEE, Washington, 1989.

[68] H. Goldstein. Classical Mechanics. Addison-Wesley, Reading, MA, 1980.

[69] G. H. Golub und C. F. van Loan. Matrix Computations. The John HopkinsUniversity Press, Baltimore, 1989.

[70] R. C. Gonzalez und R. E. Woods. Digital image processing. Prentice Hall,Upper Saddle River, NJ, 2. Aufl., 2002.

[71] G. H. Granlund. In search of a general picture processing operator. Comp.Graph. Imag. Process., 8:155–173, 1978.

[72] G. H. Granlund und H. Knutsson. Signal Processing for Computer Vision.Kluwer, 1995.

[73] L. D. Griffin und M. Lillhom, Hrsg. Scale Space Methods in Computer Vision,Bd. 2695 von Lecture Notes in Computer Science, 2003. 4th Int. Conf. Scale-Space’03, Springer, Berlin.

[74] M. Groß. Visual Computing. Springer, Berlin, 1994.

[75] E. M. Haacke, R. W. Brown, M. R. Thompson und R. Venkatesan. MagneticResonance Imaging: Physical Principles and Sequence Design. John Wiley& Sons, New York, 1999.

[76] Haberäcker. Digitale Bildverarbeitung. Hanser, München, 1985.

[77] M. Halloran. 700× 9000 imaging on an integrated CCD wafer - affordably.Advanced Imaging, Jan.:46–48, 1996.


[78] J. G. Harris. The coupled depth/slope approach to surface reconstruction.Master thesis, Dept. Elec. Eng. Comput. Sci., Cambridge, Mass., 1986.

[79] J. G. Harris. A new approach to surface reconstruction: the coupleddepth/slope model. In 1st Int. Conf. Comp. Vis. (ICCV), London, S. 277–283.IEEE Computer Society, Washington, 1987.

[80] H. Haußecker. Messung und Simulation kleinskaliger Austauschvorgängean der Ozeanoberfläche mittels Thermographie. Diss., University of Hei-delberg, Germany, 1995.

[81] H. Haußecker. Simultaneous estimation of optical flow and heat transportin infrared imaghe sequences. In Proc. IEEE Workshop on Computer Visionbeyond the Visible Spectrum, S. 85–93. IEEE Computer Society, Washing-ton, DC, 2000.

[82] H. Haußecker und D. J. Fleet. Computing optical flow with physical modelsof brightness variation. IEEE Trans. PAMI, 23:661–673, 2001.

[83] E. Hecht. Optics. Addison-Wesley, Reading, MA, 1987.

[84] D. J. Heeger. Optical flow from spatiotemporal filters. Int. J. Comp. Vis.,1:279–302, 1988.

[85] E. C. Hildreth. Computations underlying the measurement of visual mo-tion. Artificial Intelligence, 23:309–354, 1984.

[86] G. C. Holst. CCD Arrays, Cameras, and Displays. SPIE, Bellingham, WA, 2.Aufl., 1998.

[87] G. C. Holst. Testing and Evaluation of Infrared Imaging Systems. SPIE,Bellingham, WA, 2. Aufl., 1998.

[88] G. C. Holst. Common Sense Approach to Thermal Imaging. SPIE, Belling-ham, WA, 2000.

[89] G. C. Holst. Electro-optical Imaging System Performance. SPIE, Bellingham,WA, 2. Aufl., 2000.

[90] B. K. Horn. Robot Vision. MIT Press, Cambridge, MA, 1986.

[91] S. Howell. Handbook of CCD Astronomy. Cambridge University Press,Cambridge, 2000.

[92] T. S. Huang, Hrsg. Two-dimensional Digital Signal Processing I: Linearfilters., Bd. 42 von Topics in Applied Physics. Springer, New York, 1981.

[93] T. S. Huang, Hrsg. Two-dimensional Digital Signal Processing II: Trans-forms and Median Filters, Bd. 43 von Topics in Applied Physics. Springer,New York, 1981.

[94] S. V. Huffel und J. Vandewalle. The Total Least Squares Problem - Compu-tational Aspects and Analysis. SIAM, Philadelphia, 1991.

[95] K. Iizuka. Engineering Optics, Bd. 35 von Springer Series in OpticalSciences. Springer, Berlin, 2. Aufl., 1987.

[96] B. Jähne. Image sequence analysis of complex physical objects: nonlinearsmall scale water surface waves. In Proceedings ICCV’87, London, S. 191–200. IEEE Computer Society, Washington, DC, 1987.

[97] B. Jähne. Motion determination in space-time images. In Image ProcessingIII, SPIE Proceeding 1135, international congress on optical science andengineering, Paris, 24-28 April 1989, S. 147–152, 1989.


[98] B. Jähne. Spatio-temporal Image Processing. Lecture Notes in ComputerScience. Springer, Berlin, 1993.

[99] B. Jähne. Handbook of Digital Image Processing for Scientific Applications.CRC Press, Boca Raton, FL, 1997.

[100] B. Jähne. Vergleichende Analyse moderner Bildsensoren für die opti-sche Messtechnik. In Sensoren und Messsysteme 2004, Bd. 1829 von VDI-Berichte, S. 317–324. VDI Verlag, Düsseldorf, 2004.

[101] B. Jähne, Hrsg. Image Sequence Analysis to Investigate Dynamic Processes,Lecture Notes in Computer Science, 2005. Springer, Berlin.

[102] B. Jähne, E. Barth, R. Mester und H. Scharr, Hrsg. Complex Motion, Proc.1th Int. Workshop, Günzburg, Oct. 2004, Bd. 3417 von Lecture Notes inComputer Science, 2005. Springer, Berlin.

[103] B. Jähne und H. Haußecker, Hrsg. Computer Vision and Applications. AGuide for Students and Practitioners. Academic Press, San Diego, 2000.

[104] B. Jähne, H. Haußecker und P. Geißler, Hrsg. Handbook of Computer Vi-sion and Applications. Volume I: Sensors and Imaging. Volume II: SignalProcessing and Pattern Recognition. Volume III: Systems and Applications.Academic Press, San Diego, 1999. Includes three CD-ROMs.

[105] B. Jähne, J. Klinke und S. Waas. Imaging of short ocean wind waves: acritical theoretical review. J. Optical Soc. Amer. A, 11:2197–2209, 1994.

[106] B. Jähne, R. Massen, B. Nickolay und H. Scharfenberg. Technische Bildver-arbeitung - Maschinelles Sehen. Springer, Berlin, 1996.

[107] B. Jähne, H. Scharr und S. Körgel. Principles of filter design. In B. Jähne,H. Haußecker und P. Geißler, Hrsg., Computer Vision and Applications,volume 2, Signal Processing and Pattern Recognition, chapter 6, S. 125–151. Academic Press, San Diego, 1999.

[108] A. K. Jain. Fundamentals of Digital Image Processing. Prentice-Hall, Engle-wood Cliffs, NJ, 1989.

[109] R. Jain, R. Kasturi und B. G. Schunck. Machine Vision. McGraw-Hill, NewYork, 1995.

[110] J. R. Janesick. Scientific Charge-Coupled Devices. SPIE, Bellingham, WA,2001.

[111] K. Jänich. Lineare Algebra. Springer, Berlin, 8. Aufl., 2000.

[112] X. Jiang und H. Bunke. Dreidimensionales Computersehen. Springer, Ber-lin, 1997.

[113] J. T. Kajiya. The rendering equation. Computer Graphics, 20:143–150,1986.

[114] K. D. Kammeyer und K. Kroschel. Digitale Signalverarbeitung. Teubner,Stuttgart, 1998.

[115] M. Kass und A. Witkin. Analysing oriented patterns. Comp. Vis. Graph.Im. Process., 37:362–385, 1987.

[116] M. Kass, A. Witkin und D. Terzopoulos. Snakes: active contour models. InProc. 1st Int. Conf. Comp. Vis. (ICCV), London, S. 259–268. IEEE ComputerSociety, Washington, 1987.

[117] B. Y. Kasturi und R. C. Jain. Computer Vision: Advances and Applications.IEEE Computer Society, Los Alamitos, 1991.


[118] B. Y. Kasturi und R. C. Jain, Hrsg. Computer Vision: Principles. IEEE Com-puter Society, Los Alamitos, 1991.

[119] J. K. Kearney, W. B. Thompson und D. L. Boley. Optical flow estimation:an error analysis of gradient-based methods with local optimization. IEEETrans. PAMI, 9 (2):229–244, 1987.

[120] M. Kerckhove, Hrsg. Scale-Space and Morphology in Computer Vision, Bd.2106 von Lecture Notes in Computer Science, 2001. 3rd Int. Conf. Scale-Space’01, Vancouver, Canada, Springer, Berlin.

[121] R. Kimmel, N. Sochen und J. Weickert, Hrsg. Scale-Space and PDE Methodsin Computer Vision, Lecture Notes in Computer Science, 2005. 5th Int.Conf. Scale-Space’05, Springer, Berlin.

[122] C. Kittel. Introduction to Solid State Physics. Wiley, New York, 1971.

[123] R. Klette, A. Koschan und K. Schlüns. Computer Vision. Räumliche Infor-mation aus digitalen Bildern. Veweg, Braunschweig, 1996.

[124] H. Knutsson. Filtering and Reconstruction in Image Processing. Diss.,Linköping Univ., Sweden, 1982.

[125] H. Knutsson. Representing local structure using tensors. In The 6th Scan-dinavian Conference on Image Analysis, Oulu, Finland, June 19-22, 1989,1989.

[126] H. E. Knutsson, R. Wilson und G. H. Granlund. Anisotropic nonstationaryimage estimation and its applications: part I – restoration of noisy images.IEEE Trans. COMM, 31(3):388–397, 1983.

[127] J. J. Koenderink und A. J. van Doorn. Generic neighborhood operators.IEEE Trans. PAMI, 14(6):597–605, 1992.

[128] C. Koschnitzke, R. Mehnert und P. Quick. Das KMQ-Verfahren: Medien-kompatible Übertragung echter Stereofarbabbildungen. Forschungsbe-richt Nr. 201, Universität Hohenheim, 1983.

[129] K. Krickeberg und H. Ziezold. Stochastische Methoden. Springer, Berlin,4. Aufl., 1995.

[130] P. Lancaster und K. Salkauskas. Curve and Surface Fitting. An Introducti-on. Academic Press, London, 1986.

[131] S. Lanser und W. Eckstein. Eine Modifikation des Deriche-Verfahrens zurKantendetektion. In B. Radig, Hrsg., Mustererkennung 1991, Bd. 290 vonInformatik Fachberichte, S. 151–158. 13. DAGM Symposium, München,Springer, Berlin, 1991.

[132] Laurin. The Photonics Design and Applications Handbook. Laurin Publis-hing CO, Pittsfield, MA, 40. Aufl., 1994.

[133] T. Lehmann, W. Oberschelp, E. Pelikan und R. Repges. Bildverarbeitungfür die Medizin. Grundlagen, Modelle, Methoden, Anwendungen. Springer,Berlin, 1997.

[134] R. Lenz. Linsenfehlerkorrigierte Eichung von Halbleiterkameras mit Stan-dardobjektiven für hochgenaue 3D-Messungen in Echtzeit. In E. Paulus,Hrsg., Proc. 9. DAGM-Symp. Mustererkennung 1987, Informatik Fachbe-richte 149, S. 212–216. DAGM, Springer, Berlin, 1987.

[135] R. Lenz. Zur Genauigkeit der Videometrie mit CCD-Sensoren. In H. Bunke,O. Kübler und P. Stucki, Hrsg., Proc. 10. DAGM-Symp. Mustererkennung


1988, Informatik Fachberichte 180, S. 179–189. DAGM, Springer, Berlin,1988.

[136] M. Levine. Vision in Man and Machine. McGraw-Hill, New York, 1985.

[137] Z.-P. Liang und P. C. Lauterbur. Principles of Magnetic Resonance Imaging:A Signal Processing Perspective. SPIE, Bellingham, WA, 1999.

[138] J. S. Lim. Two-dimensional Signal and Image Processing. Prentice-Hall,Englewood Cliffs, NJ, 1990.

[139] T. Lindeberg. Scale-space Theory in Computer Vision. Kluwer AcademicPublishers, Boston, 1994.

[140] M. Loose, K. Meier und J. Schemmel. A self-calibrating single-chip CMOScamera with logarithmic response. IEEE J. Solid-State Circuits, 36(4), 2001.

[141] D. Lorenz. Das Stereobild in Wissenschaft und Technik. DeutscheForschungs- und Versuchsanstalt für Luft- und Raumfahrt, Köln, Ober-pfaffenhofen, 1985.

[142] T. Luhmann. Nahbereichsphotogrammetrie. Grundlagen, Methoden undAnwendungen. Wichmann, Heidelberg, 2000.

[143] T. Luhmann, Hrsg. Nahbereichsphotogrammetrie in der Praxis. Wich-mann, Heidelberg, 2002.

[144] T. Luhmann. Nahbereichsphotogrammetrie. Grundlagen, Methoden undAnwendungen. Wichmann, Heidelberg, 2. Aufl., 2003.

[145] V. K. Madisetti und D. B. Williams, Hrsg. The Digital Signal ProcessingHandbook. CRC, Boca Raton, FL, 1998.

[146] H. A. Mallot. Computational Vision: Information Processing in Perceptionand Visual Behavior. The MIT Press, Cambridge, MA, 2000.

[147] V. Markandey und B. E. Flinchbaugh. Multispectral constraints for opti-cal flow computation. In Proc. 3rd Int. Conf. on Computer Vision 1990(ICCV’90), Osaka, S. 38–41. IEEE Computer Society, Los Alamitos, 1990.

[148] S. L. Marple Jr. Digital Spectral Analysis with Applications. Prentice-Hall,Englewood Cliffs, NJ, 1987.

[149] D. Marr. Vision. W. H. Freeman and Company, New York, 1982.

[150] D. Marr und E. Hildreth. Theory of edge detection. Proc. Royal Society,London, Ser. B, 270:187–217, 1980.

[151] E. A. Maxwell. General Homogeneous Coordinates in Space of Three Di-mensions. University Press, Cambridge, 1951.

[152] C. Mead. Analog VLSI and Neural Systems. Addison-Wesley, Reading, MA,1989.

[153] W. Menke. Geophysical Data Analysis: Discrete Inverse Theory, Bd. 45 vonInternational Geophysics Series. Academic Press, San Diego, 1989.

[154] U. Meyer-Bäse. Schnelle digitale Signalverarbeitung. Springer, Berlin,2000. Mit CD-ROM.

[155] D. G. Mitchell und M. S. Cohen. MRI Principles. Saunders, Philadelphia, 2.Aufl., 2004.

[156] A. Z. J. Mou, D. S. Rice und W. Ding. VIS-based native video processing onUltraSPARC. In Proc. IEEE Int. Conf. on Image Proc., ICIP’96, S. 153–156.IEEE, Lausanne, 1996.


[157] T. Münsterer. Messung von Konzentrationsprofilen gelöster Gase in derwasserseitigen Grenzschicht. Diploma thesis, University of Heidelberg,Germany, 1993.

[158] T. Münsterer, H. J. Mayer und B. Jähne. Dual-tracer measurements of con-centration profiles in the aqueous mass boundary layer. In B. Jähne undE. Monahan, Hrsg., Air-Water Gas Transfer, Selected Papers, 3rd Intern.Symp. on Air-Water Gas Transfer, S. 637–648. AEON, Hanau, 1995.

[159] H. Nagel. Displacement vectors derived from second-order intensity va-riations in image sequences. Computer Vision, Graphics, and Image Pro-cessing (GVGIP), 21:85–117, 1983.

[160] Y. Nakayama und Y. Tanida, Hrsg. Atlas of Visualization III. CRC, BocaRaton, FL, 1997.

[161] V. S. Nalwa. A Guided Tour of Computer Vision. Addison-Wesley, Reading,MA, 1993.

[162] H. Niedrig, Hrsg. Optik, Bd. 3 von Bergmann Schäfer, Lehrbuch der Expe-rimentalphysik. Walter de Gruyter, Berlin, 1993.

[163] M. Nielsen, P. Johansen, O. Olsen und J. Weickert, Hrsg. Scale-Space Theo-ries in Computer Vision, Bd. 1682 von Lecture Notes in Computer Science,1999. 2nd Int. Conf. Scale-Space’99, Corfu, Greece, Springer, Berlin.

[164] H. K. Nishihara. Practical real-time stereo matcher. Optical Eng., 23:536–545, 1984.

[165] J. Ohser und F. Mücklich. Statistical Analysis of Microstructures in MaterialScience. Wiley, Chicester, England, 2000.

[166] A. V. Oppenheim und R. W. Schafer. Discrete-time Signal Processing.Prentice-Hall, Englewood Cliffs, NJ, 1989.

[167] A. V. Oppenheim und R. W. Schafer. Zeitdiskrete Signalverarbeitung. Ol-denbourg, München, 3. Aufl., 1999.

[168] A. Papoulis. Probability, Random Variables, and Stochastic Processes.McGraw-Hill, New York, 3. Aufl., 1991.

[169] J. R. Parker. Algorithms for Image Processing and Computer Vision. JohnWiley & Sons, New York, 1997. Includes CD-ROM.

[170] P. Perona und J. Malik. Scale space and edge detection using anisotropicdiffusion. In Proc. IEEE comp. soc. workshop on computer vision (Miami Be-ach, Nov. 30-Dec. 2, 1987), S. 16–20. IEEE Computer Society, Washington,1987.

[171] M. Pietikäinen und A. Rosenfeld. Image segmentation by texture usingpyramid node linking. SMC, 11:822–825, 1981.

[172] I. Pitas. Digital Image Processing Algorithms. Prentice Hall, New York,1993.

[173] I. Pitas und A. N. Venetsanopoulos. Nonlinear Digital Filters. Principlesand Applications. Kluwer Academic Publishers, Norwell, MA, 1990.

[174] A. D. Poularikas, Hrsg. The Transforms and Applications Handbook. CRC,Boca Raton, 1996.

[175] W. K. Pratt. Digital image processing, PIKS Inside. Wiley, New York, 3.Aufl., 2001.


[176] W. H. Press, B. P. Flannery, S. A. Teukolsky und W. T. Vetterling. NumericalRecipes in C: The Art of Scientific Computing. Cambridge University Press,New York, 1992.

[177] J. G. Proakis und D. G. Manolakis. Digital Signal Processing. Principles,Algorithms, and Applications. McMillan, New York, 1992.

[178] L. H. Quam. Hierarchical warp stereo. In Proc. DARPA Image Understan-ding Workshop, October 1984, New Orleans, LA, S. 149–155, 1984.

[179] L. Rade und B. Westergren. Springers Mathematische Formeln. Springer,Berlin, 3. Aufl., 2000.

[180] A. R. Rao. A Taxonomy for Texture Description and Identification. Springer,New York, 1990.

[181] A. R. Rao und B. G. Schunck. Computing oriented texture fields. In Pro-ceedings CVPR’89, San Diego, CA, S. 61–68. IEEE Computer Society, Wa-shington, DC, 1989.

[182] T. H. Reiss. Recognizing Planar Objects Using Invariant Image Features,Bd. 676 von Lecture notes in computer science. Springer, Berlin, 1993.

[183] M. Reisser und W. Semmler, Hrsg. Magnetresonanztomographie. Springer,Berlin, 1997.

[184] J. A. Rice. Mathematical Statistics and Data Analysis. Duxbury Press,Belmont, CA, 1995.

[185] A. Richards. Alien Vision: Exploring the Electromagnetic Spectrum withImaging Technology. SPIE, Bellingham, WA, 2001.

[186] J. A. Richards. Remote Sensing Digital Image Analysis. Springer, Berlin,1986.

[187] J. A. Richards und X. Jia. Remote Sensing Digital Image Analysis. Springer,Berlin, 1999.

[188] M. J. Riedl. Optical Design Fundamentals for Infrared Systems. SPIE, Bel-lingham, 2. Aufl., 2001.

[189] K. Riemer. Analyse von Wasseroberflächenwellen im Orts-Wellenzahl-Raum. Diss., Univ. Heidelberg, 1991.

[190] K. Riemer, T. Scholz und B. Jähne. Bildfolgenanalyse im Orts-Wellenzahlraum. In B. Radig, Hrsg., Mustererkennung 1991, Proc. 13.DAGM-Symposium München, 9.-11. October 1991, S. 223–230. Springer,Berlin, 1991.

[191] A. Rosenfeld, Hrsg. Multiresolution Image Processing and Analysis, Bd. 12von Springer Series in Information Sciences. Springer, New York, 1984.

[192] A. Rosenfeld und A. C. Kak. Digital Picture Processing, Bd. I and II. Aca-demic Press, San Diego, 2. Aufl., 1982.

[193] J. C. Russ. The Image Processing Handbook. CRC, Boca Raton, FL, 4. Aufl.,2002.

[194] H. Samet. Applications of Spatial Data Structures: Computer Graphics,Image processing, and GIS. Addison-Wesley, Reading, MA, 1990.

[195] H. Samet. The Design and Analysis of Spatial Data Structures. Addison-Wesley, Reading, MA, 1990.

[196] H. Scharr und D. Uttenweiler. 3D anisotropic diffusion filtering for en-hancing noisy actin filaments. In B. Radig und S. Florczyk, Hrsg., Pattern


Recognition, 23rd DAGM Stmposium, Munich, Bd. 2191 von Lecture Notesin Computer Science, S. 69–75. Springer, Berlin, 2001.

[197] H. Scharr und J. Weickert. An anisotropic diffusion algorithm with op-timized rotation invariance. In G. Sommer, N. Krüger und C. Perwass,Hrsg., Mustererkennung 2000, Informatik Aktuell, S. 460–467. 22. DAGMSymposium, Kiel, Springer, Berlin, 2000.

[198] T. Scheuermann, G. Pfundt, P. Eyerer und B. Jähne. Oberflächenkon-turvermessung mikroskopischer Objekte durch Projektion statistischerRauschmuster. In G. Sagerer, S. Posch und F. Kummert, Hrsg., Musterer-kennung 1995, Proc. 17. DAGM-Symposium, Bielefeld, 13.-15. September1995, S. 319–326. DAGM, Springer, Berlin, 1995.

[199] C. Schnörr und J. Weickert. Variational image motion computations: theo-retical framework, problems and perspective. In G. Sommer, N. Krügerund C. Perwass, Hrsg., Mustererkennung 2000, Informatik Aktuell, S. 476–487. 22. DAGM Symposium, Kiel, Springer, Berlin, 2000.

[200] B. Schöllkopf und A. J. Smola. Learning with Kernels, Support Vector Ma-chines, Regularization, Optimization, and Beyond. MIT Press, Cambridge,MA, 2002.

[201] J. R. Schott. Remote Sensing. The Image Chain Approach. Oxford Univer-sity Press, New York, 1997.

[202] G. Schröder. Technische Optik. Vogel, Würzburg, 8. Aufl., 1998.

[203] J. Schürmann. Pattern Classification. John Wiley & Sons, New York, 1996.

[204] R. Sedgewick. Algorithmen. Addison-Wesley, Bonn, 8. Aufl., 1992.

[205] J. Serra. Image analysis and mathematical morphology. Academic Press,London, 1982.

[206] J. Serra und P. Soille, Hrsg. Mathematical Morphology and its Applicationsto Image Processing, Bd. 2 von Computational Imaging and Vision. Kluwer,Dordrecht, 1994.

[207] L. G. Shapiro und G. C. Stockman. Computer Vision. Prentice Hall, UpperSaddle River, NJ, 2001.

[208] E. P. Simoncelli, W. T. Freeman, E. H. Adelson und D. J. Heeger. Shiftablemultiscale transforms. IEEE Trans. IT, 38(2):587–607, 1992.

[209] R. M. Simonds. Reduction of large convolutional kernels into multipassapplications of small generating kernels. J. Opt. Soc. Am. A, 5:1023–1029,1988.

[210] A. Singh. Optic Flow Computation: a Unified Perspective. IEEE ComputerSociety Press, Los Alamitos, CA, 1991.

[211] A. T. Smith und R. J. Snowden, Hrsg. Visual Detection of Motion. AcademicPress, London, 1994.

[212] W. J. Smith. Modern Optical Design. McGraw-Hill, New York, 3. Aufl., 2000.

[213] P. Soille. Morphologische Bildverarbeitung. Grundlagen, Methoden, An-wendungen. Springer, Berlin, 1998.

[214] G. Sommer, Hrsg. Geometric Computing with Clifford Algebras. Springer,Berlin, 2001.

[215] J. Steurer, H. Giebel und W. Altner. Ein lichtmikroskopisches Verfahrenzur zweieinhalbdimensionalen Auswertung von Oberflächen. In G. Hart-


mann, Hrsg., Proc. 8. DAGM-Symp. Mustererkennung 1986, Informatik-Fachberichte 125, S. 66–70. DAGM, Springer, Berlin, 1986.

[216] R. H. Stewart. Methods of Satellite Oceanography. University of CaliforniaPress, Berkeley, 1985.

[217] T. M. Strat. Recovering the camera parameters from a transformationmatrix. In Proc. DARPA Image Understanding Workshop, S. 264–271, 1984.

[218] B. ter Haar Romeny, L. Florack, J. Koenderink und M. Viergever, Hrsg.Scale-Space Theory in Computer Vision, Bd. 1252 von Lecture Notes inComputer Science, 1997. 1st Int. Conf., Scale-Space’97, Utrecht, The Net-herlands, Springer, Berlin.

[219] D. Terzopoulos. Regularization of inverse visual problems involving dis-continuities. IEEE Trans. PAMI, 8:413–424, 1986.

[220] D. Terzopoulos. The computation of visible-surface representations. IEEETrans. PAMI, 10 (4):417–438, 1988.

[221] D. Terzopoulos, A. Witkin und M. Kass. Symmetry-seeking models for 3Dobject reconstruction. In Proc. 1st Int. Conf. Comp. Vis. (ICCV), London, S.269–276. IEEE, IEEE Computer Society Press, Washington, 1987.

[222] D. H. Towne. Wave Phenomena. Dover, New York, 1988.

[223] S. Ullman. High-level Vision. Object Recognition and Visual Cognition. TheMIT Press, Cambridge, MA, 1996.

[224] S. E. Umbaugh. Computer Vision and Image Processing: A Practical Ap-proach Using CVIPTools. Prentice Hall PTR, Upper Saddle River, NJ, 1998.

[225] R. Unbehauen. Systemtheorie I. Allgemeine Grundlagen, Signale und li-neare Systeme im Zeit- und Frequenzbereich. Oldenbourg, München, 7.Aufl., 1997.

[226] R. Unbehauen. Systemtheorie 2. Mehrdimensionale, adaptive und nichtli-neare Systeme. Oldenbourg, München, 7. Aufl., 1998.

[227] M. Unser, A. Aldroubi und M. Eden. Fast B-spline transforms for con-tinuous image representation and interpolation. IEEE Trans. PAMI, 13:277–285, 1991.

[228] F. van der Heijden. Image Based Measurement Systems. Object Recognitionand Parameter Estimation. Wiley, Chichester, England, 1994.

[229] W. M. Vaughan und G. Weber. Oxygen quenching of pyrenebutyric acidfluorescence in water. Biochemistry, 9:464, 1970.

[230] A. Verri und T. Poggio. Against quantitative optical flow. In ProceedingsICCV’87, London, S. 171–180. IEEE, IEEE Computer Society Press, Washing-ton, DC, 1987.

[231] A. Verri und T. Poggio. Motion field and optical flow: qualitative proper-ties. IEEE Trans. PAMI, 11 (5):490–498, 1989.

[232] K. Voss und H. Süße. Praktische Bildverarbeitung. Hanser, München, 1991.

[233] B. A. Wandell. Foundations of Vision. Sinauer Ass., Sunderland, MA, 1995.

[234] A. Watt. 3D Computer Graphics. Addison-Wesley, Workingham, England,3. Aufl., 1999.

[235] A. Webb. Statistical Pattern Recognition. Wiley, Chichester, UK, 2002.

[236] J. Weickert. Anisotropic Diffusion in Image Processing. Dissertation, Fa-culty of Mathematics, University of Kaiserslautern, 1996.


[237] J. Weickert. Anisotropic Diffusion in Image Processing. Teubner, Stuttgart,1998.

[238] E. W. Weisstein. CRC Concise Encyclopedia of Mathematics. CRC, BocaRaton, FL, 2. Aufl., 2002.

[239] I. Wells, W. M. Efficient synthesis of Gaussian filters by cascaded uniformfilters. IEEE Trans. PAMI, 8(2):234–239, 1989.

[240] B. Wendland. Fernsehtechnik I: Grundlagen. Hüthig, Heidelberg, 1988.

[241] J. N. Wilson und G. X. Ritter. Handbook of Computer Vision Algorithms inImage Algebra. CRC, Boca Raton, FL, 2. Aufl., 2000.

[242] G. Wolberg. Digital Image Warping. IEEE Computer Society, Los Alamitos,CA, 1990.

[243] R. J. Woodham. Multiple light source optical flow. In Proc. 3rd Int. Conf. onComputer Vision 1990 (ICCV’90), Osaka, S. 42–46. IEEE Computer Society,Los Alamitos, 1990.

[244] P. Zamperoni. Methoden der digitalen Bildsignalverarbeitung. Vieweg,Braunschweig, 1989.

[245] E. Zeidler, G. Grosche und I. N. Bronstein. Teubner-Tauschenbuch derMathematik. Teubner, Wiesbaden, 2003.

Sachverzeichnis

Symbole3D-Bildaufnahme 2274er-Nachbarschaft 356er-Nachbarschaft 358er-Nachbarschaft 35

AAbbildung

inverse 289Abbildungsgleichung 207Abbildungsmaßstab

axialer 207lateraler 207

Ableitungsfiltergerichtete 403

Ableitungsoperator 385Ableitungstheorem 57Absorptionskoeffizient 191Abtasttheorem 257, 259, 375Abtastung 258adiabatische Kompressibilität 182affine Abbildung 290Ähnlichkeitsbedingung 487Ähnlichkeitstheorem 220AI 565Aktions-Perzeptions-Zyklus 17aktive Kontur 488aktive Triangulation 233aktives Sehen 16, 18akustische Bildgebung 183akustische Welle 182Algorithmus

schneller 76Aliasing 255Alphastrahlung 182AltiVec 26Amplitude

Fouriertransformation 59lokale 393

Anaglyphenverfahren 233

Analog-Digital-Wandler 271analytische Funktion 393analytisches Signal 393, 395angewandte Informatik 18ARMA 131artificial intelligence 565Assoziativität 122, 533Astronomie 3, 18Aufwärtstastung 54äußeres Produkt 50Ausgangs-LUT 271Autokorrelationsfunktion 104Autokovarianzfunktion 104autoregressive moving average

process 131axialer Abbildungsmaßstab 207

BB-Splines 300Bandabtastung 171bandbegrenzt 258Bandpassfilter 136, 146Bandpasszerlegung 150, 159Basis

stereoskopische 232Basis-2-FFT-Algorithmus 70, 73Basis-4-FFT-Algorithmus 77Basisbild 42, 120Baum 478, 545Baumstruktur 543, 545BCCE 425Beleuchtung

ungleichmäßige 282Beleuchtungs-Schnittbilder 230Beleuchtungsstärke 177Belichtungszeit 96Besselfunktion 219Bestimmtheitsmaß 440Bestrahlungsstärke 31, 168Betastrahlung 182

632 Sachverzeichnis

beugungsbegrenzte Optik 221Bewegung 15Bewegung als Orientierung 422Bewegungsenergiemodelle 450Bewegungsfeld 423bidirektionale

Reflexionsverteilungsfunktion191

Bilddiskretes 34

Bildanalyse 471Bilddatenkompression 68Bildfluss 424Bildgebung

akustische 183Bildkoordinaten 203

verallgemeinerte 205Bildmittelung 281Bildqualität 277Bildrekonstruktion 16Bildrestauration 16bildseitige Schärfentiefe 209Bildsensor 101Bildsequenz 8Bildvektor 510Bildverarbeitung 17Bildvorverarbeitung 15Bildwürfel 420bimodale Verteilung 472binäre Faltung 529binäres Rauschen 324Binomialfilter 431Binomialverteilung 98, 320Binärbild 471Biolumineszenz 194bit reversal 73Bitumkehr 73Blatt

eines Baums 478Blattknoten 545Blende 211Blendenproblem 233, 417, 422, 423,

430, 433, 439, 508, 519Blockdistanz 37bounding box 560Brechung 188, 598Brechungsindex 178Brennpunkt-Schnittweite 206Brennweite 206Brewsterwinkel 190

brightness change constraintequation 425

Butterfly-Operation 74

CCache 76Camera Link 24Canny-Filter 366Cauchy-Schwarz-Ungleichung 442CCD 22charakteristischer Vektor 128charakteristischer Wert 128charge coupled device 22Chemolumineszenz 194Chiquadrat-Verteilung 100, 101, 107Chiverteilung 100Closing 535CLSM 237Cluster 567CMOS-Bildsensor 22Co-Spektrum 107Colorimetrie 174computer vision 18Computer-Sehen 18Computertomografie 8Connection Machine 520Cooley-Tukey-Algorithmus 77, 78CT 8

Ddarstellungsunabhängige Notation

113Datenvektor 505, 511Defokussierung 513Deformationsenergie 519Deltafunktion

diskrete 129Designmatrix 505DFT 46DHT 68Difference of Gaussian 368Differenzialgeometrie 448differenzieller Skalenraum 158differenzieller Wirkungsquerschnitt

193Diffusions-Reaktions-System 498Diffusionsgleichung 524Diffusionskoeffizient 152Diffusionstensor 501digitale Signalverarbeitung 85

Sachverzeichnis 633

digitales Objekt 34Digitalisierung 199, 255Dilatation 290Dilatationsoperator 530diskrete Deltafunktion 129diskrete Faltung 115diskrete Fouriertransformation 46,

131diskrete Hartleytransformation 68diskreter Skalenraum 159diskretes Bild 34diskretes inverses Problem 488Disparität 231Dispersion 180, 183Distanztransformation 540Distributivität 123, 534divide and conquer 70, 77DoG 368, 403Dopplereffekt 196dreieckiges Gitter 35Dreipunkt-Abbildung 290duale Basis 265duale Operatoren 534Dualität 534DVD 25dyadische Punktoperation 306, 353dyadischer Operator 114dynamischen Bereich 231

EEbene 448Ecke 346effektive Brennweite 206effektive inverse OTF 517Eigenbild 128Eigenfunktion 56Eigenschaftsbild 111Eigenvektor 128, 437Eigenvektoren 95Eigenwert 56, 95, 128, 502Eigenwertanalyse 437Eigenwertproblem 380einfache Nachbarschaft 373, 375Eingangs-LUT 271Einheitskreis 46Einheitsvektor 609elastische Membran 518elastische Platte 520elastische Welle 182Elastizitätskonstante 519

elektrisches Feld 178elektromagnetische Welle 178Elektron 182Elektronenmikroskop 182Elektrotechnik 18Elementarzelle 32Ellipse 551elliptisch polarisiert 180Emission 183Emissivität 186Endknoten 545Energie 62Ensemble-Mittelwert 103Ensemble-Varianz 103Entfaltung 128, 514Entscheidungsraum 574ergodisch 105Erosion 530Erwartungswert 88Ethernet 24euklidische Distanz 36Euler-Lagrange-Gleichung 491, 499Expansionsoperator 149Exponentialfunktion

komplexe 131exponentieller Skalenraum 158Extinktionskoeffizient 192Exzentrizität 551

FFaltung 55, 96, 105, 216, 385

diskrete 115normalisierte 236, 335zyklische 118

Faltungbinäre 529

Faltungsmaske 55Faltungstheorem 56, 121, 129fan beam projection 247Faraday-Effekt 194Farbdifferenzsystem 177Farbenlehre 174Farbton 177fast Fourier transform 70Fehler

statistischer 85systematischer 85

Fehlerfortpflanzungsgesetz 508Fehlerfunktional 492Fehlervektor 505

634 Sachverzeichnis

Feldelektrisches 178magnetisches 178

Fenster 112Fensterfunktion 260, 287Fernerkundung 18FFT

Basis-2-Zerlegung im Zeitraum 70Basis-4-Zerlegung im Zeitraum 77Cooley-Tukey-Algorithmus 78multidimensional 78Zerlegung im Fourierraum 78Zerlegung im Zeitraum 73

Filter 111difference of Gaussian 403finite impulse response 130gerade Symmetrie 116infinite impulse response 130kausales 129, 131Median- 126nichtlineares 126polar separierbares 337, 404Rangordnungs- 126, 530rekursives 129separierbares 123, 133stabiles 130steuerbares 337Transferfunktion 122ungerade Symmetrie 116

Filtermaske 122Filterung 56

inverse 128, 514Finite Impulse Response-Filter 130FIR-Filter 130Firewire 24Fixpunkt 335Fluoreszenz 194Fluss

optischer 424Fläche 557, 558Fokusserie 515Fotografie 3Fourierdeskriptor 543

kartesisch 552polar 554

Fourierraum 609Fourierreihe 48Fourierring 51Fourierscheibentheorem 250Fouriertorus 51

Fouriertransformation 31, 43, 49,105, 216

diskrete 46eindimensional 45lokale 145mehrdimensional 49unendlich diskret 48

Fouriertransformationspaar 46Fouriertransformierte 45Fraunhofer-Beugung 221Freiheitsgrad 508Frequenz 178, 595Frequenzverdoppelung 180Fresnel-Gleichungen 189, 598FS 48Fülloperation 548Funktion

analytische 393

GGaborfilter 396, 446Gammatransformation 279Gammawert 41Gaußsche Glockenkurve 57Gaußpyramide 147Gaußpyramide 144, 147, 594Gaußverteilung 98gefilterte Rückprojektion 250, 251gemeinsame Wahrscheinlichkeits-

dichtefunktion91

Genauigkeit 85generalisierte Inverse 507Geodäsie 229geometrische Operation 269Gestalt 529Gestalt aus Brechung 244Gestalt aus Schattierung 9, 229,

230, 240, 488gewichtete Mittelung 335Gitter

dreieckiges 35hexagonales 35quadratisches 35reziprokes 258

Gittervektor 36Glattheit 494Glattheitsbedingung 487, 494Glättungsoperator 385Gleichverteilung 90, 100

Sachverzeichnis 635

globales Optimierungsproblem 487Gradientenraum 241Gradientenvektor 347Grauwertecke 449, 450Grauwertextremum 449, 450Grenzwellenzahl 259Grenzwertsatz, zentraler 57Gruppe 65Gruppengeschwindigkeit 399Größe 458

HHaartransformation 69Hadamardtransformation 68Halbgruppen-Eigenschaft 156Hamiltonprinzip 491Hankeltransformation nullter

Ordnung 219Hartleytransformation 68Hauptachsensystem 348, 433Hauptachsentransformation 94, 572Hauptebene 206Hauptpunkt 206Hauptstrahl 211hermitesche Symmetrie 52Hesse-Matrix 348, 447hexagonales Gitter 35hierarchische Bildverarbeitung 15hierarchische Textur 455Hilbertfilter 391, 446, 462Hilbertoperator 391Hilbertraum 66Hilberttransformation 390, 392Histogramm 88, 567Hit-Miss-Operator 536, 538homogen 88homogene Koordinaten 224, 290homogene Punktoperation 270homogenes stochastisches Feld 104Homogenität 119Houghtransformation 482, 507HSI-Farbsystem 177HT 68Huygensches Prinzip 221Hydrodynamik 424Hyperebene 507

IIA-64 26idempotenter Operator 535

IDFT 48IEEE 1394 24IIR-Filter 130Impuls 335Impulsantwort 120, 127, 129Impulsrauschen 324Infinite Impulse Response-Filter 130Informatik 17Infrarot 186inhomogene Punktoperation 281inhomogener Hintergrund 311inkohärent 181inneres Produkt 43, 65, 402Intensität 177Interferometrie 229Interpolation 262, 265, 293Interpolationsbedingung 602Interpolationsbedingungen 294inverse Abbildung 289inverse Filterung 128, 488, 514inverse Fouriertransformation 45,

49inverses Problem

überbestimmtes 505

JJacobi-Matrix 95, 369Joint Photographic Experts Group

68JPEG 68

KKalibrierungsfehler 86Kamerakoordinatensystem 200Kante 335, 346

eines Baums 478kantenbasierte Segmentierung 475Kantendetektion 345, 373

regularisiert 364Kantenstärke 345kartesische Koordinaten 100Kartografie 229kausales Filter 129, 131Kernspintomografie 248Kerr-Effekt 194KI 565Klassifizierung 16, 566

objektbasiert 567pixelbasiert 567selbstlernend 574

636 Sachverzeichnis

Klassifizierungunüberwachte 573überwachte 573

Klassifizierungsverfahren 574KMQ-Verfahren 233Knoten 73

eines Baum 478Kognitionswissenschaft 18Kohärenztomografie 7kohärentes Licht 240Kohärenz 181Kohärenzfunktion 107Kohärenzlänge 230Kohärenzmaß 384Kohärenzradar 240Kommutativität 122, 532komplexe Ebene 46komplexe Exponentialfunktion 128,

131komplexe Struktur 373komplexe Zahl 45, 121komplexes Polynom 132komplexwertiger Vektor 46konfokale Laserabtastmikroskopie

237konstante Nachbarschaft 335kontrollierte Glattheit 496Konturverfolgungsalgorithmus 477Koordinaten

homogene 224Korrelation 125

zyklische 105Korrelationskoeffizient 92Korrespondenz

physikalische 419visuelle 419

Korrespondenzproblem 418Kosinustransformation 67Kovarianz 91, 104Kovarianzmatrix 92, 124, 508, 572Kreisblende 222Kreuzkorrelationsfunktion 105Kreuzkorrelationskoeffizient 442Kreuzkorrelationsspektrum 107Kreuzkovarianz 571Kreuzkovarianzfunktion 105Krümmung 348, 450künstliche Intelligenz 18, 565

LLagrangefunktion 491Lambert-Beer-Bouguer-Gesetz 192Lambertscher Strahler 185, 191Laplace of Gaussian 367Laplacegleichung 495Laplaceoperator 153, 159, 349, 360Laplacepyramide 144, 147, 149, 594Laplacetransformation 132Laser 180lateraler Abbildungsmaßstab 207laufendes Mittel 157Lauflängenkodierung 543, 544Leistungsspektrum 61, 106Leuchtstärke 177Licht 178Lichtgeschwindigkeit 178, 595linear shift-invariant system 138lineare Interpolation 296lineare Polarisation 180lineare Symmetrie 375, 439linearer verschiebungsinvarianter

Operator 120lineares diskretes inverses Problem

504lineares verschiebungsinvariantes

System 138, 512Linie 346Linienabtastung 170Linsenaberrationen 513Lochkamera 599Lochkameramodell 203LoG 367logarithmische Polarkoordinaten 63lognormal 405, 409lokale Amplitude 393lokale Fouriertransformation 145lokale Orientierung 395, 404, 519lokale Phase 393, 395lokale Varianz 459lokale Wellenzahl 390, 404, 409, 462lokaler Extremwert 346Lookup-Tabelle 271, 353Lookup-Tabellenoperationen 271LSI 138, 216LSI-Operator 120LTI 120Lumineszenz 194LUT 271

Sachverzeichnis 637

Mm-zahlige Rotationssymmetrie 554machine vision 18magnetisches Feld 178Magnetresonanztomografie 7, 8marginale PDF 91Marr-Hildreth-Operator 367maschinelles Sehen 18Maske 112

separierbare 123Mathematik 17Matrix 608Maximierungsproblem 380Maximumfilter 126Maximumoperator 530Medianfilter 126, 334medizinische Bildverarbeitung 18Mehrgitterdarstellung 144, 146Mehrgitterverfahren 330Mehrkanal-Punktoperationen 305mehrskalige Texturanalyse 457Mehrwellenlängen-Interferometrie

240Membran, elastische 518menschliches Sehsystem 19, 172Merkmalsbild 15Merkmalsraum 567Merkmalsvektor 567Metamere 174metamere Farbreize 174Metrologie 18MFLOPS 69Mie-Streuung 194Mikroskopie 210Mikrowelle 186Minimum-Maximum-Prinzip 156Minimumfilter 126Minimumoperator 530Mittel, laufendes 157Mittelung

gewichtete 335rekursive 330

Mittelwert 88, 93, 458mittelwertfreies homogenes

Rauschen 105mittelwertfreies normalverteiltes

Rauschen 324mittelwertfreies Rauschen 104MMX 26Modell 488

modellbasierte Segmentierung 471,481

modellbasierte spektrale Abtastung171

Modellmatrix 505, 511Modellraum 482Modellvektor 505Moiré-Effekt 255, 259molarer Absorptionskoeffizienz 192Moment 89, 543, 548

zentrales 549Moment

größeninvariantes 549Momenten-Tensor 551monadischer Operator 114monogenen Signal 399monogenes Signal 394Monotonie 533morphologischer Operator 531Motility-Assay 9MR 248MRT 8Multimedia Instruction Set Extension

26Muster 373Mustererkennung 18, 563

NNachbarschaft

4er- 356er- 358er- 35einfache 373, 375

Nachbarschaftsoperation 111Nagelbrettfunktion 258Netzwerkmodell 520Neuroinformatik 18neuronales Netz 580Neutron 182nichtlineare Optik 180nichtlineares Filter 126Norm 65normale Geschwindigkeit 439Normalengeschwindigkeit 445normalisierte Faltung 236, 335Normalverteilung 98, 99, 107Nulldurchgang 360, 497nullphasiger Filter 133, 312Nullraum 381numerische Apertur 223

638 Sachverzeichnis

Nyquist-Wellenzahl 259

OOberfläche 347Objekt

digitales 34objektbasierte Klassifizierung 567Objektradius 554objektseitige Schärfentiefe 209OCR 12, 563, 570Oder-Operation 529OFC 425Öffnen 534Okklusion 204Opening 534Operator 608

idempotent 535Laplace 349linearer und

verschiebungsinvarianter120

morphologischer 531Operatorgleichung 113Operatornotation 113optical character recognition 12,

563, 570optical flow constraint 425Optik

nichtlineare 180optische Achse 206optische Dichte 192optische Fluss 423optische Signatur 566optische Täuschung 20optische Transferfunktion 218, 513optischer Fluss 424Optoelektronik 18Orientierung 377, 422, 458, 550

lokale 404, 519orientierungsinvariant 408orthonormale Basis 43orthonormale Transformation 200Orts/Zeit-Bild 9Orts/Zeit-Energiemodelle 450Oszillator 137OTF 218, 513, 516

effektive inverse 517

PParallaxe 231, 232

parallel polarisiert 189Parametervektor 505, 511Pascalsches Dreieck 320PBA 195Pel 31Periodizität

DFT 50perspektivische Projektion 204, 224PET 8Phase 390, 444

Fouriertransformation 59lokale 393

Phasengeschwindigkeit 595Phasenwinkel 44Phosphoreszenz 194Photogrammetrie 3, 18photogrammetrisches Stereo 242Photometrie 170photometrisches Stereo 488Photon 181photopisches Sehen 172Physik 17physikalische Korrespondenz 419picture element 32Pixel 31, 86pixelbasierte Klassifizierung 567pixelbasierte Segmentierung 472Planck 184Plancksche Konstante 181point spread function 120, 215Poissonprozess 96Poissonverteilung 181polar separierbar 404Polarkoordinaten 100Positronenemissionstomografie 7, 8Potenzial 519Primärfarben 174Produkt

inneres 402Projektion

perspektivische 204Projektionstheorem 250Proton 182Präzision 85Pseudofarbbild 273Pseudofarbdarstellung 275PSF 120, 215, 513, 516Pulsmodulation 239Punkt-Vektor-Operation 273

Sachverzeichnis 639

Punktantwort 120, 127, 129, 215,472, 512, 513

Punktoperation 86, 111, 269homogene 270inhomogene 281nichtlineare 385

Punktoperator 89Pyramid-Linking 478pyramidale Richtungszerlegung

151, 446Pyrenbuttersäure 195

QQuad-Spektrum 107Quadrant 545quadratischer Skalenraum 158quadratisches Gitter 35Quadraturfilter 390, 395Quadraturfilterpaar 462Quadtree 545Quantenausbeute 23, 102Quantenmechanik 66Quantifizierung 199Quantisierung 38, 266Quenching 195

Rradiale Verzeichnung 211Radiometrie 167radiometrische Kalibrierung 284Radiosität 427Radontransformation 249RAID array 24Rangordnungsfilter 126, 334, 530rank value filter 126Raumwinkel 168Rauschen 311

mittelwertfrei 104mittelwertfrei, homogen 105mittelwertfrei, normalverteilt 324weißes 335

Rauschenbinäres 324

Rauschmodell 101Rauschunterdrückung 323Rauschunterdrückung 324, 334Rayleigh-Kriterium 222Rayleigh-Streuung 193Rayleightheorem 62Rayleighverteilung 100

reale Korrespondenz 419Rechenkomplexität 70Rechteck

umgebendes 547Rechteckfilter 314, 431Rechteckfunktion 217, 257Reflektivität 598Reflexionskoeffizient 189Region

konstante 311Region

zusammenhängende 34Regionen-Octree 546regionenorientierte Segmentierung

477regularisierter Kantendetektor 364Rekonstruktion 112, 488rekursive Mittelung 330rekursives Filter 129Relaxationsfilter 133, 134Rendering-Gleichung 427Resonanzfilter 133Restaurierung 112, 487, 493, 512reziproke Basis 265reziprokes Gitter 258, 264Richtung 377Richtungsableitung 347, 399Richtungskette 543, 547Riesztransformation 394Robustheit 388Rotation 37, 200, 224, 290Rückprojektion

gefilterte 251Rundheit 559räumliches Kohärenzmaß 440Röntgenstrahlung 8Rückwärtsabbildung 289

SSatellitenbild 564Sauerstoff 195Schachbrettdistanz 37Schallgeschwindigkeit 182Schärfentiefe 208, 234Scherung 290Schiefheit 89Schließen 535schnelle Fouriertransformation 70schneller Algorithmus 69, 76Schrifterkennung 563, 570

640 Sachverzeichnis

schwarzer Körper 184, 187Schwarzkörper-Kalibriereinheit 285Schwerpunkt 549Segmentierung 15, 471, 488

kantenbasierte 475modellbasierte 471, 481pixelbasierte 472regionenorientierte 477

Sehsystem, menschliches 172senkrecht polarisiert 189Sensorelement 86Separabilität

FT 54separierbare Maske 123separierbares Filter 133shape from shading 9Signal

analytisches 393monogenes 394

SIMD 25Single Instruction Multiple Data 25Singularwertzerlegung 508Sinustransformation 67Skala 152Skalar 608Skalarprodukt 43, 46, 47, 49, 65,

106, 402Skalenfehlanpassung 143Skaleninvarianz 155Skalenraum 144, 152, 499

differenzieller 158diskreter 159exponentieller 158quadratischer 158

Skalierung 224skotopisches Sehen 172snake 488Snellius-Brechungsgesetz 188Snellsches Gesetz 598Sobeloperator 387Sohnknoten 478, 545spektraler Hellempfindlichkeitsgrad

596Spektroradiometrie 170spektroskopische Bildaufnahme 170spezifische Drehung 194Spline 300Spracherkennung 18, 563Standardabtastung 261Standardabweichung 93

Statistik erster Ordnung 86statistischer Fehler 85Stauchung 290Stefan-Boltzmann-Gesetz 185Stereobild 487stereoskopische Basis 232Stereosystem 232Stern-Vollmer-Gleichung 195steuerbares Filter 337stochastischer Prozess 86, 103stochastisches Feld 103

homogenes 104Strahlungsenergie 167Strahlungsfluss 168, 193Streukoeffizient 192Streuquerschnitt 193Struktur

komplexe 373Strukturelement 112, 531Strukturtensor 379, 484Stufenkante 478suchen 70Superpositionsprinzip 119, 532support vector machine 580Symmetrie 554

DFT 51lineare 375

Symmetriebedingung 320systematischer Fehler 85Sättigung 177

TTäuschung, optische 20technische Informatik 18technische Optik 17Teilbaum 480Teilchenphysik 3telezentrische Beleuchtung 244telezentrisches Objektiv 211Tensor 608Testbild 317Textur 15, 373, 455

hierarchisch 455Texturanalyse

mehrskalige 457TF 121theoretische Mechanik 491thermische Emission 183Thermografie 186Tiefe aus

Sachverzeichnis 641

Kohärenz 230Laufzeit 229Mehrfach-Projektionen 231Phase 229Triangulation 229

Tiefe aus Paradigma 229Tiefenauflösung 231Tiefenbereich 231Tiefenbild 227, 229, 487, 488Tiefenkarte 6, 235Tiefensuche 545TIFF 544Tilgung 195Tomografie 16, 112, 231, 247, 488total least squares 437totales Kohärenzmaß 441Totalreflexion 190, 599Trägheitstensor 550Transferfunktion 121, 122, 512

rekursives Filter 131Translation 37, 200, 224, 290Translationsinvarianz 119, 548Transmissionskoeffizient 192Transmissionstomografie 248Transportgleichung 524Triangulation 229

aktive 233Tristimulus 174Trägheitstensor 401

UÜberabtastung 263überbestimmtes inverses Problem

505überwachte Klassifizierung 573Ulbrichtkugel 284Ultraschall 183Ultraschallmikroskopie 183Umfang 559unabhängige Zufallsvariablen 91Und-Operation 529unendliche diskrete

Fouriertransformation 48ungleichmäßige Beleuchtung 282,

311unitäre Transformation 31unitäre Transformation 64unkorrelierte Zufallsvariable 92Unschärferelation 59, 146, 149, 321,

400

unüberwachte Klassifizierung 573

VVan Cittert-Iteration 517Varianz 88, 91, 101, 103, 458, 508,

572lokale 459

Varianzoperator 236, 459Variationsrechnung 491Vaterknoten 478Vektor 608

charakteristischer 128komplexwertiger 46

vektorielles Eigenschaftsbild 311verallgemeinerte Bildkoordinaten

205Verschiebungsinvarianz 104, 119,

532Verschiebungsoperator 119Verschiebungstheorem 55, 131,

146, 396Verschiebungsvektor 417, 424, 518Verschiebungsvektorfeld 424, 488,

518Verteilungsfunktion 87Verzeichnung, radiale 211Vierpunkt-Abbildung 291VIS 26visual instruction set 26visuelle Korrespondenz 419visuelles Inspektionssystem 5volume element 34Volumenbild 6, 227, 347Vorwärtsabbildung 289Voxel 34, 420VV 417, 424, 518VVF 424, 518

WWahrscheinlichkeitsdichtefunktion

87Waldschäden 564Wärmebild 281weißes Rauschen 107, 335Weißlicht-Interferometrie 7, 240Weißpunkt 177Welle

elektromagnetische 178Wellenlänge 43, 170, 178, 216, 595Wellenzahl 170, 608

642 Sachverzeichnis

lokale 390, 404, 409Wellenzahl-Vektor 44Weltkoordinatensystem 199Wert

charakteristischer 128Wiensches Gesetz 185Wirkungsquantum 181Wirkungsquerschnitt 193Wurzel 335, 545

eines Baums 478

Xx86-64 26XYZ-Farbsystem 176

Zz-Transformation 51, 132Zeichenerkennung 12Zeitserie 63, 120, 608zentraler Grenzwertsatz 57, 99zentrales Moment 549Zentralprojektion 203Zentroid 553Zielfunktion 362zirkular polarisiert 180Zufallsmodulation 240Zufallsvariable 87, 181

unkorreliert 92zusammenhängende Region 34ZV 87Zwei-Punkt-Kalibrierung 284zyklisch 377zyklische Faltung 118zyklische Korrelation 105

digitale bildverarbeitung ||

Documents