einführung in neuronale netzwerke in der bildklassifikation
DESCRIPTION
Friedrich-Schiller-Universität Jena Institut für GeographieWiSe07/08GEO 408: „Datenexploration in der Fernerkundung“Modulverantwortlicher: Dr. Sören HeseEinführung in Neuronale Netzwerke in der BildklassifikationHausarbeitvorgelegt von: André Armstroff Studiengang: Geographie M. Sc. Semester: 1/4 Matr.-Nr.: 67655Abgabedatum: 16.01.2008InhaltAbbildungen………………………………………………………………………………..IVAbkürzungen………………………………………………………………………………..V1Einleitung………………………………………………………………………….….1TRANSCRIPT
Friedrich-Schiller-Universität Jena WiSe07/08 Institut für Geographie
GEO 408: „Datenexploration in der Fernerkundung“
Modulverantwortlicher: Dr. Sören Hese
Einführung in Neuronale Netzwerke in der
Bildklassifikation
Hausarbeit
vorgelegt von:
André Armstroff
Studiengang: Geographie M. Sc.
Semester: 1/4
Matr.-Nr.: 67655
Abgabedatum: 16.01.2008
II
Inhalt
Abbildungen………………………………………………………………………………..IV
Abkürzungen……………………………………………………… ………………………..V
1 Einleitung………………………………………………………………………… .….1
2 Grundlagen künstlicher neuronaler Netzwerke…………… ………….………2
2.1 Grundlegende Zielsetzungen künstlicher neuronaler Netzwerke……….2
2.2 Historischer Abriss…………………………………………………………...3
2.3 Aufbau künstlicher neuronaler Netzwerke…………………………………5
2.3.1 Neuronen………………………………………………………………5
2.3.2 Verbindungen………………………………………………….………6
2.3.3 Komplexität künstlicher neuronaler Netzwerke……………………7
2.4 Funktionsweise künstlicher neuronaler Netzwerke……………………….9
2.4.1 Signalübertragung in künstlichen neuronalen Netzwerken………9
2.4.2 Trainings- und Ausbreitungsphase…………………………..……11
2.4.3 Lernregeln……………………………………………………………12
2.4.4 Gradientenabstiegsverfahren……………………………………...15
2.5 Eigenschaften künstlicher neuronaler Netzwerke…………………….…18
III
3 Anwendung künstlicher neuronaler Netze in der Änderungs-
Detektierung von Koniferen-Wäldern………………………………………...19
3.1 Grundlagen der Untersuchung…………………………………………….19
3.2 Vorgehen und Ergebnisse…………………………………………….……21
4 Anwendung künstlicher neuronaler Netze zur Klassi fikation einer
Landsat-TM-Szene………………………………………………………………...25
4.1 Datengrundlage und Vorverarbeitung…………………………...……….25
4.2 Vorgehen und Ergebnis…………………………………...……….………27
5 Zusammenfassung………………………………… ……………………………..31
Literatur……………………………………………………………………………………..32
IV
Abbildungen
Abb. 1: Schematische Darstellung eines künstlichen neuronalen Netzes mit
jeweils einer Input-, Hidden- und Output-Schicht………………...…………....6
Abb. 2: Rekurrentes künstliches neuronales Netzwerk mit Gewichtsmatrix……….…..7
Abb. 3: Bearbeitbarkeit von Klassifikationsproblemen unterschiedlicher
Komplexität mit Feedforward-Netzwerken mit keiner, einer und
zwei Hidden-Unit-Schichten……………………………………………...….…8
Abb. 4: Beschreibung eines nicht-linearen Zusammenhangs mittels
verschieden komplexer Funktionen…………………………………………….9
Abb. 5: Sigmoidale Aktivitätsfunktion…………………………………………..…….10
Abb. 6: Schematische Darstellung eines künstlichen neuronalen Netzwerks
mit Backpropagation-Ansatz……………………………………………...…. .14
Abb. 7: Zweidimensionale Fehler-Hyperebene im dreidimensionalen Raum……..…..16
Abb. 8: Lage des Tahoe-Sees……………………………………………………….….20
Abb. 9: Schematische Darstellung der zur Change Detection verwendeten
Netzwerk-Architektur…………………………………………………………22
Abb. 10: Vergleich der gemessenen mit den durch das neuronale Netzwerk
berechneten Mortalitäts-Werte………………………………………………...24
Abb. 11: Lage der Landsat-Szene sowie des klassifizierten Ausschnitts auf
einer Deutschland-Karte………………………………………………………25
Abb. 12: Gebiet um die Stadt Arnsberg (Sauerland)…………………………………....26
Abb. 13: Bitmap-Segmente für alle Klassen in PCI Image Works……………………..27
Abb. 14: NNCREAT-Modul……………………………………………………………28
Abb. 15: NNTRAIN-Modul…………………………………………………………….29
Abb. 16: NNCLASS-Modul…………………………………………………………….30
Abb. 17: Klassifikationsergebnis des Gebietes Arnsberg durch ein
neuronales Netz……………………………………………………………….30
V
Abkürzungen
ADALINE Adaptive Linear Neuron
DBIC Data Base Input Channel
KNN Künstliches Neuronales Netzwerk
NHUNIT Neural Hidden Units
NIUNIT Neural Input Units
NNCLASS Neural Network Classification
NNCREAT Neural Network Creation
NNTRAIN Neural Network Training
PCA Principal Component Analysis
PDP Parallel Distributed Processing
PE Processing Element
RMSE Root Mean Square Error
TM Thematic Mapper
XOR Exclusive Or
1
1 Einleitung
Die vorliegende Arbeit befasst sich mit dem Aufbau und der Funktionsweise künstlicher
neuronaler Netze sowie den darauf basierenden Eigenschaften dieser. Darüber hinaus sollen,
ausgehend von diesen, einige Anwendungsmöglichkeiten, insbesondere in der Fernerkundung
aufgezeigt werden. Um diese zu verdeutlichen werden im Anschluss an die Vorstellung der
Grundlagen künstlicher neuronaler Netze zwei Anwendungen aufgezeigt:
Bei dem ersten Verfahren handelt es sich um die erstmalige Verwendung künstlicher
neuronaler Netze zur Änderungskartierung (Change Detection) von Koniferen-Beständen im
Bereich des Tahoe-Sees in Kalifornien. Diese wurde 1996 von SUCHARITA GOPAL und
CURTIS WOODCOCK im Journal Transaction on Geoscience and Remote Sensing veröffentlicht
(GOPAL & WOODCOCK 1996:398).
Im zweiten Beispiel versucht der Autor durch die Anwendung künstlicher neuronaler
Netze die Klassifikation einer Landsat-Szene unter Zuhilfenahme des Programms Geomatica
durchzuführen. Dies soll insbesondere der Veranschaulichung der Programm-
Implementierungen sowie der Festigung und praxisbezogenen Anwendung der zu Anfang
vorgestellten Grundlagen dienen.
2
2 Grundlagen künstlicher neuronalen Netzwerke
2.1 Grundlegende Zielsetzungen künstlicher neuronal er Netzwerke
Bei der Erforschung der künstlichen neuronalen Netze (KNNs) handelte es sich
ursprünglich um ein Teilgebiet der Neurobiologie. Die darin verwendeten Netzwerke waren
und sind eine stark vereinfachte Abstraktion der Zellen des menschlichen Gehirns und der
komplexen Verbindungen zwischen ihnen (WEIPRECHT 2004:9; CALLAN 2003:15).
Ihr ursprünglicher Anwendungsbereich war im Bereich des Verständnisgewinns über die
Funktionsweise des menschlichen Gehirns angesiedelt. Doch auf Grund ihrer einfachen
Struktur, bestehend aus Neuronen (einfache Berechnungseinheiten), die untereinander auf
verschiedenste Art und Weise miteinander verknüpft sein können, stellten sie ein höchst
flexible Werkzeug dar, dass über die Neurobiologie hinaus, auch in unterschiedlichsten
wissenschaftlichen Disziplinen Anwendung finden konnte. Je nach zu bearbeitender
Fragestellung werden demzufolge verschiedenste Netztopologien verwendet. (BECK & REY
o.J.:o.S.; BOCK 1995:37).
Der Unterschied der Anwendung von KNNs gegenüber herkömmlichen Methoden besteht
darin, dass zum einen auch Probleme bearbeitet werden können, die nicht oder nur
unzureichend durch statistische Verteilungen beschreibbar sind. Da keine fälschliche
Annahme über eine solche Verteilung vorgenommen wird, liefern KNNs hier bessere
Ergebnisse als alternative Methoden. Des Weiteren sind KNNs in der Lage
Aufgabenstellungen zu bewältigen, die nicht exakt definiert sind. Das bedeutet, dass das
neuronale Netz eigenständig einen möglicherweise nicht hundertprozentig genauen
Lösungsweg generieren kann, der dafür aber schnell eine starke Annäherung an das
gewünschte Ergebnis liefert. Dies liegt wiederum begründet in der Tatsache, dass KNNs nicht
auf Statistik (in der Fernerkundung insbesondere Bildstatistiken) beruhen, sondern
schrittweise stetige Funktionen (die mathematisch nicht näher spezifiziert werden) aus den
Daten ableiten, inwiefern der Output vom Input abhängt (CAMMAN 2007:11f.; GOPAL &
WOODCOCK 1996:399).
KNNs (beziehungsweise Parallel Distributed Processing (PDP) Models, Neuromorphic
Systems oder Layered Self-Adaptive Networks, wie diese auch bezeichnet werden) lassen sich
beispielsweise in Bereichen wie dem Industrie-, Verkehrs- und Finanzwesen, der
Telekommunikation, der Medizin oder dem öffentlichen Dienst einsetzen. Einige konkrete
3
Anwendungen in der Fernerkundung stellen die Rekonstruktion von Bildinformationen aus
Sensordaten, Rauschunterdrückung, Entzerrung oder das Hervorheben bestimmter Bildinhalte
(zum Beispiel Mustererkennung oder Kantendetektierung) dar. (BISCHOF 1992:482; HESE
2005:17; CALLAN 2003:16 ; EGMONT-PETERSEN et al. 2002: 2279ff.)
2.2 Historischer Abriss
Bei dem Forschungsgebiet der künstlichen neuronalen Netze handelt es sich um einen
verhältnismäßig jungen Wissenschaftsbereich. Der Grundstein der Erforschung der KNNs
wurde zu Beginn der 1940er Jahre gelegt.
Im Jahr 1943 entwickelten Walter Pitts (1924 - 1969) und Warren McCulloch (1898 -
1972) das erste Modell eines Neurons; das McCulloch-Pitts-Neuron. Hierbei handelt es sich
um das einfachste existierende Neuronenmodell, da in ihm ausschließlich binäre Werte
verarbeitet werden können. Jedoch hat sich das Prinzip der Arbeitsweise der künstlichen
neuronalen Netzwerke bis heute nicht wesentlich verändert (BECK & REY o.J.:o.S.; KRIESEL
2007:26; RITTER et al. 1992:25).
Die Grundidee des McCulloch-Pitts-Neurons bestand darin, dass Informationen über die
Außenwelt über einen Sensor zu dem Neuron gelangten und dort einen gewissen
Wahrheitswert erzeugten. Dieser wurde dann über eine weitere Verbindung wieder an die
Außenwelt abgegeben. Mit dem McCulloch-Pitts-Neuron ließen sich einfachste logische
Operationen wie und (∩), oder (U) oder nicht (¬) bearbeiten. Jedoch blieben bei der
Anwendung sowohl die Netzwerkstruktur als auch die Art und Weise des Lernvorgangs völlig
im Verborgenen (BECK & REY o.J.:o.S.; KRIESEL 2007:26; RITTER et al. 1992:25).
Dies änderte sich erst im Jahr 1949 mit der Formulierung der ersten Lernregel durch den
Psychologen Donald Hebb (1904 – 1985). Diese lautet:
„When an axon of cell A is near enough to excite cell B and repeatedly or persistently
takes part in firing it, some growth process or metabolic change takes place in one or both
cells such that A's efficiency, as one of the cells firing B, is increased.” (HEBB 1949:62)
Durch diese Regel wurde zum ersten Mal ein Zusammenhang zwischen den, durch das
Netzwerk geschickten Signalen und der Änderung der Effizienzen der Neuronenverbindungen
4
aufgestellt. Dies schuf die Basis für weitere Entwicklungen im Bereich der Lernregeln (BECK
& REY o.J.:o.S.; KRIESEL 2007:26).
Beispielsweise wurde 1958 von Frank Rosenblatt (1928 - 1969) und Charles Whiteman
das erste Perzeptron-Modell aufgestellt. Dieses in Schichten aufgebaute Netzwerk besteht
ausschließlich aus Input- und Output-Neuronen. Es ist in der Lage mit Hilfe des Perzeptron-
Konvergenz-Theorems seine Struktur (das heißt, die Gewichtungen zwischen seinen
Neuronen) derart zu verändern, dass der Unterschied zwischen einem vorgegebenen Output
und dem erzeugten Output (der aus einem bestimmten Input generiert wird) ein Minimum
erreicht (KRIESEL 2007:27, 57).
Eine erstmalige weit verbreitete kommerzielle Nutzung künstlicher neuronaler Netze
erfolgte in den frühen 1960er Jahren, als Bernard Widrow und Marcian Hoff das ADALINE
(ADAptive LInear NEuron) entwickelten. Dieses wurde in nahezu allen analogen Telefonen
zur Echtzeit-Echofilterung eingesetzt. Das ADALINE wendet die Deltaregel als
Lernalgorithmus an, welcher vergleichbar mit dem Lernalgorithmus des Perzeptrons ist,
gegenüber diesem jedoch den Vorteil hat, dass bei extrem falschen Gewichtseinstellungen
innerhalb des Netzwerks diese stärker verändert wurden. Somit war das Erreichen eines
globalen Fehlerminimums schneller zu realisieren als durch das Perzeptron-Konvergenz-
Theorem, bei welchem die Stärke der Gewichtsveränderung stets konstant war (KRIESEL
2007:27).
Nach einer längeren Periode ohne nennenswerte Neuerungen, in der die Forschung auf
dem Gebiet der KNNs mangels Geldgebern teilweise nahezu völlig zum Erliegen kam, war es
schlussendlich Paul Werbos, der 1974 durch die Veröffentlichung seines Backpropagation-
Ansatzes einen erneuten Aufschwung einleitet. Allerdings sollte es noch bis 1986 dauern, bis
die Backpropagation auch in der Forschung intensiv zum Einsatz kam. Dies ist insbesondere
David Rumelhart (1948- ), Geoffrey Hinton (1947- ) und Ronald Williams zu verdanken, die
zeigen konnten, dass mit Hilfe der Backpropagation auch nicht-lineare Probleme (zum
Beispiel das XOR (exclusive-or (entweder oder))-Problem) bewältigt werden konnten (BECK
& REY o.J.:o.S.; KRIESEL 2007:28f.).
Seitdem ist ein sprunghafter Anstieg der Anwendungen und demzufolge auch der
Bedeutung der künstlichen neuronaler Netze in allen nur erdenklichen
Wissenschaftsbereichen zu verzeichnen (BOCK 1995:37; KRIESEL 2007:29).
5
2.3 Aufbau künstlicher neuronaler Netzwerke
Bei künstlichen neuronalen Netzen handelt es sich um extrem umfangreiche Netzwerke
einfacher Berechnungseinheiten, die sehr stark untereinander verbunden sind und parallel
ablaufen. Diese Einheiten werden als Neuronen, Units oder Knoten bezeichnet und sind durch
Verbindungen (Connections, Kanten) untereinander gekoppelt (BOCK 1995:37; GOPAL &
WOODCOCK 1996:399).
2.3.1 Neuronen
Man unterscheidet bei künstlichen neuronalen Netzen vier verschiedene Arten von
Neuronen:
Die Input-Units (siehe Abb. 1) bilden die erste Schicht, die ein zu verarbeitendes Signal
durchläuft. Sie empfangen Reize (Input) aus der Außenwelt und geben diesen in Abhängigkeit
der Verbindungen an Hidden-Units (beziehungsweise bei sehr einfachen Netzwerken auch
direkt an die Output-Units) weiter. Die Anzahl der Input-Units, die in einem KNN verwendet
werden, hängt gewöhnlich von der Beschaffenheit der zur Verfügung stehenden Daten ab
(BECK & REY o.J.:o.S.; CALLAN 2003:17f.; KRIESEL 2007:31f.).
Die Hidden-Units (siehe Abb. 1) sind das Kernstück des neuronalen Netzes, da in ihnen
der Input, den sie aus den Input-Units (beziehungsweise bei komplexeren Netzarchitekturen
auch aus vorangegangenen Hidden-Units) erhalten, aufsummiert und auf charakteristische Art
und Weise in Output (Aktivitätslevel der entsprechenden Unit) umgesetzt wird. Letzten Endes
entscheidet ihre Konstitution darüber, wie der Input, den das neuronale Netz empfängt, in
Output umgewandelt wird. Grundsätzlich steigt die Anzahl der verwendeten Hidden-Units mit
wachsender Komplexität des zu bearbeitenden Probleme (BECK & REY o.J.:o.S.; CALLAN
2003:17f.; DUDA et al. 2001:284, 317f.; KRIESEL 2007:31f.).
In den Output-Units (siehe Abb. 1) schließlich, findet eine Übersetzung der im KNN
verarbeiteten Signale statt, bei der die erzeugten Daten wiederum an die Außenwelt
zurückgegeben werden. Ihre Anzahl wird durch das von Netz auszugebende Resultat
vorherbestimmt (BECK & REY o.J.:o.S.; CALLAN 2003:17f.; KRIESEL 2007:31f.).
Zusätzlich zu diesen drei Neuronen-Arten können, in Abhängigkeit des zu bearbeitenden
Problems, noch Bias-Units eingesetzt werden. Diese empfangen keinen Input und steuern
somit stets einen konstanten Wert zum Netto-Input (das heißt, zum Gesamt-Input den eine
6
Unit erhält) bei. Bias-Units können entweder auf alle Units eines KNNs angewandt werden
oder aber nur auf einzelne (BECK & REY o.J.:o.S.; DUDA et al. 2001:285; KRIESEL 2007:38f.).
Abb. 1: Schematische Darstellung eines künstlichen neuronalen Netzes mit jeweils einer Input-, Hidden-
und Output-Schicht (verändert nach BECK & REY o.J.:o.S.)
2.3.2 Verbindungen
Um Daten innerhalb des Netzwerks von einem Neuron zum nächsten zu transportieren,
müssen diese untereinander verbunden sein. Dies wird durch die Kanten realisiert. Die
Verbindungen zwischen den einzelnen Neuronen sind jeweils gerichtet und weisen bestimmte
Gewichtungen auf. Diese können entweder positiver, negativer oder neutraler Natur sein
(BECK & REY o.J.:o.S.).
Eine positive Gewichtung hat zur Folge, dass ein Signal von einem Neuron in gleicher
Form (möglicherweise jedoch verstärkt oder abgeschwächt, je nach dem ob der Faktor größer
oder kleiner als eins ist) an das Folge-Neuron weitergeleitet wird. Eine negative Gewichtung
hingegen bewirkt eine Negation der Signalstärke und über eine neutrale Verbindung werden
keine Signale weitergeleitet. Neutrale Verbindungen können demnach als nicht existent
angesehen werden. Jedoch können sich die Gewichtung während der Entwicklung des KNNs
jederzeit ändern, so dass Verbindungen gestärkt oder abgeschwächt beziehungsweise
entstehen und vergehen können (BECK & REY o.J.:o.S.).
Die Art und Weise wie die Neuronen untereinander verbunden sind, wird auch als
Konnektivität bezeichnet. Ein Netzwerk muss nicht in jedem Fall in Schichten aus Input-,
Hidden- und Output-Units eingeteilt sein, in denen das Input-Signal stets vorwärts zur Output-
7
Schicht läuft (Feedforward-Netzwerk). Es kommen ebenfalls rekurrente Netzwerke zum
Einsatz, bei denen Signale auch rückwärts durch das Netzwerk laufen können (also der Input-
Schicht entgegen), beziehungsweise der Output bestimmter Neuronen zu ihrem eigenen Input
beträgt (siehe Abb. 2) (BECK & REY o.J.:o.S.).
Abb. 2: Rekurrentes künstliches neuronales Netzwerk mit Gewichtsmatrix (CALLAN 2003:19)
Grundsätzlich kann das Wissens, das in einem neuronalen Netz gespeichert ist, in dessen
Gewichtungen verortet werden, da von ihnen abhängt, wie der Input sich durch das Netzwerk
bewegt und dementsprechend den Output erzeugt. Demzufolge kann eine Änderung der
Gewichte (die auch, wie in Abbildung 2, in Form einer Matrix dargestellt werden können) mit
dem Lernprozess gleichgesetzt werden, da sich dass Netzwerk dadurch auf die Verarbeitung
einer bestimmten Datenart einstellt (BECK & REY o.J.:o.S.).
2.3.3 Komplexität künstlicher neuronaler Netzwerke
Je nach Aufbau und Komplexität des verwendeten Netzwerks lassen sich mit diesem
unterschiedliche Probleme bearbeiten.
Ließen sich mit den bereits in Kapitel 2.2 vorgestellten McCulloch-Pitts-Neuron sowie
dem Perzeptron in seiner Ursprungsform (ohne Hidden-Units) nur lineare Probleme
bewältigen, so ist es möglich, durch dass Hinzufügen von Hidden-Unit-Schichten zur
8
Netzwerkarchitektur, auch komplexere Probleme zu bearbeiten. Um simple nicht-lineare
Zusammenhänge herauszuarbeiten, genügt bereits die Einführung einer Hidden-Schicht. Zur
Rekonstruktion willkürlicher Verteilungen, mit beliebigen Topologien, denen mit statistischen
Verfahren nicht mehr nachzukommen ist, müssen hingegen mindestens zwei Schichten mit
Hidden-Units in das Netzwerk eingefügt werden (siehe Abb. 3) (BISHOP 1995:9ff.; CALLAN
2003:43ff.).
Abb. 3: Bearbeitbarkeit von Klassifikationsproblemen unterschiedlicher Komplexität mit Feedforward-
Netzwerken mit keiner, einer und zwei Hidden-Unit-Schichten (HESE 2005:25)
Vorab sollte demnach entschieden werden, welche Netzwerk-Komplexität nötig ist, um
ein bestimmtes Problem zu lösen. Eine zu einfache Architektur hätte zur Folge, dass das KNN
die Datenstruktur nicht genau genug wiedergeben kann. Unnötig viele Schichten wiederum
würden zum einen überhöhten Rechenaufwand erfordern, zum anderen eine zu genaue
Anpassung an den Datensatz, der zum Lehren (Trainieren) des KNNs verwendet wurde,
verursachen. Dieser als Übertraining bezeichnete Effekt hat zur Folge, dass das trainierte
Netzwerk (dessen Gewichte auf einen bestimmten Datensatz eingestellt sind) sehr genaue
Ergebnisse für die Daten liefert, durch die die Gewichte kalibriert wurden. Die
9
Übertragbarkeit eines so speziell angepassten Netzes ist dadurch allerdings nicht mehr
gegeben (BISHOP 1995: 14f.; DUDA et al. 2001:289).
Zur Veranschaulichung kann Abbildung 4 herangezogen werden. Durch die lineare
Funktion in Abbildung 4a kann keine ausreichende Repräsentation der zwei Klassen (jeweils
dargestellt durch Kreise und Kreuze) erzielt werden. Durch die hoch komplexe Klassengrenze
in Abbildung 4c wird zwar die Datenstruktur für dieses konkrete Beispiel exakt nachgebildet,
jedoch wird der Tatsache nicht Rechnung getragen, dass es sich möglicherweise um einen
fließenden Klassenübergang handelt (etwa dadurch hervorgerufen, dass Misch-Pixel enthalten
sind) oder dass die Datenstruktur im Trainingsdatensatz nicht hundertprozentig korrekt ist
(zum Beispiel durch atmosphärische Einflüsse). Ein optimales Ergebnis liefert demnach ein
mittelmäßig komplexer Ansatz, der einen Kompromiss zwischen Datenstruktur-
Repräsentation und Übertragbarkeit darstellt. Dieser ist in Abbildung 4b dargestellt (BISHOP
1995: 14f.).
Abb. 4: Beschreibung eines nicht-linearen Zusammenhangs mittels verschieden komplexer Funktionen
(verändert nach BISHOP 1995:13f.)
2.4 Funktionsweise künstlicher neuronaler Netzwerke
2.4.1 Signalübertragung in künstlichen neuronalen N etzwerken
Das Signal, das durch ein KNN von einem Neuron zum nächsten geleitet wird, wird auch
als Aktivierung oder Aktivierungslevel einer Unit bezeichnet. Diese kann entweder eine reelle
Zahl (innerhalb eines bestimmten Intervalls (beispielsweise [0; 1])) oder aber ein diskreter
Wert (zum Beispiel aus der Menge der Zahlen 0; 1) sein (BECK & REY o.J.:o.S.; CALLAN
2003:21).
10
Welchen Input ein Neuron aus einem anderen erhält, hängt von zwei Faktoren ab. Zum
einen ist das Aktivitätslevel der sendenden Unit (das heißt, deren Ausgabewert) (ai)
entscheidend, zum anderen die Stärke der Gewichtung zwischen den beiden Einheiten (wij).
Somit kann der Input den ein Neuron i aus einem Neuron j erhält, nach BECK & REY
(o.J.:o.S.) wie folgt beschrieben werden:
ijij waInput ∗= (1)
Demnach lässt sich nach CALLAN (2003:23) der Gesamt-Input (der auch als Netto-Input
bezeichnet wird), den ein Neuron aus allen anderen, ihm vorgeschalteten Neuronen (j = 1, …,
J) erhält, durch die Aufsummierung der Inputs aller sendender Units berechnen:
∑=
∗=−J
jijij waInputNetto
1 (2)
Wie ein Neuron aus seinem Netto-Input ein Aktivierungslevel erzeugt, hängt von der
Aktivitätsfunktion der Einheit ab. Diese ist für gewöhnlich bei allen Neuronen eines KNN
identisch. Sie kann in einem zweidimensionalen Diagramm visualisiert werden, in dem auf
der Abszisse der Netto-Input und auf der Ordinate das Aktivitätslevel abgetragen wird (siehe
Abb. 5) (BECK & REY o.J.:o.S.; BISHOP 1995:82f.; CALLAN 2003:21ff.; DUDA et al. 2001:285)
Abb. 5: Sigmoidale Aktivitätsfunktion (CALLAN 2003:23)
11
Die häufigste Verwendung findet die sigmoidale Aktivitätsfunktion, da sie beispielsweise
den Vorteil hat, eine begrenzte Ausgabe zu erzeugen. Das heißt, unabhängig davon, welchen
Netto-Input ein Neuron erhält, wird dessen Aktivitätslevel nie eine bestimmte Ober- oder
Untergrenze überschreiten (in Abbildung 5 zum Beispiel liegt der Wertebereich der
Sigmoidalfunktion im Intervall [0; 1]). Bei einem linearen Zusammenhang zwischen Netto-
Input und Aktivierung ist dies nicht der Fall und das Netzwerk läuft Gefahr, bei sehr großen
oder sehr kleinen Aktivitätslevels nur noch Fehlerwerte auszugeben, was seine
Anwendbarkeit unter Umständen einschränkt (BECK & REY o.J.:o.S.; BISHOP 1995:83;
CALLAN 2003:23).
Ein weiterer Vorteil der sigmoidalen Funktion gegenüber anderen ist, dass sie an jeder
Stelle differenzierbar ist. Dies ist insbesondere für das Verfahren der Backpropagation eine
notwendige Voraussetzung, die beispielsweise bei einer binären Funktion (die etwa bis zu
einem Schwellenwert die Aktivierung 0 ausgibt und darüber die Aktivierung 1) nicht gegeben
ist (BECK & REY o.J.:o.S.; KRIESEL 2007:33f.).
2.4.2 Trainings- und Ausbreitungsphase
Bei der Anwendung künstlicher neuronaler Netze unterscheidet man häufig zwischen
einer Trainings- und einer Ausbreitungsphase (BECK & REY o.J.:o.S.; KRIESEL 2007:48f.).
In der Trainingsphase werden dem KNN Trainingsdaten präsentiert, auf die es sich, durch
Veränderung aller Gewichtungen zwischen den Neuronen, einstellen muss. Diese
Veränderung erfolgt nach einer Lernregel, die vorab vom Netzentwickler festgelegt werden
muss (BECK & REY o.J.:o.S.).
Innerhalb der Trainingsphase kann eine Unterscheidung zwischen überwachten und
unüberwachten Lernverfahren vorgenommen werden (BISHOP 1995:10; CAMMAN 2007:25).
Im Rahmen eines überwachten Trainings werden Daten verwendet, deren
Klassifikationsergebnis bereits fest steht (beispielsweise Gebiete deren Landbedeckung bei
einer Geländebegehung bestimmt wurde). Durch Einspeisen des Trainings-Inputs in das
Netzwerk und anschließendem Vergleich zwischen Soll- und Ist-Output, kann abgeschätzt
werden, in wie fern das KNN zur Klassifikation dieser Daten geeignet ist und wie stark
demnach die Gewichtungen angepasst werden müssen um eine bessere Annäherung an den
Soll-Output zu erzielen. Dies jedoch immer unter Berücksichtigung des in Kapitel 2.3.3
12
geschilderten Sachverhalts des Übertrainings (BECK & REY o.J.:o.S.; BISHOP 1995:10;
CAMMAN 2007:26f.; STADER 1992:8f.).
Hingegen ist bei unüberwachten Trainingsverfahren kein Soll-Output bekannt, an den das
künstliche neuronale Netz angepasst werden soll. Vielmehr ist hier eine Nachbildung der
Struktur der Input-Daten das Ziel des Trainings (BECK & REY o.J.:o.S.; BISHOP 1995:10;
CAMMAN 2007:28; STADER 1992:9f.).
Im Anschluss an die Trainingsphase erfolgt die Ausbreitungs- oder auch Testphase. Hier
werden im Gegensatz zum Training keine Gewichtsveränderungen mehr vorgenommen.
Stattdessen wird geprüft, inwiefern sich das neuronale Netz auf die Trainingsdaten eingestellt
hat. Dazu präsentiert man diese dem KNN und vergleicht anschließend noch einmal den Ist-
mit dem Soll-Output. Dadurch wird sich lediglich noch einmal versichert, ob die
Trainingsphase korrekt abgelaufen ist und das Netzwerk mit diesen Daten zurechtkommt.
Fällt dieser Test negativ aus, muss das Training wiederholt werden. Anderenfalls wird die
Ausbreitungsphase fortgesetzt, indem weitere Daten, deren Output ebenfalls feststeht, die
jedoch nicht für die Trainingsphase verwendet wurden, in das Netzwerk eingespeist. Hiermit
wird untersucht, ob das KNN in der Lage ist sein während des Trainings erworbenes Wissen
zur Klassifikation anderer (jedoch ähnlicher) Daten einzusetzen. Liefert auch die
Ausbreitungsphase befriedigende Ergebnisse, kann mit der eigentlichen Klassifikation
fortgefahren werden (BECK & REY o.J.:o.S.; CALLAN 2003:28, KRIESEL 2007:48f.).
2.4.3 Lernregeln
Damit sich ein künstliches neuronales Netz während der Trainingsphase an einen
Datensatz anpassen kann, bedarf es Gewichtsveränderungen der Verbindungen zwischen den
Neuronen. Diese werden nach Lernregeln vorgenommen. Demnach ist eine Lernregel nach
KRIESEL (2007:35) „[…] ein Algorithmus, der das neuronale Netz verändert und ihm so
beibringt, für eine vorgegebene Eingabe eine gewünschte Ausgabe zu produzieren.“
Einige Beispiele für solche Algorithmen sind die Hebbsche Lernregel, die Deltaregel oder
die Backpropagation. Diese sollen im Folgenden kurz erläutert werden.
Bei der Hebbschen Lernregel erfolgt die Veränderung der Gewichte zwischen zwei Neuron,
wie bereits in Abschnitt 2.2 deutlich wurde, wenn eines der beiden häufige Reize vom jeweils
anderen erfährt und daraufhin ebenfalls aktiv wird; wenn diese also gleichzeitig aktiv sind.
Die Gewichtsänderung (∆wij) der Verbindung zwischen den Neuronen i und j nach der
13
Hebbsche Lernregel lässt dich demnach durch folgende Formel nach BECK & REY (o.J.:o.S.)
ausdrücken:
jiij aaw ∗∗=∆ ε (3)
Wobei ε eine vordefinierte Lernrate darstellt, die die Geschwindigkeit des Lernvorgangs
steuert und ai und aj die Aktivitätslevel der Neuronen i und j.
Die Delta-Regel, die dem Perzeptron-Konvergenz-Theorem ähnlich ist, basiert hingegen
auf einer Anpassung des Ist-Aktivitätslevels eines Neurons an den Soll-Wert, der in der
Trainingsphase vorgegeben ist. Ihr Vorteil gegenüber dem Perzeptron-Lernalgorithmus
besteht darin, dass die Gewichte nicht mit konstanter Stärke verändert werden, sondern diese
davon abhängt, wie groß der aktuelle Fehler im Aktivitätslevel ist. Ist das Netzwerk also weit
von einer optimalen Anpassung an einen Datensatz entfernt, läuft der Lernvorgang
entsprechend schnell ab. Nähert sich das Netzwerk dem globalen Fehlerminimum an,
verlangsamt sich der Prozess (BECK & REY o.J.:o.S.; CAMMAN 2007:31; KRIESEL 2007:27).
Die Deltaregel kann formell nach BECK & REY (o.J.:o.S.) wie folgt beschrieben werden:
jiij aw ∗∗=∆ δε (4)
)()(: IstaSollamit iii −=δ
Eine weitere Lernregel die sich heute großer Beliebtheit erfreut, und auch in der
Fernerkundung entsprechend häufig eingesetzt wird, ist die Backpropagation oder auch
Fehlerrückführung (BISCHOF et al. 1992: 482; HAN et al. 2003:547; HEERMANN & KHAZENIE
1992:81; KRIESEL 2007:29; RITTER et al. 1992:5; SMITH 1993:1102).
Der Einfachheit halber wird im Folgenden von einem vollständig verbundenen, in
Schichten angeordneten Feedforward-Netzwerk ausgegangen, in dem keine Feedback-
Verbindungen (das heißt rückwärtsgerichtete Signalpfade) zugelassen sind.
Bei dem Backpropagation-Verfahren finden zwei vollständige Netzdurchläufe statt (siehe
Abb. 6). Zum einen wird, wie bei jedem anderen Lernalgorithmus auch, ein Input-Signal in
das untrainierte Netzwerk (dessen Initial-Gewichtungen zufällig festgelegt werden)
eingespeist. Dieses läuft durch das KNN und produziert einen Output-Wert. Im Anschluss
wird untersucht, wie groß die Abweichung zwischen der Ist- und Soll-Ausgabe ist (BECK &
REY o.J.:o.S.; CALLAN 2003:49; STADER 1992:10ff.).
14
Abb. 6: Schematische Darstellung eines künstlichen neuronalen Netzwerks mit Backpropagation-Ansatz
(KERBER 2002:o.S.)
Hierbei können unterschiedliche Fehler nach KRIESEL (2007:50) definiert werden:
- Spezifischer Fehler: )²(2
1ΩΩ
∈Ω
−= ∑ ytErrO
p (p∈P) (5)
mit: Err = Fehler
t = Soll-Ausgabe (target)
y = Ist-Ausgabe
p = konkreter Trainings-Input (beispielsweise ein Pixel)
P = Menge aller Trainings-Inputs (Trainings-Pixel)
Ω = konkretes Output-Neuron
O = Menge aller Outputneuronen
- Gesamt-Fehler: ∑∈
=Pp
pErrErr (6)
Zur Abschätzung der Angepasstheit des neuronalen Netzes können darüber hinaus auch
der Root Mean Square Error (RMSE) oder ähnliche Quantoren verwendet werden. Da für die
Fehlerrückführung jedoch der Gesamt-Fehler entscheidend ist, wird auf eine Darstellung
weiterer Berechnungsvorschriften an dieser Stelle verzichtet (KRIESEL 2007:50).
Im zweiten Durchlauf wird das Gesamtfehler-Signal, das nach einer gesamten Epoche
(das heißt, nach Durchlauf aller Trainingsdaten) aus allen einzelnen (spezifischen) Fehlern
aufsummiert wurde, rückwärts in das Netzwerk eingespeist. Dieses bewegt sich also von der
15
Output- zur Input-Schicht und verwendet dabei ebenfalls die gewichteten Verbindungen
zwischen den Neuronen. Dieser Vorgang dient der Analyse, welche Verbindung wie stark
zum Gesamtfehler beträgt. Auf Grund dessen ist eine Differenzierung des Gesamtfehlers
hinsichtlich der Gewichtungen vonnöten (BECK & REY o.J.:o.S.; CALLAN 2003:49ff.; KRIESEL
2007:62).
Demnach kann die Backpropagation-Lernregel formell als richtungsabhängige Ableitung
des Gesamtfehlers wie folgt nach KRIESEL (2007:62) beschrieben werden:
ji
ji w
WErrw
,,
)(
∂∂−=∆ ε (7)
mit: Err(W) = Fehler in Abhängigkeit der Gesamtheit aller
Gewichte (d. h. dem Gewichtsvektor W)
Um in Abhängigkeit von den aktuellen Gewichtungen den Gesamtfehler anteilig auf die
einzelnen Verbindungen zurückführen zu können, ist es zwingend notwendig, dass die
Aktivierungsfunktion der Neuronen stetig und an jeder Stelle differenzierbar ist. Daher sind
sigmoidale Funktionen für Backpropagation-Anwendungen besonders geeignet. Zwar weist
auch die lineare Funktion die Eigenschaft der Differenzierbarkeit an jeder Stelle auf, jedoch
besteht bei dieser die Gefahr, dass bei sehr großen, beziehungsweise sehr kleinen Netto-Inputs
auch die Aktivitätslevel gegen ±∞ gehen. Dies hätte zur folge, dass das Netzwerk daraufhin
nur noch Fehlerwerte produziert, was meist nicht erwünscht ist (BECK & REY o.J.:o.S.).
2.4.4 Gradientenabstiegsverfahren
Ziel des Lernvorgangs ist, unabhängig davon welche Lernregel verwendet wird, die
Minimierung des Fehlers. Das bedeutet, dass die Differenz zwischen der Ist- und der Ziel-
Ausgabe so weit wie möglich reduziert werden muss. Dieser Sachverhalt kann zur
Veranschaulichung in einem n+1-dimensionalen Koordinatensystem dargestellt werden,
wobei n der Anzahl der Gewichtungen im KNN entspricht (in Abbildung 7 die Dimensionen
x und y) und die zusätzliche Dimension zum Abtrag des Gesamtfehlers dient (in Abbildung 7
die Dimension z). In einem solchen Eigenschaftsraum stellt sich der Soll-Ist-Unterschied (also
der Fehler) als Hyperebene dar (siehe Abb. 7) (BECK & REY o.J.:o.S.; CALLAN 2003:40ff.).
16
Abb. 7: Zweidimensionale Fehler-Hyperebene im dreidimensionalen Raum (mit zwei Gewichts- und einer
Fehlerdimension) (verändert nach GILLIS 2006:o.S.)
Theoretisch kann das Aufspüren des globalen Fehlerminimums durch die Berechnung des
Gesamtfehlers für jede mögliche Gewichtskombination erfolgen. Da dies jedoch sehr
ineffizient ist und für jedes weitere Gewicht im KKN eine weitere Dimension im
Eigenschaftraum hinzukommt, ist ein solches Unterfangen aufgrund zu hohen
Rechenaufwands nicht zu realisieren (BECK & REY o.J.:o.S.).
Stattdessen kommt häufig das Gradientenabstiegsverfahren zur Anwendungen. Bei diesem
beginnt das Trainingsverfahren mit einer zufälligen Initialgewichtung; also an einer
beliebigen Stelle auf der Hyperebene. Anschließend werden ausgehend von diesem Punkt die
Gradienten (also die Fehleränderungen) in alle möglichen Richtungen berechnet und die
Gewichtungen für den zweiten Trainingsdurchlauf (die zweite Iteration) entlang dieser
Richtung verändert. Danach werden erneut die Gradienten berechnet, und so weiter. Dies wird
so lange fortgesetzt, bis ein Fehlerminimum erreicht ist beziehungsweise eine vordefinierte
Maximalzahl von Iterationen durchgeführt wurde oder der Gesamtfehler unter eine ebenfalls
vorbestimmte Toleranzschwelle gefallen ist (BISHOP 1995:263ff.; DUDA et al. 2001:312).
Allerdings weist auch das Gradientenabstiegsverfahren gewisse Nachteile auf. Zum einen
kann dadurch keineswegs garantiert werden, dass auf der Fehlerebene ein globales Minimum
erreicht wird. Insbesondere bei extrem hochdimensionalen Räumen steigt die Gefahr, auf ein
17
lokales Minimum zu konvergieren, da deren Anzahl mit steigender Dimensionszahl
überproportional anwächst. Dies kann durch die, mit der Dimensionalität anwachsende,
Rauhigkeit der Fehler-Ebene erklärt werden, denn der Fehler bekommt pro zusätzlicher
Dimension jeweils die Möglichkeit, seinen Wert in zwei weitere Richtungen zu variieren.
Weitere Probleme stellen die Risiken dar, dass zum einen das Lernverfahren auf Plateaus, auf
denen der Gradient in mehrere Richtungen den Wert Null annimmt, eingestellt wird, oder dass
zum anderen das globale Fehlerminimum bei zu groß gewählter Lernrate einfach
übersprungen wird. Letztendlich ist auch das Problem der Oszillation nicht unerheblich, bei
dem das Lernverfahren immer wieder dieselben Punkte auf der Fehlerebene erreicht und
daher sozusagen im Kreis läuft ohne ein Ziel zu finden (BECK & REY o.J.:o.S.; KRIESEL
2007:73).
Um all diese Probleme zu umgehen stehen im Wesentlichen drei verschiedene Methoden
zu Verfügung, welche jedoch alle auf wiederholte Durchläufe der Trainingsphase
hinauslaufen, da niemand mit Bestimmtheit sagen kann, wie die Fehlerebene beschaffen ist
und wo ihr globales Minimum liegt (BECK & REY o.J.:o.S.).
Die erste Möglichkeit ist die Initial-Gewichte zu variieren, da diese einen wesentlichen
Einfluss auf den Verlauf des Trainings haben. Schließlich wird hierdurch bestimmt, an
welcher Stelle der Fehlerebene das Abstiegsverfahren beginnt (BECK & REY o.J.:o.S.;
KRIESEL 2007:76).
Weiterhin ist es sinnvoll die Lernrate zu verändern, da beispielsweise eine hohe Lernrate
den Vorteil hätte, dass weit entfernte Minima schneller erreicht werden können und dass die
Gefahr der Stagnation auf Plateaus reduziert wird. Hingegen wächst das Risiko, dass Minima
übersprungen werden und Oszillationen werden wahrscheinlicher. Eine Verminderung der
Lernrate hätte eine Umkehrung der Nachteile in Vorteile und umgekehrt zur Folge (BECK &
REY o.J.:o.S.; KRIESEL 2007:73ff.).
Eine dritte Option zur Umgehung der oben genannten Probleme wäre die Einführung
einer Momentum-Rate. Diese bewirkt, dass beim Gradientenabstiegsverfahren die Gewichte
nicht ausschließlich in Richtung des größten Gradienten verändert werden, sondern zu jedem
Änderungsschritt noch einmal ein gewisser Anteil der Änderung aus dem Schritt zuvor
hinzuaddiert wird. Wie groß dieser Anteil ist, wird durch die Momentum-Rate festgelegt.
Durch die Integration dieser Variablen erhält man je nach gewählter Größe eine stärkere oder
schwächere Kontinuität im Abstiegsverfahren, wodurch insbesondere dem Problem der
Oszillation vorgebeugt werden kann (BECK & REY o.J.:o.S.; BISHOP 1995:267ff.; KRIESEL
2007:76f.).
18
2.5 Eigenschaften künstlicher neuronaler Netzwerke
In den letzten beiden Abschnitten (2.3 und 2.4) wurden der Aufbau und die
Funktionsweise künstlicher neuronaler Netze geschildert. Basierend auf diesem Wissen lassen
sich nun die daraus folgenden Eigenschaften der KNNs zusammenfassen.
Aufgrund des flexiblen Aufbaus künstlicher neuronaler Netze aus zahlreichen einfachen
Verarbeitungseinheiten, die auf vielfältige Weise untereinander verknüpft sind, werden in das
Netzwerk eingespeiste Daten hochgradig parallel verarbeitet (zumindest theoretisch, da KNNs
gewöhnlich auf Computern ausgeführt werden und diese sequentiell arbeiten). Dies hat zur
Folge, dass das in ihm gespeicherte Wissen (dass in den gewichteten Verbindungen liegt),
über das gesamte, beziehungsweise zumindest über Teile Netzwerk verbreitet ist. Das
wiederum bedeutet, dass interne Schäden keine großen Fehler im neuronalen Netz
hervorrufen, und demnach das Netz (vorausgesetzt es ist hinreichend groß, um Schäden zu
kompensieren) den Ausfall einzelner Neuronen ohne weiteres ausgleichen kann und bei
gleicher Eingabe, an der Output-Schicht trotzdem das gleiche Ergebnis ausgibt. Weiterhin
besteht auch eine gewisse Toleranz gegenüber externen Schäden. Das heißt, dass das KNN
auch mit fehlerhaften Input-Daten eine korrekte Ausgabe erzeugen kann (BECK & REY
o.J.:o.S.; HESE 2005:18; Kriesel 2007:21ff.).
Allerdings weisen künstliche neuronale Netze auch Nachteile auf. Insbesondere, dass das
Trainingsverfahren auf Grund des großen Rechenaufwands sehr langsam abläuft und im
Vergleich zu anderen Methoden verhältnismäßig viele Trainingsdaten benötigt werden. Auch
besteht die Gefahr des in 2.4.2 geschilderten Übertrainierens. Weiterhin ist nicht garantiert,
durch das Verändern der Gewichte ein globales Fehlerminimum zu finden. Die liegt nicht
zuletzt darin begründet, dass es sich bei neuronalen Netzen um Black-Box-Systeme handeln,
bei denen keine Kenntnis darüber besteht, wie aus dem Input ein Output erzeugt wird und wie
sich demzufolge die optimale Gewichtskalibrierung gestaltet. Auch die bestgeeignetste
Netzwerkarchitektur bleibt auf Grund des Black-Box-Charakters im Verborgenen, so dass der
Netzentwickler stets vor der Frage steht, ob mit einem anderen Netzwerkaufbau nicht doch
ein besseres Ergebnis zu erzielen ist (BECK & REY o.J.:o.S.; HESE 2005:26).
Dies macht deutlich, dass die Anwendung künstlicher neuronaler Netze, wie jedes andere
Verfahren auch, sowohl Vor- als auch Nachteile hat. Diese sollten sich bei der Bearbeitung
eines Problems, bei der die Nutzung von KNNs in Frage kommt, stets vor Augen gehalten
werden, so dass ein objektives Abwägen von Für und Wider und die darauf basierende
Verwendung oder Ablehnung dieser Methode gewährleistet werden kann.
19
3 Anwendung künstlicher neuronaler Netze in der
Änderungsdetektierung von Koniferen-Wäldern
Zur Veranschaulichung der Anwendungsmöglichkeiten künstlicher neuronaler Netze soll
im Folgenden eine Änderungsdetektierung von Koniferen-Wäldern vorgestellt werden.
Die Studie wurde 1996 von SUCHARITA GOPAL und CURTIS WOODCOCK im Journal
Transaction on Geoscience and Remote Sensing unter dem Titel Remote Sensing of Forest
Change Using Artificial Neural Networks veröffentlicht (Vol. 34, No. 2, S. 398-404). Hierbei
handelt es sich um die erste Anwendung von KNNs zur Detektierung von Änderungen
(Change Detection), da diese im Vorfeld in der Fernerkundung im Wesentlichen zur
Bildklassifikation verwendet wurden (GOPAL & WOODCOCK 1996: 398).
3.1 Grundlagen der Untersuchung
Bei dem Untersuchungsgebiet handelt es sich um das Becken des Tahoe-Sees in
Kalifornien (siehe Abb. 8). Dieses eignete sich für die Untersuchung besonders gut, da es im
Zeitraum von 1988 bis 1992 aufgrund lang anhaltender Dürren zu einer erhöhten Koniferen-
Mortalität kam. Ziel der Untersuchung war es, nicht wie normalerweise bei der Change
Detection üblich, die Art der Veränderungen in den Landnutzungs- bzw. -bedeckungsklassen
zu ermitteln, sondern die Intensität, mit der diese Änderung im Zeitraum von 1988 bis 1991
stattfanden (das heißt, die Anzahl der abgestorbenen Bäume) (GOPAL & WOODCOCK
1996:398).
Bereits im Vorfeld der KNN-basierten Abschätzung wurde der Versuch unternommen, die
Mortalität mit zwei anderen Methoden zu rekonstruieren. Dadurch standen zum einen
zusätzliche Daten aus zwei Geländebegehungen zur Verfügung (welche allerdings auf
gesamten Bestands-Segmenten basierten, anstatt auf Pixeln) und darüber hinaus erlaubte dies
einen Vergleich und somit eine qualitative Einschätzung der Ergebnisse (GOPAL &
WOODCOCK 1996:398).
20
Abb. 8: Lage des Tahoe-Sees (verändert nach IRWIN 1999:o.S.; ANONYMOUS 2007b:o.S.)
Die erste Untersuchung der Koniferen-Mortalität wurde von MACOMBER & WOODCOCK
(1995:255) unternommen. Ihr Ansatz basierte auf der Messung des Kronenschlußrückgangs
zwischen zwei Zeitpunkten (1988 und 1992), wobei dieser jeweils mit dem Li-Strahler-
Modell berechnet wurde. Als Ergebnis erhielt man eine mittlere Mortalität von 15% des
Nutzholzvolumens. Dies deckte sich mit den im Gelände gemessenen Werten, jedoch wichen
die Mortalitäten der einzelnen Bestände teilweise stark von den Messungen ab (r² = 0,4)
(GOPAL & WOODCOCK 1996:398).
Eine weitere Abschätzung wurde ebenfalls 1995 von COLLINS & WOODCOCK (1995:267)
durchgeführt. Diese verwendete den Gramm-Schmidt-Orthogonalisierungsprozess zur
Change Detection, bei dem, ähnlich wie bei der Tasseled-Cap-Analyse (einer speziellen
Variante der Principal Component Analysis (PCA), bei der unter Aufrechterhaltung des
Großteils der Informationen, die Dimensionalität eines Datensatzes, mit mehreren
korrelierenden Variablen, herabsetzt wird) ein n-kanaliges Bild in n orthogonale Indizes
zerlegt wird, von denen jeder ein gewisses Potential zur Messung von Szenen-Charakteristika
aufweist. Im hier vorgestellten Verfahren wurden vier Komponenten verwendet (Brightness
(Oberflächenhelligekeit), Greeness (Vegetationsvitalität), Wetness (Vegetationsfeuchtigkeit)
21
sowie ein weiterer Änderungs-Index). Eine Regression zwischen diesen und den
Geländemessungen ergaben abhängig davon, welche Daten zum Training beziehungsweise
zum Testen verwendet wurden, ein r² von 0,5 bis 0,7 und somit eine bessere Fähigkeit die
Koniferen-Mortalität zu bestimmen, als die im ersten Versuch angewandte Methode
(ARMSTROFF 2007:27; GOPAL & WOODCOCK 1996:399).
3.2 Vorgehen und Ergebnisse
Im Folgenden wird nun das Vorgehen des dritten Ansatzes zur Mortalitätsbestimmung im
Becken des Tahoe-Sees vorgestellt, welcher auf künstlichen neuronalen Netzwerken basiert.
Als Datengrundlage dienten zwei Szenen des Landsat-Thematic-Mapper(TM) (aus den
Jahren 1988 und 1991), von denen jedoch jeweils der blaue und thermale Kanal aus der
Untersuchung ausgeschlossen wurden sowie Mortalitäts-Werte über jeweils 61
beziehungsweise 26 Bestände, die während zwei Feldkampagnen aufgenommen wurden
(GOPAL & WOODCOCK 1996:399).
Zur Anwendung kam ein Feedforward-Netzwerk (in dem also keine rückwärts gerichteten
Verbindungen zugelassen wurden) mit überwachtem Backpropagation-Lernalgorithmus
(siehe Abb. 9). Dieses hatte eine Input-Schicht mit zehn, eine Hidden-Schicht mit 15 sowie
eine Output-Schicht mit einem Neuron und verwendete sigmoidale Aktivitätsfunktionen,
wodurch alle Daten während des Netzdurchlaufs auf den Wertebereich [0; 1] skaliert waren
(GOPAL & WOODCOCK 1996:399).
Hierbei hatten die Netzentwickler zwei Entscheidungen zu treffen:
Zum einen stellte sich die Frage wie viele Input-Vektoren verwendet werden sollten.
Einerseits hätte man fünf Input-Neuronen verwenden können, was sich derart gestaltet hätte,
dass zunächst jeweils die Differenz-Werte gleicher Kanäle zwischen den
Aufnahmezeitpunkten hätten berechnet werden müssen (zum Beispiel TM 21991 – TM 21988)
und diese dann in das Netzwerk eingespeist worden wären. Dies wurde allerdings zu Gunsten
eines zehnkanaligen Input-Vektors verworfen (siehe Abb. 9). Bei dieser Variante wurden alle
verwendeten TM-Kanäle mit ihren absoluten Werten eingespeist. Dies hat im Gegensatz zum
fünfkanaligen Input-Vektor einen absoluten statt einen relativen Koniferen-Rückgang zur
Folge. Weiterhin fiel die Wahl der Netzentwickler auf zehn Eingabe-Kanäle, da sich bei der
Verwendung von nur fünf in der Trainingsphase keine Konvergenz auf ein Fehlerminimum
einstellte (GOPAL & WOODCOCK 1996:399).
22
Des Weiteren verlangte die Anwendung eines KNN die Beschränkung auf eine Datenart.
Das heißt, dass entweder die Pixel (der TM-Daten (Input)) oder die Segmente (der
Geländeuntersuchung (Soll-Output der Trainings- und Test-Phase)) zur Grundlage der
Analyse gemacht werden mussten. Hierbei fiel die Wahl auf die Bestands-Segmente, da eine
Disaggregierung auf Pixel-Ebene dazu geführt hätte, dass jedem einzelnen Pixel der mittlere
Mortalitätswert des gesamten Bestandes hätte zugewiesen werden müssen. Dies entspricht
jedoch nicht der Realität und hätte dadurch die Trainingsphase sowie die
Qualitätseinschätzung des KNN in der Testphase verfälscht. Stattdessen wurde der Nachteil in
Kauf genommen, dass nur sehr wenige Daten zum Trainieren und Testen (61
beziehungsweise 26) des neuronalen Netzes zur Verfügung standen (GOPAL & WOODCOCK
1996:399).
Abb. 9: Schematische Darstellung der zur Change Detection verwendeten Netzwerk-Architektur (GOPAL &
WOODCOCK 1996:400)
Die Initial-Gewichtungen wurden per Zufall auf Werte zwischen -0,1 und 0,1 festgesetzt
und jeweils verändert, nachdem dem Netzwerk fünf Trainings-Bestände präsentiert wurden.
Dies geschah nach GOPAL & WOODCOCK (1996:400) wie folgt:
23
)()(
))(,|()()1( nw
nw
nwxzenwnw ∆+
∂∂+=+ γη (8)
mit: w(n) = Gewichtungsmatrix zum Iterations-Zeitpunkt n
η = Lern-Rate
γ = Momentum-Rate
e (z | x, w(n)) = Differenz zwischen Soll- (z) und Ist-
Output in Abhängigkeit von w(n)
Es wurden mehrere Durchläufe mit unterschiedlichen Lern- und Momentum-Raten
durchgeführt, wobei die Wahl letztendlich auf Werte von 0,3 und 0,6 viel, da bei diesen das
Risiko der Oszillation minimal war. Des Weiteren kamen Netzwerk-Architekturen mit fünf
bis fünfzig Hidden-Units zum Einsatz, wobei die besten Ergebnisse mit fünfzehn bis zwanzig
erzielt werden konnten (GOPAL & WOODCOCK 1996:400).
Aufgrund der entscheidenden Bedeutung der Initial-Gewichtungen wurden auch hier fünf
verschiede Durchläufe mit jeweils unterschiedlichen Zufalls-Initial-Gewichten unternommen.
Allerdings führten alle fünf Versuche zu ähnlichen Ergebnissen, wodurch davon auszugehen
ist, dass das trainierte Netzwerk eine (annähernd) optimale Repräsentation der Datenstruktur
liefert (GOPAL & WOODCOCK 1996:400).
Das Ergebnis, das durch die Anwendung der in Abbildung 9 dargestellten Architektur
erzielt wurde, ist in Abbildung 10 zu sehen. Hierin sind die 26 Bestandspunkte aus der
Trainingsphase abgetragen. Es fällt eine deutliche Korrelation zwischen den vom KNN
berechneten (Ordinate) und den gemessenen Änderungen (Abszisse) auf. Diese lässt sich
durch einen Wert von 0,839 für r² sowie 6,8 für den RMSE quantifizieren, was einer
deutlichen Verbesserung gegenüber der Gramm-Schmidt-Orthogonalisierungs-Methode (r²
zwischen 0,48 und 0,7 und RMSE zwischen 9,91 und 7,86) entspricht (GOPAL & WOODCOCK
1996:400f.).
Ein Grund für die besseren Resultate könnte zum einen sein, dass der Zusammenhang
zwischen der Koniferen-Mortalität und den spektralen Informationen nicht linear ist und so
durch ein künstliches neuronales Netz besser wiedergegeben werden kann. Eine weitere
Möglichkeit besteht darin, dass das KNN eventuell andere Informationen aus den
multispektralen Daten zur Quantifizierung der Koniferen-Mortalität verwendet. Um dies zu
beurteilen, wurden von Gopal & Woodcock (1996:401) die Fähigkeiten einer PCA untersucht
(GOPAL & WOODCOCK 1996:401).
24
Abb. 10: Vergleich der gemessenen mit den durch das neuronale Netzwerk berechneten
Mortalitäts-Werte (GOPAL & WOODCOCK 1996:401)
Da bereits die Untersuchungen von COLLINS & WOODCOCK (1995:267) auf einer
speziellen Art von PCA beruhten, bot sich ein Vergleich der Eigenvektoren an, die die
Ausrichtung der Hauptkomponenten (Principal Components) determinieren. Dieser zeigte
auf, dass die erste Hauptkomponente sehr stark mit dem von COLLINS & WOODCOCK
(1995:267) verwendeten Änderungs-Index korrelierten sowie die zweite und dritte jeweils mit
der Brightness- und Greeness-Komponente des Gramm-Schmidt-Orthogonalisierungs-
Verfahrens. Basierend auf dieser Analyse kann also davon ausgegangen werden, dass beide
Techniken die selben Daten verwendet und dass demzufolge einzig der Vorteil, dass
neuronale Netze nicht-lineare Zusammenhänge besser rekonstruieren können, diesen zu
einem genaueren Resultat verhilft (GOPAL & WOODCOCK 1996:402).
25
4 Anwendung künstlicher neuronaler Netze zur Klassi fikation einer
Landsat-TM-Szene
Im Folgenden soll nun die Anwendung künstlicher neuronaler Netze zur Klassifikation
einer Landsat-5-TM-Szene vorgestellt werden. Diese wurde unter Zuhilfenahme der Software
Geomatica 9.1.0 von PCI Geomatics durchgeführt (PCI GEOMATICS 2003:o.S.).
4.1 Datengrundlage und Vorverarbeitung
Zur Durchführung der Klassifikation stand eine Landsat-5-TM-Szene vom 25.05.1989 mit
einer räumlichen Auflösung vom dreißig mal dreißig Metern zur Verfügung. Diese zeigt einen
Großteil Nordrhein-Westfalens, das südwestliche Nieder-Sachsen und das nord-westliche
Hessen sowie einen Teil der Niederlande (äußerer weißer Rahmen in Abb. 11).
Abb. 11: Lage der Landsat-Szene sowie des klassifizierten Ausschnitts auf einer Deutschland-Karte
(verändert nach ANONYMOUS 2007a:o.S.)
26
Abb. 12: Gebiet um die Stadt Arnsberg (Sauerland) (verändert nach MINISTERIUM FÜR BAUEN UND VERKEHR
DES LANDES NORDRHEIN-WESTFAHLEN 2006:o.S.)
Da es bei der hier vorgestellten Anwendung lediglich um das Prinzip der Klassifikation
mittels künstlicher neuronaler Netze geht, wurde lediglich mit einem Ausschnitt der gesamten
Landsat-Szene gearbeitet. Dieser umfasst das Gebiet um die sauerländische Stadt Arnsberg
(innerer weißer Rahmen in Abb. 11 beziehungsweise Abb. 12). Dieses eignete sich besonders
gut, da hier eine sehr heterogene Landschaft mit zahlreichen verschiedenen Landbedeckungen
vorherrscht, die sich gut klassifizieren lassen.
Bevor dieser Ausschnitt jedoch erstellt werden konnte, mussten die im tif-Format
vorliegenden Landsat-Kanäle in pix-Dateien (mit denen Geomatica umgehen kann)
umgewandelt werden und anschließend der zweite, dritte, vierte, fünfte und siebte Kanal an
den ersten angehängt werden (der sechste Kanal wurden wegen der schlechteren räumlichen
Auflösung aus der Analyse ausgeschlossen). Dies geschah mittels der Transfer-Layer-
Funktion, die in den Focus von Geomatica implementiert ist (PCI GEOMATICS 2003:o.S.).
27
Als Referenzdaten-Quelle stand das Programm Google Earth zur Verfügung, welches eine
Szene desselben Gebietes vom 20.02.2004 bereithielt. Diese eignete sich insbesondere zur
Validierung der im Folgenden geschilderten Bitmap-Erstellung. Allerdings bestand der
Nachteil, dass die Szene zum einen erst 15 Jahre nach der Landsat-Szene entstand und
darüber hinaus auch noch zu einer gänzlich anderen Jahreszeit aufgenommen wurde, was zur
Folge hatte, dass gleiche Gebiete in beiden Datensätzen nur sehr schwer auszumachen waren.
Dies wurde noch zusätzlich dadurch erschwert, dass die Szenen untereinander einen Versatz
auswiesen (also deren Koordinaten nicht übereinstimmten). Lediglich die Differenzierung
zwischen Laub- und Nadelwäldern wurde durch den im Winter aufgenommenen Google-
Earth-Datensatz erleichtert, da erstere zu diesem Zeitpunkt laubfrei waren.
4.3 Vorgehen und Ergebnisse
Um eine Klassifikation mit künstlichen neuronalen Netzen in Geomatica durchführen zu
können, werden zunächst Trainingsgebiete benötigt. Diese wurden in Geomaticas Image
Works in Form von Bitmaps ausgewiesen und anschließend als Segment an den Datensatz
angehängt. Es wurden jeweils Bitmaps für die Klassen Wasser, Urban, Laubwald, Nadelwald,
Ackerland sowie Brachflächen erstellt (siehe Abb. 13).
Abb. 13: Bitmap-Segmente für alle Klassen in PCI Image Works (PCI GEOMATICS 2003:o.S.)
28
Nach dem Definieren der Trainingsgebiete, konnte mittels des NNCREAT-Moduls in
Geomaticas Xpace mit der Erstellung eines Feedforward-Netzes begonnen werden. Dieses
verlangt, wie in Abbildung 14 zu sehen, die Angabe der zu verwendenden Input-Kanäle
(DBIC) beziehungsweise die unmittelbar damit zusammenhängende Anzahl der Input-
Neuronen (NIUNIT). In diesem Fall wurde pro Eingangs-Kanal eine Input-Unit verwendet.
Des Weiteren muss die Anzahl der Hidden-Units (NHUNIT) (die in Geomatica stets
sigmoidale Aktivitätsfunktionen haben) angegeben werden, welche in der hier geschilderten
Anwendung zwischen drei und fünf pro Schicht variiert wurde. Hierbei wurden jeweils
Trainingsdurchläufe mit einer und zwei Hidden-Schichten durchgeführt. Da jedoch durch die
Verwendung einer zusätzlichen Schicht keine nennenswerten Verbesserungen zu erzielen
waren, wurde der finale Durchlauf mit nur einer Schicht à fünf Units unternommen. Weiterhin
gab es eine Beschränkung auf maximal 1000 Trainings-Pixel pro Klasse, um einen unnötig
hohen Rechenaufwand zu vermeiden (PCI GEOMATICS 2003:o.S.).
Abb. 14: NNCREAT-Modul (PCI GEOMATICS 2003:o.S.)
Im Anschluss an die Erstellung dieses neuronalen Netzwerks mit einer 6-5-6er-
Architektur, welches von Geomatica als Segment an die entsprechende Datei angehängt wird,
galt es nun, das Netzwerk zu trainieren. Dies geschah mit dem Xpace-Modul NNTRAIN,
welches zum einen die Angabe des künstlichen neuronalen Netzes verlangt, dass im
NNCREAT-Modul erstellt wurde. Zum anderen müssen die Lern- und Momentum-Rate
sowie die Fehlerschwellen (spezifischer und Gesamt-Fehler) angegeben werden, bei deren
Erreichen der Trainingsvorgang beendet wird. Darüber hinaus ist die Definition einer
29
maximalen Iterations-Zahl obligatorisch. Diese bewirkt den Abschluss der Trainingsphase,
falls keine der gewünschten Fehlerschwellen erreicht wird (PCI GEOMATICS 2003:o.S.).
Es wurden mehrere Trainingsdurchläufe mit jeweils unterschiedlichen Initial-
Gewichtungen, unterschiedlichen Lern- und Momentum-Raten (jeweils zwischen null und
eins) sowie verschiedenen Maximal-Iterationen (1000 – 2000) durchgeführt. Das beste
Ergebnis wurde hierbei mit Lern- und Momentum-Raten von jeweils 0,4 und 1000 Iterationen
(eine Erhöhung dieser auf 2000 brachte keine weitere Verbesserung) erzielt. Zum Ende der
Trainingsphase stellte sich ein Gesamtfehler von 0,093 ein, der gegenüber der voreingestellten
Toleranzschwelle von 0,01 noch verhältnismäßig hoch liegt. Jedoch lieferten die meisten
Trainingsdurchläufe mit unterschiedlichsten Lern- und Momentum-Raten ähnliche Ergebnisse
und nur einige wenige Gesamtfehler waren deutlich schlechter. Somit kann davon
ausgegangen werden, dass durch das Trainingsverfahren ein globales Fehlerminimum erreicht
wurde beziehungsweise es zumindest eine Annäherung an dieses gab.
Abb. 15: NNTRAIN-Modul (PCI GEOMATICS 2003:o.S.)
Abschließend wurde das trainierte KNN zur eigentlichen Klassifikation auf den gesamten
Datensatz angewandt. Hierzu steht in Geomatica das Xpace-Modul NNCLASS zur
Verfügung (siehe Abb. 16). Dieses gibt für jeden Pixel jeweils die wahrscheinlichste Klasse in
einen Output-Kanal aus. Darüber hinaus lassen sich auch die Wahrscheinlichkeit (das heißt,
die Sicherheit, mit der jeder Bildpunkt einer bestimmten Klasse zugewiesen wurde) sowie die
zweitwahrscheinlichste, drittwahrscheinlichste etc. Klasse für jeden Bildpunkt in zusätzlichen
Kanälen ausgeben. In der vorliegenden Untersuchung wurde sich jedoch auf einen Output-
Kanal beschränkt (PCI GEOMATICS 2003:o.S.).
30
Abb. 16: NNCLASS-Modul (PCI GEOMATICS 2003:o.S.)
Das Klassifikationsergebnis ist in Abbildung 17 zu sehen. Eine rein optische Analyse,
lässt den Schluss zu, dass das KNN die Datenstruktur mit guter Annäherung wiedergibt. Es
zeichnen sich deutlich Wasser- sowie urbane Gebiete ab und auch die Agrarflächen sind von
den bewaldeten Gebieten gut zu unterscheiden. Lediglich bei der Differenzierung zwischen
Laub- und Nadelwald tritt eine erkennbare Konfusion auf, die möglicherweise auch auf
topographischen Einflüssen beruht.
Zur Quantifizierung der Genauigkeit des Klassifikationsergebnisses wäre eine
Genauigkeitsanalyse wünschenswert gewesen, jedoch musste angesichts der unzureichenden
Referenz-Datengrundlage (insbesondere durch die 15 Jahre zwischen den beiden
Aufnahmezeitpunkten sowie den Versatz zwischen den Szenen) darauf verzichtet werden.
Abb. 17: Klassifikationsergebnis des Gebietes Arnsberg durch ein neuronales Netz (eigene Darstellung)
31
5 Zusammenfassung
In der vorliegenden Arbeit wurde ein Überblick über künstliche neuronale Netze gegeben.
Nachdem in Kapitel 2 die Entwicklungsgeschichte der KNNs sowie deren Aufbau und
Funktionsweise näher geschildert wurden, konnten in den darauf folgenden Abschnitten zwei
spezielle Anwendungsmöglichkeiten in der Fernerkundung dargeboten werden. Zum einen
wurde ein KNN-Ansatz zur Kartierung der Änderungen in Koniferen-Wäldern aufgezeigt,
zum anderen wurde ein Klassifikations-Ansatz für eine Landsat-Szene vorgestellt. Durch
deren Präsentation sollten ein weit gefächerter Einblick in die Anwendungsmöglichkeiten in
der Fernerkundung ermöglicht werden.
Darüber hinaus sind aber auch unzählige weitere Möglichkeiten der KNN-Anwendung in
den unterschiedlichsten wissenschaftlichen Disziplinen vorstellbar. Dies liegt insbesondere in
den positiven Eigenschaften der neuronalen Netze begründet. Beispielsweise deren Fähigkeit
nicht-lineare beziehungsweise statistisch nicht beschreibbare Zusammenhänge zu
rekonstruieren und dies auf Grund ihrer hohen Flexibilität auf verschiedenste Art und Weise
(BECK & REY o.J.:o.S.).
Nichtsdestotrotz müssen sich bei einer möglichen Anwendung neuronaler Netze auch
immer deren negative Eigenschaften vor Augen gehalten werden. Hier sei vor allem auf den
Black-Box-Charakter hingewiesen, bei dem nicht bekannt ist, wie genau das Netzwerk
arbeitet und wie demzufolge eine Ausgabe erzeugt wird. Daher ist vor allem bei
Anwendungen, bei denen es auf die Durchschaubarkeit des Verfahrens ankommt, Vorsicht
geboten. Weiterhin muss auch beachtet werden, dass sich neuronale Netze aufgrund ihrer
iterativen Gewichtsveränderung einer optimalen Lösung immer nur annähern. Auch wenn
dies häufig sehr gut gelingen mag, so muss sich doch stets die Frage gestellt werden, ob nicht
eine herkömmliche Methode (im Bereich der Klassifikation beispielsweise der Maximum-
Likelihood-Klassifikator) den KNNs vorzuziehen ist. Dies mag insbesondere bei sehr
einfachen statistischen Verteilungen der Fall sein, bei denen es keinen Sinn macht, KNNs auf
Kosten eines klar durchschaubaren Klassifikationssystems den Vorzug zu geben (GOPAL &
WOODCOCK 1996:402).
Abschließend lässt sich also sagen, dass es sich bei den künstlichen neuronalen Netz (ganz
gleich in welchem Fachbereich sie angewandt werden) um eine nützliche und
zukunftsträchtige Methode handelt. Allerdings hat auch sie Vor- und Nachteile, die vor einer
Anwendung sorgfältig abgewogen werden müssen, um einen sinnvollen Einsatz zu
gewährleisten.
32
Literatur
ANONYMOUS (2007a): Deutschland Topographie. <http://www.mygeo.info/landkarten/
deutschland/Deutschland_Topographie.jpg> (Stand: 2007-11-16) (Zugriff: 2007-11-16).
ANONYMOUS (2007b): USA. <http://www.schmetterling.de/shared/inhalt/travelguide/img/
nonexistent/usa.gif> (Stand: o.S.) (Zugriff: 2007-11-27).
ARMSTROFF, A. (2007): Erfassung von Baumplantagen im Inselstaat Vanuatu mittels Landsat-
und Aster-Satellitendaten. unveröffentlicht.
BECK, F. & G. REY (o.J.): Neuronale Netze. Eine Einführung.
<http://www.neuronalesnetz.de/units.html> (Stand: o.S.) (Zugriff: 2007-11-13).
BISCHOF, H., SCHNEIDER, W. & A. PINZ (1992): Multispectral Classification of Landsat-
Images Using Neural Networks. In: IEEE Transactions on Geoscience and Remote Sensing,
30, 3, 482-489.
BISHOP, C. (1995): Neural Networks for Pattern Recognition. Oxford University Press: New
York.
BOCK, S. (1995): Ein Ansatz zur polygonbasierten Klassifikation von Luft- und
Satellitenbildern mittels künstlicher neuronaler Netze. In: Kieler Geographische Schriften,
Band 91. Selbstverlag des Geographischen Instituts der Universität Kiel.
CALLAN , R. (2003): Neuronale Netze im Klartext. Pearson Studium: München.
CAMMAN , H. (2007): Klassifikation mit Hilfe artifizieller neuronaler Netze. Berlin: Institut für
medizinische Informatik.
COLLINS, J. & C. WOODCOCK (1995): Change Detection using the Gramm-Schmidt
Transformation Applied to Mapping Forest Mortality. In: Remote Sensing of Environment,
50, 267-279.
33
DUDA, R.; HART, P.; STORK, D. (2001): Pattern Classification. New York: John Wiley & Sons,
Inc.
EGMONT-PETERSEN, M., DERIDDER, D. & H. HANDELS (2002): Image Processing with Neural
Networks. A Review. In: Pattern Recognition, 35, 2279-2301.
GILLIS , J. (2006): Gradient ascent surface. <http://upload.wikimedia.org/wikipedia/
commons/6/68/Gradient_ascent_%28surface%29.png> (Stand: 2006-01-18) (Zugriff: 2007-
11-15).
GOPAL, S. & C. WOODCOCK (1996): Remote Sensing of Forest Change Using Artificial
Neural Networks. In: IEEE Transactions on Geoscience and Remote Sensing. 34, 398-404.
HAN, M.; CHENG, L. & H. MENG (2003): Application of four-layer neural network on
information extraction. In: Neural Networks, 16, 547-553.
HEBB, D. (1949): The Organization of Behavior. A Neuropsychological Approach. New
York: Wiley.
HEERMANN, P. & N. KHAZENIE (1992): Classification of multispectral remote sensing data
using aback-propagation neural network. In: IEEE Transactions on Geoscience and Remote
Sensing, 30, 81-88.
HESE, S. (2005): Fernerkundung I, Modul 212. Nicht-Parametrische Klassifikatoren.
unveröffentlicht.
IRWIN, J. (1999): Tahoe. <http://www.holoscenes.com/maps/tahoe.jpg> (Stand: o.S.) (Zugriff:
2007-11-15).
KERBER, M. (2002): Backpropagation. <http://www.cs.bham.ac.uk/~mmk/Teaching/AI/
figures/backpropagation.jpg> (Stand: 2005-06-06) (Zugriff: 2007-11-14).
34
KRIESEL, D. (2007): Ein kleiner Überblick über neuronale Netze. <http://www.dkriesel.com/
fileadmin/downloads/neuronalenetze-de-gamma2-dkrieselcom.pdf> (Stand: 2007-10-16)
(Zugriff: 2007-11-14).
MACOMBER, S. & C. WOODCOCK (1995): Mapping and Monioring Conifer Mortality using
Remote Sensing in the Lake Tahoe Basin. In: Remote Sensing of Environment, 50, 255-
266.
MINISTERIUM FÜR BAUEN UND VERKEHR DES LANDES NORDRHEIN-WESTFAHLEN (2006): str-
xs-so. <http://www.lvp.nrw.de/igvp/download/str/str-xs-so.gif> (Stand: 2006-01-12)
(Zugriff: 2007-11-16).
PCI GEOMATICS (Hrsg.) (2003): PCI Geomatica - Geomatica Prime Help 9.1.0, CD-ROM.
Richmond Hill: PCI Geomatics.
RITTER, H.; MARTINEZ, T. & K. SCHULTEN (1992²): Neuronale Netze. Eine Einführung in die
Neuroinformatik selbstorganisierender Netzwerke. Addison-Wesley Publishing Company:
Bonn.
SMITH , J. (1993). LAI Inversion Using a Back-Propagation Neural Network Trained with a
Multiple Scattering Model. In: IEEE Transactions on Geoscience and Remote Sensing, 31,
1102-1106.
STADER, J. (1992): Applying Neural Networks. Edinburgh: University of Edinburgh.
WEIPRECHT, J. (2004): Neuronen, Modell, künstliche neuronale Netze.
<http://www.weiprecht.de/ANN/jw_ann.html> (Stand: 2004.01.16) (Zugriff: 2007-11-05).