Modellierungsmethoden
Die Auswahl der Analysemethoden hängt
unmittelbar von den Business-Fragestellungen ab. In diesem Kontext
ist für uns neben der Modellgüte auch die Kommunizierbarkeit
der Ergebnisse ein wichtiges Auswahlkriterium für den Einsatz
verschiedener Methoden.
Zu empfehlen sind unter anderem:
Klassische statistische Verfahren - z.B. logistische Regression, Diskriminanzanalyse
Entscheidungsbaumverfahren - z.B. CHAID, CART, C5.0
Neuronale Netze - Multi-Layer-Perceptron, Baysien-Netzwerke
Clusterverfahren - Hierachische Clusteranalyse, K-Means-Cluster,
Kohonen-Netze
Fuzzy-Logic - Modellieren unter Einbeziehung linguistischer Variablen
Kriterien zur Auswahl
der Methoden
Die Schlüsselrolle bei jedem Data Mining Projekt spielt jedoch
die Verfügbarkeit der Daten. Hierbei sind nicht nur die Aufwände der Generierung
der nötigen Datenbasis zu berücksichtigen. Insbesondere die grundsätzliche
Erreichbarkeit von Daten steht sehr häufig dem sinnvollen Einsatz vieler Data Mining
Methoden entgegen.
Wurden bspw. bestimmte Merkmale in der Vergangenheit
nicht systematisch erfaßt, so stehen sie in naher Zukunft
nicht zur Analyse zur Verfügung. In diesem Zusammenhang steht
auch der Einwand der Rückwärtsbetrachtung der klassischen
Datenanalysemethoden.
Insbesondere auf neuen Märkten oder bei gravierenden Veränderungen des Geschäftsumfeldes
stehen keine historischen Daten für eine Analyse zur Verfügung. Desweiteren gibt
es zu vielen Fragestellung keine Möglichkeit eine ausreichende Datenbasis zu generieren.
Diese Lücke läßt sich zumeist nur durch das Einbringen
von Expertenwissen schließen.
| |
Fuzzy Logic |
|
Entscheidungs-baumverfahren |
|
Regression- und Diskriminanzanalyse |
Neuronale Netze |
|
Fazit: Der Methodenmix ist auf die Aufgabenstellung und die Datengrundlage
anzupassen.
Methoden im Überblick
Datenbeschreibung
und -zusammenfassung
Einer der wichtigsten Schritte ist die Analyse
und die Beschreibung der grundlegenden Strukturen in den Daten:
- Häufigkeitstabellen
- Kreuztabellen
- Balkendiagramme
- Histogramme
- Korrelationen
- OLAP-Würfel
Segmentierung
Die Gruppierung von Elementen mit ähnlichen
Merkmalen ist nicht nur ein Selbstzweck, sondern bildet häufig
eine wesentliche Grundlage für weitere Analysen:
- Clusterverfahren
- Kohonennetze
- Selbstorganisierende Karten
- Visualisierungs-Verfahren
Klassifizierung
Die Basis der Maximierung von Eintrittswahrscheinlichkeiten von bestimmten
Ereignissen bildet die Analyse der Wirkungszusammenhänge der relevanten Einflussfaktoren:
- Logistische Regression
- Diskriminanzanalyse
- Entscheidungsbäume
- Neuronale Netze
- Fuzzy-Logic
Vorhersage (Zeitreihenanalyse)
Um Prognosen über zukünftigen Ereignissen treffen zu können
bedarf es der Analyse der Strukturen der bisherigen Entwicklungen:
- Regressionsanalyse
- ARIMA-Modelle
- Entscheidungsbäume
- Neuronale Netze
- Fuzzy-Logic
Abhängigkeits-
bzw. Zusammenhangsanalysen
Eine häufige Herausforderung ist die Optimierung des Cross-Selling-Potentials:
- Korrelationsanalyse
- Regressionsanalyse
- Analyse der Assoziationsregeln
- Visualisierungstechniken
|