Modellierungsmethoden
Die Auswahl der mathematisch-statistischen
Analysemethoden hängt unmittelbar von den Business-Fragestellungen
ab. In diesem Kontext ist für uns neben der Modellgüte
auch die Kommunizierbarkeit der Ergebnisse ein wichtiges Auswahlkriterium
für den Einsatz alternativer Methoden.
Zu empfehlen sind unter anderem:
- Statistische Verfahren - z.B. Korrelationsanalysen, logistische
Regression, Diskriminanzanalyse
- Entscheidungsbaumverfahren - z.B. CHAID, C&RT, QUEST, C5.0
- Neuronale Netze - Multi-Layer-Perceptron, Baysien-Netzwerke, Kohonen-Netze
- Clusterverfahren - Hierachische Clusteranalyse, K-Means-Cluster,
Two-Step-Clustering
- Fuzzy-Logic - Modellieren unter Einbeziehung linguistischer Variablen
- Zeitreihen-Prognosen - z.B. ARIMA-Modelle und Trendrestwert-Methode
Kriterien zur Auswahl
der Methoden
Die Schlüsselrolle bei jedem Data Mining
Projekt spielt die Verfügbarkeit der Daten und dem Business-Kowhow.
Hierbei sind nicht nur die Aufwände der Generierung der nötigen
Datenbasis zu berücksichtigen. Insbesondere die grundsätzliche
Meßbarkeit von relevanten Erfolgskennzahlen steht eventuell
dem Einsatz einzelner Methoden entgegen.
Wurden bspw. bestimmte Merkmale in der Vergangenheit
nicht systematisch erfaßt, so stehen sie in naher Zukunft
nicht zur Analyse zur Verfügung. In diesem Zusammenhang steht
auch der Einwand der Rückwärtsbetrachtung der klassischen
Datenanalysemethoden.
Insbesondere auf neuen Märkten oder bei gravierenden Veränderungen des Geschäftsumfeldes
stehen keine historischen Daten für eine Analyse zur Verfügung. Desweiteren gibt
es zu vielen Fragestellung keine Möglichkeit eine ausreichende Datenbasis zu generieren.
Diese Lücke läßt sich zumeist nur durch das Einbringen
von Expertenwissen schließen.
| |
Fuzzy Logic |
|
Entscheidungs-baumverfahren |
|
Regressions- und Diskriminanzanalyse |
Neuronale Netze |
|
Fazit: Der Methodenmix ist auf die Aufgabenstellung und die Datengrundlage
anzupassen.
Methoden im Überblick
Datenexploration
Einer der wichtigsten Schritte ist die Analyse
und die Beschreibung der grundlegenden Strukturen in den Daten:
- Kreuztabellen
- Histogramme
- Korrelationen
- OLAP-Würfel
Segmentierung
Die Gruppierung von Elementen mit ähnlichen
Merkmalen ist nicht nur ein Selbstzweck, sondern bildet häufig
eine wesentliche Grundlage für weitere Analysen:
- Clusterverfahren
- Kohonennetze
- Selbstorganisierende Karten
- Visualisierungs-Verfahren
Klassifizierung
Die Basis der Maximierung von Eintrittswahrscheinlichkeiten von bestimmten
Ereignissen bildet die Analyse der Wirkungszusammenhänge der relevanten Einflussfaktoren:
- Logistische Regression
- Diskriminanzanalyse
- Entscheidungsbäume
- Neuronale Netze
- Fuzzy-Logic
Vorhersage (Zeitreihenanalyse)
Um Prognosen über zukünftigen Ereignissen treffen zu können
bedarf es der Analyse der Strukturen der bisherigen Entwicklungen:
- Regressionsanalyse
- Exponentielles Glätten
- ARIMA-Modelle
- Neuronale Netze
Abhängigkeits-
bzw. Zusammenhangsanalysen
Eine häufige Herausforderung ist die Optimierung des Cross-Selling-Potentials:
- Korrelationsanalyse
- Regressionsanalyse
- Varianzanalyse
- Analyse von Assoziationsregeln
- Apriori-Verfahren
- Visualisierungstechniken
- Faktorenanalyse
- Conjointanalyse
- Ordinale Regression
- Skalierungsmethoden
|