Home CRM Profil Kontakt
Training Links zu Data Mining Projekte Partner

Modellierungsmethoden

Die Auswahl der Analysemethoden hängt unmittelbar von den Business-Fragestellungen ab. In diesem Kontext ist für uns neben der Modellgüte auch die Kommunizierbarkeit der Ergebnisse ein wichtiges Auswahlkriterium für den Einsatz verschiedener Methoden.

Zu empfehlen sind unter anderem:

Klassische statistische Verfahren - z.B. logistische Regression, Diskriminanzanalyse
Entscheidungsbaumverfahren - z.B. CHAID, CART, C5.0
Neuronale Netze - Multi-Layer-Perceptron, Baysien-Netzwerke
Clusterverfahren - Hierachische Clusteranalyse, K-Means-Cluster, Kohonen-Netze

Fuzzy-Logic - Modellieren unter Einbeziehung linguistischer Variablen

Kriterien zur Auswahl der Methoden

Die Schlüsselrolle bei jedem Data Mining Projekt spielt jedoch die Verfügbarkeit der Daten. Hierbei sind nicht nur die Aufwände der Generierung der nötigen Datenbasis zu berücksichtigen. Insbesondere die grundsätzliche Erreichbarkeit von Daten steht sehr häufig dem sinnvollen Einsatz vieler Data Mining Methoden entgegen.

Wurden bspw. bestimmte Merkmale in der Vergangenheit nicht systematisch erfaßt, so stehen sie in naher Zukunft nicht zur Analyse zur Verfügung. In diesem Zusammenhang steht auch der Einwand der Rückwärtsbetrachtung der klassischen Datenanalysemethoden.
Insbesondere auf neuen Märkten oder bei gravierenden Veränderungen des Geschäftsumfeldes stehen keine historischen Daten für eine Analyse zur Verfügung. Desweiteren gibt es zu vielen Fragestellung keine Möglichkeit eine ausreichende Datenbasis zu generieren.

Diese Lücke läßt sich zumeist nur durch das Einbringen von Expertenwissen schließen.

  Fuzzy Logic   Entscheidungs-baumverfahren   Regression- und Diskriminanzanalyse Neuronale Netze  

Fazit: Der Methodenmix ist auf die Aufgabenstellung und die Datengrundlage anzupassen.

 

Methoden im Überblick

Datenbeschreibung und -zusammenfassung

Einer der wichtigsten Schritte ist die Analyse und die Beschreibung der grundlegenden Strukturen in den Daten:
  • Häufigkeitstabellen
  • Kreuztabellen
  • Balkendiagramme
  • Histogramme
  • Korrelationen
  • OLAP-Würfel

Segmentierung

Die Gruppierung von Elementen mit ähnlichen Merkmalen ist nicht nur ein Selbstzweck, sondern bildet häufig eine wesentliche Grundlage für weitere Analysen:
  • Clusterverfahren
  • Kohonennetze
  • Selbstorganisierende Karten
  • Visualisierungs-Verfahren

Klassifizierung

Die Basis der Maximierung von Eintrittswahrscheinlichkeiten von bestimmten Ereignissen bildet die Analyse der Wirkungszusammenhänge der relevanten Einflussfaktoren:
  • Logistische Regression
  • Diskriminanzanalyse
  • Entscheidungsbäume
  • Neuronale Netze
  • Fuzzy-Logic

Vorhersage (Zeitreihenanalyse)

Um Prognosen über zukünftigen Ereignissen treffen zu können bedarf es der Analyse der Strukturen der bisherigen Entwicklungen:
  • Regressionsanalyse
  • ARIMA-Modelle
  • Entscheidungsbäume
  • Neuronale Netze
  • Fuzzy-Logic

Abhängigkeits- bzw. Zusammenhangsanalysen

Eine häufige Herausforderung ist die Optimierung des Cross-Selling-Potentials:
  • Korrelationsanalyse
  • Regressionsanalyse
  • Analyse der Assoziationsregeln
  • Visualisierungstechniken
Top