Datenanalyse

Vom Kartenspiel in die Datenanalyse – Was uns das Anscombe Quartett über Datenvisualisierung verrät!

Vom Kartenspiel in die Datenanalyse – Was uns das Anscombe Quartett über Datenvisualisierung verrät!

Projektbeginn „Datenanalyse in der Produktion für die Härterei“ – schnell soll ein Prototyp her. Die statistischen Kennzahlen vom Datenabzug erscheinen auf den ersten Blick sinnvoll. Schnell ist auch ein Algorithmus trainiert und liefert einigermaßen passende Ergebnisse. Doch was kann dabei schief gehen? Erfahren Sie in diesem Post wieso das Thema Datenvisualisierung dabei eine große Rolle spielt.

Was sagt das Anscombe Quartett aus?

Um einen Datensatz zu beschreiben, werden oft statistische Kennzahlen herbeigezogen. Diese brechen die Komplexität herunter und können standardisiert Datensätze vergleichbar machen. Der englische Statistiker Francis Anscombe stellte 1973 vier Datenreihen auf, die allesamt die gleichen statistischen Merkmale aufweisen [1]. In der folgenden Abbildung sind die grundlegenden Kennzahlen mit unserer Software visualisiert. Alle vier Datenverläufe weisen den gleichen Mittelwert und die gleiche Standardabweichung auf.

Abbildung 1: Statistische Kennzahlen der Datenstreams

Werden die Datenverläufe jedoch in einem Punktwolkendiagramm (y über x) dargestellt, zeigen sich starke Unterschiede in der Beschaffenheit der Zusammenhänge. Die Verläufe haben zwar identische Kennzahlen, folgen jedoch eigenen Dynamiken. Bilder sprechen dabei mehr als tausend Worte, daher die Darstellung mit unserer Software:

Abbildung 2 Punktwolken Darstellung der Datenstream

Anzeichen für Handlungsbedarf äußert sich bei den beiden rechten Abbildungen: Im realen Fall müsste geprüft werden, ob Ausreißer vorliegen.

Wie kann ich schnell visualisieren?

Bei der graphischen Visualisierung gibt es verschiedene Optionen:

  • Liniendiagramme: Intuitiv und einfach verständlich. Dabei wird der Verlauf eines Messwertes über die Zeit oder Fertigungsaufträge aufgetragen.
  • Punktwolkendiagramm: Zwei Werte werden gegeneinander aufgetragen. Einfache Identifizierung von Clustern und Zusammenhängen.
  • Histogramm: Zuordnung von Merkmalen in Klassen unter Angabe der Häufigkeitsdichten. Gibt einen Überblick über die Verteilung, die Klasseneinteilung kann Verzerrungen hervorrufen.
  • Box Plot: Visualisiert die Verteilung eines Merkmals anhand des Minimums, Maximums, Medians und der Quartile.

Aus unserer Erfahrung bieten sich für die erste Datenvisualisierung das Liniendiagramm und ein Punktwolkendiagramm an. Bei diesen Visualisierungen ist eine gute Balance zwischen Komplexität und Informationsgehalt gegeben. Die zusätzlichen Informationen aus dem Boxplot können über eine Tabellenansicht visualisiert werden. Eine Gruppierungsfunktion ermöglicht das präzise Filtern nach Informationen und macht die Daten besser zugänglich. So lassen sich zum Beispiel Unterschiede zwischen Schichten in einem Fertigungsauftrag verständlich herausarbeiten.

Über Gruppierungsfunktion schnell Inisghs generieren.

Abbildung 2 Gruppierungsfunktionen für Daten

Wie agiere ich mit den Insights?

Die erste Datensichtung sollte über eine Visualisierung jedes Messmerkmales als Liniendiagramm stattfinden. Im CRISP-DM Modell (hier nachlesen) findet dies während der Phase 2 „Data Understanding“ und Phase 3 „Data Preparation“ statt. So können Ausreißer, Sprünge oder andere Anomalien schnell identifiziert werden. Diese gilt es auf Plausibilität zu prüfen und bei Bedarf von der Analyse auszuschließen oder zu korrigieren. Mittels Gruppierungsfunktionen können feinere Unterschiede herausgearbeitet und geprüft werden. Mit unserer automatischen Analyse werden Sie auf Anomalien aufmerksam gemacht und können diese automatisch korrigieren oder manuell einen neuen Wert hinterlegen. Fragen Sie hier Ihre Testversion an, um Ihre Daten schnell zu analysieren!

Zusammenfassung

Das Anscombe Quartett hilft zu verstehen, wieso Datensätze mit gleichen statistischen Kennzahlen einer ganz anderen Verteilung folgen können. Dieses Unterschiede machen eine visuelle Datenbetrachtung notwendig. Zur Darstellung bieten sich Liniendiagramme und Punktwolken an, da diese einfach zu verstehen sind und dennoch viel Informationen transportieren. In Verbindung mit Informationen in Tabellenform und Gruppierungsfunktionen können auch komplexere Zusammenhänge entdeckt werden. Mit einem geeigneten Tool können Sie die Daten einfach visualisieren, gegebenenfalls anpassen und schnell Analysen starten. Wir bieten diesen Umfang mit der DatenBerg Software an, gerne bieten wir Ihnen eine Testversion an. Fragen Sie Ihre Testversion hier an! Mit den richtigen Tools können Sie schnell in ein Projekt starten, Ihren Use-Case (wie die Optimierung der Härterei) effizient durchführen und Mehrwerte in die Produktion bringen!

Quellen

[1] F. J. Anscombe: Graphs in Statistical Analysis. In: American Statistician. 27, Nr. 1, 1973, S. 17–21 Hier heruntergeladen am 02.03.2020

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.