Eines der am Anfang kompliziertesten Aufgaben im Feld der Datenvorbereitung ist das pivotieren und transponieren, also das aufteilen einer Spalte im Datensatz in mehrere Zeilen oder auch das verbinden mehrere Zeilen in eine Spalte.
Bereits häufig in verschiedenen Projekten verwendet benötigt diese Technik bei jeder Anwendung einen guten Teil meines Gehirnschmalzes. Als sehr markantes Beispiel steht mein Make Over Monday (MoM) Projekt 5: Steam Games top 100 dafür.
Für Informationen was ein Make over Monday ist:
https://thedataschool.co.uk/thomas-hoefer/make-over-monday-2/
Link zur MoM challenge Webseite, entsprechende challenge ist 12/01/2025:
https://makeovermonday.co.uk/
Leider sind die benutzten Daten nicht mehr verfügbar, aber man kann aktuelle erhalten unter:
https://store.steampowered.com/charts/mostplayed
Meine Visualisierung nach den 1,5 Stunden Arbeit am Datensatz:
https://public.tableau.com/views/MOM_12_01_2025_steamTop100/Dashboard1?:language=en-US&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link


Mit diesem Ergebnis war ich aus vielen Gründen sehr unzufrieden. Der Hauptgrund: Ich konnte die Idee Spiele nach Genre bzw. Tags zu analysieren nicht umsetzen. Dies war der Datenquelle geschult die eine Analyse über Tableau bezüglich diesen Aspektes sehr schwierig gestaltete.
Das Problem bestand in der Sammlung von bis zu 20 Game Tags je Titel in einer einzigen Spalte getrennt durch Kommas aneinandergereiht. Um dies zu lösen teilte ich die Tags über Alteryx in 20 Spalten auf. Ab hier ergab sich aber das Problem, das für meine gewünschte Lösung eine Spalte je Game Tag zu erzeugen, ich nun 20x pivotieren müsste. Da Zeit bei MoM sehr begrenzt ist schließ ich dies direkt aus und machte das beste aus dem was da war. Unzufrieden mit dem Ergebnis war aber klar: Das werde ich nochmal anschauen und lösen.
Inzwischen sind einige Wochen ins Land gezogen und ich habe überraschen Zeit, was bedeutet: MoM Steam Top 100 jetzt wirst du gelöst ... und das gelang mir auch nach 15min ...
Tja das Problem war wirklich schnell zu lösen, aber es war nötig einen Schritt zurückzugehen und den ersten getätigten Schritt, der Aufteilung auf 20 Spalten zu hinterfragen. Alteryx erlaubt im Text to Column tool auch das aufteilen in Zeilen. Hiermit umgeht man das Problem 20x pivotieren zu müssen, sondern kann die bequem in einem erledigen. Der Flow ist somit, abgesehen von einer Menge cleaning steps, der Datenquelle geschuldet, sehr schlank geworden:




Mit diesen Daten werde ich demnächst meine eigentliche Idee zur Steam top100 umsetzen.
Bis zum nächsten Blog 😀
PS: Für an Steam Daten Interessierte auch noch ein Link zu Morgan Rennies absolut wahnsinnigem Projekt einen Katalog über alle Steam Games in Tableau zu erstellen:
https://public.tableau.com/app/profile/morgan.rennie/viz/SteamCataloguingDashboard/MainSheet