15 Fallstudie Penguins Aufgaben
Diese Fallstudie soll dazu dienen, den bisher gelernten Stoff sinnvoll auf einen Datensatz anzuwenden. Beschreibt in eurer Lösung am besten die einzelnen Schritte, die ihr ausführt, mit #Erklärungstext über dem Code. So ist euer Code nachvollziehbarer und in der Prüfung solltet ihr das genauso machen.
15.1 Explorative Datenanalyse
15.1.1 Teil 1
15.1.1.1 Pakete laden
Lade die erforderlichen Pakte (tidyverse, visdat)
15.1.1.2 Datenimport
Importiere den penguins Datensatz:
https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv”
15.1.1.3 Datenjudo
Lass dir die obersten Zeilen ausgeben
Verschaffe dir einen Überblick über die Variablentypen
Prüfe auf fehlende Werte
Prüfe die Variablen auf Ausreißer/Extremwerte
15.1.1.4 Datenvisualisierung
Sieh dir die Verteilung von flipper_length_mm
an
Sieh dir die Verteilung von flipper_length_mm
in Abhängigkeit von der Spezies an
Sieh dir die Verteilung der verschiedenen Spezies auf die unterschiedlichen Inseln an
Sieh dir die Verteilung der Geschlechter unter den verschiedenen Spezies an
Sieh dir das Verhältnis von body_mass_g zu filpper_length_mm in Abhängigkeit der Spezies an und hebe, falls vorhanden, einen linearen Trend hervor
Sieh dir das Verhältnis von body_mass_g zu filpper_length_mm in Abhängigkeit des Geschlechts für jede Spezies an
15.1.2 Teil 2
15.1.2.1 Datenjudo
Wandle Ausreißer in NA um
Ersetze alle NAs mit einem repräsentativen Wert
Erstelle eine Korrelationsmatrix mit allen Variablen
Im Folgenden soll Flipper_Length als AV betrachtet werden. Lass dir nur die Korrelationen mit dieser Variable ausgeben
15.1.2.2 Datenvisualisierung
Erstelle einen Korrelationsplot
15.2 Vorhersagemodellierung
15.2.1 Einfaches lineares Modell
Erstelle ein lineares Modell, das flipper_length_mm
mit Hilfe von einem Prädiktor vorhersagt.
Lass dir außerdem die Modellgüte ausgeben und plotte das Modell.