15  Fallstudie Penguins Aufgaben

Diese Fallstudie soll dazu dienen, den bisher gelernten Stoff sinnvoll auf einen Datensatz anzuwenden. Beschreibt in eurer Lösung am besten die einzelnen Schritte, die ihr ausführt, mit #Erklärungstext über dem Code. So ist euer Code nachvollziehbarer und in der Prüfung solltet ihr das genauso machen.

15.1 Explorative Datenanalyse

15.1.1 Teil 1

15.1.1.1 Pakete laden

Lade die erforderlichen Pakte (tidyverse, visdat)

15.1.1.2 Datenimport

Importiere den penguins Datensatz:

https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv”

15.1.1.3 Datenjudo

Lass dir die obersten Zeilen ausgeben

Verschaffe dir einen Überblick über die Variablentypen

Prüfe auf fehlende Werte

Prüfe die Variablen auf Ausreißer/Extremwerte

15.1.1.4 Datenvisualisierung

Sieh dir die Verteilung von flipper_length_mm an

Sieh dir die Verteilung von flipper_length_mm in Abhängigkeit von der Spezies an

Sieh dir die Verteilung der verschiedenen Spezies auf die unterschiedlichen Inseln an

Sieh dir die Verteilung der Geschlechter unter den verschiedenen Spezies an

Sieh dir das Verhältnis von body_mass_g zu filpper_length_mm in Abhängigkeit der Spezies an und hebe, falls vorhanden, einen linearen Trend hervor

Sieh dir das Verhältnis von body_mass_g zu filpper_length_mm in Abhängigkeit des Geschlechts für jede Spezies an

15.1.2 Teil 2

15.1.2.1 Datenjudo

Wandle Ausreißer in NA um

Ersetze alle NAs mit einem repräsentativen Wert

Erstelle eine Korrelationsmatrix mit allen Variablen

Im Folgenden soll Flipper_Length als AV betrachtet werden. Lass dir nur die Korrelationen mit dieser Variable ausgeben

15.1.2.2 Datenvisualisierung

Erstelle einen Korrelationsplot

15.2 Vorhersagemodellierung

15.2.1 Einfaches lineares Modell

Erstelle ein lineares Modell, das flipper_length_mm mit Hilfe von einem Prädiktor vorhersagt.
Lass dir außerdem die Modellgüte ausgeben und plotte das Modell.