Skip to content

Latest commit

 

History

History
124 lines (79 loc) · 6.71 KB

File metadata and controls

124 lines (79 loc) · 6.71 KB

Datensätze für Data Science / Analytics Projekte

Einführung

Die Auswahl eines geeigneten Datensatzes ist entscheidend für den Erfolg eines Data Science Projekts. Für ein gutes Projekt sollten die Daten ausreichend komplex sein, um interessante Analysen zu ermöglichen, aber nicht so umfangreich, dass die Vorverarbeitung den Großteil der Zeit in Anspruch nimmt.

Auswahlkriterien für Datensätze

Bei der Suche nach einem geeigneten Datensatz sollten folgende Aspekte berücksichtigt werden:

Die Datenqualität sollte möglichst vollständig und korrekt sein, mit wenigen fehlenden Werten. Der Datensatz sollte groß genug sein, um aussagekräftige Analysen zu ermöglichen, aber nicht so groß, dass er schwer zu handhaben ist. Eine gute Dokumentation der Variablen und ihrer Bedeutung ist essenziell. Nicht zuletzt müssen die Nutzungsbedingungen die geplante Verwendung erlauben.

Empfohlene Datensätze

Einfache Datensätze

Fish Market Dataset

Klassifikation, Datenvisualisierung, explorative Datenanalyse

https://www.kaggle.com/datasets/vipullrathod/fish-market

  • Ideal für Einsteiger in die Klassifikation
  • Ähnlich zum bekannten Iris-Datensatz
  • Enthält 6 Features und eine Zielklasse (Fischart)
  • Gut geeignet für erste Erfahrungen mit Machine Learning

Beschreibung: Dieser Datensatz enthält Aufzeichnungen über gängige Fischarten, die auf Märkten verkauft werden. Er umfasst 6 Merkmale wie Gewicht, Länge, Höhe und Breite, wobei die Zielvariable die Fischart ist. Ähnlich dem bekannten Iris-Datensatz eignet er sich ideal für grundlegende Klassifikationsaufgaben und explorative Datenanalyse. Geeignet für: Klassifikation, Datenvisualisierung, explorative Datenanalyse


World Population Dataset

Datenvisualisierung, Zeitreihenanalyse, demografische Studien

https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset

  • Hervorragend für Data Analytics und Visualisierung
  • Bevölkerungsdaten von 1970 bis 2022
  • Ermöglicht interessante geografische Visualisierungen
  • Quelle: Vereinte Nationen
  • Eignet sich besonders für Zeitreihenanalysen und kartografische Darstellungen

Beschreibung: Dieser Datensatz bietet Bevölkerungsstatistiken von Ländern von 1970 bis 2022 und enthält 17 Spalten, darunter Ländername, Jahr, Bevölkerungszahl und demografische Indikatoren. Hervorragend für Datenanalyseprojekte, die sich auf demografische Trends und Visualisierungen wie Choroplethenkarten konzentrieren.


Mittlere Komplexität

TMDB 5000 Movie Dataset

Explorative Datenanalyse, prädiktive Modellierung, Empfehlungssysteme

https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata

  • Umfangreiche Filmdatenbank mit verschachtelten JSON-Strukturen
  • Ermöglicht vielfältige Analysen wie Genre-Trends oder Erfolgsvorhersagen
  • Gut geeignet für Data Cleaning und Feature Engineering

Beschreibung: Ein umfassender Datensatz mit Informationen über 5.000 Filme aus der The Movie Database (TMDB). Er enthält zwei Dateien mit 20 bzw. 4 Spalten und bietet Attribute wie Budget, Genre, Besetzung, Crew, Schlüsselwörter und Popularität. Beachten Sie, dass einige Felder im JSON-Format vorliegen und geparst werden müssen.


Spotify Tracks Dataset

Clustering, Datenanalyse, Zeitreihenanalyse

https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset

Beschreibung: Dieser Datensatz bietet einen detaillierten Einblick in über 160.000 Spotify-Tracks mit 21 Merkmalen, darunter Akustizität, Tanzbarkeit, Energie, Instrumentalität und Tempo. Ideal für die Analyse von Musiktrends, das Clustern von Songs oder den Aufbau von Empfehlungssystemen.


Car Sales Prediction

https://www.kaggle.com/datasets/gagandeep16/car-sales

  • Klassifikationsaufgabe mit 16 Merkmalen
  • Ideal für Marktanalysen und Vorhersagemodelle
  • Reales Geschäftsszenario

Beschreibung: Dieser Datensatz enthält Informationen über Autoverkäufe mit 16 Merkmalen wie Modell, Baujahr, Preis, Motorgröße und Kilometerstand. Er eignet sich für Klassifikations- oder Regressionsaufgaben, um Verkaufsergebnisse vorherzusagen oder Faktoren zu identifizieren, die den Verkauf beeinflussen.

Fortgeschrittene Projekte

Car Object Detection

https://www.kaggle.com/datasets/sshikamaru/car-object-detection/data

  • Computer Vision Projekt mit 1178 Bilddateien
  • Geeignet für Teams mit Interesse an künstlicher Intelligenz und Bildverarbeitung
  • Erfordert gute Python-Kenntnisse und Erfahrung mit Deep Learning

Beschreibung: Ein Computer-Vision-Datensatz mit 1.178 Bildern für Autoerkennungsaufgaben. Geeignet für Projekte, die Bildverarbeitung und Objekterkennung beinhalten, kann dieser Datensatz Ihnen helfen, Modelle wie YOLO oder Faster R-CNN zu implementieren.


Zusätzliche Datenquellen

Für Teams, die eigene Datensätze suchen möchten, sind folgende Plattformen empfehlenswert:

UCI Machine Learning Repository

https://archive.ics.uci.edu/

  • Über 670 kuratierte Datensätze
  • Hohe Qualitätsstandards
  • Ausführliche Dokumentation

Google Dataset Search

https://datasetsearch.research.google.com/

  • Umfassende Suchmaschine für Datensätze
  • Vielfältige Themengebiete
  • Regelmäßige Aktualisierungen

EU Open Data Portal

https://data.europa.eu/en

  • Offizielle Daten der Europäischen Union
  • Besonders interessant für Projekte mit lokalem oder europäischem Bezug
  • Aktuelle Daten in verschiedenen Formaten

Empfehlung

Es empfiehlt sich, in den ersten Projekttagen verschiedene Datensätze zu erkunden und deren Eignung für die geplante Analyse zu prüfen. Die endgültige Auswahl sollte auf Basis der Team-Expertise und der gewünschten Projektausrichtung erfolgen. Dabei sollten die Teams auch die Dokumentation und Community-Diskussionen auf den jeweiligen Plattformen berücksichtigen, da diese wertvolle Einblicke in mögliche Herausforderungen und Lösungsansätze bieten können.