Datensätze für Data Science / Analytics Projekte

Einführung

Die Auswahl eines geeigneten Datensatzes ist entscheidend für den Erfolg eines Data Science Projekts. Für ein gutes Projekt sollten die Daten ausreichend komplex sein, um interessante Analysen zu ermöglichen, aber nicht so umfangreich, dass die Vorverarbeitung den Großteil der Zeit in Anspruch nimmt.

Auswahlkriterien für Datensätze

Bei der Suche nach einem geeigneten Datensatz sollten folgende Aspekte berücksichtigt werden:

Die Datenqualität sollte möglichst vollständig und korrekt sein, mit wenigen fehlenden Werten. Der Datensatz sollte groß genug sein, um aussagekräftige Analysen zu ermöglichen, aber nicht so groß, dass er schwer zu handhaben ist. Eine gute Dokumentation der Variablen und ihrer Bedeutung ist essenziell. Nicht zuletzt müssen die Nutzungsbedingungen die geplante Verwendung erlauben.

Empfohlene Datensätze

Einfache Datensätze

Fish Market Dataset

Klassifikation, Datenvisualisierung, explorative Datenanalyse

https://www.kaggle.com/datasets/vipullrathod/fish-market

Ideal für Einsteiger in die Klassifikation
Ähnlich zum bekannten Iris-Datensatz
Enthält 6 Features und eine Zielklasse (Fischart)
Gut geeignet für erste Erfahrungen mit Machine Learning

Beschreibung: Dieser Datensatz enthält Aufzeichnungen über gängige Fischarten, die auf Märkten verkauft werden. Er umfasst 6 Merkmale wie Gewicht, Länge, Höhe und Breite, wobei die Zielvariable die Fischart ist. Ähnlich dem bekannten Iris-Datensatz eignet er sich ideal für grundlegende Klassifikationsaufgaben und explorative Datenanalyse. Geeignet für: Klassifikation, Datenvisualisierung, explorative Datenanalyse

World Population Dataset

Datenvisualisierung, Zeitreihenanalyse, demografische Studien

https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset

Hervorragend für Data Analytics und Visualisierung
Bevölkerungsdaten von 1970 bis 2022
Ermöglicht interessante geografische Visualisierungen
Quelle: Vereinte Nationen
Eignet sich besonders für Zeitreihenanalysen und kartografische Darstellungen

Beschreibung: Dieser Datensatz bietet Bevölkerungsstatistiken von Ländern von 1970 bis 2022 und enthält 17 Spalten, darunter Ländername, Jahr, Bevölkerungszahl und demografische Indikatoren. Hervorragend für Datenanalyseprojekte, die sich auf demografische Trends und Visualisierungen wie Choroplethenkarten konzentrieren.

Mittlere Komplexität

TMDB 5000 Movie Dataset

Explorative Datenanalyse, prädiktive Modellierung, Empfehlungssysteme

https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata

Umfangreiche Filmdatenbank mit verschachtelten JSON-Strukturen
Ermöglicht vielfältige Analysen wie Genre-Trends oder Erfolgsvorhersagen
Gut geeignet für Data Cleaning und Feature Engineering

Beschreibung: Ein umfassender Datensatz mit Informationen über 5.000 Filme aus der The Movie Database (TMDB). Er enthält zwei Dateien mit 20 bzw. 4 Spalten und bietet Attribute wie Budget, Genre, Besetzung, Crew, Schlüsselwörter und Popularität. Beachten Sie, dass einige Felder im JSON-Format vorliegen und geparst werden müssen.

Spotify Tracks Dataset

Clustering, Datenanalyse, Zeitreihenanalyse

https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset

Umfassende Musikanalysedaten mit 21 Spalten
Eignet sich hervorragend für Clustering und explorative Datenanalyse
Alternative Version mit 30.000 Songs verfügbar: https://www.kaggle.com/datasets/joebeachcapital/30000-spotify-songs
Ermöglicht interessante Visualisierungen von Musikcharakteristiken

Beschreibung: Dieser Datensatz bietet einen detaillierten Einblick in über 160.000 Spotify-Tracks mit 21 Merkmalen, darunter Akustizität, Tanzbarkeit, Energie, Instrumentalität und Tempo. Ideal für die Analyse von Musiktrends, das Clustern von Songs oder den Aufbau von Empfehlungssystemen.

Car Sales Prediction

https://www.kaggle.com/datasets/gagandeep16/car-sales

Klassifikationsaufgabe mit 16 Merkmalen
Ideal für Marktanalysen und Vorhersagemodelle
Reales Geschäftsszenario

Beschreibung: Dieser Datensatz enthält Informationen über Autoverkäufe mit 16 Merkmalen wie Modell, Baujahr, Preis, Motorgröße und Kilometerstand. Er eignet sich für Klassifikations- oder Regressionsaufgaben, um Verkaufsergebnisse vorherzusagen oder Faktoren zu identifizieren, die den Verkauf beeinflussen.

Fortgeschrittene Projekte

Car Object Detection

https://www.kaggle.com/datasets/sshikamaru/car-object-detection/data

Computer Vision Projekt mit 1178 Bilddateien
Geeignet für Teams mit Interesse an künstlicher Intelligenz und Bildverarbeitung
Erfordert gute Python-Kenntnisse und Erfahrung mit Deep Learning

Beschreibung: Ein Computer-Vision-Datensatz mit 1.178 Bildern für Autoerkennungsaufgaben. Geeignet für Projekte, die Bildverarbeitung und Objekterkennung beinhalten, kann dieser Datensatz Ihnen helfen, Modelle wie YOLO oder Faster R-CNN zu implementieren.

Zusätzliche Datenquellen

Für Teams, die eigene Datensätze suchen möchten, sind folgende Plattformen empfehlenswert:

UCI Machine Learning Repository

https://archive.ics.uci.edu/

Über 670 kuratierte Datensätze
Hohe Qualitätsstandards
Ausführliche Dokumentation

Google Dataset Search

https://datasetsearch.research.google.com/

Umfassende Suchmaschine für Datensätze
Vielfältige Themengebiete
Regelmäßige Aktualisierungen

EU Open Data Portal

https://data.europa.eu/en

Offizielle Daten der Europäischen Union
Besonders interessant für Projekte mit lokalem oder europäischem Bezug
Aktuelle Daten in verschiedenen Formaten

Empfehlung

Es empfiehlt sich, in den ersten Projekttagen verschiedene Datensätze zu erkunden und deren Eignung für die geplante Analyse zu prüfen. Die endgültige Auswahl sollte auf Basis der Team-Expertise und der gewünschten Projektausrichtung erfolgen. Dabei sollten die Teams auch die Dokumentation und Community-Diskussionen auf den jeweiligen Plattformen berücksichtigen, da diese wertvolle Einblicke in mögliche Herausforderungen und Lösungsansätze bieten können.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Datensätze für Data Science / Analytics Projekte

Einführung

Auswahlkriterien für Datensätze

Empfohlene Datensätze

Einfache Datensätze

Fish Market Dataset

World Population Dataset

Mittlere Komplexität

TMDB 5000 Movie Dataset

Spotify Tracks Dataset

Car Sales Prediction

Fortgeschrittene Projekte

Car Object Detection

Zusätzliche Datenquellen

Empfehlung

FilesExpand file tree

data_sets.md

Latest commit

History

data_sets.md

File metadata and controls

Datensätze für Data Science / Analytics Projekte

Einführung

Auswahlkriterien für Datensätze

Empfohlene Datensätze

Einfache Datensätze

Fish Market Dataset

World Population Dataset

Mittlere Komplexität

TMDB 5000 Movie Dataset

Spotify Tracks Dataset

Car Sales Prediction

Fortgeschrittene Projekte

Car Object Detection

Zusätzliche Datenquellen

Empfehlung