Datasets

No data no glory!

Zonder data is machine learning niet mogelijk. Gelukkig zijn datasets tegenwoordig makkelijk te verkrijgen. Op deze pagina wordt een overzicht bijgehouden van verschillende datasets die veelal gratis te downloaden zijn.

Diverse datasets

Kaggle.com is een data science competitie website. Bedrijven en organisaties kunnen hier een dataset publiceren en een competitie (vaak voor geld) starten. Twee datasets om meer te leren over data analytics en machine learning zijn

Titanic: Machine Learning from Disaster

en

House Prices: Advanced Regression Techniques.

 

Afbeeldingen datasets

CIFAR-10 en CIFAR-100

Deep learning met convolutional neural networks en GPU’s is populair geworden o.a. door onderzoeker Alex Krizhevsky. Om een neuraal netwerk te leren objecten te herkennen in foto’s heeft hij twee datasets gebruikt. De eerste, CIFAR-10, bestaat uit 60.000 afbeeldingen van 32×32 pixels. Er zijn 10 klasses van objecten en 6.000 afbeeldingen per klasse. De tweede set, CIFAR-100, bestaat ook uit 60.000 afbeeldingen van 32×32 pixels. Deze sets bevat 100 klasses van verschillende objecten met 600 afbeeldingen per klasse.

Link: https://www.cs.toronto.edu/~kriz/cifar.html

 

 

 

CWFID – Crop Weed Field Image Dataset

Een dataset met 60 afbeeldingen van onkruid/gewas. De afbeeldingen zijn geannoteerd en online te downloaden.

Link: https://github.com/cwfid