Introduction
"Data is de nieuwe olie." De meeste mensen hebben dit wel eens gehoord.
De meeste mensen beseffen ook dat, net zoals ruwe olie niet nuttig is als je in een auto wilt rijden, het beschikbaar hebben van tonnen gegevens op zich niet nuttig is om je bedrijf vooruit te helpen. Het gaat erom je gegevens te gebruiken om inzichten te verkrijgen. En handelen naar deze inzichten voegt waarde toe aan uw bedrijf.
Datamining is het proces waarbij inzichten worden gehaald uit grote datasets. Datamining combineert statistiek, machinaal leren en databases. Maar datamining is verre van 'gewoon magie'. In deze cursus bespreken we de innerlijke werking van 10 van de meest gebruikte dataminingalgoritmen en laten we u precies zien wat er onder de motorkap gebeurt.
Leerdoelen
Vaardigheden:
In staat zijn om een beslisboom classifier te construeren met behulp van het ID3-algoritme.
Creëren van clusters van objecten met behulp van het K-means algoritme.
Gegevens in twee klassen in te delen met behulp van het SVM algoritme.
Leren van associatieregels met behulp van het APriori algoritme.
Werken met onvolledige gegevens met behulp van het Verwachtingsmaximalisatie algoritme.
Uitvoeren van linkanalyse en het bepalen van het relatieve belang van objecten binnen een netwerk met behulp van het PageRank algoritme.
Construeren van een classifier met behulp van het AdaBoost algoritme.
Uitvoeren van classificatie met behulp van het kNN-algoritme.
Classificatie uitvoeren met de Naive Bayes familie van algoritmen.
Kennis:
Kennis van datamining en de verschillende taken en doelen die daarbij horen.
Begrip van de evaluatie van modellen bij datamining.
Kennis van de top 10 algoritmen voor datamining, inclusief hun toepassingen en verschillen.
Attitude:
Een nieuwsgierige en leergierige houding ten opzichte van datamining en de verschillende algoritmen.
Een kritische en analytische houding bij het evalueren van de uitkomsten van de algoritmen.
Een open houding ten opzichte van het gebruik van nieuwe tools en technologieën bij datamining, zoals Weka en Orange Canvas.
Programma
We beginnen deze cursus met een samenvatting van het doel en de verschillende taken bij datamining. Aangezien datamining tot doel heeft een model te vinden, hebben we het ook over het evalueren van zo'n model.
De volgende hoofdstukken bespreken de volgende top 10 algoritmen voor datamining:
ID3 construeert een classifier in de vorm van een beslisboom. Daartoe krijgt ID3 een reeks gegevens die dingen vertegenwoordigen die al geclassificeerd zijn. Dit algoritme is de voorloper van het C4.5-algoritme.
K-means creëert k groepen uit een verzameling objecten zodat de groepsleden meer op elkaar lijken. Het is een populaire clusteranalysetechniek voor het verkennen van een dataset.
Support vector machines (SVM) leert een hypervlak om gegevens in twee klassen in te delen. Op hoog niveau voert SVM een soortgelijke taak uit als C4.5, behalve dat SVM helemaal geen beslissingsbomen gebruikt.
Het APriori algoritme leert associatieregels en wordt toegepast op een database met een groot aantal transacties. Association rule learning is een dataminingtechniek voor het leren van correlaties en relaties tussen variabelen in een database.
Expectiation-maximization wordt meestal gebruikt als een clusteralgoritme (zoals k-means) voor ontdekking van kennis (knowledge discovery). Het expectation-maximization-algoritme is een natuurlijke generalisatie van maximum likelihood-schatting bij onvolledige gegevens.
PageRank is een algoritme voor linkanalyse, ontworpen om het relatieve belang te bepalen van bepaalde objecten die binnen een netwerk van objecten met elkaar verbonden zijn.
AdaBoost is een boosting-algoritme dat een classifier construeert. Boosting is een algoritme voor ensembleleren dat meerdere leeralgoritmen (bv. beslissingsbomen) combineert. Het doel is een ensemble of groep zwakke leerders te nemen en deze te combineren tot één sterke leerder.
kNN, of k-Nearest Neighbors, is een classificatiealgoritme. Het verschilt echter van de eerder beschreven classificeerders omdat het een luie leerling is.
Naive Bayes is niet één algoritme, maar een familie van classificatiealgoritmen met één gemeenschappelijke aanname: Elk kenmerk van de geclassificeerde gegevens moet onafhankelijk zijn van alle andere kenmerken gezien de klasse
In de hele cursus gebruiken we de tools Weka en Orange Canvas om de dataminingalgoritmen te illustreren.
Praktische informatie
Nederlands of Engels
Standaardduur: 2 dagen