TP, scikit-learn - Alexis Lechervy

M1 Informatique UMI2C
Fouille de données et Apprentissage
TP
Alexis Lechervy
[email protected]
17/02/2014
1
Introduction
L’objectif de ce premier TP est de se familiariser avec des outils d’apprentissage statistique. Ce TP
sera réalisé en python 2.7 `
a l’aide de la bibliothèque scikit-learn. Une documentation complète de cette
bibliothèque est disponible `
a l’adresse http://scikit-learn.org.
Commencez par télécharger les sources de la bibliothèque scikit-learn à l’adresse https://pypi.
python.org/pypi/scikit-learn puis lancez l’installation de la bibliothèque à l’aide de la commande
python setup.py install –user
2
La base d’apprentissage
Nous allons utiliser dans ce tp, la base Iris (vous trouverez des informations complémentaires sur
cette base `
a l’adresse http://archive.ics.uci.edu/ml/datasets/Iris). C’est une base comportant
trois types d’Iris (Iris Setosa, Iris Versicolour et l’Iris Virginica). Chacune des fleurs est décrite par 4
attributs (la longueur et la largeur du sépale et du pétale). L’objectif est d’utiliser les différentes méthodes
d’apprentissage vu en cours pour distinguer les trois types d’Iris.
Commencez par charger la base de donnée dans votre console python à l’aide du code suivant :
from m a t p l o t l i b import p y p l o t a s p l t
from s k l e a r n . d a t a s e t s import l o a d i r i s
import numpy a s np
data = l o a d i r i s ( )
f e a t u r e s = data [ ’ data ’ ]
f e a t u r e s n a m e s = data [ ’ f e a t u r e n a m e s ’ ]
t a r g e t = data [ ’ t a r g e t ’ ]
Dans un premier temps nous travaillerons uniquement avec les deux premières dimensions décrivant
nos images (la longueur et la largeur du sépale). Afficher à l’écran les points de la base d’apprentissage
en fonction uniquement de ces deux dimensions. Vous pouvez utiliser le code suivant :
f o r t , marker , c in z i p ( xrange ( 3 ) , ”>ox ” , ” rgb ” ) :
p l t . s c a t t e r ( f e a t u r e s [ t a r g e t == t , 0 ] ,
f e a t u r e s [ t a r g e t == t , 1 ] ,
marker=marker , c=c )
p l t . show ( )
Que remarquez vous sur la disposition des points de cette base ?
1
3
Les k-plus-proche-voisins (kNN)
Nous allons commencer par classer notre base à l’aide de la méthode kNN. Commencez par récupérer
la base de donnée Iris et prenez uniquement les deux premières dimensions des descripteurs :
import pylab a s p l
from m a t p l o t l i b . c o l o r s import ListedColormap
from s k l e a r n import n e i g h b o r s , d a t a s e t s
import numpy a s np
# i m p o r t some d a t a t o p l a y w i t h
i r i s = datasets . l o a d i r i s ()
X = i r i s . data [ : , : 2 ] # we o n l y t a k e t h e f i r s t two f e a t u r e s . We c o u l d
# a v o i d t h i s u g l y s l i c i n g by u s i n g a two−dim d a t a s e t
y = i r i s . target
Réalisez ensuite l’apprentissage d’un kNN avec 15 voisins en utilisant le code suivant :
# we c r e a t e an i n s t a n c e o f N e i g h b o u r s C l a s s i f i e r and f i t t h e d a t a .
c l f = n e i g h b o r s . K N e i g h b o r s C l a s s i f i e r ( 1 5 , w e i g h t s= ’ uniform ’ )
c l f . f i t (X, y )
Affichez ensuite le résultat du classifieur en découpant l’espace en trois parties correspondants `
a
chacune des classes :
c m a p l i g h t = ListedColormap ( [ ’#FFAAAA ’ , ’#AAFFAA ’ , ’#AAAAFF ’ ] )
cmap bold = ListedColormap ( [ ’#FF0000 ’ , ’#00FF00 ’ , ’ #0000FF ’ ] )
h = . 0 2 # s t e p s i z e i n t h e mesh
# P l o t t h e d e c i s i o n boundary . For t h a t , we w i l l a s s i g n a c o l o r t o each
# p o i n t i n t h e mesh [ x min , m max ] x [ y min , y max ] .
x min , x max = X [ : , 0 ] . min ( ) − 1 , X [ : , 0 ] . max ( ) + 1
y min , y max = X [ : , 1 ] . min ( ) − 1 , X [ : , 1 ] . max ( ) + 1
xx , yy = np . meshgrid ( np . a r a n g e ( x min , x max , h ) ,
np . a r a n g e ( y min , y max , h ) )
Z = c l f . p r e d i c t ( np . c [ xx . r a v e l ( ) , yy . r a v e l ( ) ] )
# Put t h e r e s u l t i n t o a c o l o r p l o t
Z = Z . r e s h a p e ( xx . shape )
pl . f i g u r e ()
p l . p c o l o r m e s h ( xx , yy , Z , cmap=c m a p l i g h t )
Ajoutez les exemples d’apprentissages a` votre affichage :
# Plot also the training points
p l . s c a t t e r (X [ : , 0 ] , X [ : , 1 ] , c=y , cmap=cmap bold )
p l . xlim ( xx . min ( ) , xx . max ( ) )
p l . ylim ( yy . min ( ) , yy . max ( ) )
p l . show ( )
Vous devez obtenir un affichage similaire à la figure Fig.3.
Le classifieur kNN de scikit-learn admet plusieurs paramètres notamment le nombre de voisin et le
type de pondération de ces derniers. La pondération uniforme que vous venez d’utiliser permet de donner
la même importance `
a chaque voisin dans le vote de la classe de l’exemple. Vous pouvez changer ce poids
en donnant plus d’importance aux exemples les plus proches du point à tester et moins d’importance aux
exemples plus éloigné. Pour cela changer l’option weights=’uniform’ par weights=’distance’. Essayez
différentes combinaisons de paramètres (changer le type de pondération et le nombre de voisin).
2
4
Classifieur bay´
esien
Nous allons changer de type de classifieur. Réaliser les même opération que précédemment avec un
classifieur bayésien `
a une gaussienne ; Commencez par importer les fonctions nécessaire :
from s k l e a r n . n a i v e b a y e s import GaussianNB
Puis réalisez l’apprentissage :
c l f = GaussianNB ( )
c l f . f i t (X, y )
Faites en sorte d’obtenir un affichage similaire à la partie précédente.
5
Classifieur SVM
Recommencer les étapes précédentes avec des SVM. Utilisez les deux implémentation possible des
SVM de la libraires (svm.SVC et svm.LinearSVC ). L’une de ces implémentation ne fonctionne que dans
le cas linéaire. Testez également plusieurs type de noyaux (polynomial, gaussien...), en vous inspirant des
lignes suivantes :
from s k l e a r n import svm , d a t a s e t s
...
C = 1 . 0 # SVM r e g u l a r i z a t i o n parameter
s v c = svm . SVC( k e r n e l= ’ l i n e a r ’ , C=C ) . f i t (X, Y)
r b f s v c = svm . SVC( k e r n e l= ’ r b f ’ , gamma=0.7 , C=C ) . f i t (X, Y)
p o l y s v c = svm . SVC( k e r n e l= ’ p o l y ’ , d e g r e e =3, C=C ) . f i t (X, Y)
l i n s v c = svm . LinearSVC (C=C ) . f i t (X, Y)
Changez les paramètres des noyaux et regardez comment est modifié la séparation des classes.
6
Bilan
Vous allez chercher maintenant le meilleur algorithme et les meilleurs paramètres pour résoudre notre
problème de classification. Vous utiliserez dorénavant toutes les dimensions des descripteurs.
Le code suivant permet de calculer le nombre d’erreur de classification du classifieur (ypred est le
vecteur des prédictions calculé préalablement) :
print ( ”Number o f m i s l a b e l e d p o i n t s : %d” % ( i r i s . t a r g e t != y p r e d ) . sum ( ) )
3
Pourquoi n’est il pas pertinent de calculer l’erreur du classifieur sur l’ensemble d’apprentissage pour
connaitre les performances de l’algorithme d’apprentissage ?
Lisez la page suivante de la doc : http://scikit-learn.org/stable/modules/cross_validation.
html#computing-cross-validated-metrics et écrivez les lignes de codes nécessaire pour trouver le
meilleur classifieur et le meilleur jeux de paramètres pour classer ces Iris.
7
Impl´
ementation
Récrivez le code de l’algorithme knn et vérifiez que votre implémentation donne des résultats similaires
a celle de scikit-learn.
`
4

Download Report