Méthodologie d'évaluation d'un filtre anti-spam
José-Marcio Martins da Cruz
Centre de Calcul et des Systèmes d'Information – Mines Paristech
Mots clefs
Filtre anti-spam, évaluation, méthodologie, filtrage en ligne
Résumé
« Tout le monde le sait » : l'efficacité d'un filtre anti-spam se mesure par ses taux de faux positifs et faux négatifs. Mais que veulent réellement dire ces chiffres ? Ces indicateurs sont ils suffisants et adaptés à l'évaluation d'un filtre anti-spam ? Comment évaluer sérieusement un filtre anti-spam ?
Dans un premier temps nous allons passer en revue les indicateurs d'efficacité de filtrage (ou classement) usuels et comparer leur intérêt pour le cas du filtrage de spam.
Une autre partie est dédiée à la modélisation du filtrage de spam en ligne. L'évaluation d'un classificateur n'est utile que si le modèle est représentatif du contexte réel d'utilisation du filtre et ne sera valable que pour ce contexte particulier. Par exemple, un classificateur statistique pourra ne pas présenter les même résultats sur un flot auquel on a appliqué du « greylisting ». Nous allons présenter quelques scenarii d'évaluation.
Enfin, la dernière partie présente, comme exemple, l'application de cette méthodologie à l'étude de la sensibilité d'un filtre anti-spam par rapport à l'âge des échantillons utilisés pour l'apprentissage d'un filtre statistique.
Méthodologie d'évaluation d'un filtre anti-spam
José-Marcio Martins da Cruz
Centre de Calcul et des Systèmes d'Information – Mines Paristech
Mots clefs
Filtre anti-spam, évaluation, méthodologie, filtrage en ligne
Résumé
« Tout le monde le sait » : l'efficacité d'un filtre anti-spam se mesure par ses taux de faux positifs et faux négatifs. Mais que veulent réellement dire ces chiffres ? Ces indicateurs sont ils suffisants et adaptés à l'évaluation d'un filtre anti-spam ? Comment évaluer sérieusement un filtre anti-spam ?
Dans un premier temps nous allons passer en revue les indicateurs d'efficacité de filtrage (ou classement) usuels et comparer leur intérêt pour le cas du filtrage de spam.
Une autre partie est dédiée à la modélisation du filtrage de spam en ligne. L'évaluation d'un classificateur n'est utile que si le modèle est représentatif du contexte réel d'utilisation du filtre et ne sera valable que pour ce contexte particulier. Par exemple, un classificateur statistique pourra ne pas présenter les même résultats sur un flot auquel on a appliqué du « greylisting ». Nous allons présenter quelques scenarii d'évaluation.
Enfin, la dernière partie présente, comme exemple, l'application de cette méthodologie à l'étude de la sensibilité d'un filtre anti-spam par rapport à l'âge des échantillons utilisés pour l'apprentissage d'un filtre statistique.