Le Data Mining correspond à l’ensemble des techniques et des méthodes qui à partir de données permettent d’obtenir des connaissances exploitables. Son utilité est grande dès lors que l’entreprise possède un grand nombre d’informations stockées sous forme de bases de données.
Voici une liste des étapes à prendre en compte dans toute démarche typique de Data Mining :
1. Analyse du problème d’application
- choisir un problème précis, des objectifs tangibles et quantifiables
- définir la manière dont la solution sera déployée
– spécifier la solution
2. Obtenir les données qui seront utilisées dans l’analyse.
- évaluer la qualité des données, détecter leurs insuffisances et pathologies
- visualiser, analyser les distributions et les regroupements
3. Prétraitement des données
– nettoyage : suppression du bruit, valeurs manquantes ou abérrantes
– réduction des données
– sélection des instances
– sélection, extraction, combinaison des variables
– transformation des données – discrétisation des variables continues
– numérisation des variables nominales
– invention de nouvelles variables
4. Déterminer la tâche de data mining (classification, prédiction, clustering, etc...).
5. Choisir la technique de data mining à utiliser (régression, réseaux de neurones, clustering hiérarchiques...) en fonction du problème/des données.
6. Utiliser l’algorithme pour réaliser la tâche. C’est typiquement un rocessus itératif.
7. Evaluation et interprétation des résultats
– évaluation quantitative indispensable
– compréhensibilité souvent capitale (ex. applications médicales)
8. Déploiement du modèle.
Ceci implique l’intégration du modèle dans un système opérationnel et le faire tourner sur des données réelles afin de produire des décisions ou des actions.