Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning

  • Montpellier
  • CDD
  • Temps-plein
  • Il y a 2 jours
Offer Description### **Résumé : Identification des Échantillons Influents dans la Base de Données de Pl@ntnet**#### **Objectif**Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.#### **Aperçu de la Base de Données**La base de données de Pl@ntnet comprend :- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.#### **Approche Technique**- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.#### **Applications**- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.#### **Perspectives Futures**- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.---**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**#### **Objective**The project aims to identify influential samples in Pl@ntnet's dataset-a plant identification app-to improve both user experience and model performance. Key goals include:- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.#### **Dataset Overview**Pl@ntnet's dataset includes:- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.#### **Technical Approach**- **Influence Functions:** Measure how a sample affects the model. Two variants are used:- **Parameter Influence:** Measures impact on model parameters.- **Loss Influence:** Measures impact on the loss function for a test sample.- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.#### **Applications**- **User Interface:** Show informative samples instead of just probable ones.- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.#### **Future Directions**- Investigate zero-order optimization and natural gradient combinations.- Extend influence functions to account for optimization algorithms' implicit bias.---**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.Début de la thèse : 01/11/2025Funding category: Autre financement publicANR Financement d'Agences de financement de la rechercheWhere to apply WebsiteRequirementsSpecific Requirements- Maîtrise de l'anglais
- Connaissances en statistiques, apprentissage automatique et optimisation
- Compétences en programmation (de préférence en Python/PyTorch)
- Maîtrise de Git et LaTeX- English proficiency
- Statistics, machine learning background, Optimization
- Coding skills (preferably in Python/Pytorch)
- Git, LatexAdditional InformationWork Location(s)Number of offers available 1 Company/Institute Université de Montpellier Country France City MONTPELLIER CEDEX 5 GeofieldSTATUS: EXPIREDShare this page

EURAXESS