Aller au contenu

Apprentissage par renforcement à partir de rétroaction humaine

Un article de Wikipédia, l'encyclopédie libre.

En apprentissage automatique, l'apprentissage par renforcement à partir de rétroaction humaine (RLHF pour Reinforcement Learning from Human Feedback en anglais) est une technique permettant d'aligner un agent intelligent avec les préférences humaines[1].

Dans l'apprentissage par renforcement classique, le but est d'entraîner un agent à agir de manière à maximiser le score que retourne une fonction. Il est cependant difficile de définir explicitement une fonction qui approxime les préférences humaines. RLHF fonctionne de manière indirecte, en entraînant un modèle intermédiaire appelé « modèle de préférences ». Ce modèle de préférences est entraîné par apprentissage supervisé à partir de la façon dont les humains évaluent du contenu généré, jusqu'à pouvoir lui-même évaluer quels contenus un humain apprécierait. D'autres modèles peuvent ensuite être entraînés par apprentissage par renforcement à satisfaire ce modèle de préférences[1].

RLHF peut être appliqué à divers types de modèles d'IA, notamment les agents conversationnels, les générateurs d'images ou les IA de jeu vidéo. RLHF ne nécessite pas d’énormes quantités de données pour améliorer les performances des modèles d'IA, mais l’obtention de données de bonne qualité sur les préférences humaines reste un processus coûteux. De plus, si les données ne sont pas soigneusement collectées à partir d'un échantillon représentatif, le modèle résultant peut présenter des biais indésirables. Les alternatives à RLHF incluent le reinforcement learning from AI feedback (RLAIF, où l'information servant à entraîner le modèle de préférences est générée automatiquement par une IA), et l'optimisation directe des préférences (où les retours humains sont utilisés pour directement entraîner le modèle final plutôt qu'un modèle de préférences).

Références

[modifier | modifier le code]
  1. a et b Alex McFarland, « Qu'est-ce que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) », sur Unite.AI, (consulté le )