Le RLHF est la méthode utilisée pour rendre les IA utiles, honnêtes et inoffensives. Après l'entraînement initial, des humains comparent plusieurs réponses de l'IA et indiquent laquelle est la meilleure. L'IA apprend ensuite à produire le type de réponses que les humains préfèrent. C'est ce qui fait la différence entre un modèle brut qui peut être toxique et un assistant poli et utile comme Claude ou ChatGPT.