Un modèle multimodal est une IA qui ne comprend pas que le texte — elle peut aussi voir des images, écouter de l'audio, ou même regarder des vidéos. Par exemple, tu peux montrer une photo à Claude et lui demander de la décrire, ou envoyer un graphique à GPT-4 et lui demander de l'analyser. C'est comme si l'IA avait plusieurs sens au lieu d'un seul.