GPT-4o (omni-modal): OpenAI lance son nouvel agent conversationnel
OpenAI vient de dévoiler GPT-4o, son modèle phare qui marque une avancée significative vers des interactions humain-ordinateur plus naturelles. Ce modèle omni-modal, désigné par le “o” de “omni”, accepte en entrée et génère en sortie des combinaisons de texte, audio et image. Cette polyvalence permet à GPT-4o de répondre à des inputs audio en seulement 232 millisecondes, une vitesse comparable à celle d’une conversation humaine.
Parmi les nouvelles fonctionnalités, GPT-4o excelle en compréhension visuelle et audio. Il surpasse ses prédécesseurs en reconnaissance vocale et traduction, tout en offrant des améliorations notables en performance textuelle, notamment pour les langues non-anglophones. Des démonstrations en direct ont montré des scénarios variés tels que l’interview, le jeu « Pierre, Papier, Ciseaux », et la traduction en temps réel.
GPT-4o représente également un bond en avant en termes de sécurité et de fiabilité. Il intègre des systèmes de sécurité avancés pour minimiser les risques liés aux nouvelles capacités audio, incluant des sorties vocales limitées à des voix prédéfinies pour assurer la conformité avec les politiques de sécurité existantes.
Pour les amateurs de technologie et les développeurs, GPT-4o ouvre de nouvelles perspectives passionnantes. La possibilité de combiner texte, audio et image dans un seul modèle simplifie les processus de création et d’interaction, rendant les applications plus intuitives et immersives. Des utilisations potentielles incluent l’amélioration des services de support client avec des réponses vocales naturelles, la création de contenus multimédias dynamiques, et des outils d’apprentissage interactifs en temps réel. OpenAI encourage les utilisateurs à explorer ces nouvelles capacités et à fournir des retours pour continuer à affiner le modèle, promettant des mises à jour régulières pour enrichir encore davantage l’expérience utilisateur.
À partir d’aujourd’hui, les fonctionnalités de texte et d’image de GPT-4o sont disponibles dans ChatGPT, y compris pour les utilisateurs de la version gratuite. Les abonnés Plus bénéficient de limites de messages multipliées par cinq. De plus, les développeurs peuvent accéder à GPT-4o via l’API, qui est deux fois plus rapide et coûte moitié moins que GPT-4 Turbo. Les capacités audio et vidéo seront progressivement introduites pour un groupe restreint de partenaires dans les semaines à venir.
REF.: https://moncarnet.blog/2024/05/13/gpt-4o-openai-lance-son-nouvel-agent-conversationnel/
Aucun commentaire:
Publier un commentaire