OpenAI dévoile le GPT-4o avec de nouvelles capacités vocales, textuelles et visuelles

OpenAI, créateur de la célèbre plateforme d’intelligence artificielle ChatGPT, a dévoilé sa dernière version de la technologie, baptisée GPT-4o, qui propose de nouvelles façons d’interagir avec la technologie, notamment par la voix, le texte et l’image.

GPT-4o (GPT-4 omni) est un transformateur génératif pré-entraîné multilingue et multimodal. Ce modèle a été annoncé par Mira Murati, la directrice technologique de l’entreprise, lors d’une démonstration livestream le 13 mai 2024, et présenté en partie le même jour.

Selon Mira Murati, le GPT-4o est deux fois plus rapide que son prédécesseur, son fonctionnement est 50 % moins cher et ses limites de débit sont cinq fois plus élevées que celles de son prédécesseur, le GPT-4 Turbo.

Ce qui distingue GPT-4o des autres plateformes d’IA, c’est sa capacité à accepter et à générer n’importe quelle combinaison de requêtes de texte, d’audio et d’images, et à fournir des réponses vocales en temps réel, selon OpenAI.

Converser avec la plateforme est désormais similaire à parler avec un humain, car la technologie est dotée de ce qu’OpenAI appelle des « voix émotives », une voix générée par ordinateur qui peut imiter les émotions et ajouter des inflexions semblables à celles d’un humain à sa production.

La plateforme est également plus accessible que jamais offrant des services dans 50 langues différentes

Que peut-il faire ?

GPT-4o semble avoir résolu un problème auquel les générateurs d’images d’IA sont confrontés depuis un certain temps, à savoir la production de texte lisible dans les images.

Selon OpenAI, GPT-4o peut désormais comprendre des descriptions textuelles et produire un texte lisible sur les images qu’il crée, une tâche que tous les autres générateurs d’images d’IA disponibles ont encore du mal à accomplir.

En outre, la plateforme peut désormais faire office de traducteur en temps réel.

Une partie du flux en direct comprenait une conversation entre une personne parlant espagnol et une personne parlant anglais, la plateforme traduisant la conversation de manière transparente.

L’IA peut également utiliser la caméra d’un appareil pour « voir » et décrire l’environnement immédiat, un outil indispensable pour les malvoyants.

Dans une démonstration, la plateforme a pu voir qu’un anniversaire était célébré après avoir remarqué un gâteau et une bougie dans la pièce. Dans un autre scénario, elle a reconnu quelqu’un qui s’amusait à lancer des « oreilles de lapin » derrière l’un des présentateurs.

Sal Khan, le fondateur de la Khan Academy, était présent et a montré comment GPT-4o peut servir de tuteur. L’IA a été capable de voir un problème de mathématiques affiché sur une tablette adjacente et de pousser doucement l’élève à résoudre le problème.

ChatGPT-4o peut également servir d’assistant lors de réunions virtuelles

L’IA peut désormais assister à des réunions virtuelles et y participer, et il a été démontré comment elle peut être utilisée pour préparer un entretien d’embauche.

Il a également été démontré comment l’IA peut analyser un code informatique et expliquer en langage clair ce qu’il fait et comment il fonctionne.

Les nouvelles capacités de l’IA n’ont pas impressionné tout le monde. Elon Musk, qui dirige sa propre société d’IA concurrente, xAI, a déclaré que la révélation de l’IA l’avait fait « frémir » et a fait plusieurs autres commentaires critiques sur la nouvelle plateforme.

Bien qu’Elon Musk ait cofondé OpenAI en 2015 en tant qu’organisation de recherche à but non lucratif axée sur le développement de l’IA en toute sécurité et de manière éthique, il a connu des conflits avec le groupe.

En 2018, il a choisi de se retirer de l’organisation, citant des conflits d’intérêts potentiels avec son travail chez Tesla.

Lorsque OpenAI est devenue une société à but lucratif en 2019, Elon Musk a ouvertement critiqué cette décision, affirmant qu’elle contredisait la mission initiale de l’organisation.

Plus récemment, Elon Musk a intenté une action en justice contre OpenAI, alléguant qu’elle était en rupture de contrat pour son partenariat avec Microsoft et pour avoir gardé secret le code de ses produits d’IA.

OpenAI affirme qu’elle déploiera de nombreuses nouvelles fonctionnalités gratuites et payantes pour les utilisateurs au cours des prochaines semaines.

Rédaction Fetty Adler
Collaboration Jo Ann

Source : OpenAI Reveals GPT-4o Featuring New Voice, Text and Visual Capabilities

Soutenez notre média par un don ! Dès 1€ via Paypal ou carte bancaire.

Faire un don