Hier était une journée très spéciale en raison de la grande avancée de l’intelligence artificielle d’OpenAI avec ChatGPT et de devenir ainsi un assistant qui exprime des émotions et répond en temps réel sans délai. Sundar Pichai a donné les clés de Google I/O pour montrer toutes les avancées de ce qu’on a appelé l’ère des Gémeaux.
Avec 6 milliards de photos téléchargées quotidiennement, Avec Gemini, l’expérience Google Photos sera facilitée. Avant, vous pouviez effectuer une recherche avec des mots-clés, désormais avec Gemini, vous pouvez demander à Photos afin que les captures souhaitées apparaissent immédiatement dans l’application.
Il se peut demander des souvenirs avec une personne en particulier et Photos les montrent directement ainsi que certaines actions telles que nager l’une des personnes qui apparaissent dans les milliers de photos qu’un utilisateur peut avoir. « Ask Photos » sera déployé cet été avec Gemini.
Gemini en tant qu’intelligence artificielle multimodale est capable de comprendre du texte, des images ou du son dans sa version 1.5 Pro. Google montre un exemple de son IA et comme aide à la programmation pour effectuer des recherches précises sur des documents complets.
Un autre de ses meilleurs exemples est celui où l’utilisateur téléchargez une photo prise de la librairie avec tous ses livres à la suite donc Gemini 1.5 pourra lister tout le monde en quelques secondes. Une utilisation personnelle et quotidienne d’un large éventail d’expériences communes pour des milliers de personnes à la maison et sur leur lieu de travail.
Gémeaux 1.5 Pro
Gemini 1.5 Pro est disponible aujourd’hui pour tous les développeurs du monde entier. Gemini Advanced, disponible en 35 langues, passe d’un million de jetons à deux millions à partir d’aujourd’hui.
Dans Workspace, l’application Gmail va devenir plus importante grâce à Gemini pour créer un résumé de tous les e-mails d’un expéditeur, ou vous pouvez créer une liste avec tous les points forts d’une réunion Google Meet. Disponible aujourd’hui auprès de Gemini Labs.
Avec le modèle multimodal de Notebook LLM, des aperçus audio sont présentés avec des réponses aux questions de l’utilisateur dans une sorte de classe interactive destinée aux plus petits ou aux étudiants dans le cas présenté à Google I/O 2024. Google met l’accent sur une classe de scientifique, de sorte que lorsque l’utilisateur pose des questions sur un sujet très différent du basket-ball, Gemini 1.5 est capable de s’adapter pour répondre de manière appropriée.
AI Agents est une autre des nouveautés de l’intelligence artificielle de Google s’est concentré sur le raisonnement, la planification et la mémoire pour fonctionner sur différents systèmes et logiciels. Dans l’expérience de visite, les agents IA sont utilisés pour les différentes approches dont l’utilisateur a besoin afin de lui fournir les lieux ou sites d’intérêt à visiter.
Google DeepMind entre en jeu dans le discours d’ouverture pour montrer d’autres avancées de Google AI ; tout comme celui connu il y a quelques jours pour prédire les structures moléculaires. Gemini 1.5 Flash est un modèle léger par rapport au Pro axé sur une faible latence et des réponses rapides, il sera disponible sur Google AI Studio et Vertex AI pour les développeurs.
Google fait une autre démonstration, similaire à celle lancée hier en réponse à OpenAI, dans laquelle vous pouvez voir comment Gemini décrit tout ce qui apparaît dans le viseur de l’application appareil photo. Les réponses sont instantanées à chaque requête formulée par la personne pour démontrer les progrès réalisés et se positionner comme une expérience similaire à ce qu’OpenAI a montré hier avec ChatGPT.
Oui, il n’a pas fait de démonstration en direct et c’est une vidéo qu’il a montrée lors de la présentation, mais La meilleure chose vient quand vous avez utilisé ce modèle avec des lunettes et ainsi vous pouvez utiliser votre voix à tout moment. Une expérience identique aux Ray-Bans de Meta. Et on peut presque dire que c’est l’un des plus surprenants de la keynote de Google.
Image 3 est la nouvelle mise à jour de la génération d’images avec l’intelligence artificielle de Google. Il comprend des descriptions plus longues et plus les détails sont donnés dans l’invite, mieux l’Image 3 sera capable de représenter des photos réalistes. Vous pouvez participer dès maintenant à la bêta pour profiter de cette nouvelle expérience Image 3.
Google a également amélioré l’expérience de générer du contenu audio avec Music AI Sandbox, un ensemble d’applications centrées sur l’IA. Un échantillonneur est créé et l’IA commence à saisir des rythmes et réalise ainsi un remix avec une chanson créée à partir de l’échantillonneur.
Dans la génération de la vidéo générative vient Veo– Créez des vidéos 1080p à partir de texte avec des captures aériennes, des accélérés et avec l’outil VideoFX, vous pouvez créer des compositions étendues. Veo se concentre sur la cohérence du clip généré, comme Google l’a montré lors des I/O avec une voiture traversant différents environnements. Votre réponse à Sora d’OpenAI.
La recherche à l’ère des Gémeaux
Un autre moment important a été la recherche avec les Gémeaux. Les clés sont des informations en temps réella qualité de ses systèmes avec leur efficacité et la puissance de leur intelligence artificielle.
AI Overviews est présenté pour répondre directement avec les informations recherchées qui sera déployé aujourd’hui et dans d’autres pays dans les mois à venir. Un raisonnement en plusieurs étapes est introduit pour fournir la réponse appropriée lors de la recherche de studios de Pilates ou de yoga dans une ville comme Boston.
Google proposera toutes les informations résumées avec une interface qui montre les lieux axés sur la pratique du Pilates avec votre carte. Agents AI se charge de classer les informations pour les fournir de la meilleure façon à l’utilisateur des plus de 250 millions de fiches d’entreprises dont il dispose à travers la planète.
Planifier des voyages sera très facile Avec la nouvelle recherche basée sur Gemini, vous pouvez créer un plan alimentaire pour trois jours, et dans les résultats, la requête propose des photos, des recettes et des conseils pour une alimentation équilibrée dans laquelle aucun type d’aliment ne manque.
Faire une requête vidéo est une autre des grandes innovations de Google pour montrer les avancées de Gemini et la recherche avec l’intelligence artificielle générative : Prenez l’appareil photo de votre téléphone portable pour enregistrer une vidéo du problème que vous rencontrez avec votre platine et l’aiguille. Faites la requête en vidéo et Google donne directement la solution en quelques secondes.
Cette nouvelle recherche sera déployée dans les prochaines semaines pour produire un grand changement dans l’expérience quotidienne de millions de personnes qui utilisent la recherche Google.