Gemini Live: La réponse de Google à Apple Intelligence est lunaire
Lire dans d'autres langues :
Google a lancé pas moins de quatre nouveaux smartphones de la gamme Pixel 9, une nouvelle Pixel Watch disponible pour la première fois en deux tailles et de nouveaux Pixel Buds. Mais, la véritable star est tout autre: Gemini- et surtout Gemini Live. Google vient-il de réaliser un alunissage pour l'intelligence artificielle?
Gemini Live, qu'est-ce que c'est?
Revenons un peu en arrière. Sous le nom de Gemini, Google regroupe de manière un peu confuse de nombreuses choses différentes. Il y a d'abord les modèles d'IA générative Gemini Nano, Gemini Flash, Gemini Pro et Gemini Ultra. Ces modèles progressent par versions successives; le modèle le plus puissant est actuellement "Gemini 1.5 Pro", qui surpasse la concurrence d'OpenAI et autres dans divers benchmarks d'IA.
Mais depuis début 2024, Gemini est aussi le nom du chatbot de Google, anciennement appelé Bard. Et ce chatbot a maintenant une version conversationnelle appelée "Gemini Live". C'est le même principe que le mode conversationnel de ChatGPT 4o. Ce dernier a été annoncé la veille de la Google I/O en mai 2024. Il n'est d'ailleurs toujours pas officiellement disponible, mais fait plutôt les gros titres pour des pannes effrayantes (voir "Unauthorized Voice Generation") que pour une apparition surprise.
Ah oui, Gemini désigne également différents modèles d'abonnement. "Gemini" seul est l'accès gratuit à l'IA de Google appelée Gemini sur la base du modèle "Gemini Pro". Mais vous ne pouvez accéder à Gemini 1.5 Pro qu'avec le modèle d'abonnement Gemini Advanced à 21,99 euros par mois- ou en vous abonnant à Google One AI Premium. Je ne veux même pas parler de Gemini Business ici. Passons maintenant à ce qui semble être un alunissage.
Gemini Live: La "star" de la soirée
En dehors de la douzaine de Gemini différents, il existe une fonctionnalité du même nom qui montre la voie pour les années à venir: Gemini Live. Il s'agit d'un modèle conversationnel qui permet des conversations naturelles. Pas seulement des échanges de messages vocaux au tour par tour avec le modèle d'IA, qui sont transcrits sous forme de texte ou de synthèse vocale.
Lors de la démonstration en direct de l'événement "Made by Google", Jenny Blackburn a demandé à ses neveux et nièces de trouver une activité amusante et instructive dans le domaine de la chimie, avec une touche de magie. Les propositions comprenaient un volcan magique, une lampe à lave artisanale ou de l'encre magique invisible. Jenny a choisi l'encre magique, qui s'est transformée en encre noire au cours de la conversation qui a suivi, a reçu le nom de projet "Secret Message Lab" et l'assurance de ne pas faire trop de saletés en expérimentant.
Ce qui est vraiment impressionnant, ce n'est pas tant le résultat pur, qui aurait pu être googlé sans problème, mais le chemin parcouru. Avec Gemini Live, Internet devient votre interlocuteur- et, à terme, votre propre vie, qui peut désormais être explorée par l'IA de Gemini grâce à quelques nouvelles fonctionnalités.
La fonction "Call Notes", par exemple, transcrit vos appels téléphoniques après avoir donné un indice à votre interlocuteur et vous permet de les parcourir ultérieurement. "Pixel Screenshots" transforme votre collection négligée de captures d'écran de choses prétendument importantes en une base de données consultable de notes personnelles. Et avec Workspace Extensions, vous pouvez parler à votre Google Calendar ainsi qu'à vos données de Mails, Tasks ou Keep.
Le "problème": Gemini Live nécessite, selon moi, le puissant modèle vocal Gemini 1.5 Pro, qui fonctionne dans le cloud. Si vous utilisez des modèles d'IA pour extraire des détails de votre univers personnel, des données Google Workspace, des transcriptions et autres, cela se fait uniquement en local- avec Gemini Nano. Mais le fossé entre Gemini 1.5 Pro, basé sur le cloud, et la protection des données est énorme. Nous avons demandé à Google une déclaration à ce sujet et nous mettrons à jour l'article dès que nous aurons reçu des commentaires.
Gemini et le fossé de la protection des données
Alors que Gemini, du latin "jumeau", représente en fait le partenariat entre les deux laboratoires d'IA de Google, Deepmind et Brain, on pourrait aussi voir dans ce nom une description involontaire de la séparation local/cloud.En clair, si vous discutez en anglais avec Gemini Live dans l'application Gemini pour Android (oui, bien sûr, c'est le nom de l'application), le modèle d'IA en cours d'exécution n'a pas accès à vos données personnelles de messagerie, de calendrier, etc. Et cela ne devrait pas changer dans les semaines et mois à venir, lorsque Gemini Live sera disponible dans d'autres langues et même sur iOS- ce dernier pourrait même être disponible avant Apple Intelligence en Europe.
Si vous souhaitez demander à Gemini si votre emploi du temps vous permet d'assister à un concert en prenant une photo de l'affiche, vous devrez taper sur les lettres comme un homme de l'âge de pierre au lieu de donner des ordres à votre assistant IA- ou dicter l'invite à la voix. En effet, le modèle Gemini Nano, qui fonctionne en local, a accès à vos données personnelles, mais n'est pas assez puissant pour les conversations en temps réel.
Gemini Live est-il donc l'alunissage de la "course à l'IA"?
Dans la course à l'espace des années 60 et 70, la NASA avait un programme spatial appelé "Gemini", qui a ouvert la voie au premier alunissage en 1969 avec le programme Apollo qui a suivi. Une coïncidence? Pas vraiment, car les dix voix disponibles pour le lancement de Gemini Live ont reçu des noms anglophones pour des constellations d'étoiles: Vega, Dipper, Ursa, etc.
Alors que Google vise les étoiles et qu'un ex-ingénieur de la NASA est sur scène pour son after-party, il manque encore une pièce pour l'alunissage- à savoir ce lien à forger avec précaution entre les données les plus privées des utilisateurs dans les modèles Gemini fonctionnant en local et les puissants modèles Cloud qui permettent des conversations à l'apparence naturelle.
Avec le projet Apollo Astra, Google a déjà annoncé la prochaine étape lors de l'événement Made-by-Google. Ici, Gemini Live devrait avoir accès à la caméra, comme cela a déjà été montré lors de la Google I/O, puis intégrer progressivement des applications comme Google Calendar. D'ici là, Apple Intelligence proposera-t-elle des fonctionnalités similaires? La course est lancée.