CEO @dotConferences 🟡 | Helping engineers learn from the best through world-class events
En seulement 6 mois, il crée une IA qui surperforme OpenAI, Amazon et Apple. Il fait partie d’une équipe de 8 français qui font littéralement trembler la Silicon Valley!
Lui, c’est Neil Zeghidour, le Chief Modeling Officer de Kyutai, passé par Meta et Google, et qui a choisi un laboratoire français pour faire avancer la recherche sur l’IA.
Le centre de recherche Kyutai – backé par Xavier Niel, Eric Schmidt et Rodolphe Saadé – commence déjà à produire des projets.
En 6 mois. Et c’est hallucinant.
Pour preuve:
- L’IA – qui s’appelle Moshi – peut être testée librement en ligne. Ce qui constitue une première mondiale pour une IA vocale générative.
- L' IA conversationnelle possède une latence incroyable à 160ms, qui laisse GPT4-o, Alexa et Siri bien loin derrière.
- Ses capacités de synthèse vocale sont exceptionnelles en termes d'émotion et d'interaction entre plusieurs voix.
- Le tout avec approche complètement Open Source qui fait honneur à la communauté AI en Europe.
Bref, Moshi a le potentiel de révolutionner l’usage de la parole dans le monde numérique. Et on est super curieux de suivre l’histoire.
Je ne saurais vous en dire plus, car Neil nous prépare une keynote appelée “Multimodel Language Models” à dotAI en Octobre, et on a très hâte de l’écouter!
Merci Neil de nous rejoindre pour partager à la communauté vos avancements.
Et vous, vous nous rejoignez? (lien en commentaire)
"Hippie" Moshi tells its love for Hendrix...but "skeptical" Moshi is less enthusiastic about psychedelic rock. Moshi can play 70+ emotions, will you catch them all? Try now at https://moshi.chat
Last Wednesday, we introduced Moshi, the lowest latency conversational AI ever released. Moshi can perform small talk, explain various concepts, engage in roleplay in many emotions and speaking styles. Talk to Moshi at https://moshi.chat/ and learn more about the method below:
Moshi is an audio language model that can listen and speak continuously, with no need for explicitly modelling speaker turns or interruptions. When talking to Moshi, you will notice that the UI displays a transcript of its speech. This does *not* come from an ASR nor is an input to a TTS, but is rather part of the integrated multimodal modelling of Moshi.
Moshi is not an assistant, but rather a prototype for advancing real-time interaction with machines. It can chit-chat, discuss facts and make recommendations, but a more groundbreaking ability is its expressivity and spontaneity that allow for engaging into fun roleplay.
Developing Moshi required significant contributions to audio codecs, multimodal LLMs, multimodal instruction-tuning and much more. We believe the main impact of the project will be sharing all Moshi’s secrets with the upcoming paper and open-source of the model.
For now, you can experiment with Moshi with our online demo. The development of Moshi is more active than ever, and we will rollout frequent updates to address your feedback. This is just the beginning, let's improve it together.