Co-fondée par un français en juillet 2022, Reka AI dévoile Yasa-1, une IA multimodale (capable de lire, de voir et d’entendre) connectée à internet.
Auteur / Autrice :
Tout savoir sur Reka AI
Basée à San Francisco, la start-up Reka AI est le projet de quatre personnes, passées par des entreprises comme DeepMind, Google, Baidu et Meta, dont un français : Dani Yogatama, Qi Liu Head, Yi Tay et Cyprien de Masson d’Autume.
Cyprien de Masson d’Autume est un ancien de Centrale Lyon, passé ensuite par le University College de Londres, où il a fait un master en Machine Learning. Il a commencé la vie active côté finance, avec deux ans à la Société Générale, puis deux ans à Londres, chez Merrill Lynch.
Il rejoint Deepmind en 2016, deux ans après le rachat de l’entreprise créée par Demis Hassabis et Mustafa Suleyman par Google contre 628 millions de dollars. Mustafa Suleyman a depuis créé Inflection AI, qui édite le chatbot IA Pi (voir notre test). Il quitte finalement Deepmind en juillet 2022, et prend le poste de CTO (DSI) au sein de Reka AI.
Depuis, une année scolaire historique a marqué l’Histoire de l’intelligence artificielle, et rien ne sera plus jamais comme avant : MidJourney avait commencé à se faire connaître, Stable Diffusion est sortie, puis ChatGPT a transformé la vague en tsunami, avant que Google sorte un (très mauvais) Bard pour tenter de montrer ses propres capacités, et que Meta lance LLaMA en libre accès (bon gré mal gré) et en open source. Sans parler d’Anthropic (Claude), Inflection AI (Pi), Elon Musk (xAI), Runway, Pika Labs, Ideogram, etc…
Reka AI a aussi largement profité de cette année charnière pour l’intelligence artificielle, et a levé 58 millions de dollars. En dehors de quelques fonds, on trouvait parmi les investisseurs l’ancien PDG de GitHub, “Nat” Friedman.

Que fait Yasa-1, la première IA de la start-up ?
Reka vient de dévoiler Yasa-1, la première version de son propre modèle.
Il s’agit d’un assistant multimodal et multilingue (20 langues pour le moment) de type ChatGPT, capable de générer du texte, de résumer des documents, ou de “planifier un voyage”…
Yasa-1 peut traiter des documents très longs (24K tokens par défaut, et jusqu’à 100K) : un point qui avait été un temps l’un des atouts de Anthropic, même si les dernières mises à jour de GPT-4 ont permis à OpenAI de rattraper son concurrent.
Surtout, Yasa-1 est doté de capteurs visuels et auditifs : Il prend en charge les images, l’audio et les clips vidéo courts en entrées. Ce qui lui permet des fonctionnalités innovantes (mais pas inédites) : résoudre le problème visible sur une image, utiliser une photo pour en créer du contenu, décrire le contenu d’une vidéo et même prédire ce qu’il va se passer dedans ou encore comprendre un environnement uniquement à partir d’un extrait sonore.

Yasa-1 est aussi connecté à internet, avec sa propre interface de recherche, ce qui “permet au modèle d’utiliser des informations actualisées, sans limite de date”.
Comme GPT-4, Yasa-1 a une fonction Code Interpreter, reprenant l’une des options les plus intéressantes de l’IA, créées par OpenAI. Yasa-1 a aussi une interface de recherche sur internet, et est capable d’effectuer des actions via l’exécution de code.
“Yasa-1 possède une riche compréhension du monde multimodal dans lequel nous vivons, lui offrant des capacités étendues au-delà des assistants textuels.”
L’entreprise met aussi en avant plusieurs benchmarks avantageux, mais difficile à vraiment jauger.


Enfin, Yasa-1 a des limites clairement exprimées :
“Bien que Yasa offre une gamme de fonctionnalités, il est important de noter qu’il peut produire des résultats inexacts. Pour obtenir des conseils critiques, il est essentiel de ne pas se fier uniquement à Yasa.
Pour les tâches multimodales, Yasa excelle dans la fourniture de descriptions de haut niveau d’images, de vidéos ou de contenu audio. Cependant, sans personnalisation plus poussée, ses capacités à discerner des détails complexes dans les médias multimodaux sont limitées. Pour la version actuelle, nous recommandons que les clips audio ou vidéo ne dépassent pas une minute pour une expérience optimale.
Concernant la recherche et la récupération, même si nous fournissons des citations, rien ne garantit que Yasa récupère les documents les plus pertinents pour une requête particulière. Nous proposons cependant des options de personnalisation pour améliorer les performances de récupération.”
Un modèle créé from scratch, connectable et personnalisable
Contrairement à d’autres start-up qui lancent ces derniers temps elles-aussi leurs propres services, Reka AI n’utilise pas LLaMA ou l’API de GPT-4. L’entreprise a formé Yasa-1 “from scratch”, depuis le pré-entraînement des modèles de base aux alignements, mais aussi concernant la partie optimisation de l’infrastructure d’entraînement et de service.
Reka AI vise les entreprises et explique qu’il est possible d’apprendre à Yasa à comprendre des ensembles de données privées :
“Notre API et notre configuration de déploiement sur site permettent une intégration transparente des ensembles de données internes de n’importe quel type de modalité.
Nous gérons la construction de services d’intégration et de bases de données vectorielles, ainsi que le processus d’adaptation aux ensembles de données privés, pour permettre aux utilisateurs de se concentrer sur la création d’expériences étonnantes.
En tant que fournisseur de modèles de bout en bout, nous sommes en mesure de former Yasa-1 à utiliser les informations avec plus de précision qu’avec les techniques d’invite standard.”
L’un des premiers clients (et investisseur) de Reka se nomme Snowflake, une entreprise de Cloud co-fondée par deux français, Thierry Cruanes et Benoît Dageville.
En juillet 2023, Dani Yogatama, l’un des fondateurs de Reka, avait expliqué à Tech Crunch ce qui différencie Yasa de GPT-4 :
“Notre technologie permet aux entreprises de bénéficier des progrès des LLM d’une manière qui répond à leurs contraintes de déploiement sans avoir recours à une équipe interne d’ingénieurs experts en IA”
Le média US avait aussi interrogé Rob Toews, de Radical Ventures, pourquoi il avait investi dans Reka, et sa réponse expliquait bien la différenciation que pourrait proposer Reka (avec Yasa) :
“Ce qui rend Reka unique, c’est qu’elle offre à chaque entreprise la puissance et le potentiel d’un LLM sans avoir à faire de nombreux compromis. Les modèles Yasa distillés par Reka conservent les données au sein de l’entreprise, ils sont incroyablement efficaces en termes de coûts et d’énergie et ils ne nécessitent pas d’équipes de recherche coûteuses qui construisent des modèles à partir de zéro. Si chaque entreprise doit devenir une entreprise « IA », l’ambition de Reka est de donner à chacune d’entre elles son propre modèle de base de qualité de production.”
Yasa-1 est actuellement accessible seulement via une avant-première privée, soit via l’API ou via des conteneurs Docker (pour un déploiement sur site ou dans un cloud privé).
Pour en savoir plus : https://reka.ai/announcing-our-multimodal-ai-assistant/