Vincent Gimenes, auteur/autrice sur Quickscale AI

Quand et pourquoi utiliser le speculative decoding

Post author:Vincent Gimenes
Post published:13 February 2026
Post category:Non classé
Post comments:0 Comments

En production, chez l'un de nos clients, l’implémentation du speculative decoding avec Llama 3-70B et EAGLE-3 a permis d’observer des réductions de latence E2E allant jusqu’à ×2.5 sur des requêtes…

Déployez votre propre serveur GPT sur AWS avec vLLM : Le guide de A à Z

Post author:Vincent Gimenes
Post published:2 October 2025
Post category:Non classé
Post comments:0 Comments

Les LLM open source comme Mistral, Llama ou GPT OSS ont ouvert des possibilités incroyables pour les développeurs et les entreprises. Cependant, passer d'un notebook de test à un déploiement…

Comment la fenêtre de contexte des LLM est-elle passée de 512 à 10M ?

Post author:Vincent Gimenes
Post published:3 September 2025
Post category:ML & AI Engineering
Post comments:0 Comments

De 512 à 10 millions de tokens : comment les LLMs ont repoussé les limites de la fenêtre du contexte Prérequis: connaissances de base de l’architecture transformers (embeddings, token, context),…

Comment Fine tune un Vision Language Model en 1h sur Colab pour l’extraction de reçus

Post author:Vincent Gimenes
Post published:13 May 2025
Post category:Non classé
Post comments:0 Comments

Temps de lecture estimé: 12min Les grands Visual Language Models (VLM) généralistes – GPT‑4o, Gemini 1.5 Pro… – savent déjà combiner texte et image. Pourtant, dans des contextes B2B régulés (financier, légal,…