LLM SOUVERAIN

Synthèse du Livre Blanc "LLM Souverain Axiona" (V4)

LLM Souverain : de la Vision Stratégique au Déploiement

L'IA générative n'est plus un concept, c'est un outil opérationnel. L'externaliser vers des services tiers (OpenAI, Google) crée une dépendance stratégique et expose l'entreprise à des risques critiques : perte de maîtrise des données (RGPD, secrets industriels), dépendance tarifaire (+20-40% observés) et incertitude réglementaire (hors UE).

Si l'on continue à externaliser notre intelligence métier vers des boîtes noires opaques, pour le dire franchement : on va dans le mur.

La posture défendue est celle d'un modèle hybride et souverain : prototyper rapidement, mais exécuter en interne (on-premise) pour protéger les données, maîtriser les coûts et transformer l'IA en actif patrimonial.

Preuves de Performance (Phase 2 Validée)

Throughput (Débit)
123.8
tok/s (cible >100)
Latence (850 mots)
9.1
secondes (cible <15s)
Accélération vs CPU
+4000%
(65-70x plus rapide)
ROI Matériel Confirmé
4
Mois

Notre Définition de "Souverain" : Clarifions le Buzzword

Le terme "IA Souveraine" est souvent galvaudé. Soyons clairs : notre offre n'est pas de créer un *foundation model* (un concurrent de Mistral ou GPT-4). C'est un projet à 500 millions d'euros.

Notre souveraineté, c'est celle de **l'exécution** et de la **donnée** :

  • Nous déployons des modèles open-source (Mistral 7B, Llama 3.1 8B) sur votre infrastructure (On-premise) ou un cloud de confiance (OVH).
  • Vos données (contrats, logs, tickets) ne quittent jamais votre périmètre. Elles ne servent pas à entraîner le modèle d'un géant américain.
  • Vous ne dépendez pas d'une API externe, de ses pannes ou de ses changements tarifaires.

C'est une offre d'intégration système, pas une IA magique. Nous ne vendons pas un produit révolutionnaire, nous vendons une architecture technique crédible, documentée et maîtrisée.

Logo Meta Llama 3

Cliquez pour agrandir : Modèle Open-Source (Llama 3)

L'approche hybride (CapEx local + OpEx maîtrisé) est la seule réponse viable à la "croissance infinie" des coûts d'abonnement cloud.

Illusions du Cloud vs. Réalité Physique

Illusion Fréquente (Marketing Cloud) Réalité Terrain (Ingénierie Hybride)
"Le plus gros modèle (70B+) gagne toujours." Faux. Le contexte (RAG) bat la taille. Un modèle 7-8B quantisé + RAG précis surpasse un 70B générique pour vos usages métier. On ne négocie pas avec les lois de la physique : la VRAM (16Go) et la latence sont les vrais juges.
"La sécurité, on la greffera après le MVP." Risque non quantifiable. Une fuite de données (ex: logs avec tokens) coûte 40h/homme en urgence. La sécurité by design (PKI, Traefik, WG) est moins coûteuse que la remédiation.
"Le coût = l'abonnement mensuel." Vision tunnel. Le TCO réel inclut la dépendance et la perte de l'actif intellectuel. Le CapEx local (8k€) est amorti en 4 mois vs. l'OpEx cloud.
Qdrant vs PGVector (Jancovici)

Cliquez pour agrandir : La physique des Vector DB (Qdrant HNSW vs PGVector Full Scan)

Cas d'Usage (ROI Immédiat)

L'objectif n'est pas de "faire de l'IA", mais de résoudre des problèmes. Le RAG souverain excelle sur des cas concrets avec des gains mesurables.

SecOps : L'alerte de 3h du matin

Contexte : Alerte Grafana, service dégradé, logs cryptiques dans Loki, équipe d'astreinte fatiguée.

Workflow Classique (sans IA) : Recherche manuelle (15min), consultation runbooks (10min), corrélation mentale. MTTR total : 35-60 minutes, stress élevé.

Workflow (avec LLM Souverain) :

Prompt: "Analyse les 200 dernières lignes Loki du service 
traefik-prod avec erreur 503, corrèle avec incidents 
similaires derniers 90j, propose 2 remédiations validées"

Gains : MTTR réduit à 15-20 minutes. Actions sourcées et traçables. Gain estimé : 5-10h/mois.

Contexte : Développeur doit modifier une configuration Traefik, doute sur la syntaxe, craint la régression.

Workflow Classique : Recherche DokuWiki (10min), consultation Forgejo (5min), diff manuel (10min). Temps total : 20-25 minutes, risque d'erreur.

Workflow (avec LLM Souverain) :

Prompt: "Rappelle-moi la config Traefik rate-limit pour 
/api/admin en prod, montre l'extrait YAML validé et 
signale si écart avec doc DokuWiki"

Gains : Réponse en 30 secondes. Détection automatique des dérives doc/prod. Gain estimé : 10h/mois.

Contexte : Analyse d'un contrat complexe (50 pages) avant CODIR. Contrainte : zéro fuite externe.

Workflow Classique : Lecture intégrale (2-3h), prise de notes (1h), rédaction (1-2h). Temps total : 4-6h.

Workflow (avec LLM Souverain) :

Prompt: "Extrait les clauses financières, obligations, 
pénalités, et clauses de sortie. Format : tableau 
structuré + risques identifiés"

Gains : Temps réduit à 15-30 minutes (relecture humaine obligatoire). Zéro exfiltration (traitement 100% on-premise). Gain estimé : 40h/an.

Contexte : Client appelle avec une erreur obscure. 15 000 tickets existent, la recherche fulltext est une loterie.

Workflow Classique : Recherche mots-clés (15min), lecture de 8 tickets similaires (20min). Temps total : 35-45 min, forte probabilité de réinventer la roue.

Workflow (avec LLM Souverain) :

Prompt: "Erreur PostgreSQL 'connection refused' sur 
Debian 12 après upgrade, montrer tickets résolus 
avec étapes validées"

Gains : Check-list de diagnostic en 2-5 minutes. Résolution au premier contact augmentée. Gain estimé : 20h/mois.

Logo Mistral AI

Cliquez pour agrandir : Modèle Open-Source (Mistral AI)

Architecture Technique de Référence

L'architecture hybride double-site garantit la confidentialité (données sensibles sur OVH) tout en maîtrisant les coûts d'inférence (GPU local).

Cartographie Logique Double-Site

  Internet / WAN
         │
[OPNsense @ OVH] (Failover IP)
         │
  ┌──────┴──────┐
  │  Traefik    │  (vmbr1 DMZ)
  │ (TLS/PKI)   │
  └──────┬──────┘
         │ (mTLS)
┌────────────┴────────────┐
│                         │
[LLM Gateway API]     [OpenWebUI]
(vmbr2 LAN)         (vmbr2 LAN)
(Orchestration)     (Auth: WG/MGMT)
    │
┌───┴───┐
│       │
[RAG] [vLLM/Ollama Worker]
(LAN) (via WireGuard Tunnel)
    │       │
[Qdrant DB] [GPU Local]
(LAN)     (Debian 13)
            

Flux RAG : Du Prompt à la Réponse

[Utilisateur] ──HTTPS── ►  [Traefik DMZ]
                             │
                             └──mTLS── ►  [Gateway API]
                                         │
                                ┌────────┴────────┐
                                │                 │
                          [RAG Service]     (WireGuard)
                          1. Embed query    │
                          2. Search Qdrant  │
                          3. Get top-k=8    │
                                │           │
                          [Context Assembly]│
                          4. Prompt enrichi │
                                │           │
                                └─────► [vLLM Worker]
                                        5. Génération
                                          │
[Réponse] ◄──Traefik──◄── [Gateway API] ◄───┘
(Texte + Sources)         6. Formatage
            
Dimensionnement & Piles Open-Source Déployées

🖥️ Worker GPU (Local / On-Premise)

  • GPU : AMD Radeon RX 9060 XT (16 Go VRAM)
  • OS : Debian 13 (priorité ROCm) / Windows 11 (Validé)
  • Cible : Modèles 7-8B quantisés (Q4/Q5, ~5-6 Go VRAM)
  • Backend : vLLM (Prioritaire) / Ollama (Validé)

⚡ Performance Validée (Phase 2)

  • Throughput : 123.8 tok/s
  • Latence (850 mots) : 9.1 sec
  • Charge GPU (Pic) : 85% (115W)
  • Température GPU : 62°C (Stable)

🗄️ Services Cœur (OVH)

  • Infra : Proxmox (Virtualisation), CT LXC pour services
  • Vector DB : Qdrant (Index HNSW, filtres payload)
  • Proxy : Traefik (TLS, rate-limiting, mTLS)
  • Tunnel : WireGuard (site-à-site chiffré)
  • PKI : Smallstep (certificats courts 90j)
  • Observabilité : Stack PLG (Prometheus, Loki, Grafana)
  • Sauvegardes : Proxmox Backup Server (PBS)

Implémentation (Extraits de Runbooks)

Extraits de commandes (Bloc 2) pour le déploiement des composants clés.
C'est de l'intégration système rigoureuse, l'anti-Gaston Lagaffe et son "M'enfin ! J’ai encore amélioré le système… il ne marche plus du tout."

1. Démarrage du Worker vLLM (Docker)

Cette commande lance vLLM, mappe le GPU AMD (ROCm), monte le volume des modèles, et expose l'API compatible OpenAI. Le flag VLLM_USE_TRITON_FLASH_ATTN=0 est une précaution pour la compatibilité ROCm.


# Lancer vLLM server (Backend ROCm pour AMD)
sudo docker run -d \
  --name vllm-worker \
  --device=/dev/kfd \
  --device=/dev/dri \
  --group-add=video \
  --ipc=host \
  -v ~/axiona-llm/models:/models \
  -p 8000:8000 \
  -e VLLM_USE_TRITON_FLASH_ATTN=0 \
  vllm-rocm:axiona \
  --model /models/Meta-Llama-3.1-8B-Instruct-Q5_K_M.gguf \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90

2. Configuration de Traefik (Middlewares)

La configuration dynamique middlewares.yml définit les règles de sécurité, comme le rate-limiting (60 req/min) et les headers de sécurité stricts (HSTS, X-Frame-Options).


# /opt/traefik/dynamic/middlewares.yml
http:
  middlewares:
    # Headers de sécurité stricts (HSTS, CSP, etc.)
    secure-headers:
      headers:
        forceSTSHeader: true
        stsSeconds: 31536000
        contentTypeNosniff: true
        X-Frame-Options: "DENY"

    # Rate-limiting par IP (60 req/min)
    rate-limit-standard:
      rateLimit:
        average: 60
        burst: 20
        period: 1m

3. Création d'une Collection Qdrant (API)

Une simple requête curl suffit pour initialiser la base vectorielle. Ici, on crée la collection wiki_runbooks avec des vecteurs de 384 dimensions (correspondant au modèle d'embedding all-MiniLM-L6-v2).


# Créer collection "wiki_runbooks" (384 dimensions)
curl -X PUT http://qdrant.internal:6333/collections/wiki_runbooks \
  -H "Content-Type: application/json" \
  -H "api-key: ${QDRANT_API_KEY}" \
  -d '{
    "vectors": {
      "size": 384,
      "distance": "Cosine"
    }
  }'

4. Lancement des Tests de Qualité (Script)

La qualité n'est pas optionnelle. Un script run_golden_tests.py est exécuté quotidiennement (via cron) pour valider la non-régression de la pertinence (mots-clés) et de la latence des réponses.


# Exécution manuelle du script de tests
cd /opt/qa-tests
./run_golden_tests.py

# Résultat attendu :
# Running 20 golden prompt tests...
# [secops-01] SecOps: ✓ PASS (1847ms)
# [devops-01] DevOps: ✓ PASS (1523ms)
# ...
# Results: 20 PASS, 0 FAIL, 0 WARN, 0 ERROR
# Success rate: 100.0%

Gouvernance, Risques & Limites

Un LLM souverain n'est pas 'plug-and-play'. Pour le dire comme Louis de Funès : "Je veux que ça file droit !".
Cela nécessite un cadre strict (Bloc 3) pour maîtriser les risques, garantir la conformité et assurer la qualité.

Gouvernance (RACI)

  • Sponsor (CODIR) : Valide le budget et la charte.
  • Owner IA (Ops) : Responsable du run, des SLO, des coûts.
  • SecOps (RSSI) : Responsable des audits, PKI, contrôles.
  • Data Owners (Métiers) : Responsables de la qualité du corpus RAG.
  • DPO (Juridique) : Responsable conformité RGPD.

Guardrails Techniques (Gateway API)

  • Réponse Référencée : Obligation de citer les sources.
  • Anti-Hallucination : Si score RAG < 0.65, réponse "Contexte insuffisant".
  • Refus Thématique : Blocage mots-clés interdits ("salaire", "password").
  • Contrôle des Coûts : Timeout 30s, RAG top-k=8.

Observabilité (SLO/SLI)

  • Latence P95 (RAG) : < 2,5s
  • No-hit RAG (7j) : < 15% (Fraîcheur corpus)
  • Erreurs 5xx Gateway : < 0,1%
  • RPO Qdrant (Backup) : ≤ 24h
  • ...et la pile PLG (Loki) qui loggue tout. "I’m watching you, freak."

ROI & Vision Stratégique

Le déploiement d'un LLM souverain est avant tout une décision économique. L'analyse (basée sur 50 utilisateurs) montre un retour sur investissement (ROI) rapide et des gains de productivité significatifs qui justifient l'investissement initial.

Le graphique ci-contre illustre le coût cumulé (TCO) du scénario Cloud (OpEx pur) face au scénario Hybride Axiona (CapEx + OpEx maîtrisé).

Contact

Pour une analyse détaillée ou un audit de faisabilité.

(Formulaire de démo)

Ce formulaire est une maquette. Aucune donnée n'est envoyée.

Conclusion

La concurrence achète des tokens et loue son intelligence métier à des tiers opaques. Cette approche vous permet de bâtir un actif stratégique, d'augmenter votre capital de résilience et de maîtriser votre destin numérique.

Vous disposez des plans. Vous êtes opérationnels.

Mentions

Éditeur : Cette application est une maquette interactive générée par IA, basée sur le "Livre Blanc LLM Souverain Axiona V4".
Contenu : Le contenu technique, les chiffres et les analyses sont la propriété intellectuelle du document source (Axiona).
Hébergement : Maquette statique.

Confidentialité

Cette maquette ne dépose aucun cookie de suivi et ne collecte aucune donnée personnelle. Le formulaire de contact est inactif.