Comment Nous Avons Optimisé La Génération De Plan D’Affaires IA : Compromis Entre Vitesse Et Qualité

Ce post est la partie 2 d’une série en 4 parties. Assure-toi de consulter les autres posts de la série pour une exploration approfondie de notre générateur de plans d’affaires piloté par IA.
Partie 1 : Comment nous avons construit un générateur de plans d’affaires piloté par IA avec LangGraph & LangChain
Partie 2 : Comment nous avons optimisé la génération de plans d’affaires IA : compromis vitesse contre qualité
Partie 3 : Comment nous avons créé 273 tests unitaires en 3 jours sans écrire une seule ligne de code
Partie 4 : Cadre d’évaluation IA — Comment nous avons construit un système pour évaluer et améliorer les plans d’affaires générés par IA

Introduction : Pourquoi cela a-t-il pris 30 minutes ?

Notre générateur de plans d’entreprise alimenté par l’IA a été initialement conçu pour maximiser la qualité du contenu en exécutant plusieurs processus itératifs, incluant la rédaction, l’évaluation, les cycles d’amélioration, et la validation structurée. L’objectif était de produire des plans d’affaires bien structurés, cohérents et perspicaces qui étaient alignés avec nos caractéristiques clés :

Clarté et Simplicité — Nous assurons que les propriétaires d’entreprises puissent facilement comprendre et utiliser leurs plans.
Orientation Stratégique — Fournir des aperçus pratiques, et pas seulement du texte.
Personnalisation et Conscience du Contexte — Adapter les plans en fonction des réponses des utilisateurs.
Actionnabilité — Rendre les plans faciles à exécuter pour les entrepreneurs.

Cependant, cette approche multi-étapes de haute qualité avait un coût : générer un plan complet prenait plus de 30 minutes. Ce délai rendait l’interaction en temps réel impraticable. Nous devions restructurer notre approche pour prioriser la rapidité sans sacrifier complètement la qualité.

Après une analyse de performance approfondie, nous avons identifié les principaux goulets d’étranglement et optimisé notre pipeline, réduisant finalement le temps de réponse de l’IA de 30 minutes à moins d’une minute. Cependant, cela s’est accompagné de compromis : nous avons dû sacrifier plusieurs cycles d’exécution au profit de la vitesse.

Les Causes Fondamentales De La Lenteur

Après des tests approfondis, nous avons identifié les facteurs suivants qui ralentissent la génération de plans d’affaires IA :

1. Surcharge de l’API des Assistants OpenAI

Latence de Création de Thread et d’Exécution : L’API Assistants d’OpenAI a introduit des retards significatifs lors de la configuration et de la gestion d’exécutions basées sur des threads.
Limitations de l’Exécution Parallèle : Il n’était pas possible de lancer plusieurs sections en parallèle dans le même thread, obligeant à un traitement sérialisé.

2. Délais D’appel Des Outils

Messages Supplémentaires Dans Les Appels De Fonction : Chaque invocation de fonction ajoutait un message non structuré supplémentaire, augmentant inutilement les temps de réponse.
Structure d’Appel Inefficace : L’appel de l’outil créait un surcoût de gestion de réponse, rendant les réponses structurées une alternative plus efficace.

3. Complexité de l’Exécution Multi-Étapes

Plusieurs Itérations Par Section : Le flux de travail initial comprenait l’ébauche, l’évaluation, les améliorations et les réévaluations avant de produire une section finale.
Volume Élevé d’Appels API : La nature itérative de notre processus initial nécessitait plusieurs appels API par section, multipliant les problèmes de latence.

Optimisations Clés Que Nous Avons Implémentées

1. Passage de l’API Assistants OpenAI à l’API Chat

Réponses Structurées Au Lieu d’Appels d’Outils : Au lieu de se baser sur les appels d’outils, nous sommes passés aux réponses structurées pour générer les sections du plan d’affaires.
Streaming de Réponses Immédiat : L’API de chat a permis un streaming plus rapide des réponses, réduisant le temps jusqu’au premier token et améliorant l’interactivité.

2. Réduction Des Cycles D’exécution Pour Une Génération Plus Rapide

Élimination Des Itérations Multiples : Nous avons supprimé les cycles de raffinement post-évaluation, optant pour une génération optimisée en une seule passe approche.
Réduction Des Étapes De Réévaluation : Auparavant, les sections étaient évaluées plusieurs fois pour des améliorations. Nous avons consolidé cela en une seule étape d’évaluation.

3. Intégration Optimisée de LangChain pour Réduire les Appels API Redondants

Comportement De Sondage Par Défaut : L’Assistant par défaut avec les outils de LangChain utilisait le sondage pour vérifier si une exécution était terminée, ce qui entraînait des demandes dupliquées.
Stratégie De Sondage Modifiée : Nous avons optimisé notre intégration pour réduire le sondage inutile, diminuant ainsi les demandes d’API redondantes.

Résultats Finaux : Compromis Entre Vitesse et Qualité

En mettant en œuvre ces optimisations, nous avons réduit le temps de réponse de l’IA de 30 minutes à moins d’une minute. Cependant, cela a eu un coût :

Ce Que Nous Avons Gagné :

Améliorations drastiques de la vitesse, rendant l’interaction en temps réel possible.
Changement de modèle plus flexible, permettant des transitions fluides entre les modèles GPT-4o, GPT-4o-mini et Claude.
Meilleure compatibilité avec LangChain, garantissant que les améliorations futures puissent être intégrées de manière fluide.

Ce Que Nous Avons Perdu :

Cycles d’amélioration personnelle réduits, signifiant que l’IA ne fait plus plusieurs itérations pour affiner les réponses.
Moins de couches d’évaluation, pouvant réduire la profondeur du contenu dans certaines sections.

Bien que ce compromis était nécessaire pour améliorer l’expérience utilisateur, de futures mises à jour pourraient réintroduire des processus itératifs sélectifs là où la vitesse le permet.

Leçons Apprises

1. LangChain & LangGraph Nécessitent Une Personnalisation Approfondie

Les solutions clé en main introduisent des inefficacités qui nécessitent des extensions personnalisées.
Comprendre et modifier les composants internes de LangChain était crucial pour optimiser les performances.

2. Vitesse Vs. Qualité Est Un Équilibre

Réduire les étapes de génération a amélioré la vitesse mais a nécessité de sacrifier les améliorations itératives.
Les travaux futurs pourraient explorer la réintroduction sélective de cycles clés améliorant la qualité.

3. Optimise Pour La Vitesse D’Abord, Puis Itère Sur La Qualité

Les problèmes de performance initiaux rendaient l’utilisation en temps réel impraticable.
Prioriser d’abord la vitesse d’exécution nous a permis de peaufiner ensuite la qualité de sortie sans impacter l’utilisabilité.

Essaie Notre Suite Commerciale Propulsée par l’IA

Nous avons construit et optimisé notre générateur de plans d’affaires piloté par IA chez DreamHost, garantissant des performances et une évolutivité de niveau entreprise.

Les clients de DreamHost peuvent cliquer ici pour commencer et explorer notre générateur de plans d’affaires avec IA et d’autres outils IA dès aujourd’hui !

Ce post est la Partie 2 d’une série en 4 parties. Assure-toi de consulter les autres posts de la série pour une exploration approfondie de notre générateur de plans d’affaires alimenté par IA.
Partie 1 : Comment nous avons construit un générateur de plans d’affaires alimenté par IA en utilisant LangGraph & LangChain
Partie 2 : Comment nous avons optimisé la génération de plans d’affaires IA : Vitesse vs. compromis de qualité
Partie 3 : Comment nous avons créé 273 tests unitaires en 3 jours sans écrire une seule ligne de code
Partie 4 : Cadre d’évaluation IA — Comment nous avons construit un système pour noter et améliorer les plans d’affaires générés par IA