Small language models: Rethinking enterprise AI architecture

Les Large Language Models (LLM) sont les bêtes de somme de l'IA, supportant des capacités et des workflows toujours plus sophistiqués, et approchant des performances proches de l'humain.

Mais parfois, plus n'est pas mieux — c'est juste plus. Des données spécialisées et des capacités limitées suffisent largement pour certains workflows.

Cette prise de conscience pousse l'évolution des Small Language Models (SLM), à la place des LLM "one-size-fits-all". Les SLM — qu'ils prennent la forme de modèles spécifiques à un domaine, de modèles de langage statistiques ou de modèles de langage neuronaux — sont plus rapides, moins chers, moins gourmands en ressources et plus privés que les LLM traditionnels, selon les experts.

Ce n'est pas simplement une histoire de remplacement. "Le pattern ressemble plutôt à une meilleure division du travail", dit Thomas Randall, research director chez Info-Tech Research Group. "Une architecture de routage envoie les requêtes simples ou bien cadrées vers un petit modèle spécialisé, et les requêtes complexes vers un grand modèle."

Comment les Small Language Models sont-ils faits petits ?

Tandis que les LLM peuvent afficher des comptes de paramètres dans les centaines de milliards — ou, de plus en plus, dans les trillions — les SLM tombent typiquement dans la fourchette 1 à 7 milliards de paramètres. En général, tout ce qui est sous 10 milliards est considéré comme petit.

Là où les LLM sont entraînés sur des pétaoctets de données, les SLM sont entraînés sur des architectures transformers compactes (réseaux neuronaux) en utilisant des datasets plus petits, spécialisés et de haute qualité, spécifiques à leur fonction prévue. Plusieurs techniques aident à contenir la taille du modèle sans compromettre la performance :

Knowledge distillation : un modèle "professeur" plus large entraîne un modèle "élève" plus petit pour qu'il apprenne à imiter de fortes capacités de raisonnement, mais à une échelle bien plus réduite.
Pruning : les paramètres redondants ou non pertinents sont retirés des architectures de réseaux neuronaux.
Quantization : les valeurs sont réduites de haute précision à basse précision (par exemple, les nombres flottants sont convertis en entiers) pour réduire la taille des données, accélérer le traitement et optimiser la consommation d'énergie.

Les modèles plus larges peuvent aussi être modifiés et distillés en modèles plus petits et plus spécialisés via des techniques comme la retrieval-augmented generation (RAG), quand ils sont entraînés à puiser dans des sources de confiance avant de générer une réponse ; le fine-tuning et le prompt tuning pour guider les réponses vers des domaines spécifiques ; ou LoRa (low-rank adaptation) pour ajuster un modèle existant à une tâche cible.

Small language models: Rethinking enterprise AI architecture

Résumé

💡 Pourquoi ça compte

Analyse approfondie

Comment les Small Language Models sont-ils faits petits ?