Ce que nous mesurons

AI100 mesure la naturalité avec laquelle une marque apparaît dans les réponses neutres de l'IA au sein de sa catégorie et de sa région. La méthodologie sépare la couche principale de notation (scénarios neutres) de la couche diagnostique (requêtes avec nom de marque) et utilise une échelle non linéaire de 0 à 100.

Unité de mesure : une réponse du modèle à un scénario de question standardisé.

Comment fonctionne une exécution

1. Préparation du cadre de recherche

D'abord nous lisons le site, identifions la catégorie et clarifions avec quel environnement de marché il est pertinent de comparer la marque. L'utilisateur sélectionne une langue de visibilité (Visibility Language) — la langue dans laquelle les questions seront posées au modèle. C'est un paramètre important : la même marque peut rencontrer un environnement concurrentiel différent selon la langue des prompts. Le modèle construit un champ associatif distinct pour chaque langue : des marques qui dominent dans une langue peuvent céder leur position à d'autres concurrents dans une autre. Pour les marques internationales, une étude séparée est recommandée pour chaque langue du marché cible.

2. Construction du corpus de questions

Ensuite le corpus de scénarios est assemblé : certains vérifient l'apparition naturelle de la marque, d'autres aident à comprendre la réputation et le caractère de la réponse du modèle.

3. Calcul du score principal

Le score principal repose uniquement sur les scénarios neutres, où la marque doit gagner sa place par la réponse du modèle elle-même. Séparément sont calculés le score diagnostique (par mentions directes), le renforcement web (différence entre réponse de mémoire et réponse avec recherche) et l'intervalle de confiance du résultat.

4. Explication et rapport

Enfin, nous traduisons l'ensemble des réponses en un rapport lisible : le score final, sa stabilité, les forces de la marque et les zones de croissance.

Comment le score est calculé et interprété

Le saut entre une visibilité faible et une couche médiane crédible est spectaculaire : la marque existe à peine pour le modèle ou apparaît déjà dans une partie des réponses. Le saut entre une visibilité forte et une quasi-domination est plus difficile. C'est pourquoi nous utilisons une transformation logarithmique.

S = 100 ×  ln(1 + r / 12) ln(1 + 100 / 12)
S — score final (0–100) r — signal brut de visibilité (0–100) 12 — adoucisseur (paramètre de calibration)
0 25 50 75 100 0 25% 50% 75% 100% Signal brut de visibilité (r) Score linéaire 25% → 50 points
Ce que signifie raw. C'est le signal brut de visibilité : à quelle fréquence la marque apparaît, à quel point elle se maintient dans la réponse et à quel point elle est convaincante dans l'ensemble des scénarios neutres.
Pourquoi un logarithme. Le logarithme rend la partie inférieure et médiane de l'échelle plus sensible. Ainsi, quelques réponses chanceuses ne se transforment pas trop vite en un score final élevé.
Comment lire le résultat. Un passage de 20 à 40 reflète un renforcement réel de la présence. Un passage de 80 à 90 compte aussi, mais il est beaucoup plus difficile à obtenir — c'est exactement l'effet que l'échelle non linéaire est conçue pour préserver.
Intervalle de confiance. Chaque résultat est accompagné d'un intervalle de confiance — la plage dans laquelle le score se situerait probablement si le même corpus de questions était exécuté à nouveau. Un intervalle étroit indique une visibilité stable ; un intervalle large indique que la présence de la marque fluctue selon les scénarios.
Renforcement web. L'étude est exécutée en deux modes : connaissances du modèle seul et modèle + sources web. La différence entre les deux scores est rapportée comme renforcement web. Une valeur positive signifie que les sources web renforcent la marque ; une valeur négative signifie qu'elles l'affaiblissent.

Corpus et notation

Couche principale

Famille Ce qu'elle vérifie
ExpertiseLe modèle détecte-t-il des signaux d'autorité dans le domaine de la marque ?
Comparaison d'optionsLa marque tient-elle dans les questions comparatives sans indication de nom ?
Exigences de l'acheteurQuestion family inside the core corpus.
Customer ExpertQuestion family inside the core corpus.
Exploration de l'acheteurQuestion family inside the core corpus.
Tâche à accomplir de l'acheteurQuestion family inside the core corpus.
Customer MigrationQuestion family inside the core corpus.
Customer PainQuestion family inside the core corpus.
Compromis de l'acheteurQuestion family inside the core corpus.
Recherche de solutionLe modèle nomme-t-il la marque quand l'utilisateur commence tout juste à chercher ?
Classements de catégorieÀ quel point le modèle place-t-il la marque dans un classement explicite de catégorie ?
Liste restreinteLa marque entre-t-elle dans la liste restreinte quand l'utilisateur est prêt à comparer ?
ConfianceLe modèle associe-t-il la marque à la fiabilité et au choix judicieux ?

Pondérations du score principal

Métrique Ce qu'elle montre Poids
Taux de mentionÀ quelle fréquence la marque apparaît dans les réponses28.0%
Taux Top-3À quelle fréquence la marque est dans la partie supérieure de la réponse14.0%
Taux Top-1À quelle fréquence la marque est nommée en premier10.0%
Position moyennePosition moyenne de la marque dans les réponses15.0%
Couverture des requêtesDans quelle proportion de scénarios la marque apparaît18.0%
Part dans les réponsesÀ quelle fréquence la marque est mentionnée dans le texte de la réponse10.0%
Part textuelleQuelle proportion du texte de la réponse porte sur la marque5.0%

Couche diagnostique

Cette couche ne remplace pas le score principal. Elle explique ce qui se passe lorsque la marque est déjà nommée, directement comparée ou discutée en termes de réputation.

Famille Ce qu'elle vérifie
Choix alternatifsLa marque est-elle rappelée comme alternative à une solution déjà nommée ?
Réputation de marqueComment le modèle décrit-il la marque quand le nom est déjà donné ?
Comparaison directeQue se passe-t-il dans une comparaison directe avec un concurrent ?

Pondérations du score diagnostique

Métrique Ce qu'elle montre Poids
Taux de recommandationProportion de réponses avec recommandation explicite de la marque30.0%
Force de recommandationAvec quelle conviction le modèle formule la recommandation25.0%
CentralitéSi la marque est le sujet principal de la réponse20.0%
Ton positifProportion de réponses au ton explicitement positif15.0%
Qualité argumentativeSi le modèle étaye la recommandation par des arguments10.0%

Périmètre et limites

AI100 soumet le même corpus de scénarios à six modèles issus de quatre familles indépendantes : GPT-5.3 chat et GPT-5.4 mini (OpenAI), Gemini 2.5 Pro et Gemini 2.5 Flash (Google), Grok 4.1 Fast (xAI) et DeepSeek V3.2. Chaque modèle répond selon deux modes : en s'appuyant uniquement sur ses connaissances internes, et avec le renfort de sources web. Le score final agrège les réponses des six modèles — cela réduit la dépendance aux particularités d'un modèle en particulier.

Ces six modèles couvrent environ 93 % des utilisateurs gratuits d'assistants IA dans le monde. L'ensemble est fixe et identique pour tous les clients : chacun reçoit la même mesure multi-modèle, de sorte que les résultats entre marques peuvent être comparés directement. Microsoft Copilot est couvert automatiquement via les emplacements OpenAI (Copilot utilise GPT-5.x en production).

Ce que mesure AI100

  • La naturalité avec laquelle la marque apparaît dans les réponses neutres de l'IA au sein de sa catégorie.
  • La position de la marque dans la réponse et si les sources web la renforcent.
  • Dans quelles familles de questions la marque disparaît et où elle apparaît plus forte que les concurrents.

Ce que ne mesure pas AI100

  • Les ventes, la conversion, la force de l'équipe marketing ou la qualité du produit en eux-mêmes.
  • Tous les modèles de langage existants. AI100 fige un ensemble de six modèles couvrant environ 93 % des utilisateurs gratuits d'assistants IA dans le monde — suffisant pour des mesures fiables de la visibilité de marque grand public, mais pas pour des conclusions sur des modèles de niche spécifiques.
  • Une vérité absolue sur le marché. Toute mesure dépend de la date, de la langue, de la catégorie et du corpus de questions.

Historique et feuille de route de la méthodologie

La méthodologie AI100 évolue par versions. Voici comment la formule a changé et ce qui est prévu ensuite.

Journal des modifications

Version Date Ce qui a changé
v2026.04 avril 2026 Formule principale ramenée à 7 métriques ; réserve de qualité de la carte des opportunités recalculée.
v2026.03 mars 2026 Ajout de la couche de diagnostic sur les requêtes avec marque comme notation distincte.
v2026.02 février 2026 Passage à un ensemble de six modèles indépendants de familles différentes ; introduction de l'analyse cross-model.
v2026.01 janvier 2026 Nombre d'itérations bootstrap pour l'intervalle de confiance passé de 100 à 300.

Feuille de route

Période Objectif
T2 2026
  • Fixation de l'ensemble concurrentiel entre audits répétés d'une marque pour une comparaison honnête des métriques de part
T3 2026
  • Exécutions répétées pour mesurer la variance intra- et inter-langues
  • Extension de l'analyse cross-model à d'autres familles de modèles
Plus tard
  • Écosystèmes de distribution : comment les modèles s'appuient sur Reddit, YouTube, GitHub et les app stores
  • Suivi longitudinal d'une même marque dans le temps

Vous souhaitez voir ce que cela donne pour une vraie marque ?

Voir le rapport type