Was wir messen

AI100 misst, wie natürlich eine Marke in den neutralen KI-Antworten innerhalb ihrer Kategorie und Region erscheint. Die Methodik trennt die Hauptbewertungsschicht (neutrale Szenarien) von der diagnostischen Schicht (Abfragen mit Markennamen) und verwendet eine nichtlineare Skala von 0 bis 100.

Messeinheit: eine Modellantwort auf ein standardisiertes Fragenszenario.

Wie ein Durchlauf funktioniert

1. Vorbereitung des Forschungsrahmens

Zuerst lesen wir die Website, identifizieren die Kategorie und klären, mit welchem Marktumfeld die Marke sinnvoll verglichen werden kann. Der Nutzer wählt eine Sichtbarkeitssprache (Visibility Language) — die Sprache, in der dem Modell die Fragen gestellt werden. Dies ist ein wichtiger Parameter: dieselbe Marke kann je nach Sprache der Prompts ein unterschiedliches Wettbewerbsumfeld vorfinden. Das Modell bildet für jede Sprache ein eigenes assoziatives Feld: Marken, die in einer Sprache dominieren, können in einer anderen ihre Position an andere Wettbewerber abgeben. Für internationale Marken wird eine separate Studie für jede Zielmarktsprache empfohlen.

2. Aufbau des Fragenkorpus

Dann wird das Set von Szenarien zusammengestellt: einige prüfen das natürliche Erscheinen der Marke, andere helfen, die Reputation und den Charakter der Modellantwort zu verstehen.

3. Berechnung des Hauptscores

Der Hauptscore basiert ausschließlich auf neutralen Szenarien, in denen die Marke ihren Platz durch die Modellantwort selbst verdienen muss. Separat werden der diagnostische Score (nach direkten Nennungen), die Web-Verstärkung (Differenz zwischen Gedächtnis- und Suchantwort) und das Konfidenzintervall berechnet.

4. Erklärung und Bericht

Abschließend übersetzen wir das Gesamtset der Antworten in einen lesbaren Bericht: den Endscore, seine Stabilität, die Stärken der Marke und die Wachstumszonen.

Wie der Score berechnet und gelesen wird

Der Sprung von schwacher Sichtbarkeit zu einer glaubwürdigen Mittelschicht wirkt dramatisch: Die Marke existiert für das Modell kaum oder erscheint bereits in einem Teil der Antworten. Der Sprung von starker Sichtbarkeit zu nahezu vollständiger Dominanz ist schwieriger. Deshalb verwenden wir eine logarithmische Transformation.

S = 100 ×  ln(1 + r / 12) ln(1 + 100 / 12)
S — Endscore (0–100) r — Rohsignal der Sichtbarkeit (0–100) 12 — Glättungsparameter (Kalibrierung)
0 25 50 75 100 0 25% 50% 75% 100% Rohsignal der Sichtbarkeit (r) Score linear 25% → 50 Punkte
Was raw bedeutet. Das ist das Rohsignal der Sichtbarkeit: wie häufig die Marke erscheint, wie hoch sie in der Antwort bleibt und wie überzeugend sie im Gesamtset der neutralen Szenarien wirkt.
Warum ein Logarithmus. Der Logarithmus macht den unteren und mittleren Bereich der Skala empfindlicher. So wandeln sich einige glückliche Antworten nicht zu schnell in einen hohen Endwert um.
Wie das Ergebnis zu lesen ist. Ein Anstieg von 20 auf 40 spiegelt eine echte Stärkung der Präsenz wider. Ein Anstieg von 80 auf 90 zählt ebenfalls, ist aber wesentlich schwieriger zu erreichen — und genau diesen Effekt soll die nichtlineare Skala bewahren.
Konfidenzintervall. Jedes Ergebnis wird von einem Konfidenzintervall begleitet — dem Bereich, in dem der Score wahrscheinlich liegen würde, wenn derselbe Fragenkorpus erneut ausgeführt würde. Ein schmales Intervall deutet auf stabile Sichtbarkeit hin; ein breites darauf, dass die Markenpräsenz je nach Szenario schwankt.
Web-Verstärkung. Die Studie wird in zwei Modi ausgeführt: nur mit Modellwissen und Modell + Webquellen. Die Differenz zwischen beiden Scores wird als Web-Verstärkung berichtet. Ein positiver Wert bedeutet, dass Webquellen die Marke stärken; ein negativer bedeutet, dass sie sie schwächen.

Korpus und Bewertung

Hauptschicht

Familie Was sie prüft
ExpertiseErkennt das Modell Autoritätssignale im Bereich der Marke?
OptionsvergleichBesteht die Marke in vergleichenden Fragen ohne Namensnennung?
KundenanforderungenQuestion family inside the core corpus.
Customer ExpertQuestion family inside the core corpus.
Kunden-ExplorationQuestion family inside the core corpus.
Aufgabe des KundenQuestion family inside the core corpus.
Customer MigrationQuestion family inside the core corpus.
Customer PainQuestion family inside the core corpus.
KundenkompromisseQuestion family inside the core corpus.
LösungssucheNennt das Modell die Marke, wenn der Nutzer gerade erst mit der Suche beginnt?
Rankings nach KategorieWie hoch platziert das Modell die Marke in einem expliziten Kategorieranking?
Engere AuswahlSchafft es die Marke in die engere Auswahl, wenn der Nutzer bereit ist zu vergleichen?
VertrauenAssoziiert das Modell die Marke mit Zuverlässigkeit und guter Wahl?

Gewichtungen des Hauptscores

Metrik Was sie zeigt Gewicht
ErwähnungsrateWie häufig die Marke in Antworten erscheint28.0%
Top-3-AnteilWie häufig die Marke im oberen Teil der Antwort steht14.0%
Top-1-AnteilWie häufig die Marke als Erste genannt wird10.0%
DurchschnittspositionDurchschnittliche Position der Marke in den Antworten15.0%
Szenario-AbdeckungIn welchem Anteil der Szenarien die Marke erscheint18.0%
AntwortanteilWie häufig die Marke im Antworttext erwähnt wird10.0%
TextanteilWelcher Anteil des Antworttextes der Marke gewidmet ist5.0%

Diagnostische Schicht

Diese Schicht ersetzt nicht den Hauptscore. Sie erklärt, was passiert, wenn die Marke bereits genannt, direkt verglichen oder im Hinblick auf ihre Reputation diskutiert wird.

Familie Was sie prüft
Alternative OptionenWird die Marke als Alternative zu einer bereits genannten Lösung erinnert?
MarkenreputationWie beschreibt das Modell die Marke, wenn der Name bereits gegeben ist?
Direkter VergleichWas passiert bei einem direkten Vergleich mit einem Wettbewerber?

Gewichtungen des diagnostischen Scores

Metrik Was sie zeigt Gewicht
EmpfehlungsrateAnteil der Antworten mit expliziter Markenempfehlung30.0%
EmpfehlungsstärkeWie überzeugend das Modell die Empfehlung formuliert25.0%
ZentralitätOb die Marke das Hauptthema der Antwort ist20.0%
Positiver TonAnteil der Antworten mit explizit positivem Ton15.0%
ArgumentationsqualitätOb das Modell die Empfehlung mit Argumenten stützt10.0%

Umfang und Einschränkungen

AI100 stellt sechs Modellen aus vier unabhängigen Familien denselben Szenarien-Korpus: GPT-5.3 chat und GPT-5.4 mini (OpenAI), Gemini 2.5 Pro und Gemini 2.5 Flash (Google), Grok 4.1 Fast (xAI) sowie DeepSeek V3.2. Jedes Modell antwortet in zwei Modi: ausschließlich auf Basis seines internen Wissens und mit Unterstützung durch Webquellen. Der Endscore aggregiert die Antworten aller sechs Modelle — dies reduziert die Abhängigkeit von den Eigenheiten eines einzelnen Modells.

Diese sechs Modelle decken etwa 93 % der kostenlosen KI-Assistenten-Nutzer weltweit ab. Der Pool ist fixiert und für alle Kunden identisch: jeder erhält dieselbe modellübergreifende Messung, sodass Ergebnisse zwischen Marken direkt vergleichbar sind. Microsoft Copilot wird automatisch über die OpenAI-Slots abgedeckt (Copilot verwendet GPT-5.x in der Produktion).

Was AI100 misst

  • Wie natürlich die Marke in neutralen KI-Antworten innerhalb ihrer Kategorie erscheint.
  • Die Position der Marke in der Antwort und ob Webquellen sie verstärken.
  • In welchen Fragenfamilien die Marke verschwindet und wo sie stärker als die Wettbewerber erscheint.

Was AI100 nicht misst

  • Umsatz, Konversion, Stärke des Marketingteams oder Produktqualität an sich.
  • Sämtliche existierende Sprachmodelle. Der AI100-Pool umfasst sechs fixierte Modelle, die rund 93 % der kostenlosen KI-Assistenten-Nutzer weltweit abdecken — genug für verlässliche Messungen der Massenmarkt-Sichtbarkeit einer Marke, aber nicht für Aussagen über spezifische Nischenmodelle.
  • Eine absolute Wahrheit über den Markt. Jede Messung hängt von Datum, Sprache, Kategorie und Fragenkatalog ab.

Methodik-Historie und Roadmap

Die AI100-Methodik entwickelt sich in Versionen. Hier zeigen wir, wie sich die Formel verändert hat und was als Nächstes geplant ist.

Änderungsprotokoll

Version Datum Was sich geändert hat
v2026.04 April 2026 Hauptformel auf 7 Metriken umgestellt; Qualitätsreserve in der Opportunity-Map neu berechnet.
v2026.03 März 2026 Diagnostische Ebene über Marken-Anfragen als separate Bewertung eingeführt.
v2026.02 Februar 2026 Umstellung auf einen Pool aus sechs unabhängigen Modellen verschiedener Familien; Cross-Model-Analyse eingeführt.
v2026.01 Januar 2026 Bootstrap-Iterationen für das Konfidenzintervall von 100 auf 300 erhöht.

Roadmap

Zeitraum Fokus
Q2 2026
  • Fixierung des Konkurrenzsets zwischen wiederholten Audits einer Marke für einen ehrlichen Vergleich von Anteilsmetriken
Q3 2026
  • Wiederholte Durchläufe zur Messung der Varianz innerhalb und zwischen Sprachen
  • Erweiterung der Cross-Model-Analyse auf zusätzliche Modellfamilien
Später
  • Distributionsökosysteme: wie sich Modelle auf Reddit, YouTube, GitHub und App-Stores stützen
  • Langzeitbeobachtung einer einzelnen Marke über die Zeit

Möchten Sie sehen, wie das für eine echte Marke aussieht?

Beispielbericht ansehen