Wie AI100 die Markensichtbarkeit in KI misst

Was wir messen

AI100 misst, wie natürlich eine Marke in den neutralen KI-Antworten innerhalb ihrer Kategorie und Region erscheint. Die Methodik trennt die Hauptbewertungsschicht (neutrale Szenarien) von der diagnostischen Schicht (Abfragen mit Markennamen) und verwendet eine nichtlineare Skala von 0 bis 100.

Messeinheit: eine Modellantwort auf ein standardisiertes Fragenszenario.

Wie ein Durchlauf funktioniert

1. Vorbereitung des Forschungsrahmens

Zuerst lesen wir die Website, identifizieren die Kategorie und klären, mit welchem Marktumfeld die Marke sinnvoll verglichen werden kann. Der Nutzer wählt eine Sichtbarkeitssprache (Visibility Language) — die Sprache, in der dem Modell die Fragen gestellt werden. Dies ist ein wichtiger Parameter: dieselbe Marke kann je nach Sprache der Prompts ein unterschiedliches Wettbewerbsumfeld vorfinden. Das Modell bildet für jede Sprache ein eigenes assoziatives Feld: Marken, die in einer Sprache dominieren, können in einer anderen ihre Position an andere Wettbewerber abgeben. Für internationale Marken wird eine separate Studie für jede Zielmarktsprache empfohlen.

2. Aufbau des Fragenkorpus

Dann wird das Set von Szenarien zusammengestellt: einige prüfen das natürliche Erscheinen der Marke, andere helfen, die Reputation und den Charakter der Modellantwort zu verstehen.

3. Berechnung des Hauptscores

Der Hauptscore basiert ausschließlich auf neutralen Szenarien, in denen die Marke ihren Platz durch die Modellantwort selbst verdienen muss. Separat werden der diagnostische Score (nach direkten Nennungen), die Web-Verstärkung (Differenz zwischen Gedächtnis- und Suchantwort) und das Konfidenzintervall berechnet.

4. Erklärung und Bericht

Abschließend übersetzen wir das Gesamtset der Antworten in einen lesbaren Bericht: den Endscore, seine Stabilität, die Stärken der Marke und die Wachstumszonen.

Wie der Score berechnet und gelesen wird

Der Sprung von schwacher Sichtbarkeit zu einer glaubwürdigen Mittelschicht wirkt dramatisch: Die Marke existiert für das Modell kaum oder erscheint bereits in einem Teil der Antworten. Der Sprung von starker Sichtbarkeit zu nahezu vollständiger Dominanz ist schwieriger. Deshalb verwenden wir eine logarithmische Transformation.

S = 100 × ln(1 + r / 12) ln(1 + 100 / 12)

S — Endscore (0–100) r — Rohsignal der Sichtbarkeit (0–100) 12 — Glättungsparameter (Kalibrierung)

Was raw bedeutet. Das ist das Rohsignal der Sichtbarkeit: wie häufig die Marke erscheint, wie hoch sie in der Antwort bleibt und wie überzeugend sie im Gesamtset der neutralen Szenarien wirkt.

Warum ein Logarithmus. Der Logarithmus macht den unteren und mittleren Bereich der Skala empfindlicher. So wandeln sich einige glückliche Antworten nicht zu schnell in einen hohen Endwert um.

Wie das Ergebnis zu lesen ist. Ein Anstieg von 20 auf 40 spiegelt eine echte Stärkung der Präsenz wider. Ein Anstieg von 80 auf 90 zählt ebenfalls, ist aber wesentlich schwieriger zu erreichen — und genau diesen Effekt soll die nichtlineare Skala bewahren.

Konfidenzintervall. Jedes Ergebnis wird von einem Konfidenzintervall begleitet — dem Bereich, in dem der Score wahrscheinlich liegen würde, wenn derselbe Fragenkorpus erneut ausgeführt würde. Ein schmales Intervall deutet auf stabile Sichtbarkeit hin; ein breites darauf, dass die Markenpräsenz je nach Szenario schwankt.

Web-Verstärkung. Die Studie wird in zwei Modi ausgeführt: nur mit Modellwissen und Modell + Webquellen. Die Differenz zwischen beiden Scores wird als Web-Verstärkung berichtet. Ein positiver Wert bedeutet, dass Webquellen die Marke stärken; ein negativer bedeutet, dass sie sie schwächen.

Korpus und Bewertung

Hauptschicht

Familie	Was sie prüft
Expertise	Erkennt das Modell Autoritätssignale im Bereich der Marke?
Optionsvergleich	Besteht die Marke in vergleichenden Fragen ohne Namensnennung?
Kundenanforderungen	Question family inside the core corpus.
Customer Expert	Question family inside the core corpus.
Kunden-Exploration	Question family inside the core corpus.
Aufgabe des Kunden	Question family inside the core corpus.
Customer Migration	Question family inside the core corpus.
Customer Pain	Question family inside the core corpus.
Kundenkompromisse	Question family inside the core corpus.
Lösungssuche	Nennt das Modell die Marke, wenn der Nutzer gerade erst mit der Suche beginnt?
Rankings nach Kategorie	Wie hoch platziert das Modell die Marke in einem expliziten Kategorieranking?
Engere Auswahl	Schafft es die Marke in die engere Auswahl, wenn der Nutzer bereit ist zu vergleichen?
Vertrauen	Assoziiert das Modell die Marke mit Zuverlässigkeit und guter Wahl?

Gewichtungen des Hauptscores

Metrik	Was sie zeigt	Gewicht
Erwähnungsrate	Wie häufig die Marke in Antworten erscheint	28.0%
Top-3-Anteil	Wie häufig die Marke im oberen Teil der Antwort steht	14.0%
Top-1-Anteil	Wie häufig die Marke als Erste genannt wird	10.0%
Durchschnittsposition	Durchschnittliche Position der Marke in den Antworten	15.0%
Szenario-Abdeckung	In welchem Anteil der Szenarien die Marke erscheint	18.0%
Antwortanteil	Wie häufig die Marke im Antworttext erwähnt wird	10.0%
Textanteil	Welcher Anteil des Antworttextes der Marke gewidmet ist	5.0%

Diagnostische Schicht

Diese Schicht ersetzt nicht den Hauptscore. Sie erklärt, was passiert, wenn die Marke bereits genannt, direkt verglichen oder im Hinblick auf ihre Reputation diskutiert wird.

Familie	Was sie prüft
Alternative Optionen	Wird die Marke als Alternative zu einer bereits genannten Lösung erinnert?
Markenreputation	Wie beschreibt das Modell die Marke, wenn der Name bereits gegeben ist?
Direkter Vergleich	Was passiert bei einem direkten Vergleich mit einem Wettbewerber?

Gewichtungen des diagnostischen Scores

Metrik	Was sie zeigt	Gewicht
Empfehlungsrate	Anteil der Antworten mit expliziter Markenempfehlung	30.0%
Empfehlungsstärke	Wie überzeugend das Modell die Empfehlung formuliert	25.0%
Zentralität	Ob die Marke das Hauptthema der Antwort ist	20.0%
Positiver Ton	Anteil der Antworten mit explizit positivem Ton	15.0%
Argumentationsqualität	Ob das Modell die Empfehlung mit Argumenten stützt	10.0%

Umfang und Einschränkungen

AI100 stellt sechs Modellen aus vier unabhängigen Familien denselben Szenarien-Korpus: GPT-5.3 chat und GPT-5.4 mini (OpenAI), Gemini 2.5 Pro und Gemini 2.5 Flash (Google), Grok 4.1 Fast (xAI) sowie DeepSeek V3.2. Jedes Modell antwortet in zwei Modi: ausschließlich auf Basis seines internen Wissens und mit Unterstützung durch Webquellen. Der Endscore aggregiert die Antworten aller sechs Modelle — dies reduziert die Abhängigkeit von den Eigenheiten eines einzelnen Modells.

Diese sechs Modelle decken etwa 93 % der kostenlosen KI-Assistenten-Nutzer weltweit ab. Der Pool ist fixiert und für alle Kunden identisch: jeder erhält dieselbe modellübergreifende Messung, sodass Ergebnisse zwischen Marken direkt vergleichbar sind. Microsoft Copilot wird automatisch über die OpenAI-Slots abgedeckt (Copilot verwendet GPT-5.x in der Produktion).

Was AI100 misst

Wie natürlich die Marke in neutralen KI-Antworten innerhalb ihrer Kategorie erscheint.
Die Position der Marke in der Antwort und ob Webquellen sie verstärken.
In welchen Fragenfamilien die Marke verschwindet und wo sie stärker als die Wettbewerber erscheint.

Was AI100 nicht misst

Umsatz, Konversion, Stärke des Marketingteams oder Produktqualität an sich.
Sämtliche existierende Sprachmodelle. Der AI100-Pool umfasst sechs fixierte Modelle, die rund 93 % der kostenlosen KI-Assistenten-Nutzer weltweit abdecken — genug für verlässliche Messungen der Massenmarkt-Sichtbarkeit einer Marke, aber nicht für Aussagen über spezifische Nischenmodelle.
Eine absolute Wahrheit über den Markt. Jede Messung hängt von Datum, Sprache, Kategorie und Fragenkatalog ab.

Methodik-Historie und Roadmap

Die AI100-Methodik entwickelt sich in Versionen. Hier zeigen wir, wie sich die Formel verändert hat und was als Nächstes geplant ist.

Änderungsprotokoll

Version	Datum	Was sich geändert hat
v2026.04	April 2026	Hauptformel auf 7 Metriken umgestellt; Qualitätsreserve in der Opportunity-Map neu berechnet.
v2026.03	März 2026	Diagnostische Ebene über Marken-Anfragen als separate Bewertung eingeführt.
v2026.02	Februar 2026	Umstellung auf einen Pool aus sechs unabhängigen Modellen verschiedener Familien; Cross-Model-Analyse eingeführt.
v2026.01	Januar 2026	Bootstrap-Iterationen für das Konfidenzintervall von 100 auf 300 erhöht.

Roadmap

Zeitraum	Fokus
Q2 2026	Fixierung des Konkurrenzsets zwischen wiederholten Audits einer Marke für einen ehrlichen Vergleich von Anteilsmetriken
Q3 2026	Wiederholte Durchläufe zur Messung der Varianz innerhalb und zwischen Sprachen Erweiterung der Cross-Model-Analyse auf zusätzliche Modellfamilien
Später	Distributionsökosysteme: wie sich Modelle auf Reddit, YouTube, GitHub und App-Stores stützen Langzeitbeobachtung einer einzelnen Marke über die Zeit