Reichen 50 Prompts, um KI-Sichtbarkeit zu messen?

Hermann Bareis

Während die gängige Marktempfehlung oft dazu rät, sich beim KI-Tracking auf einige wenige Keywords zu beschränken, sieht die Realität in der industriellen Praxis völlig anders aus.

Warum diese Best Practice für Industrieunternehmen nicht funktioniert

HubSpot hat kürzlich eine klare Empfehlung für das Tracking von KI-Sichtbarkeit veröffentlicht: Qualität vor Quantität. Wenige, präzise formulierte Prompts seien aussagekräftiger als ein umfangreiches Set – 25 bis 50 Prompts reichten vollkommen aus. Praktischerweise erlaubt das hauseigene HubSpot AEO-Tool genau 50 Prompts.

Was an der Empfehlung richtig ist

Zunächst zur Fairness: Drei der vier HubSpot-Prinzipien sind uneingeschränkt korrekt, und wir vertreten sie selbst.

Prompts müssen intent-realistisch sein – also Fragen abbilden, die echte Zielkunden entlang ihrer Customer Journey tatsächlich stellen würden. Prompts mit dem eigenen Markennamen verfälschen das Ergebnis; gemessen werden muss die Non-Brand-Sichtbarkeit, also die Themen, bei denen man gefunden werden will, ohne dass der Nutzer das Unternehmen bereits kennt. Und ja: Irrelevante Prompts erzeugen Rauschen, das jede Auswertung entwertet.

Qualität ist also Voraussetzung. Das Problem beginnt dort, wo Qualität gegen Abdeckung ausgespielt wird – als wäre es ein Trade-off. Das ist es nicht. Es sind zwei unabhängige Dimensionen, und die zweite wird in der Empfehlung schlicht wegdefiniert.

Das Consumer-Denken hinter der Zahl

Die Begründung, die HubSpot für das kleine Set liefert, verrät, für welche Welt sie geschrieben wurde: Nutzer hätten zu einem Produkt nur wenige konkrete Fragen – sie wollten sich informieren, das beste Angebot finden und kaufen.

Das beschreibt den Kauf eines Smartphones. Eine Person, eine kurze Journey, eine Handvoll dominanter Fragen ("bestes Smartphone für Fotografie", "iPhone oder Samsung"). Der relevante Prompt-Raum ist hochkonzentriert: Wenige Head-Prompts decken den Großteil der realen Nachfrage ab. Hier können 30 präzise Prompts tatsächlich ein brauchbares Bild liefern.
Eine Investitionsgüterentscheidung funktioniert fundamental anders.

Die Kombinatorik eines Industrieportfolios

Nehmen wir einen mittelständischen Messtechnik-Hersteller – ein typischer Fall aus unserer Beratungspraxis. Der relevante Prompt-Raum ergibt sich aus der Multiplikation mehrerer Dimensionen:
Sechs Themenfelder bzw. Technologiebereiche. Mehrere Produktlinien pro Feld. Ein Buying Center mit vier Rollen, die unterschiedlich fragen: Der Verfahrensingenieur fragt nach Messprinzipien und Genauigkeitsklassen, die Instandhaltung nach Wartungsintervallen und Ersatzteilen, der Einkauf nach Anbietervergleichen und Lieferzeiten, der Safety-Verantwortliche nach ATEX-Zulassungen und Normen. Drei Journey-Phasen von der Problemdefinition bis zum Anbietervergleich. Mehrere Anwendungsbranchen, in denen dasselbe Produkt völlig unterschiedliche Fragen auslöst. Und mindestens zwei Sprachen, wenn DACH und internationale Märkte abgedeckt werden sollen.

Schon mit einem einzigen Prompt pro Kombination liegt man weit jenseits von 50. Wer auf 50 begrenzt, misst nicht das Thema – er misst einen Ausschnitt, dessen Auswahl darüber entscheidet, was er sieht. Welche Persona fällt raus? Welche Branche? Welche Sprache? Jede dieser Entscheidungen verzerrt das Ergebnis, ohne dass die Verzerrung im Dashboard sichtbar wäre.

Dazu kommt der technische Long Tail. Im industriellen B2B sitzt die kaufentscheidende Nachfrage selten in generischen Head-Prompts, sondern in hochspezifischen Fragen wie "kontinuierliche Bandwaage für abrasive Schüttgüter in Ex-Zone 21". Einzeln selten gestellt, in Summe der Markt. Genau dieser Long Tail ist es, in dem sich Spezialisten gegen größere Wettbewerber durchsetzen können – und genau er fällt bei 50 Prompts als Erstes unter den Tisch.

Das statistische Problem: KI-Antworten sind keine Rankings

Es gibt einen zweiten, grundsätzlicheren Einwand. Klassische Suchrankings sind deterministisch: Position 3 ist Position 3. KI-Antworten sind stochastisch – dieselbe Frage liefert je nach Modell, Tag und Formulierung unterschiedliche Antworten mit unterschiedlichen Markennennungen.

Belastbare Sichtbarkeitskennzahlen wie der Share of Model oder die Citation Frequency entstehen deshalb aus drei Faktoren: Anzahl der Prompts mal Wiederholungen mal abgefragte Modelle. Je kleiner das Prompt-Set, desto stärker schlägt das Zufallsrauschen einzelner Antworten auf die Gesamtkennzahl durch – und desto weniger trägt jede Wettbewerbs-Gap-Analyse, die darauf aufbaut. Ironischerweise empfiehlt HubSpot an anderer Stelle selbst, monatlich zu tracken, um nicht auf normale Modellschwankungen überzureagieren. Das ist das Eingeständnis des Problems, nicht seine Lösung: Schwankungen mittelt man nicht über die Zeit weg, sondern über eine ausreichende Stichprobe.

Wenn die Best Practice exakt der Produktgrenze entspricht

Bleibt die Frage, warum eine erfahrene Marketingplattform wie HubSpot eine Empfehlung gibt, die für komplexe Portfolios so offensichtlich zu kurz greift. Die naheliegende Beobachtung: Die empfohlene Obergrenze von 50 Prompts ist exakt die technische Obergrenze des eigenen AEO-Tools.

Das muss keine böse Absicht sein – HubSpot ist als Plattform für ein breites, mehrheitlich nicht-industrielles Kundenspektrum gebaut, und dort mag die Grenze selten schmerzen. Aber es ist ein Muster, das man kennen sollte: Wenn ein Anbieter erklärt, mehr als das eigene Produktlimit sei ohnehin nicht sinnvoll, lohnt der Blick auf die Methodik dahinter. Eine seriöse Antwort auf die Frage "Wie viele Prompts brauche ich?" beginnt nicht beim Tool – sie beginnt beim Themenraum des Unternehmens.

Die richtige Frage: Wie groß ist Ihr Themenraum?

Die methodisch saubere Herleitung sieht so aus: Erst wird der relevante Themenraum strukturiert – Themenfelder, Buying-Center-Rollen, Journey-Phasen, Branchen, Märkte und Sprachen. Daraus ergibt sich die notwendige Prompt-Abdeckung. Dann wird jeder Prompt auf Intent-Realismus geprüft. Und schließlich wird über wiederholte Abfragen mehrerer KI-Systeme gemessen, statt von Einzelantworten auf Sichtbarkeit zu schließen.

Genau so arbeiten wir mit aiva: Das Prompt-Set wird aus dem Geschäft des Kunden abgeleitet, nicht aus einer Plattformgrenze. Das Ergebnis ist ein Share of Model, der Schwankungen statistisch abfedert, eine Citation-Analyse, die zeigt, welche Quellen die KI-Antworten tatsächlich speisen – und eine Wettbewerbs-Gap-Analyse, die auch den technischen Long Tail erfasst, in dem Industrieunternehmen ihre eigentlichen Stärken haben.

Qualität vor Quantität ist die halbe Wahrheit. Die ganze lautet: Qualität ist Voraussetzung, Abdeckung ist Pflicht – und wie viel Abdeckung nötig ist, bestimmt die Komplexität Ihres Portfolios, nicht das Limit eines Tools.

Für ein Consumer-Produkt mögen die 50 Prompts von HubSpot AEO genügen. Für ein Industrieunternehmen mit mehreren Produktlinien, einem vielköpfigen Buying Center und internationalen Märkten sind sie eine Scheingenauigkeit: präzise gemessen, aber am falschen Ausschnitt.
Sie möchten wissen, wie groß Ihr relevanter Themenraum ist – und wie sichtbar Sie darin heute sind?

Eine aiva-Analyse beantwortet beides in Zahlen:
➡️ Jetzt aiva-Beispielanalyse herunterladen (PDF)

➡️ Mehr über aiva erfahren

Fragen zu aiva oder Interesse an einer eigenen Analyse?
➡️ Hier Angebot anfordern!