Prompting-Strategien für KI-Übersetzungen: Was funktioniert?

Darum geht's:
* Der Vergleich von Prompting über ChatGPT 5.2, Microsoft 365 Copilot und Claude Sonnet 4.5 zeigt, dass klare, instruktionsreiche Prompts die besten Übersetzungen liefern.
* Einfache Prompts eignen sich für das grobe Verständnis; Workflow-Prompts erhöhen die Komplexität bei begrenztem Nutzen.
* Fazit: Spezifität schlägt Komplexität, und menschliche Prüfung bleibt unverzichtbar.

Welches LLM ist das beste? Diese Frage ist derzeit omnipräsent in den Schlagzeilen. In den sozialen Medien kursieren Benchmarks, Leaderboards und Screenshots, die alle einen neuen Champion krönen. Wenn Ihr Unternehmen an ein einziges System gebunden ist, lautet die eigentliche Frage oft nicht, welches Modell zum Einsatz kommen sollte, sondern wie Sie das bereits vorhandene richtig prompten.

In diesem Artikel untersuchen wir drei Prompting-Strategien für KI-Übersetzungen mit drei kommerziellen LLMs: ChatGPT 5.2, Microsoft 365 Copilot und Claude Sonnet 4.5. Denn wir wollen herausfinden , welche Strategien sich in allen Modellen bewähren. Die Modelle sind hier keine Konkurrenten, sondern Testplattformen. Der eigentliche Protagonist ist der Prompt.

Prompting-Strategien für KI-Übersetzungen: Text und Prompting-Technik

Testtext

Für unser Experiment verwenden wir einen kurzen Auszug aus einem Benutzerhandbuch für ein Elektrowerkzeug – ein idealer Stresstest für Prompting-Strategien für die KI-Übersetzung, da es sich um einen sicherheitskritischen und streng geregelten Text handelt. Die Sprache ist knapp, prägnant und kontrolliert, bietet aber genug Variation, um mögliche Schwachstellen in der KI-Übersetzung aufzudecken.

Aus übersetzungsmethodischer Sicht erfordert ein solcher Text einen stark funktionalen Ansatz. Das Hauptziel eines solchen Dokuments ist es, klare Schritt-für-Schritt-Anweisungen zu geben und Verletzungen sowie Fehlgebrauch zu verhindern. Ein menschlicher Übersetzer würde sich in der Regel auf Folgendes konzentrieren:

Klarheit der Anweisungen: Die einzelnen Schritte müssen eindeutig und leicht nachvollziehbar sein. Oft bedeutet das, dass Sätze umstrukturiert oder lange zusammengesetzte englische Sätze im Deutschen in mehrere kürzere aufgeteilt werden.
Stil und Konventionen: Technische Dokumentation folgt ganz bestimmten Konventionen und Regeln. Der Text sollte leicht verständlich sein und keine komplexen grammatikalischen Strukturen enthalten, die verwirren oder ablenken könnten. Die KI neigt dazu, zu paraphrasieren oder Ausschmückungen hinzuzufügen, was bei einem solchen Text problematisch sein kann.
Einheitliche Terminologie: Komponentennamen und Fachbegriffe müssen durchgehend gleich verwendet werden, unabhängig davon, ob das System sie aus dem Kontext ableitet oder einem bereitgestellten Glossar folgt.
Sprachvariante: Die angegebene Zielsprachenvariante muss in puncto Rechtschreibung, Grammatik und bevorzugten Formulierungen korrekt umgesetzt werden.
Genaue Risikokommunikation: Warnungen und Hinweise müssen ihre ursprüngliche Stärke beibehalten und dürfen nicht versehentlich abgeschwächt oder übertrieben werden.

Anhand dieser Punkte beurteilen wir auch die Qualität der KI-generierten Übersetzungen. Unser Ziel: Herauszufinden, wie gut die einzelnen Prompting-Strategien bei dieser Textsorte mit unseren drei Testmodellen funktionieren.

Prompts

Im Folgenden wollen wir näher auf die drei getesteten Prompting-Strategien für KI-Übersetzungen eingehen:

Naiver Prompt: Das ist die einfachste Version des Prompts, in der wir ein System bitten, einen Text von einer Sprache in eine andere zu übersetzen. Diese einfachste Variante zeigt, wie jedes Modell «standardmässig» auf die Aufgabe reagiert. Noch sind keine Hinweise auf Ton, Terminologie oder Stil im Prompt enthalten. Auf diese Weise können wir sehen, wie sich die Modelle verhalten, bevor wir ihnen detailliertere Anweisungen geben. Einzige Anpassung in diesem Fall: die Angabe der Zielsprachenvariante – Deutsch (Schweiz).

“Translate the attached text from English to German (Swiss variant).”

Anweisungsreicher Prompt: In diesem Prompt wird einem System eine Rolle zugewiesen (ein professioneller Übersetzer für Englisch-Deutsch (Schweizer Variante)), zusammen mit klaren Anweisungen für die Übersetzung dieser Textart.

“You are a professional English to German (Swiss variant) translator for the mechanical engineering industry. Translate the attached instruction manual into German (Swiss variant). Use the impersonal imperative form for all procedural steps. Avoid addressing the reader. Describe actions as procedures and not commands. Preserve technical terminology as in the attached glossary. Terminological consistency is a priority. Adhere to the Swiss Standard German spelling rules. Split complex English sentences into smaller units. Make sure that the order of actions remains strictly chronological.”

Workflow-Prompt: Eine aktuelle Studie von Google begreift Übersetzung ganz konkret als Prozess und fragt: Was, wenn wir ein LLM so prompten, dass es wie ein menschlicher Übersetzer Schritt für Schritt arbeitet? Anstelle eines einzelnen «Übersetze das»-Prompts wird ein vierstufiger Workflow für lange Texte entwickelt:

eine Analysephase vor der Übersetzung, in der das Modell zunächst den Ausgangstext durchgeht und knifflige Stellen markiert;
eine Entwurfsphase, in der es darum geht, die Bedeutung korrekt wiederzugeben;
eine Überarbeitungsphase, in der Sprachfluss und Lesbarkeit verbessert werden;
und ein abschliessendes Korrekturlesen, um verbliebene Fehler zu beheben.

Für unser Experiment haben wir die in der Google-Studie verwendeten Prompts weitgehend unverändert übernommen. Das mehrstufige Prompting, das wir hier testen, ist eine Art «proto-agentische» Nutzung von LLMs, bei der wir die Schritte explizit vorgeben, statt dass sie ein Agent selbstständig wählt.

Ergebnisse des 1. Tests: naive Prompting-Strategie

Der erste Prompting-Test enthielt nur Angaben zur Zielsprache und deren Varianten. Alle drei Modelle hielten sich an die Rechtschreibkonventionen der Schweizer Variante des Deutschen.

Die Anweisungen waren klar und angemessen gekennzeichnet. Unser Ausgangstext enthält zwei zusammengesetzte Sätze, die im Deutschen durch eine kleine Umstrukturierung klarer und leichter verständlich werden könnten. ChatGPT tat dies bei einem der beiden Sätze, beim anderen jedoch nicht. Die anderen Modelle übernahmen die originale Satzstruktur unverändert.

Für diesen Text haben wir ein vordefiniertes Glossar mit übersetzten Begriffen, das den Modellen erst im zweiten Test zur Verfügung gestellt wird. Obwohl die Modelle im naiven Test nicht immer die Terminologie des Glossars verwendeten, trafen sie angemessene Entscheidungen passend zur Textart und wandten diese Begriffe in der Übersetzung durchwegs an.

Was den Stil betrifft, wählten alle Modelle formelle Formulierungen und Strukturen. Alle Modelle sprachen den Leser mit der formellen «Sie»-Form an und formulierten die Anweisungen im Imperativ. Das ist zwar nicht falsch, uns wäre es aber lieber, die Modelle würden dies vermeiden, da die Anweisungen dadurch ohne Mehrwert unnötig länger werden. Der Schwerpunkt sollte auf einer effektiven und schnellen Kommunikation liegen. Wir möchten, dass die KI hier eine unpersönliche Form wählt, die den Leser nicht direkt anspricht. Im Prompt für den zweiten Test werden wir das berücksichtigen.

Insgesamt lieferten alle drei Modelle solide Vorübersetzungen. Verbesserungspotenzial besteht in der Verwendung vorab genehmigter Terminologie und einer genaueren Definition des Stils, um den Nachbearbeitungsaufwand zu reduzieren. Das Gleiche gilt für die Vereinfachung der Struktur zusammengesetzter Originalsätze, um die Lesbarkeit des Textes zu verbessern. Wir werden versuchen, das im zweiten Test umzusetzen.

Ergebnisse des 2. Tests: anweisungsreiche Prompting-Strategie

Die zweite Prompting-Strategie arbeitete mit Anweisungen, die speziell auf unseren Text zugeschnitten waren. Ein solches Prompting erfordert eine detaillierte Analyse des Textes. Bei standardisierten Dokumenten, die klaren Regeln hinsichtlich Stil, Formulierungen und Terminologie folgen, zahlt sich dies jedoch aus. Denn wenn Sie den Prompt erst einmal entworfen haben, können Sie ihn für alle Ihre KI-Übersetzungen wiederverwenden.

Bei diesem Test haben wir ein Glossar mit vorab genehmigten Begriffen hinzugefügt. Das Glossar enthielt einen absichtlich mehrdeutigen Begriff, um zu prüfen, ob die Modelle ihn aus dem Kontext erschliessen können. Claude war das einzige Modell, das dies zuverlässig schaffte und damit dem Goldstandard am nächsten kam. ChatGPT und Copilot neigten dazu, den Begriff zu vermeiden und akzeptable, aber weniger präzise Alternativen zu verwenden.

Durch das Hinzufügen detaillierter Anweisungen für unpersönliche Imperativsätze (1) verbesserte sich das Ergebnis von zwei der drei Modelle weiter. ChatGPT und Copilot verstanden die Aufgabe und setzten den gewünschten Stil und die gewünschte Struktur um. Claude hingegen erstellte Übersetzungen im Infinitiv mit «zu», was die Anweisungen schwerfälliger machte, ohne die Lesbarkeit zu verbessern.

Use the impersonal imperative form for all procedural steps. Avoid addressing the reader.

Nachdem wir ein Beispielpaar (2) für die gewünschte Übersetzungsstruktur bereitgestellt haben, wurde der Output von Claude jedoch besser.

Use the impersonal imperative form for all procedural steps (Example: Mount the inner flange onto the spindle. –> Den lnnenflansch auf der Spindel anbringen.). Avoid addressing the reader.

Alle drei Modelle schnitten bei komplexen englischen Sätzen gut ab. Sie zerlegten einen komplexen Satz in kleinere Einheiten und behielten dabei die chronologische Reihenfolge der Handlungen bei.

Auch die Rechtschreibung des Schweizerhochdeutschen setzten alle drei Modelle wie angewiesen korrekt um.

Ergebnisse des 3. Tests: Workflow-Prompting-Strategie

Der dritte Test nutzte die aufwändigste Prompting-Strategie, bei der mehrere Workflow-Schritte in den KI-Übersetzungsprozess eingebaut wurden. Alle drei Modelle lieferten eine ziemlich standardisierte und vergleichbare Vorübersetzungsanalyse. Sie identifizierten Mehrdeutigkeiten im Ausgangstext, schlugen Übersetzungen für Schlüsselbegriffe vor und wiesen auf mögliche Problemstellen hin. Interessanterweise verwendeten alle die Höflichkeitsform, obwohl das nicht unser Ziel war.

Während der eigentlichen Übersetzung ignorierten die Modelle jedoch oft ihre eigenen Voranalysen. Die Rechtschreibung des Schweizerhochdeutschen wurde nicht konsequent eingehalten. ChatGPT und Claude wandten sie bereits in der Entwurfsphase an. Copilot tat dies zunächst nicht und nahm nur teilweise Korrekturen in der Nachbearbeitungsphase vor. In mehreren Durchläufen liessen die Modelle auch die Anforderung der Schweizer Variante ganz fallen, wenn sie nicht ausdrücklich bei jedem Schritt wiederholt wurde, selbst wenn sie sie zuvor in der Analyse erwähnt hatten.

Zusammengesetzte Sätze blieben komplex und wurden in der Zielsprache nicht in kürzere, besser lesbare Einheiten zerlegt. Auch in den Voranalysen der Modelle wurde diese Anforderung nicht vorgeschlagen.

Die Überarbeitung und das Korrekturlesen brachten erstaunlich wenig Mehrwert. Bei der «Nachbearbeitung» und insbesondere beim abschliessenden Korrekturlesen bestanden die meisten Vorschläge aus minimalen, kosmetischen Anpassungen, die lediglich alternative Formulierungen boten, aber keine echten Verbesserungen. Kein Modell nahm wesentliche Änderungen vor, die Genauigkeit, Lesefluss oder Konsistenz gegenüber dem eigenen Entwurf deutlich verbesserten. Insgesamt schnitten die finalen Übersetzungen des dritten Tests schlechter ab als die, die mit dem anweisungsreichen Prompt im zweiten Test erstellt wurden.

Der wesentliche Vorteil der Workflow-Strategie zeigt sich in der Analysephase, die nützlich sein kann, um potenzielle Problemstellen und mehrdeutige Formulierungen aufzudecken. Zusätzliche Überarbeitungsschritte waren nur dann hilfreich, wenn die Prompts in jeder Phase sehr spezifische, konkrete Anforderungen an Stil, Register und Terminologie enthielten. Im Gegensatz dazu lieferte ein einzelner, detaillierter anweisungsreicher Prompt schon in der Entwurfsphase bessere Ergebnisse, und das mit weniger Latenz und weniger Schritten als die vollständige Workflow-Variante.

KI findet immer etwas zu tun

Alle drei Prompting-Strategien funktionieren und können je nach Anwendungsfall erfolgreich eingesetzt werden. Naives Prompting reicht aus, wenn Sie den Text nur oberflächlich verstehen wollen. Es geht schnell und reicht in der Regel aus, um die Kernaussage eines Textes zu erfassen. Aber ohne Vorgaben zu Register, Textart oder Einschränkungen treffen die Modelle viele Entscheidungen, die möglicherweise nicht zu Ihrem Text passen.

Am besten schnitten alle drei Systeme beim anweisungsreichen Prompting ab. Mit festgelegter Rolle, Zielpublikum, Register, Rechtschreibung und Terminologie wurden die Übersetzungen deutlich flüssiger, konsistenter und brauchbarer. Am zuverlässigsten erwies sich ein einzelner, gut formulierter Prompt, der die Anforderungen von Anfang an vorgibt.

Das Workflow-Prompting erweist sich vor allem in der Analysephase als nützlich, in der die Modelle potenzielle Problemstellen und Unklarheiten identifizieren konnten. Ohne sehr konkrete Anweisungen in jeder Phase brachten die zusätzlichen Schritte zur Überarbeitung und Korrektur meist nur kleine kosmetische Änderungen und keine bedeutenden Verbesserungen. Mehr Schritte bedeuten nicht automatisch bessere Übersetzungen.

KI findet immer etwas, das sie umschreiben kann. Die entscheidende Frage ist, ob die Vorschläge konsistent und notwendig sind und mit Ihren Vorgaben übereinstimmen. Menschliche Kontrolle bleibt unerlässlich, besonders wenn es um Sicherheit und Klarheit geht.

Spezifität schlägt Komplexität

Unternehmen, die sich ernsthaft mit Prompting-Strategien für KI-Übersetzungen befassen, sollten sich merken: Spezifität schlägt Komplexität. Sie wollen, dass KI mit Ihren Anforderungen arbeitet und nicht dagegen? SwissGlobal unterstützt Sie dabei, robuste, wiederverwendbare Prompts zu definieren, die genau auf Ihre Texte zugeschnitten sind. Mit unserer KI-gestützten Übersetzungsplattform KITT::Hub können Sie agentenbasierte KI-Workflows mit menschlicher Fachkompetenz kombinieren. Kontaktieren Sie uns und erfahren Sie, wie ein solches Setup für Ihre Organisation aussehen könnte.

Prompting-Strategien für KI-Übersetzungen

Zurück zum Blog

Vielen Dank!

Prompting-Strategien für KI-Übersetzungen: Was funktioniert bei welchen LLMs?

Prompting-Strategien für KI-Übersetzungen: Text und Prompting-Technik

Testtext

Prompts

Ergebnisse des 1. Tests: naive Prompting-Strategie

Ergebnisse des 2. Tests: anweisungsreiche Prompting-Strategie

Ergebnisse des 3. Tests: Workflow-Prompting-Strategie

KI findet immer etwas zu tun

Spezifität schlägt Komplexität

Vielen Dank!

Prompting-Strategien für KI-Übersetzungen: Text und Prompting-Technik

Testtext

Prompts

Ergebnisse des 1. Tests: naive Prompting-Strategie

Ergebnisse des 2. Tests: anweisungsreiche Prompting-Strategie

Ergebnisse des 3. Tests: Workflow-Prompting-Strategie

KI findet immer etwas zu tun

Spezifität schlägt Komplexität

SwissGlobal Newsletter

Newsletter

Relevante Artikel, die zum Thema passen