Die Auswirkungen der generativen KI – ein Gespräch mit Anastassia Shaitarova
Im Zeitalter der generativen KI (GenAI) hat die Sprachtechnologie die Kommunikation, das Lernen und die Erstellung von Inhalten neu gestaltet. Im Zuge der Weiterentwicklung von generativen KI-Modellen wirft ihr Einfluss auf die natürliche Sprache – die natürliche, von Menschen geschaffene Form der Kommunikation, darunter gesprochene, geschriebene oder Gebärdensprachen – wichtige Fragen zur lexikalischen Vielfalt, zur syntaktischen Struktur und zu möglichen sprachlichen Veränderungen auf.
Wir haben kürzlich mit Anastassia Shaitarova vom Institut für Computerlinguistik der Universität Zürich gesprochen. Sie hat im Rahmen ihrer Doktorarbeit Erkenntnisse darüber gewonnen, wie maschinell generierter Text die natürliche Sprache formt, dies insbesondere im Zusammenhang mit SwissGlobal, dessen interne Übersetzungen zu dieser Forschung beigetragen haben.
Was war der primäre Schwerpunkt Ihrer Doktorarbeit?
Im Mittelpunkt meiner Forschung stand die Frage, wie maschinell erzeugte Sprache die menschliche Sprache beeinflusst – sei es durch neuronale maschinelle Übersetzung (NMT wie DeepL oder Google Translate) oder grosse Sprachmodelle (LLMs wie ChatGPT und Googles Gemini). Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat dieses Thema an Relevanz gewonnen.
Meine Arbeit erfolgte im Rahmen eines breiteren interdisziplinären Projekts in der Schweiz, das zum Ziel hatte, die Zukunft der Sprache zu untersuchen. Ich konzentrierte mich dabei insbesondere auf die potenziellen Auswirkungen KI-gesteuerter Sprache auf menschliche sprachliche Gepflogenheiten.
Von welcher Hypothese sind Sie ausgegangen und was waren Ihre wichtigsten Erkenntnisse?
Ich bin davon ausgegangen, dass generative Modelle zu einer «lexikalischen Verarmung» der natürlichen Sprache beitragen würden. Nach dieser Theorie könnten diese auf einer frequenzbasierten Wortauswahl basierenden Modelle eine standardisiertere und potenziell weniger vielfältige Sprache zur Folge haben.
Dabei kamen gemischte Ergebnisse zu Tage, insbesondere beim Vergleich von NMT mit neueren LLMs. Zwar wiesen einige NMT-Systeme eine lexikalische Verarmung auf, doch fortgeschrittene LLMs wie GPT-4 zeigten einen überraschenden Grad an lexikalischer Vielfalt, der in einigen Fällen sogar die menschliche Sprache übertraf, insbesondere ausserhalb einer klar definierten Übersetzungsaufgabe.
Wie wurde die lexikalische Verarmung gemessen, und haben neuere Sprachmodelle anders abgeschnitten als ältere?
Ich habe mit korpuslinguistischen Methoden verschiedene Textkorpora aus menschlichen und maschinellen Übersetzungen sowie maschinell generierte und von Menschen verfasste Texte analysiert. Ich habe viele linguistische Merkmale untersucht, darunter Worthäufigkeit, syntaktische Komplexität, morphologische Vielfalt, Lesbarkeit von Texten usw.
Die lexikalische Verarmung ist oft in den Ergebnissen von NMT-Systemen, die eine häufigere, vereinfachte Sprachwahl aufweisen, nachweisbar. Sie ist auch in deutschsprachigen Texten, die mithilfe von GPT-3.5 – einem früheren ChatGPT-Modell – erstellt wurden, deutlich erkennbar. Einige NMT-Systeme generieren jedoch Texte, die in bestimmten Genres so vielfältig wie von Menschen verfasste Übersetzungen sind. GPT-4 zeichnet sich durch einen deutlich umfangreicheren Wortschatz aus als das Vorgängermodell. Daraus lässt sich schliessen, dass die lexikalische Verarmung möglicherweise nicht mehr das Hauptproblem bei generierten Texten darstellt.
Sie haben erwähnt, dass moderne Modelle häufig mithilfe einer vereinfachten Sprache trainiert werden. Wie steht dies im Zusammenhang mit den allgemeinen Trends zur Vereinfachung der Sprache?
Ja, das liegt zum Teil daran, dass diese Modelle darauf trainiert werden, das wahrscheinlichste nächste Wort auszuwählen, was einen vereinfachten Stil fördern kann. Unter der Annahme, dass viele Texte mit dem wahrscheinlichsten Textergebnis erstellt werden, kann dies zu einem Verlust an lexikalischer Vielfalt führen. Diese Daten werden dann wiederum zum Trainieren eines anderen Modells verwendet, und so geht es immer weiter. Im Rahmen von früheren Untersuchungen wurde dieser Trend im Bereich NMT beobachtet.
Was sind die Hauptunterschiede zwischen maschinell generierten und von Menschen verfassten Texten?
Die Hauptunterschiede zwischen von Menschen und LLM-generierten Texten umfassen Zeichensetzung, Wortlänge, Satzstruktur und lexikalische Vielfalt. Zum Beispiel weisen generierte Texte längere Wörter und Sätze auf, wodurch sie schlechter lesbar sind als von Menschen verfasste Texte.
Auch Unterschiede in der Dependenzlänge (wie Wörter innerhalb eines Satzes miteinander in Beziehung stehen) unterstreichen diese Diskrepanzen, wobei von Menschen verfasste Texte im Allgemeinen eine differenziertere Satzkomplexität erkennen lassen.
Wie unterscheidet sich die Syntax von Systemen wie DeepL, Microsoft und Google?
Während lexikalische Unterschiede oft systemabhängig sind, spiegeln alle NMT-Systeme die Syntax des Ausgangstextes viel stärker wider als menschliche Übersetzer. DeepL produziert unter den von mir getesteten MÜ-Systemen eine syntaktisch vielfältigere Ausgabe als Google oder Microsoft. Grössere LLMs wie GPT-4 haben sich jedoch verbessert und bieten eine umfassendere syntaktische Vielfalt, da sie auf Basis eines breiteren Kontextes arbeiten als traditionelle NMTs.
Welche Unterschiede haben Sie zwischen NMT-Systemen und LLMs hinsichtlich der Übersetzungsqualität festgestellt?
Der Hauptunterschied ist das kontextabhängige Bewusstsein. NMT-Systeme arbeiten hauptsächlich auf einer Satz-für-Satz-Basis, wodurch ihre Fähigkeit, breitere Textstrukturen zu interpretieren, eingeschränkt ist. LLMs analysieren ganze Absätze oder sogar grössere Segmente, wodurch wiederum kohärentere Übersetzungen generiert werden. LLMs können Sätze kombinieren oder aufteilen, um flüssigere Ergebnisse zu erzielen, was herkömmlichen NMT-Systemen nicht so wirkungsvoll gelingt. Die Forschung zum Einsatz von LLMs für die Übersetzung ist zwar noch nicht abgeschlossen, aber es gibt Berichte darüber, dass menschliche Leser LLM-Übersetzungen gegenüber NMT-Übersetzungen bevorzugen, insbesondere weil sie einen natürlicheren syntaktischen Fluss aufweisen.
Haben Sie nennenswerte Unterschiede in der lexikalischen Vielfalt zwischen verschiedenen Versionen von GPT-Modellen festgestellt?
Durchaus. Beispielsweise weist GPT-4 im Vergleich zu seinen Vorgängern eine deutlich höhere lexikalische Vielfalt auf. Diese kommt in verschiedenen Ausdrucksweisen und Vokabularen zum Ausdruck, darunter zahlreiche Substantive und Adjektive. Die grössere Vielfalt hängt damit zusammen, dass das Modell während des Trainings mit umfangreichen, unterschiedlichen Datenquellen in Berührung kommt. Dieses erweiterte Vokabular ist jedoch manchmal etwas zu viel des Guten, denn es kann zu einem übermässigen Gebrauch von Phrasen und gelegentlich sogar zu nichtssagenden Wendungen führen.
Wie können lexikalische Elemente dazu beitragen, maschinell erstellten Text zu identifizieren?
Ohne spezifische Anleitung können LLMs typische lexikalische Muster aufweisen. Im Rahmen von Studien wurde beispielsweise nachgewiesen, dass bestimmte Adjektive in von ChatGPT erstellten Texten überproportional häufig vorkommen. Grund dafür ist zum Teil das Feedback-gesteuerte Training, das Einfluss darauf hat, wie Modelle bestimmten Wortarten Priorität einräumen. Vor kurzem sorgte der übermässige Gebrauch des Verbs «delve» (dt. «sich in etw. vertiefen») durch ChatGPT für Schlagzeilen. Dies wurde auf die OpenAI-Qualitätsprüfer in Nigeria zurückgeführt, wo «delve» im Business-Englisch viel häufiger verwendet wird als in jedem anderen englischsprachigen Land.
Im Deutschen habe ich Satzverknüpfungen analysiert und festgestellt, dass ChatGPT längere Elemente mit einer höheren semantischen Gewichtung bevorzugt, darunter beispielsweise «darüber hinaus» und «des Weiteren». Maschinell erzeugter Text ist lexikalisch oft komplizierter, während menschliche Verfasser bei der Wortwahl wählerischer sind, wodurch der Text kohärenter und natürlicher wird.
Gibt es nennenswerte Unterschiede in der Vielfalt der verschiedenen Genres oder Bereiche in maschinengenerierten Texten?
Ja, die Genrekonsistenz bleibt eine Herausforderung für maschinengenerierte Texte. Während LLMs wie GPT-4 eine bemerkenswerte Vielfalt aufweisen, haben sie immer noch Schwierigkeiten, die stilistischen Nuancen bestimmter Genres zu erfassen.
Ursache für diese Einschränkung ist oftmals das Schema-F-Denken der Modelle, d. h., sie bevorzugen gängige Ausdrücke, was sich auf bestimmte Inhaltsbereiche auswirkt.
Sind Sie der Meinung, dass maschinell erzeugte Texte die menschliche Sprache formen könnten? Wie könnten künftige Forschungsarbeiten zu diesem Thema angegangen werden?
Der Einfluss von maschinell erzeugtem Text auf die menschliche Sprache ist schwierig zu beurteilen. Die Menschen sind zunehmend mit den Ergebnissen der generativen KI konfrontiert, ohne es zu merken. Dies könnte zu sogenannten «Priming-Effekten» führen, wobei Menschen die von der KI generierte Sprache in ihren Texten imitieren.
Meine anfänglichen psycholinguistischen Experimente legen nahe, dass der Kontakt mit maschinell erzeugter Sprache Auswirkungen auf die kognitive Verarbeitung hat und möglicherweise die individuellen Sprachmuster im Laufe der Zeit prägt.
Im Rahmen künftiger Forschungen sollten diese Priming-Effekte untersucht werden, insbesondere in Berufsfeldern wie der Übersetzungsbranche, in denen maschinell nachbearbeitete Übersetzungen gang und gäbe sind.
Langfristig sind sogar Veränderungen in der natürlichen Sprache denkbar, wenn sich Menschen an die von generativen Modellen eingeführten Sprachnormen anpassen. Diese potenzielle Feedbackschleife wirft faszinierende Fragen über die zukünftige Entwicklung der Sprache im KI-Zeitalter auf.
Was SwissGlobal sagt
Bei SwissGlobal betrachten wir die generative KI und die LLMs als bahnbrechende Technologien, die neue Möglichkeiten eröffnen, aber auch Herausforderungen bergen, die kritisches Denken und Forschung erfordern. Dabei ist es wichtig, Anwendungsfälle sorgfältig zu evaluieren, die Benutzer über potenzielle Risiken wie die falsche Verwendung von Vokabular aufzuklären und fundierte, verantwortungsvolle Anwendungen zu fördern. Diese Technologien sind nicht mehr wegzudenken, aber bieten wertvolle Vorteile, wenn sie wohlüberlegt und bewusst eingesetzt werden.
Erfahren Sie mehr über Anastassia Shaitarova
Anastassia Shaitarova ist Doktorandin im vierten Jahr am Institut für Computerlinguistik der Universität Zürich. Sie forscht im Rahmen des schweizweiten Konsortiums NCCR Evolving Language, wo sie die Auswirkungen generativer KI auf die natürliche Sprache untersucht. 2020 hat sie am gleichen Institut ihren Master in Multilingualer Textanalyse abgeschlossen. Zudem hat sie in verschiedenen Projekten in den Bereichen von maschineller Übersetzung, Sprachmodellen und Applikationen für die Verarbeitung von natürlicher Sprache mitgewirkt.
Erfahren Sie mehr über Anastassia Shaitarova.
-
Sprachdienstleistung
translation