Fast 60% aller Inhalte übersetzt
Anteil der KI-Übersetzungen im Web bereits „erschreckend groß“
Die Anzahl der im Internet verfügbaren Inhalte, die nicht ausdrücklich in der Sprache des Zielpublikums verfasst, sondern in einer anderen Ausgangssprache formuliert und anschließend von KI-Übersetzern wie etwa DeepL oder ChatGPT in andere Sprachen überführt wurden, wird von Wissenschaftlern aus Amazons Alexa-Abteilung bereits als „erschreckend groß“ beschrieben.
Fast 60% aller Inhalte übersetzt
Unter der Überschrift „A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism“ haben diese jetzt eine Studie (PDF-Download) veröffentlicht, die sich mit dem Vorkommen so genannter „Multi-Way Parallelisms“ beschäftigt. Grob vereinfacht handelt es sich dabei um mehrere automatische Eins-zu-eins-Übersetzungen originaler Inhalte in unterschiedliche Zielsprachen. Diese seien nach Prüfung von über sechs Milliarden Sätzen bereits in 57,1% aller Web-Inhalte zu beobachten.
Nach Angaben der Amazon-Forscher werden im Internet verfügbare Inhalte häufig in viele Sprachen übersetzt, ein Großteil davon mittels maschineller Übersetzung. Dies wirkt sich vor allem negativ auf all jene Sprachen aus, die online nur in geringem Umfang vertreten sind.
Ein großer Anteil des gesamten Web-Inhaltes, der überhaupt in diesen Sprachen verfügbar ist, bestehe bereits aus automatisch übersetzten Inhalten, die häufig eine minderwertige Qualität aufweisen würden.
Dabei werden nicht alle online Inhalte zu gleichen Teilen in andere Sprachen überführt, einzelne Bereiche wie News, Business-Nachrichten und meinungsbasierte Inhalte werden mit deutlich höherer Frequenz übersetzt als etwa Rezepte, Inhalte, die sich um Hobbys und Gartenpflege drehen, sowie Content zu Fahrzeugen, Verkehr und Reise. Dies sorgt dafür, dass in Sprachen mit geringen Ressourcen bestimmte Inhalte massiv überrepräsentiert sind.
Einige Inhalte werden deutlich häufiger übersetzt als andere
Dies sei unter anderem für das Training von zukünftigen KI-Modellen problematisch, wenn diese sich jetzt auf Inhalte verlassen würden, die ihrerseits nicht von Muttersprachlern stammen, sondern selbst ebenfalls das Resultat von KI-Übersetzungen sind.
Früher kam mir alles spanisch vor, doch heute verstehe ich nur noch Chinesisch…
Oder Bahnhof;-)
Der letzte Satz: die Geister, die ich rief …
+1
Und hier sehen wir die Erklärung, wieso sich Apple bei Zeitungsverlagen einkaufen will, um sein LLM zu trainieren.
Das Internet scheint dafür nicht mehr länger geeignet, wenn der Qualitätsstandard hoch sein soll.
Kommt ganz auf die Quelle drauf an. Und das war schon immer so. Gilt auch für Druckerzeugnisse.
Ja, DAS gesamte Internet… Manche Menschen und deren einseitiges Weltbild… ;)
Maschinen lernen von Maschinen. Dystopie. Gruselig.