Hörbücher ohne menschliche Sprecher
Hörbuch-Sprecher gehen gegen Apples KI-Stimmen vor
Anfang Januar stellte Apple überraschend eine neue Funktion für Buchautoren vor. Sollten diese ihre Bücher ohnehin schon über Apples E-Book-Store vertreiben, bot Apple diesen die automatische Generierung von Hörbüchern an.
Automatische Hörbuch-Erstellung
Statt die eigenen Werke in tagelangen Aufnahmesitzungen von professionellen menschlichen Sprecherinnen und Sprechern einlesen zu lassen, offerierte Apple digitale Stimmen und eine weitgehend automatisierte Umwandlung vorhandener Romane.
Apple schaltete damals nicht nur eine eigene Sonderseite, sondern bot erstmals auch Hörbeispiele der synthetischen Stimmen an. Diese zielten vorerst ausschließlich auf Manuskripte aus den Kategorien Belletristik, Romantik und Liebesroman und setzten einen englischen Originaltext zur Nutzung voraus.
Seit dem Debüt des neuen Apple-Dienstes sind rund 40 Tage verstrichen – inzwischen regt sich Widerstand gegen die KI-Stimmen. Kritik kommt aktuell aus Reihen der professionellen Hörbuch-Sprecher, deren Material Apple zum Trainieren der eigenen KI-Stimmen eingesetzt hat.
Apples KI-Stimmen basieren auf echten Sprechern
So stammen Apples Stimmen aus einer Kooperation Cupertinos mit dem Branchendienst Findaway, der Apple mit den Aufnahmen zahlreicher Original-Sprecher versorgt haben soll, um die KI-Stimmen zu trainieren.
Problematisch dabei: Findaway soll dies gegenüber den betroffenen Sprechern nicht transparent gemacht haben, sondern im Kleingedruckten der Vertriebs-Verträge in einer Sektion versteckt haben, die sich ansonsten vor allem mit dem Verbot von Hassreden und sexuell eindeutigem Material befasst haben soll.
Findaway gehört seit dem Spätherbst 2021 zum Musik-Streaming-Dienst Spotify. Die Kooperation mit Apple lief bislang allerdings unterbrechungsfrei weiter.
- Findaway-Kauf: Spotify steigt in den Hörbuchmarkt ein
Damit ist nun erst mal Schluss. Wie das amerikanische Technologie-Magazin WIRED berichtet, haben Apple und Spotify nach einer Intervention der Fachgewerkschaft SAG-AFTRA die Nutzung vorhandener Hörbücher zum Trainieren synthetischer Vorlesestimmen bis auf Weiteres eingestellt.
Naja mal primär nicht Appels Problem sondern das der Firma bzw. der Sprecher die ihre Verträge nicht richtig gelesen haben
Sehe ich auch so. Kindisch im nachgang zu klagen da sich an verträge gehalten wurde
Nur blöd das eine ganze Branche unter den Fehlern einzelner leiden müsste. Und es ist leicht gesagt das Verträge nicht richtig gelesen wurden.
Wie oft klickt man bei den AGB diverser Apps/Programme auf akzeptieren ohne zu wissen was drin steht. Das scheint hier nicht der Fall gewesen zu sein sondern gezielt unter Floskeln versteckt gewesen.
Man stelle sich vor der neue Kollege unterschreibt einen Arbeitsvertrag und genau zu lesen. Nun werden seine Arbeitsschritte aufgezeichnet, kopiert und nachgeahmt und im Anschluss auf Roboter übertragen.
Und im Anschluss verliert eine ganze Abteilung ihren Job. Natürlich ist Automatisierung genau das was hier jetzt erst passiert und alles etwas überspitzt dargestellt. Aber im Grunde trifft es den Nagel auf den Kopf.
„Problem“ nicht … aber machen muss man das trotzdem nicht. Ist halt auch eine Frage der Einstellung.
Haben gerade gemerkt das die fürstliche Entlohnung einmalig war.
Ab jetzt kann die KI selbstständig arbeiten.
Tja dumm gelaufen.
Ich wollte erst schreiben „niemals kann eine KI menschliche Emotionen verbal aus einem Text hervorgeben“ aber holy cow. Das klingt echt wie vorgelesen. Gibt es ja gar nicht. Gruselig!
echt so….
Es kommt an die Intonation und die Satzmelodie heran, aber man kann definitiv (noch) den Unterschied zu menschlicher Sprache hören. Es sind auch kleine Betonungsfehler in dem kurzen Ausschnitt zu hören, die die Melodie schief klingen lassen.
Aber es ist nahe dran, das muss ich zugeben.
Schau dir mal das letzte Video von Marc Friedrich auf YouTube an. Was da mit seiner Stimme „mal eben“ gemacht werden konnte. Die KI fängt an uns zu überholen!
Die Hörbuch-Vorleser dürfen gerne noch Straßennnamen einsprechen, in dem Bereich hat Apples KI noch deutliche Schwächen.
Beim „Kanonsberg“ wird laut Apple gesungen statt geschossen und die Ursulastraße wird zu Ursulas-Trasse …
Schöne neue Welt :-(
Wir wieder ein Produkt, welches Menschen durch KI ersetzt, leichter, günstiger und schneller. Kann man eine Menge Geld sparen und KI streikt auch nicht und will keine Gehaltserhöhung;)
ja, aber so ist es eben mit dem technischen Fortschritt. Vom Menschen ausgeführte Jobs werden obsolet -ich lebe in Schweden und habe seit Jahren im Supermarkt bei keiner Kassiererin mehr bezahlt oder an Kassen Schlange gestanden. Dafür muss sich jetzt eben jemand um die Handscanner kümmern…was ich sagen will: dagegenhalten hat noch nie was gebracht, umorientieren und mit neuen Chancen und Elan weitermachen sollte das Motto sein…(zugegebenermaßen hinkt mein Beispiel hier diesbezüglich, aber ihr seht was ich meine ;)
Vielleicht sollte man gegen Universitäten vorgehen – schliesslich forschen, entwickeln und lehren die „sowas“.
Kindle bietet schon lange das Vorlesen von eBooks auf Fire Tablets, in überraschend guter Qualität für englische Texte. Dazu sollten sich die professionellen Sprecher Gedanken machen!
Vorleser gegen Tonbandaufzeichnung bei Ihren Lesungen. Hörbuchvorleser protestieren.
Hört sich für mich immer noch künstlich an. So wie man halt auch CGI „merkt“. Ausserdem hab ich meine Lieblingssprecher zB. Dietmar Wunder, David Nathan oder Uve Teschner – also wenn sich die KI so anhört, dann sprechen wir weiter (pun intended). Aber klar, ist nur meine bescheidene Meinung.
Gut gemachte CGI erkennst du nicht mehr. Dazu gehört jetzt nicht Sharknado. Aber bei den Blockbustern keine Chance.
Dann schau mal hier was man mit einer mal eben kurz eingelesenen Stimme machen kann wenn da jemand zustimmen würde https://youtu.be/wFMHRk80Li8
Das hört sich überhaupt nicht künstlich an. Ich kenne Hörbuchsprecher die sprechen „künstlicher“.
Und dein Wunsch wird dann der nächste Schritt sein, dass Du dir die Stimme selbst aussuchen kannst, je nachdem welche Du bevorzugst.
Ich hoffe, dass die KI in 5 Jahren soweit ist, dass auch mittelständige Firmen die für Ihre Zwecke einsetzen können. Denn ich muss dann leider mehrere Mitarbeiter ersetzen, weil die in Rente gehen und Nachwuchs ist nicht in Sicht. Alle jungen Mitarbeiter, die ich ausgebildet habe, arbeiten heute in leitenden Positionen bei DAX-Unternehmen. Damit kann ich als Arbeitgeber nicht konkurrieren.
Diese Problem wird in den nächsten 5-10 Jahren, wenn die Boomer in Rente gehen richtig dramatisch. Zum Glück haben zwei schon zugesagt, dass sie auch (zumindest halbtags) weiterarbeiten, wenn sie das Rentenalter erreicht haben.
…vielleicht nicht die Schauspielschule Nuschel und Co besuchen
Vielleicht können künftig auch Songtexte von eine KI gesungen werden. Dann muss sich Apple mit seiner fürsorglichen Entlohnung der Künstler auch nicht mehr so ins Zeug legen.
Milli Vanilli 2.0 :-)
Die Computerstimme ist schon sehr gut, aber wie oben gesagt, einen David Nathan wird sie nicht ersetzen. D.h. bei vielen Dingen wird der Computer die Menschen rausdrängen, der Markt wird für die Sprecher kleiner und wir werden bei Audible o.ä. vermutlich Basic-Versionen und teurere Sprechversionen mit den sehr guten Sprechern finden. Die werden aber wohl auch darum kämpfen müssen, nicht in ihren Eigenheiten kopiert zu werden. Ich persönlich würde den Aufpreis zahlen, wenn Audible zwei Versionen anbietet. Das Blöde ist nur, werden sie es tun? Ein neuer Bestseller ist natürlich schneller und kostengünstiger auf den Markt zu bringen, als ihn einlesen zu lassen. D.h. viele Bücher werden überhaupt nicht mehr eingesprochen werden oder erst viel später. Ein von Menschen eingesprochenes Buch wird zum Qualitätsprodukt. Schon jetzt gibt es ja Bücher mit unterschiedlichen Sprechern, bestes Beispiel ist die Harry Potter Serie mit Rufus Beck vs Felix von Manteuffel.
Andererseits eröffnet die Technologie natürlich massive Möglichkeiten, Texte quasi on the fly vorlesen zu lassen, was zwar bisher auch schon ging, aber eben doch noch etwas holprig und künstlich klingend.
Eine von vielen Branchen die durch KI nachhaltig zugrunde gehen werden.
Da brauchen wir schnell weltweite neue Regulierungen, wenn nicht ein großer Teil der Bevölkerung arbeitslos werden soll.
Allerdings frage ich mich auch wieso Siri nicht so klingt, es ist in der Tat beeindruckend was da jetzt möglich ist.
Es gibt noch mehr als genug anderer Arbeit!