KI-Stimmen lesen vor
Hörbücher ohne menschliche Sprecher: Apple setzt auf Computerstimmen
Apple ist dazu übergegangen, die Auswahl der über die Bücher-Applikation angebotenen Hörbücher auch um solche zu ergänzen, die nicht von menschlichen Sprecherinnen und Sprechern eingelesen, sondern von KI-Stimmen vertont wurden.
Neuer Service für Autoren
Zudem bietet der Konzern interessierten Autoren die Umwandlung von Text zu Hörbüchern als Service für die eigenen Werke an. Der Arbeitstitel: Apple Books Digital Narration.
Apple stellt den neuen Hörbuch-Dienst für Autoren auf dieser Sonderseite vor und bietet dort auch mehrere Hörbeispiele an, die einen ersten Eindruck der Qualität, der bislang ausschließlich in englischer Sprache vorliegenden Computerstimmen vermitteln.
Die Stimmen klingen besser als Siri, sind aber noch immer davon entfernt sich wie echte Menschen anzuhören.
Für Genres optimiert
Die künstlichen Stimmen sind laut Apple für spezifische Genres optimiert. Zum Auftakt des Programms werden daher vorerst ausschließlich Romane aus den Bereichen Belletristik, Romantik und Liebesroman entgegengenommen und entsprechend vertont. Bücher aus den Genres Krimi und Thriller sowie Fantasy und Science Fiction werden derzeit hingegen noch nicht unterstützt.
Die Stimmen, die hierzulande so ähnlich auch in der digitalen Ausgabe der ZEIT zum Einsatz kommen, scheinen derzeit jedoch nicht annähernd mit der Bandbreite und Tiefe menschlicher Vorleser konkurrieren zu können.
Auch ist es offenbar nicht möglich, einzelne Protagonisten in einem Roman automatisch mit unterschiedlichen Stimmlagen auszustatten, wie dies häufig bei von Schauspielern eingelesenen Büchern der Fall ist. Bestes Beispiel für ein Breites Repertoire sind hier die zahlreichen von Rufus Beck vertonten Hörbücher.
Apple bietet die automatische Generierung von Hörbüchern allen interessierten Autoren an, die ihre E-Books bereits über Apples Bücher Store verkaufen und setzt ein englisches Manuskript zur Vertonung voraus.
Die KI Stimmen klingen schon ziemlich gut. Besser als mancher Sprecher.
Problem ist nur, dass menschliche Stimmen sich durch das Reinversetzen in die entsprechende Rolle auch echt geil klingen; als wäre man dabei.
Das monotone Plastikgesülze ist vielleicht gut für News und kurze Absätze.
Vielleicht besser als ein schlechter Sprecher. Durch einen guten Sprecher wirkt der Inhalt viel intensiver als durch eine KI-Stimme. Trauriger Trend.
+1
Finde die Stimmen gar nicht so schlecht und durchaus angenehm.
Wollte mir letztens einige Hörbücher kaufen, doch bei vielen Titeln sind die Sprecher/Stimmen nicht passend zum Buch und teilweise sehr schlecht.
Vielleicht kommt’s irgendwann, dass man sich zu seinem Buch den für einen passenden Sprecher (männlich/weiblich usw.) aussuchen kann.
Wenn man sich anschaut was mit AI schon möglich ist beim generieren von Bild und Text, dann wird aber nicht mehr lange dauern bis es sehr viel natürlicher wird.
Doch, das wird noch sehr lange dauern. Wenn es nicht sogar unmöglich ist. Denn die Voraussetzung für entsprechende Stimmveränderungen, Betonungen, Sprachgeschwindigkeit usw. ist ein Verständnis des Textes, z. T. auch eine gewisse Interpretation (Sarkasmus, Ironie usw.) Das hat aber das, was heute unter KI läuft, eben überhaupt nicht.
Dann markiert der Autor halt in Zukunft die Passagen mit den Emotionen die er an der Stelle haben möchte. Irgend eine Lösung werden sie da schon austüfteln, da musst du keine 10 Jahre mehr drauf warten.
Ich denke mal, Dein Vorschlag wird den komplexen Rezeptionmechnismen menschlicher Sprache nicht gerecht.
@Hertel84: Dann hast du *eine* mögliche Interpretation. Ein (Vor-)Leser hätte vielleicht eine ganz andere. Viele Autoren überlassen sowas gern ihren Rezipienten, von Groschenheften u. ä. „Literatur“ mal abgesehen.
Schlechter als bei manchen Sprechern kann’s auch net sein.
Viele Hörbücher kann man net kaufen, weil die Stimme net passt, weil der Sprecher schlecht betont usw.
Da wäre was künstliches, was man selbst auswählen kann, schon klasse.
Ki wird den Zusammenhang zwischen Bleistift und Musikkassette nie begreifen
Meinst du, die menschliche Intelligenz bleibt für immer die Krone der Schöpfung? Lassen wir uns überraschen :)
@Rikibu
Das sagt Chat GPT dazu (nicht perfekt, aber hey :)
…
Ich:
Ich meinte, wie ich eine Kassette ohne Kassettendeck manuell spulen kann?
Oh, ich verstehe. Um eine Musikkassette ohne Kassettendeck manuell zu spulen, benötigen Sie eine Möglichkeit, das Band freizugeben und es von Hand vor- oder zurückspulen zu können. Eine Möglichkeit, dies zu tun, wäre, eine Nadel oder einen kleinen Schraubenzieher in das kleine Loch in der Mitte der Kassette zu stecken und das Band vorsichtig von Hand vor- oder zurückspulen. Achten Sie darauf, dass Sie das Band nicht zu schnell oder zu fest spulen, um Schäden an der Kassette zu vermeiden.
Es gibt auch spezielle Werkzeuge, die für das manuelle Spulen von Musikkassetten entwickelt wurden. Diese Werkzeuge sind in der Regel sehr klein und bestehen aus einem Griff und einer Nadel, die in das Loch in der Mitte der Kassette gesteckt wird. Mit diesen Werkzeugen können Sie das Band vorsichtig vor- oder zurückspulen, ohne die Kassette zu beschädigen.
Es ist wichtig zu beachten, dass das manuelle Spulen von Musikkassetten ohne Kassettendeck etwas schwieriger sein kann und es möglich ist, dass das Band ruckelt oder zittert. Seien Sie daher vorsichtig und gehen Sie langsam vor, um Schäden an der Kassette zu vermeiden.
Ich:
Kann ich auch einen Bleistift dafür verwenden?
Ja, Sie können auch einen Bleistift verwenden, um eine Musikkassette manuell zu spulen. Allerdings ist es wichtig, dass der Bleistift stark genug ist, um das Band freizugeben, aber nicht so scharf, dass er das Band beschädigt. Ein weicher Bleistift mit abgerundeter Spitze sollte in der Regel gut funktionieren.
Um die Kassette mit einem Bleistift zu spulen, führen Sie ihn in das kleine Loch in der Mitte der Kassette ein und drehen Sie ihn vorsichtig vor- oder zurück, um das Band zu spulen. Achten Sie darauf, dass Sie das Band nicht zu schnell oder zu fest spulen, um Schäden an der Kassette zu vermeiden. Es ist möglich, dass das Band etwas ruckelt oder zittert, wenn Sie es mit einem Bleistift spulen, aber das sollte kein Problem darstellen, solange Sie vorsichtig sind.
Ki scheint viel overhead gelaber zu produzieren, ohne konkret eine passende lösung anzubieten. Meine schraubenzieher haben in kasettenlöchern noch spiel… :-)
Sprachsynthese ist seit 30 jahren ein immer besser werdendes ding, aber nie ist sie dem Menschen ebenbürtig.
habe hier selbst ein digitales Bildschirmlesegerät mit synthese und auch ne orcam…
alles beeindruckend als daily helper und mit dem app store app gefrickel nicht vergleichbar-
dennoch, volrgelesen von Autoren ist immernoch die immersivste Art der Vorlesung
Rufus Beck ist einfach unschlagbar gut bei Hörbüchern. Die jetzige Vorlesefunktion mit der man sich markierte Texte vorlesen lassen kann ist einfach unterirdisch. Bezweifle, dass die neue Funktion das besser macht
Tut sie. Die Funktion ist überhaupt nicht vergleichbar.
Wäre ja toll könnte die Bücher-App einfach normale Bücher vorlesen.
Kann sie doch.
Einfach mit zwei Fingern von oben nach unten streichen damit der Blindenmodus aktiviert wird.
Einstellungen > Bedienungshilfe > Gesprochene Inhalte > Bildschirminhalt sprechen (muss an sein)
Also „immer noch davon entfernt, sich wie echte Menschen anzuhören“ kann ich gerade bei erstem Soundbeispiel oben nicht bestätigen. Schon beeindruckend.
Da hört sich jeder Satz – völlig unabhängig vom Inhalt – rhythmisch und von der Betonung her gleich an. Das ist ne Super-Einschlafhilfe, aber als Hörbuch, jedenfalls für mich, nicht zu gebrauchen.
so empfinde ich es auch
Ja, wirklich katastrophal. Dann lese ich lieber selbst ;-)
Das schlimme ist, es gibt Menschen, die lesen auf Versammlungen ihre Berichterstattung genau in diesem generischen Ton vor.
No go
in der Hörbuchbibliothek von meiner Frau und mir befinden sich etwa 500 Hörbücher. Ich kann mir nicht vorstellen, dass ich je eine Computerstimme einem guten Hörbuchsprecher vorziehen werde. Und ein guter Sprecher hat einen großen Einfluss darauf welchen Erfolg ein Hörbuch hat.
+1
Wobei ich mir das schon irgendwann vorstellen kann. Aber das wird noch ne Weile dauern :-D
Ich kann mir nicht vorstellen, dass man noch lange in der Lage sein wird, zwischen Mensch und Maschine unterscheiden zu können.
Klingt schon recht gut. Ich bin ein großer Fan von Mark Bremer und Richard Barenberg, die viel im SF Bereich lesen.
Das schaffen die KI noch nicht ganz ;-)
Ein guter Ansatz, um Bücher für blinde Menschen zugänglich zu machen, aber kein wirklicher Ersatz für menschliche Sprecher, wenn es um echten Hörgenuss geht.
Wenn dann noch Worte aus anderen Sprachen dazukommen oder auch Worte, die je nach Sprache eben anders ausgesprochen werden, dann haben die Sprachausgaben verloren, weil sie nicht wissen, wann ein Wort bspw. englisch oder Französisch ausgesprochen werden soll. Wann ist 20:10 ein Spielstand und wann eine Uhrzeit? Alles Dinge, die von den Sprachausgaben interpretiert werden müssen.
KI immitiert „nur“, aber das kann sie mit viel Lernmaterial recht gut. Wenn die KI mit vielen Hörbüchern gefüttert wird, lernt sie auch die „Regeln“ nach denen Hörbuchsprecher und -sprecherinnen wann was wie betonen oder die Stimme ganz verändern. Das geht sicher schneller als hier so mancher denkt. Finde ich das uneingeschränkt gut? Nein! Aber die romantische Vorstellung, dass der beseelte Mensch von der KI nicht geschlagen werden kann, ist mE längst widerlegt.
Das ist das m. E. eben für KI unlösbare Problem. Es gibt nur wenige Regeln, die professionelle Sprecher beachten. Das meiste ist allerdings Interpretation, Intuition und Improvisation. Alles Dinge, die KI nicht kann.
Aber das steht doch alles in Zeichen kodiert im Text! Das dekodiert (das ist Ihre Interpretation) auch der oder die Hörbuchleserin. Wenn Sie einen Hörbuchleser dasselbe Buch mehrfach lesen lassen, liesst er sehr ähnlich und also ist wenig Impro dabei. Eine Darstellung ist so gut wie andere. Wenn die KI eine gute Version immitiert, wird nicht einmal ein Dirk den Unterschied ausmachen können. Vor kurzer Zeit haben Sie sicher auch gemeint, KI wird nie Kunst schaffen können. Längst widerlegt.
@max: Ich bin jetzt noch der Meinung, dass KI keine Kunst erschafft. Sie kann Kunst/Künstler imitieren. KI kann ein sehr guter Konrad Kujau werden, aber nie ein neuer Picasso, Van Gogh, Mozart…
Ja, kann man diskutieren. Umberto Eco meinte im „Semiotik“, dass Kunst die kreative Neuverbindung bekannter Elemente ist.
Das Moma hat AI-Kunst ausgestellt: https://www.moma.org/calendar/exhibitions/5535
Das ist mehr kopiert bzw. gemixed. Aber was, wenn man der AI die Kunstgeschichte beibringt und um Fortschreibung bittet? Ist Picasso eine Fortschreibung der Kunstgeschichte vor ihm? Sicher nur zu einem kleinen Teil. Was wenn man die KI bittet, mache Kunst in einem nie dagewesenen Stil.
Am Ende kommt es darauf an, was die Menschen als Kunst akzeptieren. Das war bei Picasso und anderen so. Ob es bei der KI so sein wird ist eine offene Frage. Bin gespannt, was da noch kommt und schliesse nichts aus.
Diese Hörproben sind absolut furchtbar. Immer dieselbe Modulation, keine Emotion, kein Ausdruck, kein Spiel.
Ich kann nur hoffen, dass es genügend Hörer gibt, die richtige Kunst und richtiges Spiel bevorzugen und diesen Müll boykottieren.
Wie hier die meisten einfach nicht kapieren, dass das keine Schwarz-Weiß-Entweder-Oder-Nummer ist. Natürlich werden Hörbücher von echten guten Sprechern gelesen weiterhin viel geiler bleiben, und die wird’s ja auch geben. Für alle Texte, die nicht als offizielles Hörbuch erscheinen, sind diese Stimmen jedoch eine hammergeile Entwicklung für alle, die nicht selbst lesen können/wollen.
Woher willst du wissen, was die Kommentatoren hier kapieren oder nicht kapieren? Es geht im Artikel um Hörbücher, nicht um Lesehilfen. Bei letzteren bin ich bei dir, aber für Hörbücher sind die Beispiele im Artikel ne Katastrophe.
Kleiner Tipp: Du bist blind und willst ein Buch konsumieren, das es nicht offiziell als Hörbuch gibt … Na, klingelt’s?
Dafür gibt es alternativ Text 2 Speech
@stefan666: Ich schrieb ganz bewusst „Lesehilfe“. Für Blinde/Sehschwache gibt es bereits Möglichkeiten. Die haben aber nichts mit Hörbüchern zu tun. Vielleicht solltest du andere Posts erst einmal richtig lesen, bevor du darauf antwortest.
Wozu brauchen wir eigentlich noch Menschen? Die könnten wir doch eigentlich auch durch Roboter ersetzen. Wer ist dafür?
Schwarz Weiß?
Spiegel hat das jetzt auch eingeführt, kann man nicht ertragen.
Da ist das hier um Klassen besser.
also ich bin Computergenerierte Sprachausgaben gewohnt und das hier klingt um längen besser als vieles andere, was ich in meinem Leben bisher verwendet habe. Es gibt sehr wohl menschliche Sprecher, die man ziemlich gut durch künstliche austauschen kann. Außerdem denke ich dass KI das auf längere Sicht sowieso tun wird, ob das nun etwas schönes ist darüber
kann man sich streiten.
Ich hätte diese Stimmen gerne für mein SmartHome.
Amazon ist da sehr gut, kommt mir aber nicht ins Home.
Sätze im Terminal mit „say“ erstellt würden davon ungemein profitieren.
Find ich schrecklich. Sollte keine Schule machen.
Naja, wenn ein Computer die Bücher vorliest, bräuchte man nur noch einen Computer, der zuhört, dann hätte man selber Zeit für etwas anderes, mal ins Kino gehen vielleicht. ;-)
YMMD
Gabs nicht sogar schon Artikel das Autoren KI mit einsetzen. Da noch einen Schritt weiter und es passt dann ja.
KI schreibt, liest und hört zu. Und wir können uns dann mal Zeit für die Familie gönnen.
…wenn ich mir manche Sprecher bei Audible anhöre oder in manchen Fernsehproduktionen sind die Stimmen richtig gut.
Für Sprecher die bei Nuschel und Co gelernt haben wird’s dann halt schwer
Als Schauspieler und Sprecher beruhigt es mich (noch), dass die Stimmen zwar immer besser werden, aber komplett seelenlos sind. In meiner Branche bereiten wir uns schon langsam darauf vor, in einzelnen Bereichen durch KI-Stimmen ersetzt zu werden, aber wie’s aussieht (sich anhört!) hab ich noch ein paar Jahre…. Leider verlernen auch die Hörer immer mehr, zwischen gut und digital zu unterscheiden, das macht mir mehr Sorgen!
Gerade mal reingehört. Also die erste Stimme oben war ja noch so O.K., aber die zweite ist ja schrecklich synthetisch … kann man beide knicken letztlich. Da dürfen sie aber gerne noch ordentlich dran schrauben um einen echten Menschen zu „ersetzen“.