Steigende Belastung durch Webcrawler

7 von 10 Zugriffen: KI-Bots sorgen für immer höhere Serverlasten

Webseitenbetreiber des Diaspora-Projektes berichten über eine erhebliche Belastung ihrer Serverinfrastruktur durch automatisierte Anfragen von Webcrawlern, die aktiven KI-Unternehmen wie OpenAI, Antrophic und Co. zugeordnet werden könnten.

ChatGPT & Co.: Wie gierige Staubsauger im Internet unterwegs

Ein beeindruckendes Beispiel kommt aus Deutschland: In den vergangenen 60 Tagen wurden 11,3 Millionen Anfragen auf die Webressourcen des Projekts registriert. Dies entspreche einer durchschnittlichen Anfragelast von 2,19 Aufrufen pro Sekunde.

7 von 10 Zugriffen durch KI-Crawler

Ein Blick auf die Herkunft dieser Anfragen zeige, dass ein Großteil nicht von menschlichen Nutzern, sondern von sogenannten Bots stamme. Angeführt werde die Liste von GPTBot, einem Crawler, der ChatGPT-Macher von OpenAI. Dieser sei für nahezu ein Viertel des gesamten Traffics verantwortlich. Weitere Bots, wie Amazonbot mit knapp 1,7 Millionen Anfragen (14,9 Prozent) oder ClaudeBot, machten ebenfalls einen signifikanten Anteil aus. Zusammen verursachten die meistgenutzten Crawler laut Betreiber rund 70 Prozent des gesamten Datenverkehrs.

Cloudflare visualisiert die Zunahmen von KI-Crawlern

Die Betreiber kritisieren insbesondere das Verhalten dieser Bots. Diese würden die gleichen Seiten in kurzen Intervallen immer wieder aufrufen – oft im Abstand von nur wenigen Stunden. Vorgaben in der Datei robots.txt, die Webcrawlern die Indexierung bestimmter Bereiche untersagen sollen, würden von vielen dieser Bots ignoriert. Zudem sei festgestellt worden, dass sie selbst auf weitgehend irrelevante Inhalte wie Versionshistorien von Wikiseiten zugreifen und dabei Datenbank- und Serversysteme stark beanspruchten.

Anhaltend hohe Serverlast

Versuche, den Datenverkehr dieser Bots durch Zugangsbeschränkungen oder Filter einzudämmen, seien wenig erfolgreich. Die Bots würden ihre IP-Adressen regelmäßig ändern und könnten ihre Identität durch geänderte Angaben in den Benutzeragenten verschleiern.

ZEIT, SPIEGEL, BILD, FAZ: Kein Zugriff für Apple Intelligence

Im Gegensatz dazu verhielten sich klassische Suchmaschinenbots wie Googlebot oder Bingbot deutlich zurückhaltender. Diese machten zusammen weniger als 0,3 Prozent des Traffics aus und beschränkten ihre Aktivität auf sinnvollere Bereiche der Webseite.

Der Betreiber des Projekts bezeichnet die Situation als problematisch, da die anhaltend hohe Serverlast zu Leistungseinbußen und zeitweiligen Ausfällen für menschliche Nutzer führe. Eine effektive Lösung zur Begrenzung der Crawler-Aktivität stehe derzeit offenbar nicht zur Verfügung. Allerdings arbeiten erste Anbieter bereits an entsprechenden Lösungen. Cloudflare etwa besitzt inzwischen gesonderte Einstellungen zum Blockieren von KI-Crawlern.

03. Jan. 2025 um 07:53 Uhr von Nicolas Fehler gefunden?

16 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Quow 03.01.2025, 08:35 Uhr

Guten Morgen. Das wird vermutlich noch viel schlimmer werden…

Antworten Melden

abt2000 03.01.2025, 09:06 Uhr

Jetzt geht es los.

thom 03.01.2025, 09:11 Uhr

Die „KI“ frisst sich selbst.

Qwaron 03.01.2025, 09:13 Uhr

Ich sag nur „Dead Internet Theory“

prettymofonamedjakob 03.01.2025, 10:20 Uhr

„Never attribute to malice that which is adequately explained by stupidity.“

Antworten Melden

Antworten Melden
WhereIsElv? 03.01.2025, 13:05 Uhr

Da musste ich auch dran denken.:D

Antworten Melden

Antworten Melden

astradriver 03.01.2025, 09:34 Uhr

Skynet ick hör dir trappse ;-)

Devil 03.01.2025, 10:37 Uhr

Jeder Bot untersucht sich demnächst selbst. Da wird ein heilloses Chaos geben. Traffic ohne Ende für nix. Am Ende sucht ein Bot eine Lösung die ein anderer Bot aus welchen Fakten oder anderen Bot Sammlungen auch immer generiert hat ohne zu wissen dass es jemals gestimmt hat

Oliver 03.01.2025, 11:42 Uhr

Ein unfassbar großer Energie- und Ressourcenverbrauch für nix am Ende.

Es wurde mal gefragt „Wo soll der ganze Strom für die vielen Elektroautos herkommen?“
Ich denke ich Vergleich zum Stromverbrauch von KI-Rechenzentren ist der Bedarf der Elektroautos ein Witz.

Antworten Melden

Antworten Melden

garth 03.01.2025, 13:59 Uhr

Also ich denke nicht, dass große Unternehmen einfach so aus Spaß kostenintensive Ressourcen verschwenden. Es geht darum, an möglichst viel menschlichen Text heranzukommen, um llms intelligenter zu machen. Schon Merkel hat Anfang ihrer Kanzlerjahre gesagt: Daten sind das neue Öl des 21. Jahrhunderts. Hätte man da auf sie gehört und in solche Aktien investiert ;)
Thorondor 04.01.2025, 07:21 Uhr

Die Beispiele zeigen es aber. Wenn der deine KI-Bot mehrmals am Tag auf immer die selbe Seite zugreift, wenn 70% des Traffic nur durch Bots verursacht werden, dann ist das nicht sinnvoll und wirtschaftlich. Die Betreiber müssen das eindämmen, befürchten wohl aber noch, dass ihre KI sonst nicht schnell genug lernen.
Wir sind wohl noch in der sehr steilen Hochfahrphase und die Firmen investieren immense Summen um nicht ins Hintertreffen zu kommen.

Hannes 03.01.2025, 12:26 Uhr

Manchmal frage ich mich, warum wir so oft versuchen, das Unvermeidliche zu verhindern. Die robots.txt ist ein gutes Beispiel. Ursprünglich sollte sie Maschinen in ihre Schranken weisen. Aber heute? Viele KIs kümmern sich nicht mehr darum. Sie lernen einfach, solche Regeln zu umgehen. Tools wie GPTSearch zeigen das deutlich. Die Entwickler hatten sicher gute Absichten, aber angesichts der Menge an Anfragen ist das kaum noch praktikabel.

Ehrlich gesagt, stört mich das nicht. Wir Menschen müssen akzeptieren, dass KI uns verändert – und das ist gut so. Statt uns gegen diese Entwicklung zu stemmen, sollten wir Wege finden, mit ihr zu koexistieren. Es ist wie damals mit der Dampfkraft: Sie hat vieles revolutioniert, aber auch viele Ängste ausgelöst. Rückblickend war sie ein Gewinn. Vielleicht wird KI das auch sein.

Das Thema „öffentliche Informationen“ finde ich besonders spannend. Warum soll etwas, das jeder einsehen kann, KIs verwehrt bleiben? Es wirkt für mich fast trotzig, durch robots.txt oder Urheberrecht künstliche Grenzen zu ziehen. Und seien wir ehrlich: Eine gut programmierte KI findet ohnehin einen Weg, solche Barrieren zu umgehen.

Was mich wirklich begeistert, ist GPTSearch. Es funktioniert anders als Google und gibt uns neue Möglichkeiten, Antworten zu finden. Ich sehe darin nicht nur eine Alternative, sondern auch einen Denkanstoß, wie Technologie unser Leben bereichern kann.

Am Ende bleibt für mich nur die Frage: Wollen wir mit KI wachsen oder uns dagegen stellen? Die Entscheidung liegt bei uns – aber die Zeit drängt.

Rikibu 03.01.2025, 16:00 Uhr

Das Problem ist doch eher, dass man keine Wahl hat, ki nicht zu nutzen. Überall wird der unsinn propagiert… amazon fasst kundenbewertungen damit zusammen… die zusammenfassungen haben zwar nichts mit den inhalten der eigentlichen Bewertungen zu tun, und vermitteln damit falsche informationen…ach egal… hauptsache kostentreibender Fortschritt, der alles andere als organisch funktional oder gar nutzbringend daher kommt. Wenn man dann noch anfängt, echten kundenkontakt hinter Automaten und maschinen zu verstecken, sodass man erstmal nen chatbot überlisten muss, damit man in den chat vom echten Mitarbeiter gelassen wird, dann geht der sinnentfremdete Einsatz dieser Systeme, die ihre Kunden und Bediener erstmal für dumm halten zu weit und erfüllt auch keinen zweck, außer schlechte Laune, unerledigte Sachverhalte und unnütze verbrauchte Zeit zu erzeugen. Und auf Wahrheit muss man eh immer selbst prüfen – dann kann ichs auch gleich selber machen.

Aber die Blase wird platzen und dann wundern sich alle. Am Ende muss das nämlich bezahlt werden von Kunden die was kaufen, die aber irgendwann weniger kaufen, wenn sie von solchen systemen ersetzt werden und somit weniger geld im umlauf für konsum ist. Und die andere hälfte ist wegen der dummheit dieser systeme gefrustet, weil dadurch der servicequalität eher geschadet wird

Es wird lustig.

Antworten Melden

Antworten Melden
marco.berlin 03.01.2025, 16:02 Uhr

Und du meinst nicht, dass es einem Seitenbetreiber zusteht zu entscheiden, welche Seiten indexiert oder sonst wie automatisch weiterverarbeitet werden dürfen? Finde ich schon bedenklich, dass man Fortschritt damit verwechselt alle Regeln über Bord zu werfen.

Antworten Melden

Antworten Melden

Mario 03.01.2025, 17:45 Uhr

Ich bin da bei Hannes. Genau das, finde ich, steht dem Seitenbetreiber tatsächlich nicht zu. Für mich macht es null Unterschied, ob ein Mensch die Informationen liest oder eine Ki.
Hertel84 04.01.2025, 22:52 Uhr

@mario, naja ein Mensch klickt bzw. sieht zumindest die Werbung, die dem Seitenbetreiber den Content hoffentlich etwas honoriert. Eine KI nicht. Die sorgt am ehesten noch dafür, dass weniger echte User kommen, da sie die Antwort von der KI bekommen. Damit würde sich das Internet aber irgendwann selbst, nicht abschaffen, aber auf recht wenige, dafür umfangreiche Datenquellen zusammenschrumpfen. Das war aber sicher nicht die Idee, die Vielfalt an Quellen ist doch das, was das Internet eigentlich so spannend macht.