Hassreden, die einst persönlich verbreitet wurden, verbreiten sich heute immer weiter und schneller über anonyme Online-Konten hinter einem Bildschirm.
Da die Vereinten Nationen am 18. Juni den Internationalen Tag zur Bekämpfung von Hassreden begehen, warnte UN-Generalsekretär Antonio Guterres, dass soziale Plattformen die Bedrohung verstärken.
Da künstliche Intelligenz (KI) zunehmend damit beauftragt wird, Hassreden im Internet zu erkennen und zu entfernen, untersucht Al Jazeera, wo diese Systeme im Vergleich zum menschlichen Urteilsvermögen hinterherhinken.
Wie wird Hassrede definiert?
Nach Angaben der Vereinten Nationen umfasst Hassrede jede Kommunikation – mündlich, schriftlich oder verhaltensmäßig –, die eine Person oder Gruppe diskriminiert oder zu Gewalt gegen sie aufstachelt.
Die Vereinten Nationen erklären, dass Hassreden auf die tatsächliche oder wahrgenommene Identität, Rasse, ethnische Zugehörigkeit, Religion, Geschlecht, sexuelle Orientierung oder Behinderung einer Person abzielen. Und es beschränkt sich nicht nur auf Worte, die UN weisen darauf hin, dass es auch die Form von Bildern, Cartoons, Gesten und sogar Objekten annehmen kann.
Wie viele Menschen stoßen online auf Hassrede?
Laut einer gemeinsamen Umfrage des Meinungsforschungsinstituts Ipsos und der UN-Organisation für Bildung, Wissenschaft und Kultur (UNESCO) unter 8.000 Menschen in 16 Ländern aus dem Jahr 2023 waren mehr als zwei Drittel der Internetnutzer online mit Hassreden konfrontiert.
Die Umfrage ergab außerdem, dass 33 Prozent der Menschen der Meinung waren, dass LGBTQI-Personen die meisten Fälle von Hassrede erlebten, gefolgt von ethnischen und rassischen Minderheiten (28 Prozent) und Frauen (18 Prozent).
Meta, dem Eigentümer von Facebook, hat seit 2023 weniger hasserfüllte Beiträge entfernt. Im letzten Quartal 2025 entfernte das Unternehmen 1,3 Millionen Beiträge von Instagram und 1,3 Millionen von Facebook, verglichen mit 7,4 Millionen von Instagram und 5,8 Millionen von Facebook im vierten Quartal 2024.
Dies geschah, als das Unternehmen von der proaktiven Erkennung von Hassreden abkam und sich mehr darauf verließ, dass Benutzer Begegnungen melden.
Andererseits gab TikTok an, im vierten Quartal 2025 96,3 Prozent aller Hassreden und -inhalte entfernt zu haben, bevor sie gemeldet wurden.
KI-Modelle erkennen Hassreden unterschiedlich
Um die Verbreitung von Hassreden im Internet zu erkennen und zu bekämpfen, setzen Social-Media-Unternehmen zunehmend auf KI und nutzen Content-Moderationssysteme, die auf Large Language Models (LLMs) basieren und versprechen, die Inhaltsfilterung über große Nachrichtenmengen hinweg zu automatisieren.
Im Allgemeinen verwenden diese Systeme gekennzeichnete Datensätze und vorab trainierte Sprachmodelle, um missbräuchliche Sprache zu erkennen. Anschließend wenden sie Regeln oder Bewertungsschwellen an, um zu entscheiden, ob Inhalte hasserfüllt sind oder gegen Unternehmensrichtlinien verstoßen.
Eine Studie von Forschern der University of Pennsylvania aus dem Jahr 2025 ergab, dass sich diese Modelle in der Art und Weise, wie sie Hassreden identifizieren und klassifizieren, stark unterscheiden, wobei es erhebliche Inkonsistenzen zwischen den Systemen und demografischen Gruppen gibt, was Bedenken hinsichtlich Voreingenommenheit und ungleichem Schutz im Internet aufkommen lässt.
Die Studie evaluierte sieben KI-Moderationssysteme – darunter Modelle von OpenAI, Anthropic, DeepSeek, Mistral und Google – und stellte große Unterschiede in der Art und Weise fest, wie sie Hassreden in den verschiedenen Kategorien identifizierten und bewerteten.
Dieses Diagramm zeigt, wie verschiedene KI-Moderationssysteme den Schweregrad von Hassreden gegen dieselben Gruppen auf einer Skala von 0 bis 1 bewerteten. Höhere Werte zeigen an, dass das Modell den Inhalt als hasserfüllter beurteilt hat.
Mistral Moderation Endpoint wird häufig sehr nahe bei 1 geclustert, was bedeutet, dass viele Beispiele unabhängig von der Zielgruppe als äußerst hasserfüllt eingestuft werden.
OpenAI Moderation Endpoint tendiert dazu, für viele Kategorien viel niedrigere Punktzahlen zu erzielen, manchmal weniger als die Hälfte der von anderen Modellen vergebenen Punktzahl.
Wie die Studienautoren es ausdrücken: „Wenn zwei Systeme unterschiedliche Ergebnisse für denselben Inhalt erzielen – indem sie ihn in einem Fall als Hassrede kennzeichnen, in einem anderen jedoch nicht –, untergräbt dies die Legitimität des Moderationsprozesses.“
Die Grenzen der KI-Erkennung von Hassreden
Während KI-Systeme in der Lage sind, explizite Hassreden zu erkennen – beispielsweise wenn Obszönitäten und Beleidigungen gegen eine bestimmte Gruppe verwendet werden –, übersehen LLMs differenziertere Beispiele.
„Ein herausforderndes Beispiel ist der Fall von impliziter Hassrede, die oft nicht als solche erkannt wird, weil sie keine Beleidigungen erwähnt“, sagte Arkaitz Zubiaga, außerordentlicher Professor an der Queen Mary University of London und Co-Leiter des Social Data Science-Labors der Universität, gegenüber Al Jazeera. „Dies könnte der Fall sein bei einer positiv klingenden Botschaft wie „Ich würde gerne sehen, wie großartig die Welt wäre, wenn…“, gefolgt von einer abfälligen Botschaft, die eine Bevölkerungsgruppe herabwürdigt. KI-Systeme können den Hass in diesen Botschaften nur schwer erkennen, wenn sie sich stattdessen auf die positive Seite der Botschaft konzentrieren.“
Zubiaga fügt hinzu, dass auch das Gegenteil der Fall sei, wo scheinbar beleidigende Wörter, die jetzt aus sympathischeren Gründen in die Sprache integriert werden, als Hassrede hervorgehoben werden.
„Dies ist der Fall bei wiedergewonnener Sprache, bei der Schlüsselwörter, die historisch als Beleidigungen galten, von den Gemeinschaften, zu deren Verunglimpfung sie ursprünglich verwendet wurden, angenommen und umfunktioniert werden und die Beleidigungen dann zwischen Mitgliedern der marginalisierten Gemeinschaft verwendet werden“, sagte er. „Während diese Fälle nicht als hasserfüllt gekennzeichnet werden sollten, neigen KI-Systeme dazu.“
