Die US Intelligence Advanced Research Projects Activity (IARPA) hat ein Informationsersuchen (RFI) veröffentlicht, um potenzielle Bedrohungen und Schwachstellen zu ermitteln, die von großen Sprachmodellen (LLMs) ausgehen können.
„IARPA sucht nach Informationen über etablierte Charakterisierungen von Schwachstellen und Bedrohungen, die sich auf die sichere Nutzung von großen Sprachmodellen (LLMs) durch Geheimdienstanalysten auswirken könnten.“
Das RFI „Characterizing Large Language Model Biases, Threats and Vulnerabilities“ der IARPA ist zwar noch kein offizielles Forschungsprogramm, zielt aber darauf ab, „Rahmenbedingungen für die Kategorisierung und Charakterisierung von Schwachstellen und Bedrohungen im Zusammenhang mit LLM-Technologien zu ermitteln, insbesondere im Hinblick auf ihren potenziellen Einsatz in der Geheimdienstanalyse„.
Viele Schwachstellen und potenzielle Bedrohungen sind bereits bekannt.
Sie können ChatGPT zum Beispiel bitten, ein bestimmtes Thema zusammenzufassen oder Schlussfolgerungen zu ziehen, und es kann seine Datenbank durchforsten, um Ihnen eine Erklärung zu geben, die überzeugend klingt.
Allerdings können diese Erklärungen auch völlig falsch sein.
Wie OpenAI es beschreibt, „schreibt ChatGPT manchmal plausibel klingende, aber falsche oder unsinnige Antworten“.
Die von LLMs ausgehenden Risiken gehen jedoch weit über unsinnige Erklärungen hinaus, und der Forschungsfinanzierungsarm der US-Spionagebehörden sucht nach Bedrohungen und Schwachstellen, die in den kürzlich von der OWASP Foundation veröffentlichten „Top 10 for LLM“ möglicherweise nicht vollständig abgedeckt wurden.
„Hat Ihre Organisation spezifische LLM-Bedrohungen und -Schwachstellen identifiziert, die durch frühere Taxonomien (z. B. „OWASP Top 10 for LLM“) nicht gut beschrieben sind? Wenn ja, geben Sie bitte eine spezifische Beschreibung jeder dieser Bedrohungen und/oder Schwachstellen und ihrer Auswirkungen.“
Letzte Woche warnte der UC Berkeley-Professor Dr. Stuart Russell den Justizausschuss des Senats vor einigen der Risiken in der OWASP-Top-10-Liste, darunter die Offenlegung sensibler Informationen, Overreliance und Modelldiebstahl.
Russell erwähnte zum Beispiel, dass man allein durch die Art der Fragen, die man stellt, sensible Informationen preisgeben könnte; und dann könnte der Chatbot möglicherweise sensible oder geschützte Informationen eines Konkurrenten zurückspucken.
‘If you’re in a company […] and you want the [AI] system to help you with some internal operation, you’re going to be divulging company proprietary information to the chatbot to get it to give you the answers you want’: Prof Stuart Russell @JudiciaryDems @SenJudiciaryGOP pic.twitter.com/xDutS8zlJC
— Tim Hinchliffe (@TimHinchliffe) August 1, 2023
„Wenn Sie in einem Unternehmen sind […] und möchten, dass das System Ihnen bei einem internen Vorgang hilft, werden Sie dem Chatbot firmeneigene Informationen preisgeben, damit er Ihnen die gewünschten Antworten gibt“, sagte Russell aus.
„Wenn diese Informationen dann Ihren Konkurrenten zur Verfügung stehen, indem Sie ChatGPT einfach fragen, was in diesem Unternehmen vor sich geht, wäre das schrecklich„, fügte er hinzu.
Wenn wir das, was Russell über die Weitergabe von Unternehmensinformationen sagte, auf die Weitergabe von Informationen des US-Geheimdienstes anwenden, dann können wir besser verstehen, warum die IARPA ihre aktuelle Anfrage veröffentlicht.
New #RFI announcement: IARPA is currently seeking info regarding characterizing large language model biases, threats, and vulnerabilities. Please read more and submit your responses by 5 PM EDT on August 21, 2023: https://t.co/MyGkFwbKul pic.twitter.com/lt681YIyMk
— IARPA (@IARPAnews) July 31, 2023
Es könnte aber auch potenzielle Bedrohungen und Schwachstellen geben, die bisher noch nicht bekannt sind.
Wie der frühere US-Verteidigungsminister Donald Rumsfeld bekanntlich sagte: „Es gibt bekannte Dinge. Das sind Dinge, von denen wir wissen, dass wir sie wissen. Es gibt bekannte Unbekannte. Das heißt, es gibt Dinge, von denen wir wissen, dass wir sie nicht wissen. Aber es gibt auch unbekannte Unbekannte. Es gibt Dinge, von denen wir nicht wissen, dass wir sie nicht wissen.
Für die aktuelle Ausschreibung bittet die IARPA Organisationen um die Beantwortung der folgenden Fragen:
- Hat Ihre Organisation spezifische LLM-Bedrohungen und -Schwachstellen identifiziert, die durch frühere Taxonomien (z. B. „OWASP Top 10 for LLM“) nicht gut beschrieben sind? Wenn ja, beschreiben Sie bitte jede dieser Bedrohungen und/oder Schwachstellen und ihre Auswirkungen.
- Verfügt Ihre Organisation über ein Rahmenwerk zur Klassifizierung und zum Verständnis des Spektrums von LLM-Bedrohungen und/oder -Schwachstellen? Wenn ja, beschreiben Sie bitte diesen Rahmen und erläutern Sie kurz die einzelnen Bedrohungen und/oder Schwachstellen und deren Risiken.
- Verfügt Ihre Organisation über neuartige Methoden zur Erkennung oder Entschärfung von Bedrohungen für Nutzer, die von LLM-Schwachstellen ausgehen?
- Verfügt Ihre Organisation über neuartige Methoden, um das Vertrauen in LLM-Ergebnisse zu quantifizieren?
Hauptansprechpartner für das RFI ist Dr. Timothy McKinnon, der auch zwei andere IARPA-Forschungsprogramme leitet: HIATUS und BETTER.
- HIATUS [Human Interpretable Attribution of Text Using Underlying Structure]: Ziel ist die Entwicklung neuartiger, vom Menschen nutzbarer KI-Systeme für die Zuweisung der Urheberschaft und den Schutz der Privatsphäre des Autors durch Identifizierung und Nutzung erklärbarer linguistischer Fingerabdrücke.
- BETTER [Better Extraction from Text Towards Enhanced Retrieval]: zielt auf die Entwicklung einer Fähigkeit zur personalisierten Informationsextraktion aus Text für einen individuellen Analysten über mehrere Sprachen und Themen hinweg.
Letztes Jahr kündigte die IARPA an, dass sie ihr Programm Rapid Explanation, Analysis and Sourcing ONline (REASON) zusammenstellen würde, um neuartige Systeme zu entwickeln, die automatisch Kommentare generieren, mit denen Geheimdienstanalysten die Beweise und die Argumentation in ihren Analyseberichten erheblich verbessern können“.
Außerdem ist REASON nicht dazu gedacht, Analysten zu ersetzen, komplette Berichte zu schreiben oder deren Arbeitsbelastung zu erhöhen. Die Technologie wird sich in den derzeitigen Arbeitsablauf des Analysten einfügen.
„Sie wird auf die gleiche Weise funktionieren wie eine automatische Grammatikprüfung, jedoch mit dem Schwerpunkt auf Beweisen und Argumenten.“
Im Dezember wollte die IARPA generative KI nutzen, um Analysten beim Verfassen von Geheimdienstberichten zu unterstützen, und im August will die Forschungsabteilung der US-Spionagebehörden nun herausfinden, welche Risiken große Sprachmodelle bergen könnten.