ETH Zürich und Latticeflow präsentieren Framework zur Bewertung von LLMs

Mo 21.10.2024 - 09:59 Uhr

von Rodolphe Koller und Übersetzung: Vivienne Stary, cka

Im Rahmen des Projekts COMPL-AI lancieren die ETH Zürich, INSAIT und das Schweizer Start-up Latticeflow eine Open-Source-Methodik und ein Framework. Diese sollen die technische Konformität von LLMs mit den europäischen Vorschriften bewerten. Aus diesem Anlass veröffentlichen die Organisationen eine Bewertung einiger der derzeit am häufigsten verwendeten LLMs.

large language model AI machine learning concept brain business

(Source: The Stock Image Bank - stock.adobe.com)

Der AI Act, das KI-Gesetz der EU, ist im August 2024 in Kraft getreten. Die ETH Zürich, INSAIT (Bulgarien) und das Schweizer Start-up Latticeflow haben sich der Herausforderung gestellt, wie diese Regelungen aus technischer Sicht für LMMs zu interpretieren sei. Die drei Partner entwickelten COMPL-AI, eine Kombination der sechs Prinzipien und Artikel des AI Act mit 18 technischen Anforderungen für grosse Sprachmodelle. Sie identifizierten auch anerkannte Benchmarks, anhand derer beurteilt werden kann, ob ein LLM diesen technischen Anforderungen entspricht.

Open-Source-Tool für die Bewertung von LLMs

COMPL-AI bietet auch ein Open-Source-Framework an, das auf diesen Benchmarks basiert. Es ermöglicht Organisationen, LLMs zu evaluieren. "Wir ermutigen andere Forschungsgruppen und Praktiker, sich an der Verfeinerung des AI Act Mapping zu beteiligen, neue Benchmarks hinzuzufügen und dieses Open-Source-Framework weiterzuentwickeln", sagt Martin Vechev, Titularprofessor an der ETH Zürich und Gründer und wissenschaftlicher Direktor des INSAIT in Sofia, Bulgarien. Die Methodik könne in Zukunft an neue Regulierungen angepasst werden.

Die aktuellen LLMs sind nicht regelkonform

Im Rahmen der Einführung von COMPL-AI testeten die Forscher ein Dutzend populärer LLMs von OpenAI, Meta, Google, Anthropic, Alibaba und Mistral. Ihre Analyse ergab, dass diese Modelle Schwierigkeiten hätten, die Sicherheits- und Verzerrungsanforderungen der EU-Richtlinien zu erfüllen. Sie seien jedoch in der Lage, die Generierung schädlicher Inhalte effektiv zu verhindern. Die Entwickler von COMPL-AI weisen jedoch darauf hin, dass die technischen Anforderungen in Bezug auf Urheberrecht und Datenschutz schwierig zu bewerten seien und weitere Arbeiten nach sich ziehen würden.

"Die Europäische Kommission begrüsst diese Studie und die Plattform zur Bewertung von KI-Modellen als einen ersten Schritt, um das europäische KI-Gesetz in technische Anforderungen zu übersetzen. Somit sollen die Anbieter von KI-Modellen bei der Umsetzung des KI-Gesetzes unterstützt werden", sagt Thomas Regnier, Sprecher der Europäischen Kommission für digitale Wirtschaft, Forschung und Innovation.

Dies könnte Sie ebenfalls interessieren: Large Language Models (LLMs) können Ziel von Cyberangriffen werden und die Systemsicherheit und den Datenschutz gefährden. Eine Liste der zehn grössten Bedrohungen für LLMs stellt das Open Worldwide Application Security Project (OWASP) vor.