Methodik | KI-Assurance

Technische Grundlage

Die Engine

UK AI Safety Institute

Inspect AI

Die Evaluations-Infrastruktur des UK AI Safety Institute, eingesetzt von führenden KI-Laboren wie xAI, mit Beiträgen von DeepMind und Anthropic. Open Source (MIT-Lizenz), mit über 100 Evaluationsaufgaben und einer bewährten Architektur für systematische KI-Tests.

ETH Zürich / INSAIT / LatticeFlow

Compl-AI

Die EU AI Act Compliance-Benchmark-Suite der ETH Zürich, INSAIT und LatticeFlow AI. Bildet 27+ etablierte Benchmarks auf die 6 Trustworthy-AI-Prinzipien (EU HLEG) ab. Publizierte Methodik (ArXiv: 2410.07959).

Eigene Forschung

Swiss-Bench

Unsere proprietären Evaluationsszenarien für Schweizer Sprachen (Deutsch, Französisch, Italienisch), juristische Terminologie, Finanzfachsprache und domänenspezifische Fehlermodi im Schweizer Regulierungsumfeld.

Bewertungsrahmen

KIAS-Score: 6 Dimensionen

Genauigkeit & Leistungsfähigkeit

Erfüllt das Modell seine Aufgabe korrekt?

Robustheit & Zuverlässigkeit

Verhält es sich unter Belastung konsistent?

Fairness & Nicht-Diskriminierung

Behandelt es alle Gruppen gleichwertig?

Datenschutz

Schützt es personenbezogene Daten?

Transparenz & Erklärbarkeit

Können seine Entscheidungen nachvollzogen werden?

Schweizer Regulierungs-Alignment

Ist es für das Schweizer regulatorische Umfeld geeignet?

Jede Dimension wird von 0–100 bewertet, mit Konfidenzintervallen und Stichprobengrössen.

Ablauf

Der Prozess

Scoping

Wir definieren gemeinsam Evaluationsziele, Modelle und Benchmarks (1 Stunde).

Konfiguration

Wir konfigurieren die Evaluations-Pipeline für Ihre spezifischen Modelle und Daten (2–4 Stunden).

Evaluation

Die Engine führt automatisierte Benchmarks durch. Kein manueller Eingriff. Vollständig reproduzierbar.

Analyse

Wir interpretieren die Ergebnisse, identifizieren Fehlermodi und ordnen Lücken regulatorischen Anforderungen zu.

Bericht

Sie erhalten einen standardisierten Evaluationsbericht mit KIAS-Scores, Lückenanalyse und Empfehlungen.

Übergabe

Sie erhalten den kompletten Evaluations-Harness. Sie können jeden Test selbst wiederholen.

Qualitätssicherung

Reproduzierbarkeits-Garantie

Jeder Evaluationsbericht enthält:

Vollständige Evaluationskonfiguration (Inspect AI Taskdefinitionen, Scorer-Logik, Datensätze)
Modellversions-Identifikatoren und verwendete API-Parameter
Seed-Werte und Sampling-Parameter
Kryptographischer Zeitstempel der Rohergebnisse
Der vollständige Evaluations-Harness – jederzeit selbst ausführbar

Wir verwenden keine proprietären, nicht-reproduzierbaren Methoden.

Grundsatz

Unabhängigkeit

Wir haben keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen. Keine Vendor-Partnerschaften. Kein Pay-for-Score. Jedes Modell wird mit derselben Methodik evaluiert.

Infrastruktur

Datensouveränität

Standard

Sie stellen einen API-Key bereit. Wir führen die Evaluation durch.

Reguliert

Unsere dockerisierte Engine läuft auf Ihrer Infrastruktur.

Premium

Wir bringen dedizierte Hardware zu Ihnen. Vollständige Air-Gap.

Privacy-First

Sie anonymisieren Ihre Daten zuerst mit unserem Skript.

Keine Daten verlassen die Schweiz. Keine Daten werden über das Engagement hinaus aufbewahrt.

Bereit für eine unabhängige Evaluation?

Kontaktieren Sie uns für ein unverbindliches Erstgespräch. In 30 Minuten klären wir Ihren Evaluationsbedarf.

Kontakt aufnehmen →

Unabhängig. Reproduzierbar. Schweizerisch.