METHODIK
Unabhängig. Reproduzierbar. Schweizerisch.
Jede KI-Assurance-Evaluation folgt derselben rigorosen Methodik – ob wir ein Modell oder dreissig evaluieren. Keine Meinungen. Keine Black Boxes. Nur reproduzierbare, evidenzbasierte Ergebnisse.
Die Engine
Inspect AI
Die Evaluations-Infrastruktur des UK AI Safety Institute, eingesetzt von führenden KI-Laboren wie xAI, mit Beiträgen von DeepMind und Anthropic. Open Source (MIT-Lizenz), mit über 100 Evaluationsaufgaben und einer bewährten Architektur für systematische KI-Tests.
Compl-AI
Die EU AI Act Compliance-Benchmark-Suite der ETH Zürich, INSAIT und LatticeFlow AI. Bildet 27+ etablierte Benchmarks auf die 6 Trustworthy-AI-Prinzipien (EU HLEG) ab. Publizierte Methodik (ArXiv: 2410.07959).
Swiss-Bench
Unsere proprietären Evaluationsszenarien für Schweizer Sprachen (Deutsch, Französisch, Italienisch), juristische Terminologie, Finanzfachsprache und domänenspezifische Fehlermodi im Schweizer Regulierungsumfeld.
KIAS-Score: 6 Dimensionen
Genauigkeit & Leistungsfähigkeit
Erfüllt das Modell seine Aufgabe korrekt?
Robustheit & Zuverlässigkeit
Verhält es sich unter Belastung konsistent?
Fairness & Nicht-Diskriminierung
Behandelt es alle Gruppen gleichwertig?
Datenschutz
Schützt es personenbezogene Daten?
Transparenz & Erklärbarkeit
Können seine Entscheidungen nachvollzogen werden?
Schweizer Regulierungs-Alignment
Ist es für das Schweizer regulatorische Umfeld geeignet?
Jede Dimension wird von 0–100 bewertet, mit Konfidenzintervallen und Stichprobengrössen.
Der Prozess
Scoping
Wir definieren gemeinsam Evaluationsziele, Modelle und Benchmarks (1 Stunde).
Konfiguration
Wir konfigurieren die Evaluations-Pipeline für Ihre spezifischen Modelle und Daten (2–4 Stunden).
Evaluation
Die Engine führt automatisierte Benchmarks durch. Kein manueller Eingriff. Vollständig reproduzierbar.
Analyse
Wir interpretieren die Ergebnisse, identifizieren Fehlermodi und ordnen Lücken regulatorischen Anforderungen zu.
Bericht
Sie erhalten einen standardisierten Evaluationsbericht mit KIAS-Scores, Lückenanalyse und Empfehlungen.
Übergabe
Sie erhalten den kompletten Evaluations-Harness. Sie können jeden Test selbst wiederholen.
Reproduzierbarkeits-Garantie
Jeder Evaluationsbericht enthält:
- Vollständige Evaluationskonfiguration (Inspect AI Taskdefinitionen, Scorer-Logik, Datensätze)
- Modellversions-Identifikatoren und verwendete API-Parameter
- Seed-Werte und Sampling-Parameter
- Kryptographischer Zeitstempel der Rohergebnisse
- Der vollständige Evaluations-Harness – jederzeit selbst ausführbar
Wir verwenden keine proprietären, nicht-reproduzierbaren Methoden.
Unabhängigkeit
Wir haben keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen. Keine Vendor-Partnerschaften. Kein Pay-for-Score. Jedes Modell wird mit derselben Methodik evaluiert.
Datensouveränität
Sie stellen einen API-Key bereit. Wir führen die Evaluation durch.
Unsere dockerisierte Engine läuft auf Ihrer Infrastruktur.
Wir bringen dedizierte Hardware zu Ihnen. Vollständige Air-Gap.
Sie anonymisieren Ihre Daten zuerst mit unserem Skript.
Keine Daten verlassen die Schweiz. Keine Daten werden über das Engagement hinaus aufbewahrt.
Bereit für eine unabhängige Evaluation?
Kontaktieren Sie uns für ein unverbindliches Erstgespräch. In 30 Minuten klären wir Ihren Evaluationsbedarf.
Kontakt aufnehmen →