Genauer Blick auf die Genauigkeitsführer 2025
Top-Performer:
- • Whisper Large-v3: 97,9 % Wortgenauigkeit (MLPerf-Benchmark)
- • Deepgram Nova-3: 96 % durchschnittliche Genauigkeit
- • 95–99 % unter optimalen Bedingungen
- • 69+ Sprachen, branchenspezifisches Vokabular
Wichtige Kennzahlen:
- • Bester WER: 5,63 % (Canary Qwen 2,5B)
- • Edge-Modelle 8,18 % WER (Granite-Speech)
- • Typischerweise 82–94 % Genauigkeit
- • Sauberer Ton 93–99 % erreichbar
Verständnis der Wortfehlerrate (WER)
Was ist WER?
Die Wortfehlerrate (WER) ist die branchenübliche Kennzahl zur Messung der Transkriptionsgenauigkeit. Sie berechnet die minimale Anzahl an wortbasierten Bearbeitungen (Ersetzungen, Löschungen und Einfügungen), die erforderlich sind, um die Transkription in den Referenztext zu überführen.
WER = (Substitutionen + Löschungen + Einfügungen) / Gesamtanzahl der Wörter
WER vs. Genauigkeit
- 5%WER = 95 % Genauigkeit (ausgezeichnet)
- 10%WER = 90 % Genauigkeit (gut)
- 15%WER = 85 % Genauigkeit (akzeptabel)
- 20%+WER = 80 % oder niedriger (verbesserungsbedürftig)
2025-Benchmarks zur Transkriptionsgenauigkeit
| Werkzeug | Sauberer Ton | Meeting in der Praxis | Laute Umgebung | WER-Bereich | Sprachen |
|---|---|---|---|---|---|
| OpenAI Whisper Large-v3 | 97.9% | 88-93% | 74-83% | 2.1-8.1% | 99+ |
| Deepgram Nova-3 | 98% | 94% | 83% | 4.8-7% | 36+ |
| Otter.ai | 92-94% | 82-85% | 71-78% | 6-29% | Nur Englisch |
| Fireflies.ai | 94%+ | 88-92% | 80-85% | 6-12% | 69+ |
| Distil-Whisper | 96% | 85-90% | 75-82% | 14.9% | 99+ |
| Sonix | 95-99% | 89.6% | 82% | 5-10% | 49+ |
| Kanarienvogel Qwen 2,5B | 94.4% | 88% | 78% | 5.63% | Multi |
| Granit-Sprach-3.3 | 91.8% | 85% | 75% | 8.18% | Multi |
MLPerf 2025-Benchmarks, Interspeech 2023/2025, Hugging Face Open ASR Leaderboard, unabhängige Testberichte.
Genauigkeit nach Anwendungsfall
Medizinisch & Rechtlich (hohes Risiko)
- • Erforderliche Genauigkeit: 97 % + oder menschliche Überprüfung
- • Beste:r Performer: Whisper: 96,8 % medizinisch, 97,3 % juristisch
- • 94,2 % medizinische Konferenzen
- • Mit menschlicher Verifikation zur Einhaltung von Vorschriften verwenden
Vertrieb & CRM-Integration
- • Erforderliche Genauigkeit: 85–90 % in der Regel ausreichend
- • Beste:r Performer: Fireflies mit CRM-Automatisierung
- • Hauptfunktionen: Aufgabenpunkte, Stimmungsanalyse
- • Priorisieren Sie Integrationen gegenüber der reinen Genauigkeit
Team-Zusammenarbeit
- • Erforderliche Genauigkeit: 80–85 % für Meeting-Notizen
- • Beste:r Performer: Otter.ai mit Bearbeitung in Echtzeit
- • Hauptfunktionen: Live-Zusammenarbeit, Freigabe
- • Wähle Tools mit einfachen Korrektur-Workflows
Mehrsprachige Meetings
- • 15–20 % Genauigkeitsverlust für Nicht-Muttersprachler
- • Beste:r Performer: Whisper für Sprachabdeckung
- • 69+ Sprachen mit benutzerdefiniertem Vokabular
- • Otter unterstützt nur Englisch
Wie Genauigkeit getestet wird
Standard-Benchmarks
- 1 Saubere Hörbuchaufnahmen, Goldstandard für ASR
- 2AMI-Korpus: Echte Meeting-Aufnahmen mit mehreren Sprecher:innen
- 3 Branchenspezifischer ML-Benchmark (Update 2025)
- 4 Akademische Forschungsbenchmarks
Faktoren für Tests in realen Umgebungen
- AAudioqualität: Kompression, Bitrate, Abtastrate
- BSprechereigenschaften: Akzent, Geschwindigkeit, Überschneidung
- C Hintergrundgeräusche, Echo, Hall
- D Technische Fachbegriffe, Eigennamen, Zahlen
Marketing-Behauptungen vs. Realität
Viele Tools werben mit einer Genauigkeit von 95–99 %, aber das gilt in der Regel nur unter optimalen Bedingungen: eine einzelne muttersprachliche englische Person, professionelles Mikrofon, ruhige Studio-Umgebung. In realen Meetings liegt die Genauigkeit typischerweise 15–20 % niedriger. Unabhängige Tests haben gezeigt, dass die 99-%-Angabe von Sonix in tatsächlichen Tests nur 89,6 % erreichte.
Was beeinflusst die Transkriptionsgenauigkeit
Genauigkeitskiller
- • Überlappung mehrerer Sprecher: -25-40%
- • Schlechtes Mikrofon: -15-25%
- • Fachsprache -15-25%
- • Hintergrundgeräusche: -8-12 % pro 10 dB
- • Nicht-Muttersprachler: -15-20%
- • -30-50%
Genauigkeits-Booster
- • Headset-Mikrofon +20 % vs. Laptop-Mikrofon
- • Klare Aussprache: +10-15%
- • Ruhige Umgebung: +15-20%
- • Optimales Tempo: 140–180 Wörter/Minute
- • Benutzerdefinierter Wortschatz: +5-15%
- • Muttersprachler: +15-20%
Trade-offs bei Modellen
- • Whisper Large-v3: Beste Genauigkeit, langsamste
- • Whisper Turbo: 6x schneller, -1–2 % Genauigkeit
- • 6x schneller, -1 % Genauigkeit
- • Edge-Modelle: Echtzeit, variable Genauigkeit
- • Cloud-APIs: Optimiert für Latenz
Unsere Empfehlungen
Beste Gesamtgenauigkeit
OpenAI Whisper Large-v3
97,9 % Wortgenauigkeit im MLPerf-Benchmark. Am besten für Entwickler, die selbst hosten oder eine API nutzen können.
0,006 $/Minute über die API
Am besten für: Technische Benutzer, Hochvolumenverarbeitung
Erfordert Entwicklungs-Setup (5.000–15.000 $)
Am besten für Geschäftsbesprechungen
Fireflies.ai
Hervorragende Genauigkeit mit CRM-Integration, Sentiment-Analyse und Extraktion von Action Items.
Kostenlose Stufe verfügbar, Pro ab 10 $/Mon.
Am besten für: Vertriebsteams, Geschäftsmeetings
Am besten für Zusammenarbeit
Otter.ai
Echtzeit-Transkription mit Live-Bearbeitung und Funktionen für die Teamzusammenarbeit.
600 kostenlose Minuten/Monat
Am besten für: Teams, Notizen teilen
Analyse von Genauigkeit vs. Kosten
| Lösung | Kosten (10.000 Min./Monat) | Genauigkeit in der realen Welt | Wertungsnote |
|---|---|---|---|
| OpenAI Whisper API | $60 | 94% | Ausgezeichnet |
| Fireflies.ai | $100-200 | 88-92% | Ausgezeichnet |
| Sonix | $500-1,500 | 89.6% | Gut |
| Otter.ai | $900-2,400 | 82-85% | Mäßig |
| Menschliche Transkription | $12,500 | 99%+ | Niedrig (teuer) |
Verwandte Vergleiche
Detaillierte Genauigkeitstestergebnisse
Detaillierte Testdaten unter vielfältigen Audiobedingungen
Ergebnisse ansehen →Genauigkeit der Sprecher-Diarisierung
Vergleiche, wie genau Tools verschiedene Sprecher identifizieren
Werkzeuge vergleichen →Otter vs Fireflies
Direkter Vergleich dieser beliebten Tools
Vergleichen →Was ist die Wortfehlerrate?
Detaillierter Einblick in WER und wie man Genauigkeitsmetriken interpretiert
Mehr erfahren →Finde deine perfekte Genauigkeitsübereinstimmung
Gib dich nicht mit schlechter Transkriptionsqualität zufrieden. Mach unser Quiz, um herauszufinden, welches KI-Tool die Genauigkeit liefert, die deine Meetings verdienen.