Ziehen Sie eine Audiodatei per Drag & Drop oder fügen Sie sie ein – MP3, WAV, M4A, AAC, OGG oder FLAC, bis zu 2 GB pro Datei – und erhalten Sie sofort eine Transkription, eine KI-Zusammenfassung und ein Chatfenster, in dem Sie Fragen stellen können. Der Upload läuft über eine einzelne Dropzone im Browser; die Verarbeitung beginnt, sobald die Datei abgelegt wurde. Zu den Ausgaben gehören eine mit Zeitstempeln versehene Transkription in 99 Sprachen, eine Zusammenfassung, die Sie bearbeiten können, ein teilbarer Wiedergabelink und ein KI-Chat, der auf den Audioinhalten basiert. Benötigen Sie nur eine Transkription? Sehen Sie sich das Transkriptionstool an.
Uploads werden durch AES-256-Verschlüsselung auf GDPR-konformen Servern ausgeführt. Jede Datei ist standardmäßig privat, mit optionalem Passwortschutz und automatischer Malware-Scannung.
Audio-Datei-Upload-Service - Eingaben und Ausgaben
Laden Sie eine Audiodatei hoch und der Dienst gibt vier Artefakte zurück: einen Streaming-Link, eine vollständige Transkription, eine KI-generierte Zusammenfassung und ein privates Chatfenster, in dem Sie der Aufnahme Fragen stellen können (“Was hat der zweite Sprecher über das Budget gesagt?”).
So läuft der Audio-Upload-Flow ab:
- Ziehen Sie eine Datei in die Dropzone, klicken Sie zum Durchsuchen oder fügen Sie sie aus der Zwischenablage ein
- Die Datei wird in den Audio-Datei-Upload-Service hochgeladen, während parallel die Transkription beginnt
- Eine Transkription, eine Zusammenfassung und ein teilbarer Link erscheinen im Dashboard, normalerweise innerhalb einer Minute für eine einstündige Aufnahme
Audio-Datei-Eingaben, die der Upload-Service akzeptiert:
- MP3 (jede Bitrate)
- WAV (PCM, 16/24-Bit)
- M4A (AAC im MP4-Container)
- AAC (roh)
- OGG (Vorbis und Opus)
- FLAC (verlustfrei)
- Dateien bis zu 2 GB bei kostenpflichtigen Plänen, 100 MB bei kostenlosen
Der Audio-Datei-Upload-Service behält die Quellbitrate während der Streaming-Wiedergabe bei und resampelt eine separate Kopie für die Transkription. Keiner der beiden Durchläufe überschreibt das Original, das Sie hochgeladen haben.
Laden Sie kostenlos eine MP3-Datei online hoch. Keine Karte, keine Anmeldung für die erste Datei. Legen Sie eine Audiodatei auf die Seite und die Transkription erscheint in Sekunden.
Was Sie nach dem Hochladen einer Audiodatei erhalten
Jeder Upload erzeugt einen einzelnen verarbeiteten Datensatz, zu dem Sie später zurückkehren können. Der Datensatz enthält vier Dinge gleichzeitig: die Originaldatei (herunterladbar), eine Transkription mit Sprecheretiketten und Zeitstempeln, eine Zusammenfassung, die Sie neu generieren oder bearbeiten können, und einen Chat-Thread, der mit den Audioinhalten verbunden ist.
Der gehostete Wiedergabelink ist ein Nebeneffekt, nicht die Hauptsache. Er funktioniert auf Telefonen und Desktops ohne Konto, aber der Hauptwert eines Audio-Upload-Services besteht darin, dass das Audio nun durchsuchbarer Text ist, über Chat abgefragt werden kann und als TXT, SRT, VTT, DOCX oder JSON exportiert werden kann.
Was Ihnen eine hochgeladene Audiodatei bietet:
- Transkription in 99 Sprachen mit Zeitstempeln
- KI-Zusammenfassung, die auf die Zeitstempel verweist, die sie zitiert
- Chat, der Fragen zur Aufnahme beantwortet
- Sprecheretiketten (wenn das Audio mehr als einen Sprecher hat)
- SRT- und VTT-Untertiteldateien für die Untertitelung
- Teilbarer Wiedergabelink mit optionalem Passwort
- Pro-Datei-Analytik: Wiedergaben, geografischer Standort, Abschlussrate
Der Audio-Datei-Upload-Service verarbeitet einen einzelnen Drop, ein Einfügen aus der Zwischenablage oder einen Stapel von Dateien (bis zu 50 gleichzeitig bei kostenpflichtigen Plänen). Wenn Sie stattdessen das Quellvideo übergeben müssen, deckt der Video-zu-Link-Konverter MP4/MOV ab, und Audio aus Videos extrahieren zieht das Audio zur separaten Verarbeitung heraus.
Wie ein Audio-Upload vom Browser zum Transkript abläuft
Drei Dinge passieren in dem Moment, in dem Sie eine MP3-Datei auf die Seite ziehen: Der Browser beginnt mit einem stückweisen Upload, das Backend registriert einen Transkriptionsauftrag und ein Platzhalterdatensatz wird geöffnet, sodass Sie den Fortschritt beobachten können. Typische Zeiten für eine einstündige MP3-Datei bei einer 50-Mbit/s-Verbindung sind 10 Sekunden Upload und 60 Sekunden Transkription, die hauptsächlich parallel ablaufen.
Die Schritte, die eine Audiodatei durchläuft:
- Die Dropzone akzeptiert die Datei (Ziehen, Klicken zum Durchsuchen oder Einfügen aus der Zwischenablage)
- Bytes werden in 5-MB-Blöcken gestreamt, mit Unterstützung für die Wiederaufnahme, falls die Verbindung abbricht
- Die Transkription beginnt mit dem ersten Block und endet kurz nachdem der letzte Block eingegangen ist
- Das Transkript, die Zusammenfassung und der Chat werden alle an denselben Datensatz angehängt
Batch-Uploads ermöglichen es zahlenden Nutzern, bis zu 50 Audiodateien in die Warteschlange einzureihen. Die Warteschlange wird parallel und nicht seriell verarbeitet, sodass ein Ordner mit 20 Vorlesungsaufzeichnungen in etwa so lange dauert wie die langsamste Aufnahme.
Einstellungen, die Sie pro Upload umschalten können:
- Vanity-URL für den teilbaren Link (bezahlt)
- Passwortschutz auf der Wiedergabeseite
- Transkriptionssprache (automatische Erkennung oder Auswahl einer von 99)
- Sprecheretiketten ein oder aus
- Öffentliche, nicht gelistete oder private Sichtbarkeit
- Einbettbarer Player-Snippet für Blogposts
Kostenlose Konten begrenzen jeden Upload auf 100 MB. Bezahlte Pläne erweitern die Obergrenze auf 2 GB und schalten die Prioritätstranskription frei, wodurch die Datei an den Anfang der Warteschlange verschoben wird.
Probieren Sie jetzt den Audio-Datei-Upload-Flow aus. Keine Karte, keine Anmeldung für die erste Datei. Legen Sie eine ab.
Warum eine Audiodatei hochladen, anstatt sie an eine E-Mail anzuhängen?
Mailserver lehnen Anhänge über 25 MB ab und viele Unternehmens-Gateways blockieren komprimiertes Audio vollständig. Ein Audio-Upload-Service liefert Ihnen einen gehosteten Link, den der Empfänger von jedem Browser aus abspielen kann, sowie eine Transkription, die er vor dem Anhören überfliegen kann - E-Mail-Anhänge geben ihm ein Symbol, das er herunterladen, speichern und in etwas anderem öffnen muss.
Was unterscheidet einen guten Audio-Datei-Upload-Service von einem generischen Filehoster?
Ein guter Audio-Datei-Upload-Service leistet drei Dinge, die ein generischer Hoster nicht leistet: Er transkribiert die Datei, er versieht das Transkript mit Sprecherkennzeichnungen und er bietet Ihnen einen durchsuchbaren Chat über die Audioinhalte. Dropbox oder Google Drive speichern die Datei; ein Audio-Upload-Service verwandelt die Datei in Text, den Sie lesen, durchsuchen und zu dem Sie Fragen beantworten können.
Audio-Datei-Upload-Service im Vergleich zu Otter, Notta, Sonix, Trint, Descript
| Spezifikation | ScreenApp | Otter.ai | Notta | Sonix | Trint | Descript |
|---|---|---|---|---|---|---|
| Maximale Dateigröße | 2 GB (bezahlt), 100 MB (kostenlos) | 5 GB (Business) | 5 GB (Pro) | 4 GB | 4 GB | 5 GB |
| Akzeptierte Formate | MP3, WAV, M4A, AAC, OGG, FLAC | MP3, WAV, M4A, AIFF | MP3, WAV, M4A, AAC, CAF | MP3, WAV, M4A, AAC, AIFF, FLAC | MP3, WAV, M4A, AIFF, OGG | MP3, WAV, M4A, AAC, FLAC |
| Verarbeitungszeit (1 Stunde Datei) | ~1 Minute | 5-10 Minuten | 5-8 Minuten | 5-10 Minuten | ~Echtzeit | 5-15 Minuten |
| Kostenlose Minuten | 300 Minuten/Monat | 300 Minuten/Monat | 120 Minuten/Monat | 30 Minuten einmalig | Keine (nur Testversion) | 60 Minuten/Monat |
| Ausgabeformate | TXT, SRT, VTT, DOCX, JSON, MP3-Stream | TXT, DOCX, PDF, SRT | TXT, DOCX, SRT, PDF, XLSX | TXT, DOCX, SRT, VTT, JSON, PDF | TXT, DOCX, SRT, VTT, EDL | TXT, SRT, MP4, MP3 |
| KI-Chat zum Audio | Ja | Otter Chat (kostenpflichtig) | Notta Chat | Nein | Nein | Nein |
| Sprachen | 99 | Nur Englisch (kostenpflichtig: 3) | 58 | 49 | 40+ | 22 |
Wo die einzelnen Dienste passen:
- vs Otter.ai: Otter hat sein Produkt um die Live-Aufnahme von Meetings und Anrufe in englischer Sprache herum aufgebaut; hochgeladene Audiodateien werden erst am Ende der Warteschlange konvertiert und Otter Chat ist hinter dem Pro-Plan verborgen. Der Audio-Upload-Service hier behandelt die hochgeladene Datei als erstklassiges Objekt und liefert KI-Chat in der kostenlosen Version in 99 Sprachen.
- vs Notta: Notta akzeptiert eine ähnliche Bandbreite an Formaten und listet 58 Sprachen auf, aber kostenlose Uploads sind auf 5 Minuten pro Datei mit einer monatlichen Obergrenze von 120 Minuten begrenzt. Die 300-Minuten-Freigabe hier deckt einen längeren Podcast oder zwei Vorlesungsaufzeichnungen ab, bevor Sie das Limit erreichen.
- vs Sonix: Sonix ist eine Pay-as-you-go-Transkriptionsmaschine für 10 $/Stunde ohne wiederkehrende kostenlose Version - Sie erhalten einmalig 30 Minuten. Sonix hat keinen KI-Chat und keinen eingebauten Wiedergabe-Link; der Upload-Service hier liefert Chat, Zusammenfassung und einen gehosteten Link aus dem gleichen Upload.
- vs Trint: Trint zielt auf Newsroom-Workflows mit EDL-Export und Verbatim-Modus ab, aber es gibt keine kostenlose Version und die Preise beginnen bei 80 $/Monat. Für Journalisten, die gelegentlich Interview-Audiodateien hochladen, anstatt einen Schreibtisch zu betreiben, ist die Ökonomie pro Minute hier spürbar niedriger.
- vs Descript: Descript wandelt hochgeladenes Audio in ein bearbeitbares Transkript um, das Sie schneiden können, um die Wellenform zu bearbeiten - leistungsstark, aber die Lernkurve ist steil. Der Upload- und Verarbeitungsprozess hier ähnelt eher “Datei ablegen, Transkript lesen”, wobei die Bearbeitung optional bleibt.
Verarbeitungszeiten für Audio-Datei-Uploads nach Format
Die Verarbeitungszeit hängt vom Codec, der Dauer und davon ab, ob die Datei Mono oder Stereo ist. Ungefähre Zahlen für eine einstündige Aufnahme in der Standard-Verarbeitungswarteschlange:
| Format | Typische Bitrate | Upload-Zeit (50 Mbps) | Transkriptions-Wandzeit |
|---|---|---|---|
| MP3 | 128-320 kbps | 5-15 Sekunden | 45-70 Sekunden |
| WAV (PCM 16-Bit) | ~1411 kbps | 60-90 Sekunden | 45-70 Sekunden |
| M4A | 96-256 kbps | 5-15 Sekunden | 45-70 Sekunden |
| AAC | 96-256 kbps | 5-15 Sekunden | 45-70 Sekunden |
| OGG (Opus) | 64-128 kbps | 3-10 Sekunden | 45-70 Sekunden |
| FLAC | ~900 kbps (verlustfrei) | 40-60 Sekunden | 45-70 Sekunden |
Ein 2-GB-WAV-Upload (die Obergrenze) dauert über eine typische Heimverbindung einige Minuten - die Transkription selbst läuft parallel zum Eintreffen der Bytes, sodass das Transkript normalerweise innerhalb einer Minute nach dem Eintreffen des letzten Bytes fertig ist.
Entscheidungsmatrix für Dateiformate
Die obige Tabelle der Verarbeitungszeit gibt Ihnen an, wie lange jeder Format zum Hochladen und Transkribieren benötigt. Die Matrix unten beantwortet eine andere Frage: Welches Format sollten Sie überhaupt verwenden? Die Formatwahl hängt davon ab, womit Sie aufgenommen haben und was Sie anschließend mit der Datei vorhaben.
| Format | Am besten geeignet für | Komprimierung | Max. empfohlene Länge | Hinweise |
|---|---|---|---|---|
| MP3 (320 kbps) | Allgemeine Audio-, Podcasts | Verlustbehaftet, hohe Qualität | Bis zu 4 Stunden | Universell unterstützt |
| WAV | Professionelles Audio, Master | Unkomprimiert | 1-2 Stunden | Große Dateien, beste Qualität |
| M4A, AAC | iPhone-Sprachmemos, moderne Apps | Verlustbehaftet, effizient | 4+ Stunden | Standard auf Apple-Geräten |
| FLAC | Archivierung, Audiophil | Verlustfrei | 4+ Stunden | Kleiner als WAV, gleiche Qualität |
| OGG, Opus | Streaming, Voice-Chat | Verlustbehaftet, sehr effizient | Variabel | Üblich auf Webplattformen |
| WebM Audio | Web-extrahiertes Audio | Verlustbehaftet | 2-3 Stunden | Aus Videodateien |
| 3GP | Ältere mobile Aufnahmen | Verlustbehaftet | 1 Stunde | Vor dem Hochladen konvertieren, um beste Ergebnisse zu erzielen |
Faustregel: Wenn die Datei von einem Telefon stammt, haben Sie M4A. Wenn sie von einer Podcast-DAW stammt, haben Sie wahrscheinlich WAV oder MP3. Wenn sie aus der Cloud-Aufzeichnung einer Meeting-Plattform stammt, haben Sie wahrscheinlich M4A (Zoom) oder extrahiertes Audio aus MP4 (Meet, Teams). All diese können direkt verwendet werden. Die Transkriptionspipeline normalisiert alles auf eine interne 16-kHz-Mono-PCM-Darstellung, bevor sie an das Sprachmodell weitergeleitet wird, sodass das Quellformat die resultierende Transkriptionsgenauigkeit nicht verändert (gemäß dem WER-Retest vom April 2026).
Nach dem Upload können Sie das Ergebnis in das Transkriptionstool zur Bearbeitung einleiten oder die Ausgabe an den KI-Videozusammenfasser übergeben, wenn Ihr Audio der Soundtrack einer aufgezeichneten Sitzung ist.
Wer nutzt einen Audio-Datei-Upload-Service?
Podcaster, die Aufnahmen verarbeiten. Eine fertige Podcast-Episode landet als Stereo-WAV oder MP3 auf einer Festplatte. Laden Sie sie in den Upload-Service hoch, um das Transkript für Shownotes, die Zusammenfassung für die Episodenbeschreibung und einen gehosteten Vorschaulink zu erhalten, bevor die Datei jemals Apple Podcasts oder Spotify erreicht.
Journalisten, die Interview-Audio hochladen. Reporter, die mit einem Aufnahmegerät aus einer Pressekonferenz kommen, können die M4A direkt vom Gerät hochladen und Zitate aus einem durchsuchbaren Transkript ziehen, während das Audio noch frisch ist. Sprecherkennzeichnungen und Zeitstempel bedeuten, dass ein 90-minütiges Interview in wenigen Minuten durchsuchbar wird.
Studenten, die Vorlesungsaufzeichnungen hochladen. Telefone, Diktiergeräte und Zoom-Aufnahmen erzeugen M4A- oder MP3-Dateien. Das Hochladen der Audiodatei erzeugt ein Transkript, das ein Student durchsuchen (“Wann hat der Dozent Enthalpie erwähnt?”), hervorheben und in Lernnotizen einfügen kann.
Transkriptionisten, die Dateien in eine Pipeline einspeisen. Freiberufliche Transkriptionisten und Agenturen nutzen den Online-MP3-Upload als Vorab-Durchgang: Der KI-Entwurf des Transkripts kommt in weniger als einer Minute an, und der menschliche Transkriptionist korrigiert eher, als dass er von Grund auf tippt. Die JSON-Ausgabe mit Zeitstempeln auf Wortebene passt in bestehende Editoren.
Accessibility-Teams, die Bildunterschriften aus reinen Audioquellen erstellen. Öffentliche Radiosender-Archive, mündliche Überlieferungen und Callcenter-Aufzeichnungen existieren oft nur als Audio. Der Upload-Service generiert SRT- und VTT-Dateien aus diesen reinen Audioquellen, sodass sie mit einer statischen Wellenform gepaart oder als Textalternative gemäß WCAG 1.2.1 veröffentlicht werden können.
Der Audio-Datei-Upload-Service verarbeitet auch Sprachmemos von Klinikern, Demo-Tracks von Musikern, die ein Label suchen, und Schulungs-Audio, für das Compliance-Teams eine Dokumentation benötigen.
FAQ
Wie lade ich eine Audiodatei hoch?
Ziehen Sie die Datei auf die Dropzone, klicken Sie auf die Dropzone, um eine Dateiauswahl zu öffnen, oder fügen Sie Audio aus der Zwischenablage ein. Der Audiodatei-Upload-Dienst akzeptiert MP3, WAV, M4A, AAC, OGG und FLAC. Dateien beginnen mit der Transkription, sobald der erste Teil eintrifft - Sie müssen nicht warten, bis der Upload abgeschlossen ist, bevor die Verarbeitung beginnt.
Ist der Upload-Audiodatei-Service kostenlos?
Die ersten 300 Minuten pro Monat sind kostenlos. Kostenlose Konten laden Dateien bis zu 100 MB hoch; kostenpflichtige Pläne erweitern dies auf 2 GB. Für die kostenlose Stufe ist keine Karte erforderlich.
Welche Audiodateiformate unterstützt der Upload-Service?
MP3 mit beliebiger Bitrate, WAV mit 16-Bit oder 24-Bit PCM, M4A (AAC in einem MP4-Container), rohes AAC, OGG (Vorbis oder Opus) und FLAC für verlustfreie Audioqualität. Wenn Ihre Datei in einem ungewöhnlichen Format vorliegt, lehnt der Dienst den Upload ab, anstatt ihn stillschweigend neu zu codieren.
Wie lade ich eine MP3-Datei online hoch, ohne mich anzumelden?
Öffnen Sie die Seite, legen Sie Ihre MP3-Datei in die Dropzone, und die Datei wird anonym hochgeladen und transkribiert. Sie benötigen nur ein Konto, wenn Sie die Datei behalten, sie mit einem permanenten Link teilen oder mehr als das Limit pro Sitzung verarbeiten möchten.
Wie groß darf eine hochgeladene Audiodatei sein?
100 MB in der kostenlosen Stufe, 2 GB in kostenpflichtigen Plänen. Eine Obergrenze von 2 GB entspricht ungefähr 30 Stunden Standard-MP3, drei Stunden 24-Bit-WAV oder acht Stunden FLAC.
Wie lange dauert die Verarbeitung nach Abschluss des Uploads?
Etwa eine Minute für eine einstündige Audiodatei. Die Transkription läuft parallel zum Upload, sodass die Echtzeit vom Klicken auf die Dropzone bis zum Lesen des Transkripts normalerweise unter zwei Minuten für eine typische Vorlesung oder einen Podcast liegt.
Sind hochgeladene Audiodateien privat?
Ja. Dateien sind standardmäßig privat. AES-256-Verschlüsselung gilt im Ruhezustand und während der Übertragung, Dateien werden bei Ankunft auf Malware gescannt, und Sie können pro Datei einen Kennwortschutz oder eine nicht gelistete/private Sichtbarkeit hinzufügen.
Kann ich mehrere Audiodateien auf einmal stapelweise hochladen?
Ja. Bezahlte Pläne akzeptieren bis zu 50 Audiodateien in einem einzigen Batch und verarbeiten sie parallel. Das Dashboard zeigt eine Fortschrittszeile pro Datei an, sodass Sie sehen können, welche Transkripte zuerst fertig sind.