Ziehen Sie eine Audiodatei per Drag & Drop oder fügen Sie sie ein - MP3, WAV, M4A, AAC, OGG oder FLAC, bis zu 2 GB pro Datei - und erhalten Sie sofort eine Transkription, eine KI-Zusammenfassung und ein Chatfenster, in dem Sie Fragen stellen können. Der Upload läuft über eine einzelne Dropzone im Browser; die Verarbeitung beginnt, sobald die Datei abgelegt wurde. Zu den Ausgaben gehören eine mit Zeitstempeln versehene Transkription in 99 Sprachen, eine Zusammenfassung, die Sie bearbeiten können, ein teilbarer Wiedergabelink und ein KI-Chat, der auf den Audioinhalten basiert. Benötigen Sie nur eine Transkription? Sehen Sie sich das Transkriptionstool an.

Uploads werden durch AES-256-Verschlüsselung auf GDPR-konformen Servern ausgeführt. Jede Datei ist standardmäßig privat, mit optionalem Passwortschutz und automatischer Malware-Scannung.

Audio-Datei-Upload-Service - Eingaben und Ausgaben

Laden Sie eine Audiodatei hoch und der Dienst gibt vier Artefakte zurück: einen Streaming-Link, eine vollständige Transkription, eine KI-generierte Zusammenfassung und ein privates Chatfenster, in dem Sie der Aufnahme Fragen stellen können (“Was hat der zweite Sprecher über das Budget gesagt?”).

So läuft der Audio-Upload-Flow ab:

Ziehen Sie eine Datei in die Dropzone, klicken Sie zum Durchsuchen oder fügen Sie sie aus der Zwischenablage ein
Die Datei wird in den Audio-Datei-Upload-Service hochgeladen, während parallel die Transkription beginnt
Eine Transkription, eine Zusammenfassung und ein teilbarer Link erscheinen im Dashboard, normalerweise innerhalb einer Minute für eine einstündige Aufnahme

Audio-Datei-Eingaben, die der Upload-Service akzeptiert:

MP3 (jede Bitrate)
WAV (PCM, 16/24-Bit)
M4A (AAC im MP4-Container)
AAC (roh)
OGG (Vorbis und Opus)
FLAC (verlustfrei)
Dateien bis zu 2 GB bei kostenpflichtigen Plänen, 100 MB bei kostenlosen

Der Audio-Datei-Upload-Service behält die Quellbitrate während der Streaming-Wiedergabe bei und resampelt eine separate Kopie für die Transkription. Keiner der beiden Durchläufe überschreibt das Original, das Sie hochgeladen haben.

Laden Sie kostenlos eine MP3-Datei online hoch. Keine Karte, keine Anmeldung für die erste Datei. Legen Sie eine Audiodatei auf die Seite und die Transkription erscheint in Sekunden.

Was Sie nach dem Hochladen einer Audiodatei erhalten

Jeder Upload erzeugt einen einzelnen verarbeiteten Datensatz, zu dem Sie später zurückkehren können. Der Datensatz enthält vier Dinge gleichzeitig: die Originaldatei (herunterladbar), eine Transkription mit Sprecheretiketten und Zeitstempeln, eine Zusammenfassung, die Sie neu generieren oder bearbeiten können, und einen Chat-Thread, der mit den Audioinhalten verbunden ist.

Der gehostete Wiedergabelink ist ein Nebeneffekt, nicht die Hauptsache. Er funktioniert auf Telefonen und Desktops ohne Konto, aber der Hauptwert eines Audio-Upload-Services besteht darin, dass das Audio nun durchsuchbarer Text ist, über Chat abgefragt werden kann und als TXT, SRT, VTT, DOCX oder JSON exportiert werden kann.

Was Ihnen eine hochgeladene Audiodatei bietet:

Transkription in 99 Sprachen mit Zeitstempeln
KI-Zusammenfassung, die auf die Zeitstempel verweist, die sie zitiert
Chat, der Fragen zur Aufnahme beantwortet
Sprecheretiketten (wenn das Audio mehr als einen Sprecher hat)
SRT- und VTT-Untertiteldateien für die Untertitelung
Teilbarer Wiedergabelink mit optionalem Passwort
Pro-Datei-Analytik: Wiedergaben, geografischer Standort, Abschlussrate

Der Audio-Datei-Upload-Service verarbeitet einen einzelnen Drop, ein Einfügen aus der Zwischenablage oder einen Stapel von Dateien (bis zu 50 gleichzeitig bei kostenpflichtigen Plänen). Wenn Sie stattdessen das Quellvideo übergeben müssen, deckt der Video-zu-Link-Konverter MP4/MOV ab, und Audio aus Videos extrahieren zieht das Audio zur separaten Verarbeitung heraus.

Audio-Dateien hochladen

Neues Audio aufnehmen

Wie ein Audio-Upload vom Browser zum Transkript abläuft

Drei Dinge passieren in dem Moment, in dem Sie eine MP3-Datei auf die Seite ziehen: Der Browser beginnt mit einem stückweisen Upload, das Backend registriert einen Transkriptionsauftrag und ein Platzhalterdatensatz wird geöffnet, sodass Sie den Fortschritt beobachten können. Typische Zeiten für eine einstündige MP3-Datei bei einer 50-Mbit/s-Verbindung sind 10 Sekunden Upload und 60 Sekunden Transkription, die hauptsächlich parallel ablaufen.

Die Schritte, die eine Audiodatei durchläuft:

Die Dropzone akzeptiert die Datei (Ziehen, Klicken zum Durchsuchen oder Einfügen aus der Zwischenablage)
Bytes werden in 5-MB-Blöcken gestreamt, mit Unterstützung für die Wiederaufnahme, falls die Verbindung abbricht
Die Transkription beginnt mit dem ersten Block und endet kurz nachdem der letzte Block eingegangen ist
Das Transkript, die Zusammenfassung und der Chat werden alle an denselben Datensatz angehängt

Batch-Uploads ermöglichen es zahlenden Nutzern, bis zu 50 Audiodateien in die Warteschlange einzureihen. Die Warteschlange wird parallel und nicht seriell verarbeitet, sodass ein Ordner mit 20 Vorlesungsaufzeichnungen in etwa so lange dauert wie die langsamste Aufnahme.

Einstellungen, die Sie pro Upload umschalten können:

Vanity-URL für den teilbaren Link (bezahlt)
Passwortschutz auf der Wiedergabeseite
Transkriptionssprache (automatische Erkennung oder Auswahl einer von 99)
Sprecheretiketten ein oder aus
Öffentliche, nicht gelistete oder private Sichtbarkeit
Einbettbarer Player-Snippet für Blogposts

Kostenlose Konten begrenzen jeden Upload auf 100 MB. Bezahlte Pläne erweitern die Obergrenze auf 2 GB und schalten die Prioritätstranskription frei, wodurch die Datei an den Anfang der Warteschlange verschoben wird.

Probieren Sie jetzt den Audio-Datei-Upload-Flow aus. Keine Karte, keine Anmeldung für die erste Datei. Legen Sie eine ab.

Warum eine Audiodatei hochladen, anstatt sie an eine E-Mail anzuhängen?

Mailserver lehnen Anhänge über 25 MB ab und viele Unternehmens-Gateways blockieren komprimiertes Audio vollständig. Ein Audio-Upload-Service liefert Ihnen einen gehosteten Link, den der Empfänger von jedem Browser aus abspielen kann, sowie eine Transkription, die er vor dem Anhören überfliegen kann - E-Mail-Anhänge geben ihm ein Symbol, das er herunterladen, speichern und in etwas anderem öffnen muss.

Was unterscheidet einen guten Audio-Datei-Upload-Service von einem generischen Filehoster?

Ein guter Audio-Datei-Upload-Service leistet drei Dinge, die ein generischer Hoster nicht leistet: Er transkribiert die Datei, er versieht das Transkript mit Sprecherkennzeichnungen und er bietet Ihnen einen durchsuchbaren Chat über die Audioinhalte. Dropbox oder Google Drive speichern die Datei; ein Audio-Upload-Service verwandelt die Datei in Text, den Sie lesen, durchsuchen und zu dem Sie Fragen beantworten können.

Audio-Datei-Upload-Service im Vergleich zu Otter, Notta, Sonix, Trint, Descript

Spezifikation	ScreenApp	Otter.ai	Notta	Sonix	Trint	Descript
Maximale Dateigröße	2 GB (bezahlt), 100 MB (kostenlos)	5 GB (Business)	5 GB (Pro)	4 GB	4 GB	5 GB
Akzeptierte Formate	MP3, WAV, M4A, AAC, OGG, FLAC	MP3, WAV, M4A, AIFF	MP3, WAV, M4A, AAC, CAF	MP3, WAV, M4A, AAC, AIFF, FLAC	MP3, WAV, M4A, AIFF, OGG	MP3, WAV, M4A, AAC, FLAC
Verarbeitungszeit (1 Stunde Datei)	~1 Minute	5-10 Minuten	5-8 Minuten	5-10 Minuten	~Echtzeit	5-15 Minuten
Kostenlose Minuten	300 Minuten/Monat	300 Minuten/Monat	120 Minuten/Monat	30 Minuten einmalig	Keine (nur Testversion)	60 Minuten/Monat
Ausgabeformate	TXT, SRT, VTT, DOCX, JSON, MP3-Stream	TXT, DOCX, PDF, SRT	TXT, DOCX, SRT, PDF, XLSX	TXT, DOCX, SRT, VTT, JSON, PDF	TXT, DOCX, SRT, VTT, EDL	TXT, SRT, MP4, MP3
KI-Chat zum Audio	Ja	Otter Chat (kostenpflichtig)	Notta Chat	Nein	Nein	Nein
Sprachen	99	Nur Englisch (kostenpflichtig: 3)	58	49	40+	22

Wo die einzelnen Dienste passen:

vs Otter.ai: Otter hat sein Produkt um die Live-Aufnahme von Meetings und Anrufe in englischer Sprache herum aufgebaut; hochgeladene Audiodateien werden erst am Ende der Warteschlange konvertiert und Otter Chat ist hinter dem Pro-Plan verborgen. Der Audio-Upload-Service hier behandelt die hochgeladene Datei als erstklassiges Objekt und liefert KI-Chat in der kostenlosen Version in 99 Sprachen.
vs Notta: Notta akzeptiert eine ähnliche Bandbreite an Formaten und listet 58 Sprachen auf, aber kostenlose Uploads sind auf 5 Minuten pro Datei mit einer monatlichen Obergrenze von 120 Minuten begrenzt. Die 300-Minuten-Freigabe hier deckt einen längeren Podcast oder zwei Vorlesungsaufzeichnungen ab, bevor Sie das Limit erreichen.
vs Sonix: Sonix ist eine Pay-as-you-go-Transkriptionsmaschine für 10 $/Stunde ohne wiederkehrende kostenlose Version - Sie erhalten einmalig 30 Minuten. Sonix hat keinen KI-Chat und keinen eingebauten Wiedergabe-Link; der Upload-Service hier liefert Chat, Zusammenfassung und einen gehosteten Link aus dem gleichen Upload.
vs Trint: Trint zielt auf Newsroom-Workflows mit EDL-Export und Verbatim-Modus ab, aber es gibt keine kostenlose Version und die Preise beginnen bei 80 $/Monat. Für Journalisten, die gelegentlich Interview-Audiodateien hochladen, anstatt einen Schreibtisch zu betreiben, ist die Ökonomie pro Minute hier spürbar niedriger.
vs Descript: Descript wandelt hochgeladenes Audio in ein bearbeitbares Transkript um, das Sie schneiden können, um die Wellenform zu bearbeiten - leistungsstark, aber die Lernkurve ist steil. Der Upload- und Verarbeitungsprozess hier ähnelt eher “Datei ablegen, Transkript lesen”, wobei die Bearbeitung optional bleibt.

Sofort-Links teilen

Automatische Transkription

Verarbeitungszeiten für Audio-Datei-Uploads nach Format

Die Verarbeitungszeit hängt vom Codec, der Dauer und davon ab, ob die Datei Mono oder Stereo ist. Ungefähre Zahlen für eine einstündige Aufnahme in der Standard-Verarbeitungswarteschlange:

Format	Typische Bitrate	Upload-Zeit (50 Mbps)	Transkriptions-Wandzeit
MP3	128-320 kbps	5-15 Sekunden	45-70 Sekunden
WAV (PCM 16-Bit)	~1411 kbps	60-90 Sekunden	45-70 Sekunden
M4A	96-256 kbps	5-15 Sekunden	45-70 Sekunden
AAC	96-256 kbps	5-15 Sekunden	45-70 Sekunden
OGG (Opus)	64-128 kbps	3-10 Sekunden	45-70 Sekunden
FLAC	~900 kbps (verlustfrei)	40-60 Sekunden	45-70 Sekunden

Ein 2-GB-WAV-Upload (die Obergrenze) dauert über eine typische Heimverbindung einige Minuten - die Transkription selbst läuft parallel zum Eintreffen der Bytes, sodass das Transkript normalerweise innerhalb einer Minute nach dem Eintreffen des letzten Bytes fertig ist.

Entscheidungsmatrix für Dateiformate

Die obige Tabelle der Verarbeitungszeit gibt Ihnen an, wie lange jeder Format zum Hochladen und Transkribieren benötigt. Die Matrix unten beantwortet eine andere Frage: Welches Format sollten Sie überhaupt verwenden? Die Formatwahl hängt davon ab, womit Sie aufgenommen haben und was Sie anschließend mit der Datei vorhaben.

Format	Am besten geeignet für	Komprimierung	Max. empfohlene Länge	Hinweise
MP3 (320 kbps)	Allgemeine Audio-, Podcasts	Verlustbehaftet, hohe Qualität	Bis zu 4 Stunden	Universell unterstützt
WAV	Professionelles Audio, Master	Unkomprimiert	1-2 Stunden	Große Dateien, beste Qualität
M4A, AAC	iPhone-Sprachmemos, moderne Apps	Verlustbehaftet, effizient	4+ Stunden	Standard auf Apple-Geräten
FLAC	Archivierung, Audiophil	Verlustfrei	4+ Stunden	Kleiner als WAV, gleiche Qualität
OGG, Opus	Streaming, Voice-Chat	Verlustbehaftet, sehr effizient	Variabel	Üblich auf Webplattformen
WebM Audio	Web-extrahiertes Audio	Verlustbehaftet	2-3 Stunden	Aus Videodateien
3GP	Ältere mobile Aufnahmen	Verlustbehaftet	1 Stunde	Vor dem Hochladen konvertieren, um beste Ergebnisse zu erzielen

Faustregel: Wenn die Datei von einem Telefon stammt, haben Sie M4A. Wenn sie von einer Podcast-DAW stammt, haben Sie wahrscheinlich WAV oder MP3. Wenn sie aus der Cloud-Aufzeichnung einer Meeting-Plattform stammt, haben Sie wahrscheinlich M4A (Zoom) oder extrahiertes Audio aus MP4 (Meet, Teams). All diese können direkt verwendet werden. Die Transkriptionspipeline normalisiert alles auf eine interne 16-kHz-Mono-PCM-Darstellung, bevor sie an das Sprachmodell weitergeleitet wird, sodass das Quellformat die resultierende Transkriptionsgenauigkeit nicht verändert (gemäß dem WER-Retest vom April 2026).

Nach dem Upload können Sie das Ergebnis in das Transkriptionstool zur Bearbeitung einleiten oder die Ausgabe an den KI-Videozusammenfasser übergeben, wenn Ihr Audio der Soundtrack einer aufgezeichneten Sitzung ist.

Wer nutzt einen Audio-Datei-Upload-Service?

Podcaster, die Aufnahmen verarbeiten. Eine fertige Podcast-Episode landet als Stereo-WAV oder MP3 auf einer Festplatte. Laden Sie sie in den Upload-Service hoch, um das Transkript für Shownotes, die Zusammenfassung für die Episodenbeschreibung und einen gehosteten Vorschaulink zu erhalten, bevor die Datei jemals Apple Podcasts oder Spotify erreicht.

Journalisten, die Interview-Audio hochladen. Reporter, die mit einem Aufnahmegerät aus einer Pressekonferenz kommen, können die M4A direkt vom Gerät hochladen und Zitate aus einem durchsuchbaren Transkript ziehen, während das Audio noch frisch ist. Sprecherkennzeichnungen und Zeitstempel bedeuten, dass ein 90-minütiges Interview in wenigen Minuten durchsuchbar wird.

Studenten, die Vorlesungsaufzeichnungen hochladen. Telefone, Diktiergeräte und Zoom-Aufnahmen erzeugen M4A- oder MP3-Dateien. Das Hochladen der Audiodatei erzeugt ein Transkript, das ein Student durchsuchen (“Wann hat der Dozent Enthalpie erwähnt?”), hervorheben und in Lernnotizen einfügen kann.

Transkriptionisten, die Dateien in eine Pipeline einspeisen. Freiberufliche Transkriptionisten und Agenturen nutzen den Online-MP3-Upload als Vorab-Durchgang: Der KI-Entwurf des Transkripts kommt in weniger als einer Minute an, und der menschliche Transkriptionist korrigiert eher, als dass er von Grund auf tippt. Die JSON-Ausgabe mit Zeitstempeln auf Wortebene passt in bestehende Editoren.

Accessibility-Teams, die Bildunterschriften aus reinen Audioquellen erstellen. Öffentliche Radiosender-Archive, mündliche Überlieferungen und Callcenter-Aufzeichnungen existieren oft nur als Audio. Der Upload-Service generiert SRT- und VTT-Dateien aus diesen reinen Audioquellen, sodass sie mit einer statischen Wellenform gepaart oder als Textalternative gemäß WCAG 1.2.1 veröffentlicht werden können.

Der Audio-Datei-Upload-Service verarbeitet auch Sprachmemos von Klinikern, Demo-Tracks von Musikern, die ein Label suchen, und Schulungs-Audio, für das Compliance-Teams eine Dokumentation benötigen.

FAQ

Wie lade ich eine Audiodatei hoch?

Ziehen Sie die Datei auf die Dropzone, klicken Sie auf die Dropzone, um eine Dateiauswahl zu öffnen, oder fügen Sie Audio aus der Zwischenablage ein. Der Audiodatei-Upload-Dienst akzeptiert MP3, WAV, M4A, AAC, OGG und FLAC. Dateien beginnen mit der Transkription, sobald der erste Teil eintrifft - Sie müssen nicht warten, bis der Upload abgeschlossen ist, bevor die Verarbeitung beginnt.

Ist der Upload-Audiodatei-Service kostenlos?

Die ersten 300 Minuten pro Monat sind kostenlos. Kostenlose Konten laden Dateien bis zu 100 MB hoch; kostenpflichtige Pläne erweitern dies auf 2 GB. Für die kostenlose Stufe ist keine Karte erforderlich.

Welche Audiodateiformate unterstützt der Upload-Service?

MP3 mit beliebiger Bitrate, WAV mit 16-Bit oder 24-Bit PCM, M4A (AAC in einem MP4-Container), rohes AAC, OGG (Vorbis oder Opus) und FLAC für verlustfreie Audioqualität. Wenn Ihre Datei in einem ungewöhnlichen Format vorliegt, lehnt der Dienst den Upload ab, anstatt ihn stillschweigend neu zu codieren.

Wie lade ich eine MP3-Datei online hoch, ohne mich anzumelden?

Öffnen Sie die Seite, legen Sie Ihre MP3-Datei in die Dropzone, und die Datei wird anonym hochgeladen und transkribiert. Sie benötigen nur ein Konto, wenn Sie die Datei behalten, sie mit einem permanenten Link teilen oder mehr als das Limit pro Sitzung verarbeiten möchten.

Wie groß darf eine hochgeladene Audiodatei sein?

100 MB in der kostenlosen Stufe, 2 GB in kostenpflichtigen Plänen. Eine Obergrenze von 2 GB entspricht ungefähr 30 Stunden Standard-MP3, drei Stunden 24-Bit-WAV oder acht Stunden FLAC.

Wie lange dauert die Verarbeitung nach Abschluss des Uploads?

Etwa eine Minute für eine einstündige Audiodatei. Die Transkription läuft parallel zum Upload, sodass die Echtzeit vom Klicken auf die Dropzone bis zum Lesen des Transkripts normalerweise unter zwei Minuten für eine typische Vorlesung oder einen Podcast liegt.

Sind hochgeladene Audiodateien privat?

Ja. Dateien sind standardmäßig privat. AES-256-Verschlüsselung gilt im Ruhezustand und während der Übertragung, Dateien werden bei Ankunft auf Malware gescannt, und Sie können pro Datei einen Kennwortschutz oder eine nicht gelistete/private Sichtbarkeit hinzufügen.

Kann ich mehrere Audiodateien auf einmal stapelweise hochladen?

Ja. Bezahlte Pläne akzeptieren bis zu 50 Audiodateien in einem einzigen Batch und verarbeiten sie parallel. Das Dashboard zeigt eine Fortschrittszeile pro Datei an, sodass Sie sehen können, welche Transkripte zuerst fertig sind.