リンク-MP3変換

リンクを貼り付けるだけでMP3を取得。YouTube、Vimeo、および直接動画URL用の無料のリンク to MP3コンバーター - またはオーディオファイルをアップロードして、共有可能なホスティングリンクを作成します。

771万人以上に愛されています

オーディオファイルをドラッグ＆ドロップまたはペーストしてください - MP3、WAV、M4A、AAC、OGG、またはFLAC、ファイルあたり最大2GBまで - すると、即座に文字起こし、AIによる要約、そして質問できるチャットボックスが得られます。アップロードはブラウザ内の単一のドロップゾーンを介して実行されます。処理はファイルがドロップされた瞬間から開始されます。出力には、タイムスタンプ付きの文字起こし（99言語に対応）、編集可能な要約、共有可能な再生リンク、およびオーディオコンテンツに基づいて学習されたAIチャットが含まれます。文字起こしのみが必要ですか？文字起こしツールをご覧ください。

アップロードは、GDPRに準拠したサーバー上でAES-256暗号化を介して実行されます。すべてのファイルはデフォルトでプライベートであり、オプションでパスワード保護と自動マルウェアスキャンが可能です。

オーディオファイルアップロードサービス - 入力と出力

オーディオファイルをアップロードすると、ストリーミングリンク、完全な文字起こし、AIが生成した要約、および録音に関する質問ができるプライベートチャットウィンドウ（「2番目のスピーカーは予算について何と言っていましたか？」など）の4つの成果物が返されます。

オーディオアップロードのフローの実行方法：

ファイルをドロップゾーンにドラッグするか、クリックして参照するか、クリップボードから貼り付けます
ファイルはオーディオファイルアップロードサービスにアップロードされ、同時に文字起こしが開始されます
文字起こし、要約、および共有可能なリンクがダッシュボードに表示されます。通常、1時間の録音で1分以内に表示されます

オーディオファイルアップロードサービスが受け入れる入力：

MP3（任意のビットレート）
WAV（PCM、16/24ビット）
M4A（MP4コンテナ内のAAC）
AAC（raw）
OGG（VorbisおよびOpus）
FLAC（ロスレス）
有料プランでは最大2GBのファイル、無料プランでは100MB

オーディオファイルアップロードサービスは、ストリーミング再生中にソースビットレートを保持し、文字起こし用に別のコピーをリサンプルします。どちらのパスも、アップロードしたオリジナルを上書きしません。

**MP3をオンラインで無料でアップロードしてください。**最初のファイルはカードもサインアップも不要です。オーディオファイルをページにドロップすると、数秒で文字起こしが表示されます。

オーディオファイルアップロード後に得られるもの

各アップロードは、後で戻ることができる単一の処理済みレコードを生成します。レコードには、元のファイル（ダウンロード可能）、スピーカーラベルとタイムスタンプ付きの文字起こし、再生成または編集できる要約、およびオーディオコンテンツに関連付けられたチャットスレッドの4つが一度に含まれています。

ホストされた再生リンクは副作用であり、見出しではありません。アカウントなしで携帯電話やデスクトップで動作しますが、オーディオアップロードサービスの主な価値は、オーディオが検索可能なテキストになり、チャットを通じてクエリ可能になり、TXT、SRT、VTT、DOCX、またはJSONとしてエクスポートできることです。

アップロードされたオーディオファイルから得られるもの：

タイムスタンプ付きの99言語での文字起こし
引用するタイムスタンプを指すAI要約
録音に関する質問に答えるチャット
スピーカーラベル（オーディオに複数のスピーカーがいる場合）
字幕用のSRTおよびVTT字幕ファイル
オプションのパスワード付きの共有可能な再生リンク
ファイルごとの分析：再生回数、地理的な場所、完了率

オーディオファイルアップロードサービスは、単一のドロップ、クリップボードからの貼り付け、または（有料プランでは最大50個までの）ファイルのバッチを処理します。代わりにソースビデオを渡す必要がある場合は、ビデオからリンクへのコンバーターがMP4/MOVをカバーし、ビデオからオーディオを抽出して、個別の処理のためにオーディオを取り出します。

オーディオファイルをアップロード

新しいオーディオを録音

オーディオアップロードがブラウザからトランスクリプトに変換される仕組み

MP3をページにドロップすると、次の3つのことが起こります。ブラウザがチャンクアップロードを開始し、バックエンドがトランスクリプションジョブを登録し、進行状況を監視できるようにプレースホルダーレコードが開きます。50 Mbpsの接続で1時間のMP3の場合、一般的なタイミングは、アップロードに10秒、トランスクリプションに60秒で、ほとんどが並行して実行されます。

オーディオファイルが通過するステップ：

ドロップゾーンがファイルを受け入れます（ドラッグ、クリックして参照、またはクリップボードに貼り付け）
バイトは、接続が切断された場合にレジュームをサポートする5MBのチャンクでストリーミングされます
トランスクリプションは最初のチャンクで開始され、最後のチャンクが到着した直後に終了します
トランスクリプト、要約、およびチャットはすべて同じレコードに添付されます

一括アップロードにより、有料ユーザーは最大50個のオーディオファイルをキューに入れることができます。キューはシリアルではなく、並行して処理されるため、20個の講義録音のフォルダーは、最も遅いものの時間がかかる程度で完了します。

アップロードごとに切り替えられる設定：

共有可能なリンクのバニティURL（有料）
再生ページのパスワードゲート
トランスクリプション言語（自動検出または99個から1つを選択）
スピーカーラベルのオン/オフ
公開、非公開、またはプライベートの可視性
ブログ投稿用の埋め込み可能なプレーヤースニペット

無料アカウントでは、各アップロードが100MBに制限されています。有料プランでは、上限が2GBに拡張され、優先トランスクリプションが有効になり、ファイルがキューの先頭に移動します。

今すぐオーディオファイルアップロードフローをお試しください。 最初のファイルでは、カードもサインアップも必要ありません。1つドロップしてください。

オーディオファイルをメールに添付する代わりにアップロードする理由

メールサーバーは25MBを超える添付ファイルを拒否し、多くの企業ゲートウェイは圧縮オーディオを完全にブロックします。オーディオアップロードサービスは、受信者が任意のブラウザから再生できるホストされたリンクと、聴く前に目を通すことができる文字起こしを提供します。メールの添付ファイルは、ダウンロードして保存し、別の何かで開く必要のあるアイコンを提供します。

優れた音声ファイルアップロードサービスと一般的なファイルホストの違いは何ですか？

優れた音声ファイルアップロードサービスは、一般的なホストが行わない3つのことを行います。それは、ファイルの文字起こし、トランスクリプトへの話者ラベル付け、そして音声コンテンツ全体を検索可能なチャットを提供することです。DropboxやGoogle Driveはファイルを保存しますが、音声アップロードサービスはファイルを、読んで、検索して、質問に答えられるテキストに変換します。

Audio File Upload Service Compared to Otter, Notta, Sonix, Trint, Descript

Spec	ScreenApp	Otter.ai	Notta	Sonix	Trint	Descript
Max file size	2GB paid, 100MB free	5GB (Business)	5GB (Pro)	4GB	4GB	5GB
Accepted formats	MP3, WAV, M4A, AAC, OGG, FLAC	MP3, WAV, M4A, AIFF	MP3, WAV, M4A, AAC, CAF	MP3, WAV, M4A, AAC, AIFF, FLAC	MP3, WAV, M4A, AIFF, OGG	MP3, WAV, M4A, AAC, FLAC
Processing time (1hr file)	~1 minute	5-10 minutes	5-8 minutes	5-10 minutes	~real-time	5-15 minutes
Free tier minutes	300 minutes/month	300 minutes/month	120 minutes/month	30 minutes one-time	None (trial only)	60 minutes/month
Output formats	TXT, SRT, VTT, DOCX, JSON, MP3 stream	TXT, DOCX, PDF, SRT	TXT, DOCX, SRT, PDF, XLSX	TXT, DOCX, SRT, VTT, JSON, PDF	TXT, DOCX, SRT, VTT, EDL	TXT, SRT, MP4, MP3
AI chat on the audio	Yes	Otter Chat (paid)	Notta Chat	No	No	No
Languages	99	English-only (paid: 3)	58	49	40+	22

Where each one fits:

vs Otter.ai: Otterはライブミーティングのキャプチャと英語での通話を中心に製品を構築しました。アップロードされた音声ファイルはキューの最後に変換され、Otter ChatはProプランの背後にゲートされています。ここのオーディオアップロードサービスは、アップロードされたファイルを第一級市民として扱い、99言語で無料層でAIチャットを提供します。
vs Notta: Nottaは同様の範囲のフォーマットを受け入れ、58の言語をリストしていますが、無料のアップロードはファイルあたり5分、月間120分の制限があります。ここの300分の無料枠は、制限に達する前に、より長いポッドキャストまたは2つの講義の録音をカバーします。
vs Sonix: Sonixは、定期的な無料枠なしで1時間あたり10ドルの従量課金制のトランスクリプトエンジンです - 1回30分利用できます。SonixにはAIチャットも組み込みの再生リンクもありません。ここのアップロードサービスは、チャット、概要、および同じアップロードからのホストされたリンクを返します。
vs Trint: TrintはEDLエクスポートと逐語モードでニュースルームのワークフローをターゲットにしていますが、無料枠はなく、価格は月額80ドルから始まります。デスクを運営するのではなく、時折インタビューオーディオをアップロードするジャーナリストにとって、ここでの1分あたりの経済性は著しく低くなっています。
vs Descript: Descriptはアップロードされたオーディオを、波形をスプライスするためにカットできる編集可能なトランスクリプトに変えます - 強力ですが、学習曲線は急です。ここのアップロードと処理の流れは、「ファイルをドロップし、トランスクリプトを読む」に近く、編集はオプションのままです。

Share Instant Links

Auto Transcription

音声ファイル形式ごとの処理時間

処理時間は、コーデック、長さ、およびファイルがモノラルかステレオかによって異なります。標準処理キューでの1時間の録音のおおよその数値：

形式	一般的なビットレート	アップロード時間 (50 Mbps)	文字起こし時間
MP3	128-320 kbps	5-15秒	45-70秒
WAV (PCM 16-bit)	~1411 kbps	60-90秒	45-70秒
M4A	96-256 kbps	5-15秒	45-70秒
AAC	96-256 kbps	5-15秒	45-70秒
OGG (Opus)	64-128 kbps	3-10秒	45-70秒
FLAC	~900 kbps (ロスレス)	40-60秒	45-70秒

2GBのWAVアップロード（上限）は、一般的な家庭用接続で数分かかります - 文字起こし自体はバイトが到着すると並行して実行されるため、トランスクリプトは通常、最後のバイトが着地してから1分以内に準備ができています。

ファイル形式決定マトリックス

上記の処理時間テーブルは、各形式のアップロードと文字起こしにかかる時間を示しています。下のマトリックスは、別の質問に答えています：そもそもどの形式を使用する必要がありますか？形式の選択は、何で録音したか、後でそのファイルをどうするかによって異なります。

形式	最適な用途	圧縮	最大推奨時間	注
MP3 (320 kbps)	一般的なオーディオ、ポッドキャスト	損失あり、高音質	最大4時間	普遍的にサポートされている
WAV	プロフェッショナルオーディオ、マスター	非圧縮	1〜2時間	ファイルサイズが大きい、最高音質
M4A, AAC	iPhoneのボイスメモ、最新のアプリ	損失あり、効率的	4時間以上	Appleデバイスでのデフォルト
FLAC	アーカイブ、オーディオファイル愛好家	ロスレス	4時間以上	WAVより小さい、同じ品質
OGG, Opus	ストリーミング、ボイスチャット	損失あり、非常に効率的	可変	Webプラットフォームで一般的
WebM audio	Web抽出オーディオ	損失あり	2〜3時間	ビデオファイルから
3GP	古いモバイル録音	損失あり	1時間	最良の結果を得るには、アップロードする前に変換してください

経験則：ファイルが携帯電話から来た場合、M4Aがあります。ポッドキャストDAWから来た場合、WAVまたはMP3がある可能性があります。会議プラットフォームのクラウド録画から来た場合、M4A（Zoom）またはMP4から抽出されたオーディオ（Meet、Teams）がある可能性があります。これらはすべて直接入力されます。文字起こしパイプラインは、音声モデルに渡す前に、すべてを16 kHzモノラルPCM内部表現に正規化するため、ソース形式は結果の文字起こしの精度を変更しません（2026年4月のWER再テストによる）。

アップロード後、結果を文字起こしツールにパイプして編集したり、オーディオが録音されたセッションのサウンドトラックである場合は、出力をAIビデオサマライザーに渡したりできます。

音声ファイルアップロードサービスを使用する人

録音を処理するポッドキャスター。 完成したポッドキャストのエピソードは、ステレオのWAVまたはMP3としてハードドライブに保存されます。アップロードサービスにドロップして、ショーノート用のトランスクリプト、エピソードの説明用の要約、およびファイルがApple PodcastsまたはSpotifyに到達する前にホストされたプレビューリンクを取得します。

インタビューの音声をアップロードするジャーナリスト。 記者会見からレコーダーを持ち帰る記者は、デバイスからM4Aを直接アップロードし、音声がまだ温かいうちに検索可能なトランスクリプトから引用を抽出できます。話者ラベルとタイムスタンプは、90分のインタビューが数分でスキャン可能になることを意味します。

講義の録音をアップロードする学生。 携帯電話、ボイスレコーダー、およびZoomの録音では、M4AまたはMP3ファイルが生成されます。音声ファイルをアップロードすると、学生が検索（「講師はいつエンタルピーについて言及しましたか？」）、強調表示し、学習ノートに貼り付けることができるトランスクリプトが生成されます。

パイプラインにファイルをフィードするトランスクリプション業者。 フリーランスのトランスクライバーと代理店は、アップロードMP3オンラインエンドポイントを事前パスとして使用します。AIドラフトトランスクリプトは1分以内に到着し、人間のトランスクライバーは最初から入力するのではなく修正します。単語レベルのタイムスタンプを含むJSON出力は、既存のエディターに組み込まれます。

音声のみのソースからキャプションを生成するアクセシビリティチーム。 公共ラジオのアーカイブ、口述歴史、およびコールセンターの録音は、音声としてのみ存在することがよくあります。アップロードサービスは、これらの音声のみのソースからSRTおよびVTTファイルを生成するため、静的な波形と組み合わせたり、WCAG 1.2.1の下でテキストの代替として公開したりできます。

音声ファイルアップロードサービスは、臨床医からのボイスメモ、レーベルを探しているミュージシャンからのデモトラック、コンプライアンスチームが証拠を必要とするトレーニングオーディオも処理します。

FAQ

How do I upload an audio file?

オーディオファイルをドロップゾーンにドラッグするか、ドロップゾーンをクリックしてファイルピッカーを開くか、クリップボードからオーディオを貼り付けます。オーディオファイルアップロードサービスは、MP3、WAV、M4A、AAC、OGG、FLACを受け入れます。ファイルは最初のチャンクが到着した瞬間から文字起こしを開始します。処理が開始される前にアップロードが完了するのを待つ必要はありません。

Is the upload audio file service free?

最初の300分/月は無料です。無料アカウントでは、最大100MBのファイルをアップロードできます。有料プランでは、これが2GBに拡張されます。無料の階層では、カードは必要ありません。

What audio file formats does the upload service support?

あらゆるビットレートのMP3、16ビットまたは24ビットPCMのWAV、M4A（MP4コンテナのAAC）、生のAAC、OGG（VorbisまたはOpus）、およびロスレスオーディオ用のFLAC。ファイルが通常とは異なる形式の場合、サービスはサイレントに再エンコードするのではなく、アップロードを拒否します。

ページを開き、MP3をドロップゾーンにドロップすると、ファイルが匿名でアップロードおよび文字起こしされます。ファイルを保持したり、永続的なリンクと共有したり、セッションごとの制限を超えて処理したりする場合にのみ、アカウントが必要です。