ElevenLabs API エンジニア向け完全ガイド 2026 — Python実装から商用利用・料金の実態まで
ElevenLabs APIのPython/JS実装コード例・音声クローニング・ストリーミング・Claude Code連携スキル・料金プラン(Free〜$990)・商用ライセンスの実態を2026年最新情報で解説。エンジニアが使う前に知っておくべきことを全部まとめた。
※ 本記事にはプロモーションが含まれています。記事内リンクから申し込みがあった場合、筆者に紹介報酬が発生します。内容は独自調査に基づいており、報酬によって評価が変わることはありません。 #PR
エンジニアのゆとです。
「音声合成ツール」と聞くと昔の棒読みTTSを想像しがちだけど、ElevenLabs のアウトプットを初めて聞いた時は正直驚いた。感情の抑揚・息継ぎ・わずかなためらい——テキストを読み上げているというより、本物の人間が話しているとしか聞こえないものが生成される。
API で使えて Python の公式 SDK があるので、エンジニアが自分のアプリやパイプラインに組み込むのは難しくない。
今回は「エンジニアが実際に使う」という観点で、Python 実装コード・料金の実態・商用ライセンスの条件・Claude Code 連携まで整理した。
ElevenLabs の基本情報
サービス開始: 2022年(本社: アメリカ・ニューヨーク)
対応言語: TTS 70言語以上 / STT 90言語以上
音声数: ライブラリに10,000以上の既製音声
料金: Free($0)〜 Business($990/月)、Enterprise はカスタム
API: Python / JavaScript 公式 SDK あり
商用利用: Starter プラン以上で商用ライセンス含む
ElevenLabs の API は以下の7機能を提供している。
- テキスト読み上げ(TTS)— メインの機能
- 音声文字起こし(STT)— Whisper 競合
- ボイスクローニング — 数分の音声サンプルから自分の声をクローン
- 吹き替え — 動画の音声を別言語に置き換え
- 音楽生成 — インストゥルメンタル・歌詞付き
- サウンドエフェクト — テキストから効果音を生成
- ボイスエージェント — 会話型 AI 音声エージェントの構築基盤
エンジニアが一番使うのは TTS・STT・ボイスクローニングの3つだと思う。
料金プランと実際のコスト
プラン一覧(2026年6月時点)
| プラン | 月額 | クレジット(文字数) | 商用利用 |
|---|---|---|---|
| Free | $0 | 10,000文字/月 | なし |
| Starter | $6 | 30,000文字/月 | あり |
| Creator | $11(初月50%割引) | 121,000文字/月 | あり |
| Pro | $99 | 600,000文字/月 | あり |
| Scale | $299 | 1,800,000文字/月 | あり |
| Business | $990 | 6,000,000文字/月 | あり |
| Enterprise | カスタム | カスタム | あり |
「クレジット=文字数」という課金設計で、1文字 = 1クレジット(一部モデルは0.5〜1クレジット)。未使用クレジットは最大2ヶ月繰り越せる。
実際にどのくらいのテキストか
「文字数で言われてもピンとこない」という人向けに換算するとこうなる。
- 10,000文字(Free): 400字詰め原稿用紙25枚分くらい。ちょっとした実験やデモなら十分
- 30,000文字(Starter $6): 雑誌1冊分くらい。小規模なコンテンツ自動化なら月6ドルで回せる
- 121,000文字(Creator $11): ラジオ番組数時間分くらい
- 600,000文字(Pro $99): 文庫本3〜4冊分くらい。本格的なコンテンツ量産パイプラインで使う規模
API で音声生成するサービスを作る場合、「月間どのくらいのテキスト量を処理するか」を先に見積もってからプランを選ぶ方がいい。
商用利用の条件
Free プランは商用利用不可。Starter($6)以上で商用ライセンスが含まれる。
ただし例外がある。音楽生成は「広告・映画・テレビ・ゲーム・企業配布目的」での商用利用には追加ライセンスが必要。TTS・STT は Starter 以上なら商用 OK。
クライアント向け開発で使う場合は、少なくとも Starter プランが必要になる。
Python での実装
セットアップ
pip install elevenlabs
環境変数に API キーをセットする。ElevenLabs ダッシュボード(elevenlabs.io)でキーを発行できる。
export ELEVENLABS_API_KEY="your_api_key_here"
または Python コード内で直接指定する場合は .env ファイルと python-dotenv を使うのが定番。
基本的な TTS(テキスト→音声)
公式 SDK のサンプルをそのまま引用する。
from dotenv import load_dotenv
from elevenlabs.client import ElevenLabs
from elevenlabs.play import play
load_dotenv()
client = ElevenLabs()
audio = client.text_to_speech.convert(
text="こんにちは。ElevenLabsのAPIテストです。",
voice_id="JBFqnCBsd6RMkjVDRZzb", # Adam(英語)
model_id="eleven_multilingual_v2", # 多言語モデル
output_format="mp3_44100_128",
)
play(audio)
日本語で使う場合は model_id に eleven_multilingual_v2 を指定する。英語専用の eleven_monolingual_v1 では日本語の品質が落ちる。
音声 ID(voice_id)はライブラリにある既製音声の ID か、自分でクローンした音声の ID を指定する。
ストリーミング(リアルタイム生成)
長いテキストをリアルタイムで再生したい場合はストリーミングを使う。
from elevenlabs import stream
from elevenlabs.client import ElevenLabs
client = ElevenLabs(api_key="YOUR_API_KEY")
audio_stream = client.text_to_speech.stream(
text="長文テキストをストリーミングで再生します。途中から音声が流れ始めます。",
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2"
)
stream(audio_stream)
ストリーミングは「テキスト全体の生成が完了してから再生」ではなく、「生成しながらリアルタイムで再生」するので、長い音声の体感レイテンシが大幅に下がる。
ボイスクローニング(IVC: Instant Voice Cloning)
自分の声(または別の音声)をクローンして API で使える。
voice = client.voices.ivc.create(
name="MyClonedVoice",
description="カスタムクローン音声",
files=[
"./sample_1.mp3",
"./sample_2.mp3",
"./sample_3.mp3",
],
)
print(f"作成した音声 ID: {voice.voice_id}")
音声サンプルは3〜5ファイルを1〜5分程度の長さで用意するのが推奨。ノイズが少なくクリアな録音の方が精度が上がる。
Creator プラン以上でプロフェッショナルクローニングが使えて、さらに精度が高くなる。
ファイルへの保存
再生ではなく mp3/wav ファイルとして保存したい場合は以下のように書く。
audio = client.text_to_speech.convert(
text="音声をファイルに保存します。",
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
output_format="mp3_44100_128",
)
with open("output.mp3", "wb") as f:
for chunk in audio:
f.write(chunk)
Claude Code との連携
ElevenLabs は Claude Code 向けの公式スキルを公開している。npx skills add で導入できて、Claude Code から直接音声生成を呼び出せる。
npx skills add elevenlabs/skills
導入後は Claude Code のセッション内で ElevenLabs のAPIを直接呼び出せるようになる。コーディング中に「このテキストを音声に変換して」と Claude に頼むと、実際に音声ファイルが生成される。
利用可能なスキルは TTS・STT・音楽生成・効果音・会話エージェント・ノイズ除去・API 設定の7つ。
実際のユースケース
コンテンツ自動化パイプライン
ブログ記事を定期的に音声化して Podcast に変換するパイプライン。記事 → ElevenLabs TTS → mp3 → Anchor/Spotify へ。
Python スクリプトで自動化すると、記事更新のたびに手動で音声化する手間がなくなる。僕の場合、note の記事を音声版として配信するのに使えないか実験中だ(クレジット消費の計算がまだ合っていない)。
多言語対応動画の吹き替え
日本語で作ったデモ動画を英語に吹き替えて海外向けに展開する。ElevenLabs の Dubbing API は動画ファイルを受け取って音声だけを別言語に置き換えてくれる。
音声エージェントの構築
ElevenLabs の Conversational AI は LLM(GPT-4、Claude、Gemini から選択可能)と ElevenLabs の TTS を組み合わせた音声エージェントを構築できる基盤だ。ウェブアプリや電話の自動応答システムを作る場合に使える。レイテンシが低く、リアルタイムの音声会話が実現できる。
アクセシビリティ機能の追加
Webアプリや SaaS 製品に「読み上げ機能」を追加する場合。テキストエリアの内容を音声で読み上げる機能を API 経由で実装できる。
他の TTS サービスとの比較
| サービス | 特徴 | 価格感 |
|---|---|---|
| ElevenLabs | 音質最高水準、感情表現が豊か | $6〜(Starter) |
| Google Cloud TTS | 安定・安価、WaveNet 高品質 | 100万文字$4〜 |
| Amazon Polly | AWS 連携が簡単 | 100万文字$4〜 |
| OpenAI TTS | GPT との相性がいい | 100万文字$15 |
| Azure Cognitive Services | Microsoft エコシステム | 50万文字$16〜 |
音質で選ぶなら ElevenLabs。コストで選ぶなら Google/Amazon Polly。既に AWS や Azure を使っているなら同一ベンダーの方が管理が楽。
ElevenLabs の差は特に「感情表現」と「不自然さのなさ」にある。「AIっぽさ」を感じさせたくない音声が必要なら ElevenLabs が一番強い。
向いているケース・向いていないケース
向いているケース
- 高品質な音声が必要なコンテンツ(Podcast・動画ナレーション・製品デモ)
- 多言語コンテンツの音声化
- カスタム音声(ブランドボイス)を作りたい
- Claude Code と組み合わせた音声生成ワークフローを組みたい
向いていないケース
- 大量のテキストを安価に音声化したい(Google/Amazon Polly の方がコスパが高い)
- 音質へのこだわりが低くコストを最優先したい
- リアルタイム応答の低遅延が最重要(より低遅延特化のサービスがある)
まとめ
ElevenLabs API は「エンジニアが使いやすい Python SDK があって、商用利用は Starter $6 から可能で、音質は現状の TTS の中で最高水準」というポジションだ。
Starter プランで月30,000文字。小規模なコンテンツ自動化なら月6ドルで始められる。大量処理が必要になったら Pro ($99) や Scale ($299) にスケールアップする形で、使用量に応じた段階的な利用が現実的だ。
Claude Code との公式スキル連携は実際に便利で、音声生成を含むワークフローをコーディングしながら素早く試せる。
まずは Free プランで API のレスポンスと音質を確認してから、商用利用の要件が出てきたら Starter 以上にアップグレードするのが良い判断だと思う。
FAQ
Q. 無料プランで API は使えますか?
使えます。ただし月10,000文字の制限があり、商用利用は不可。開発・テスト用途に使って、本番環境には Starter 以上を使う形が一般的です。
Q. 日本語の音質は?
eleven_multilingual_v2 モデルで日本語は十分に自然な音声が生成されます。ただし日本語専用モデルではないので、長文や特定のイントネーションで不自然さが出ることも。重要な用途では実際にサンプルを生成して確認することを推奨します。
Q. 生成した音声の著作権は?
Starter 以上のプランで商用利用が許可されており、生成した音声の権利はユーザーに帰属します。音楽生成は広告・映画・テレビ・ゲーム目的に追加ライセンスが必要な点に注意。
Q. API キーが漏洩した場合は?
ElevenLabs ダッシュボードからキーを即座に無効化・再発行できます。.env ファイルに保存して python-dotenv で読み込む実装、GitHub にはプッシュしない、Claude Code で使う場合は 1Password MCP でシークレット管理を使うのが安全です。



