ElevenLabs API エンジニア向け完全ガイド 2026 — Python実装から商用利用・料金の実態まで

Home / Blog / ElevenLabs API エンジニア向け完全ガイド 2026 — Python実装から商用利用・料金の実態まで

ElevenLabs APIのPython/JS実装コード例・音声クローニング・ストリーミング・Claude Code連携スキル・料金プラン（Free〜$990）・商用ライセンスの実態を2026年最新情報で解説。エンジニアが使う前に知っておくべきことを全部まとめた。

※ 本記事にはプロモーションが含まれています。記事内リンクから申し込みがあった場合、筆者に紹介報酬が発生します。内容は独自調査に基づいており、報酬によって評価が変わることはありません。 #PR

エンジニアのゆとです。

「音声合成ツール」と聞くと昔の棒読みTTSを想像しがちだけど、ElevenLabs のアウトプットを初めて聞いた時は正直驚いた。感情の抑揚・息継ぎ・わずかなためらい——テキストを読み上げているというより、本物の人間が話しているとしか聞こえないものが生成される。

API で使えて Python の公式 SDK があるので、エンジニアが自分のアプリやパイプラインに組み込むのは難しくない。

今回は「エンジニアが実際に使う」という観点で、Python 実装コード・料金の実態・商用ライセンスの条件・Claude Code 連携まで整理した。

ElevenLabs の基本情報

ElevenLabs 概要

サービス開始: 2022年（本社: アメリカ・ニューヨーク）

対応言語: TTS 70言語以上 / STT 90言語以上

音声数: ライブラリに10,000以上の既製音声

料金: Free（$0）〜 Business（$990/月）、Enterprise はカスタム

API: Python / JavaScript 公式 SDK あり

商用利用: Starter プラン以上で商用ライセンス含む

ElevenLabs の API は以下の7機能を提供している。

テキスト読み上げ（TTS）— メインの機能
音声文字起こし（STT）— Whisper 競合
ボイスクローニング — 数分の音声サンプルから自分の声をクローン
吹き替え — 動画の音声を別言語に置き換え
音楽生成 — インストゥルメンタル・歌詞付き
サウンドエフェクト — テキストから効果音を生成
ボイスエージェント — 会話型 AI 音声エージェントの構築基盤

エンジニアが一番使うのは TTS・STT・ボイスクローニングの3つだと思う。

料金プランと実際のコスト

プラン一覧（2026年6月時点）

プラン	月額	クレジット（文字数）	商用利用
Free	$0	10,000文字/月	なし
Starter	$6	30,000文字/月	あり
Creator	$11（初月50%割引）	121,000文字/月	あり
Pro	$99	600,000文字/月	あり
Scale	$299	1,800,000文字/月	あり
Business	$990	6,000,000文字/月	あり
Enterprise	カスタム	カスタム	あり

「クレジット＝文字数」という課金設計で、1文字 = 1クレジット（一部モデルは0.5〜1クレジット）。未使用クレジットは最大2ヶ月繰り越せる。

実際にどのくらいのテキストか

「文字数で言われてもピンとこない」という人向けに換算するとこうなる。

10,000文字（Free）: 400字詰め原稿用紙25枚分くらい。ちょっとした実験やデモなら十分
30,000文字（Starter $6）: 雑誌1冊分くらい。小規模なコンテンツ自動化なら月6ドルで回せる
121,000文字（Creator $11）: ラジオ番組数時間分くらい
600,000文字（Pro $99）: 文庫本3〜4冊分くらい。本格的なコンテンツ量産パイプラインで使う規模

API で音声生成するサービスを作る場合、「月間どのくらいのテキスト量を処理するか」を先に見積もってからプランを選ぶ方がいい。

商用利用の条件

Free プランは商用利用不可。Starter（$6）以上で商用ライセンスが含まれる。

ただし例外がある。音楽生成は「広告・映画・テレビ・ゲーム・企業配布目的」での商用利用には追加ライセンスが必要。TTS・STT は Starter 以上なら商用 OK。

クライアント向け開発で使う場合は、少なくとも Starter プランが必要になる。

Python での実装

セットアップ

pip install elevenlabs

環境変数に API キーをセットする。ElevenLabs ダッシュボード（elevenlabs.io）でキーを発行できる。

export ELEVENLABS_API_KEY="your_api_key_here"

または Python コード内で直接指定する場合は .env ファイルと python-dotenv を使うのが定番。

基本的な TTS（テキスト→音声）

公式 SDK のサンプルをそのまま引用する。

from dotenv import load_dotenv
from elevenlabs.client import ElevenLabs
from elevenlabs.play import play

load_dotenv()

client = ElevenLabs()

audio = client.text_to_speech.convert(
    text="こんにちは。ElevenLabsのAPIテストです。",
    voice_id="JBFqnCBsd6RMkjVDRZzb",  # Adam（英語）
    model_id="eleven_multilingual_v2",   # 多言語モデル
    output_format="mp3_44100_128",
)

play(audio)

日本語で使う場合は model_id に eleven_multilingual_v2 を指定する。英語専用の eleven_monolingual_v1 では日本語の品質が落ちる。

音声 ID（voice_id）はライブラリにある既製音声の ID か、自分でクローンした音声の ID を指定する。

ストリーミング（リアルタイム生成）

長いテキストをリアルタイムで再生したい場合はストリーミングを使う。

from elevenlabs import stream
from elevenlabs.client import ElevenLabs

client = ElevenLabs(api_key="YOUR_API_KEY")

audio_stream = client.text_to_speech.stream(
    text="長文テキストをストリーミングで再生します。途中から音声が流れ始めます。",
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2"
)

stream(audio_stream)

ストリーミングは「テキスト全体の生成が完了してから再生」ではなく、「生成しながらリアルタイムで再生」するので、長い音声の体感レイテンシが大幅に下がる。

ボイスクローニング（IVC: Instant Voice Cloning）

自分の声（または別の音声）をクローンして API で使える。

voice = client.voices.ivc.create(
    name="MyClonedVoice",
    description="カスタムクローン音声",
    files=[
        "./sample_1.mp3",
        "./sample_2.mp3",
        "./sample_3.mp3",
    ],
)

print(f"作成した音声 ID: {voice.voice_id}")

音声サンプルは3〜5ファイルを1〜5分程度の長さで用意するのが推奨。ノイズが少なくクリアな録音の方が精度が上がる。

Creator プラン以上でプロフェッショナルクローニングが使えて、さらに精度が高くなる。

ファイルへの保存

再生ではなく mp3/wav ファイルとして保存したい場合は以下のように書く。

audio = client.text_to_speech.convert(
    text="音声をファイルに保存します。",
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    output_format="mp3_44100_128",
)

with open("output.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)

Claude Code との連携

ElevenLabs は Claude Code 向けの公式スキルを公開している。npx skills add で導入できて、Claude Code から直接音声生成を呼び出せる。

npx skills add elevenlabs/skills

導入後は Claude Code のセッション内で ElevenLabs のAPIを直接呼び出せるようになる。コーディング中に「このテキストを音声に変換して」と Claude に頼むと、実際に音声ファイルが生成される。

利用可能なスキルは TTS・STT・音楽生成・効果音・会話エージェント・ノイズ除去・API 設定の7つ。

実際のユースケース

コンテンツ自動化パイプライン

ブログ記事を定期的に音声化して Podcast に変換するパイプライン。記事 → ElevenLabs TTS → mp3 → Anchor/Spotify へ。

Python スクリプトで自動化すると、記事更新のたびに手動で音声化する手間がなくなる。僕の場合、note の記事を音声版として配信するのに使えないか実験中だ（クレジット消費の計算がまだ合っていない）。

多言語対応動画の吹き替え

日本語で作ったデモ動画を英語に吹き替えて海外向けに展開する。ElevenLabs の Dubbing API は動画ファイルを受け取って音声だけを別言語に置き換えてくれる。

音声エージェントの構築

ElevenLabs の Conversational AI は LLM（GPT-4、Claude、Gemini から選択可能）と ElevenLabs の TTS を組み合わせた音声エージェントを構築できる基盤だ。ウェブアプリや電話の自動応答システムを作る場合に使える。レイテンシが低く、リアルタイムの音声会話が実現できる。

アクセシビリティ機能の追加

Webアプリや SaaS 製品に「読み上げ機能」を追加する場合。テキストエリアの内容を音声で読み上げる機能を API 経由で実装できる。

他の TTS サービスとの比較

サービス	特徴	価格感
ElevenLabs	音質最高水準、感情表現が豊か	$6〜（Starter）
Google Cloud TTS	安定・安価、WaveNet 高品質	100万文字$4〜
Amazon Polly	AWS 連携が簡単	100万文字$4〜
OpenAI TTS	GPT との相性がいい	100万文字$15
Azure Cognitive Services	Microsoft エコシステム	50万文字$16〜