2025年1月、ElevenLabsは1億8,000万ドルの資金調達を完了した。バリュエーションは33億ドル(約4,900億円)。創業からわずか2年のAI音声スタートアップが、HarperCollinsやWashington Postなどの大手メディア企業のコンテンツ制作インフラになっていた。従業員数は200名以下。マーケティングチームも、大規模な広告費もなかった。
では、なぜこうなれたのか。
2年間で起きたこと
ElevenLabsは2023年1月、ポーランド出身のピョートル・ダブコフスキとマティ・スタニシェフスキによって創業された。ふたりともGoogle・DeepMindで機械学習の経験を持つエンジニアだ。最初のプロダクトは、テキストを入力すると人間に近い自然さで音声を生成する「テキスト読み上げAPI」。ベータ版の公開直後から、開発者コミュニティでの口コミが広がった。
爆発的な拡散の起点になったのは「音声クローン」機能だ。15秒ほどの音声サンプルを与えると、そのまま本人の声を再現できる。この機能のデモ動画がXで急速に広まり、数週間で数十万回再生される投稿が相次いだ。ユーザーが勝手に宣伝してくれる形ができ上がった。
2024年1月、シリーズBで8,000万ドルを調達。バリュエーションは11億ドルでユニコーンの仲間入りをした。そして1年後の2025年1月、シリーズCで1億8,000万ドルを調達し、バリュエーションは33億ドルへ。ユーザー数は100万人を超え、対応言語は100以上。ARRは約1億ドルに達したとされる。
開発者を先に制した理由
ElevenLabsはプロダクトの設計段階からAPI-firstを選んだ。無料枠(月1万文字)を設け、ドキュメントを整備し、数時間で自分のアプリに音声機能を組み込める状態を作った。開発者が最初の顧客だった。
開発者を先に獲得することの意味は、プロダクトの評価者を増やすことではない。普及の媒介者を増やすことだ。開発者がElevenLabsのAPIを使ってアプリを作ると、そのアプリのエンドユーザーがElevenLabsの音声に触れる。クリエイターが動画に使えば、視聴者が声を聞く。ゲームスタジオが組み込めば、プレイヤーがキャラクターの声で体験する。一件のAPI契約が、数千のエンドユーザーへのリーチになった。
この構造の強さは、製品が売れるほど普及が加速する点にある。開発者が増えるほど組み込まれるアプリが増え、エンドユーザーが増えるほど「ElevenLabsの声」への認知が広まる。広告なしに、プロダクト自体がメディアになる。
「15秒で本人の声」が生んだ口コミの連鎖
音声クローン機能は技術的な優位性だが、ElevenLabsが本当に設計したのは「驚き体験」だった。15秒のサンプルで本人の声が再現できる、という体験は、説明するより試したほうが早い。そして試した人は黙っていられない。
Xで「自分の声でナレーションを作ってみた」「著名人の声でテキストを読ませてみた」という投稿が次々と生まれ、ElevenLabsというブランドが製品の説明なしで広まった。マーケティング費用をかけずに信頼を積み上げる仕組みが、製品そのものに内包されていた。
エンタープライズへの信頼形成もここから始まった。メディア企業の担当者がXでデモ動画を見て、自社でトライアルし、コスト試算をして、本格導入に至る。HarperCollinsがオーディオブック制作に使い、Washington Postがポッドキャスト制作に活用した背景には、「すでに誰かが使っている」という信頼の蓄積がある。声の品質を数字で説明されても伝わらないが、実際の音声を聞けば5秒で判断できる。この「耳で聞いて分かる」という性質が、デモ動画との相性を抜群にした。
個人→チーム→企業への自然な波及
ElevenLabsのプライシングは4段階構造だ。無料→クリエイター(月22ドル)→プロ(月99ドル)→エンタープライズ(カスタム)。個人ユーザーが無料枠で試し、本格的に使い始めると有料プランへ。チームで使いたくなると複数シートの契約になり、最終的に企業の基幹ツールになる。
この流れは設計されたものだ。個人クリエイターを最初のユーザーにすることで、製品への習熟度が高い人材が企業の中に入ってくる。「このツール、会社でも使えないか」という声が内側から上がる。ボトムアップ型のSaaS採用で、外部からの営業がなくても企業契約が発生し続ける。
Paradox Interactive(スウェーデンのゲームスタジオ)が複数タイトルのキャラクターボイスにElevenLabsを採用したのも、最初は個人の開発者が試したところから始まったとされる。ひとりの試用が、スタジオ全体への採用に変わった。
この成長の本質にあるもの
ElevenLabsが証明したのは、「最初から企業を狙わない」ことが最終的に企業を取る近道になり得るということだ。開発者とクリエイターという「作る側」の人間を起点に置くと、製品は無数のエンドユーザーへ届く媒介になる。信頼が口コミになり、口コミがセールスになり、セールスが不要になる。
核心は「驚き体験」の設計だ。機能の多さや精度の数値ではなく、初めて触れた人が思わず誰かに見せたくなる瞬間を作れているかどうか。その体験がなければ、いくらAPIを整備しても口コミは生まれない。ElevenLabsは音声という「耳で聞いて5秒で分かる」性質の製品を選んだ時点で、この勝ち筋を掴んでいた。
自分のプロダクトに当てはめるなら
ElevenLabsの構造を参照するなら、まず問うべきことが三つある。
「試して5分以内に驚かせられるか」。これが出発点になる。機能説明ページを整備する前に、デモ動画を1本作れるかどうかを確かめる。作れないなら、製品の体験設計から見直す必要がある。
「開発者が今日試せる状態になっているか」。無料枠とドキュメントの整備はコストではなく戦略の核心だ。開発者が自分のアプリに組み込んだ瞬間、製品の普及が始まる。APIキーの発行から最初の動作確認まで、30分以内に完了できるかどうかを自分で試してみる。
「個人ユーザーがチームを巻き込む理由が設計されているか」。ひとりで使っていたツールをチームに紹介したくなる状況はどんな時か。コラボレーション機能か、成果の共有のしやすさか、チームプランの価格設計か。この動線が自然でなければ、個人止まりで終わる。
最初の一歩は単純だ。自社プロダクトのAPIドキュメントを開き、初めて読んだ人が30分以内に動くものを作れるかどうかを確かめる。作れないなら、そこから手をつける。
ElevenLabsはAI音声の会社だが、成長の仕組みはAIに依存していない。開発者を信頼し、体験で驚かせ、下から積み上げる。この三層構造は、音声以外の領域でも同じように機能する。
AI編集部コメント
API-firstという言葉自体は今や珍しくないが、ElevenLabsで面白いのは「開発者が普及の媒介者になる」という発想の徹底ぶりだ。製品を売るのではなく、製品が自分で広がる仕組みを作ることに全力を注いでいる。
調べていて印象的だったのは、創業者ふたりともポーランド出身で、英語ネイティブではないこと。100言語対応への異様な執着と、声の自然さへのこだわりは、母語でない言語を使い続けてきた体験から来ているのかもしれない。
日本語対応の質も年々上がっている。音声AIの本番活用がまだ珍しい日本市場では、早めに手を動かしておく価値がある。