•
ニュース
Kotoba API & SDK Alpha 発表ー開発者向け Speech-to-Speech、Streaming STT、TTS

Kotoba Technologies は、Kotoba API および SDK のアルファ版を公開します。これにより、当社の最先端音声モデルを、開発者やエンタープライズ企業が評価用途で利用できるようになります。
今回のアルファ版では、米国および日本の大手企業に既に採用されている基盤モデル群へ、開発者が直接アクセスし、テスト・ベンチマーク・プロトタイピングを行うことが可能になります。
アルファ版には、次世代の音声プロダクトを支える3つのモデルファミリーが含まれています。
Speech-to-Speech Translation
会話のテンポを維持したまま行う、リアルタイム・エンドツーエンド音声翻訳Streaming Text-to-Speech (TTS)
エージェント型・会話型インターフェース向けに設計された、自然で表現力豊かな音声合成H100 上で 50ms 未満の低遅延を実現Streaming Speech-to-Text (STT)
音声エージェントやリアルタイム議事録向けの低遅延 ASR
対応言語の中核は、日本語、中国語、韓国語、英語、そしてスペイン語です。
アジアと南北アメリカを跨ぐビジネスで重要となる CJK + EN + ES をカバーしています。
ドキュメントは docs.kotoba.tech にて公開中です。
なぜ API を作ったのか
過去2年間、Kotoba のモデルは、当社の一般向け同時通訳アプリや、拡大を続けるエンタープライズ向けモデルライセンス事業を支えてきました。
音声プロダクトや AI エージェントを開発するチーム — コールセンター、車載アシスタント、会議ツール、ロボティクス、メディアローカライズなど から、私たちは一貫して同じ要望を受けてきました。
「アプリだけではなく、モデルエンドポイント自体を評価・導入したい」
今回のアルファ版は、その要望への回答です。
自社ワークロード上で Kotoba モデルを直接評価できるようになり、評価完了後には、本番ライセンス契約や専用 API キャパシティへの移行も可能になります。
Speech-to-Speech Translation: 東アジア言語で最高水準、そして人間通訳との差を縮小
私たちは、最新の Speech-to-Speech モデル(2026年4月版)を、プロ通訳者、2026年1月版の自社モデル、そして競合企業 O の翻訳 API と比較評価しました。
対象言語ペアは以下の3つです。
英語 → 日本語
日本語 → 英語
韓国語 → 日本語

Figure 1. Speech-to-speech translation quality (LLM-as-a-judge, higher is better) and latency (lower is better) across En→Ja, Ja→En, and Ko→Ja.
評価では、品質(LLM-as-a-judge、高いほど良い)と、遅延(低いほど良い)の両面を比較しました。
特に注目すべき点は2つあります。
品質面では、2026年4月版 Kotoba モデルは、
日本語 → 英語:0.40 vs 0.34
韓国語 → 日本語:0.35 vs 0.18
で company O を上回り、
英語 → 日本語:0.48 vs 0.47
では同等レベルを達成しました。
遅延面では、
英語 → 日本語:3.10秒 vs 4.90秒
韓国語 → 日本語:1.96秒 vs 5.06秒
と、大幅に高速です。
特に韓国語 → 日本語では、約2.6倍高速となり、この2言語ペアではプロ通訳者よりも速く、それでいて品質面でも人間通訳に迫っています。
CJK 中心のワークロードにおいて、Kotoba は現時点で company O より優れた品質・遅延バランスを提供しています。さらに、2026年1月版から4月版への進化を見る限り、その差は今後さらに広がっていくと考えています。
Japanese Agent TTS: 音声エージェント向け最高クラスの日本語 TTS
Kotoba の日本語 TTS を、4つの競合システムと比較し、
自然さ(Naturalness)
正確性(Correctness)
の両面で評価しました。
日本語 Agent TTS ベンチマーク(高いほど良い)
SYSTEM | MOS ↑ | CORRECTNESS ↑ |
|---|---|---|
Kotoba | 4.15 | 0.80 |
Company A | 4.12 | 0.73 |
Company B | 3.19 | 0.46 |
Company C | 2.08 | 0.14 |
Company D | 1.99 | 0.27 |
* MOS = Mean Opinion Score(1–5)、Correctness = エージェントタスク成功率(0–1)、競合名は匿名化
Kotoba は自然さ(MOS 4.15)でトップとなり、さらにエージェントタスクの正確性(0.80)でも、すべての競合を大きく上回りました。
特に重要なのは Correctness の差です。Company A は音質そのものでは近いスコア(MOS 4.12)ですが、タスク完遂能力では 7 ポイント低くなっています。
日本語音声エージェントを本番運用する開発者にとって、これは「デモ」と「実運用」の違いを意味します。
このアルファ版は誰向けか
本アルファ版は、以下のような本番ユースケースで Kotoba を評価したいチーム向けに公開されています。
Voice agents and conversational AI — フルデュプレックス対話向けに最適化された Streaming STT + TTS
Real-time translation — 会議、放送、コールセンター、ライブイベント
Kotoba のモデルは既に米国および日本の大手企業で利用されています。今回の Alpha API は、新しいチームが、自社データ上で同じ技術を迅速に評価するための最速ルートです。評価後には、モデルライセンスや本番 API 利用も可能になります。
オンプレミス・オンデバイス対応
ホスト型 API に加えて、Kotoba はオンプレミス環境へのデプロイもサポートしています。これは、データ所在、セキュリティ、コンプライアンス要件により、パブリッククラウド推論を利用できない企業向けです。特に、日本および米国の金融、医療、政府、大企業 IT 領域でニーズがあります。
また、一部モデルはオンデバイス形態でも提供可能であり、
モバイル
自動車
ロボティクス
エッジデバイス
など、低遅延・プライバシー・オフライン動作が重要な用途に対応しています。
オンプレミスまたはオンデバイス導入をご検討の場合は、評価時にご相談ください。
始めるには
Docs: docs.kotoba.tech
Evaluation access: お問い合わせいただき、Alpha 用認証情報およびライセンスをご相談ください
More from Kotoba: site.kotoba.tech
皆さまがどのようなものを作るのか、楽しみにしています。