Products

Company

News

Contact

Company

ビジョン

チーム

採用情報

投資家情報

News

Contact

同時通訳アプリ

モデルライセンス

Product

2026/05/28

•

ニュース

Kotoba API & SDK Alpha 発表ー開発者向け Speech-to-Speech、Streaming STT、TTS

Kotoba Technologies は、Kotoba API および SDK のアルファ版を公開します。これにより、当社の最先端音声モデルを、開発者やエンタープライズ企業が評価用途で利用できるようになります。

今回のアルファ版では、米国および日本の大手企業に既に採用されている基盤モデル群へ、開発者が直接アクセスし、テスト・ベンチマーク・プロトタイピングを行うことが可能になります。

アルファ版には、次世代の音声プロダクトを支える3つのモデルファミリーが含まれています。

Speech-to-Speech Translation
会話のテンポを維持したまま行う、リアルタイム・エンドツーエンド音声翻訳
Streaming Text-to-Speech (TTS)
エージェント型・会話型インターフェース向けに設計された、自然で表現力豊かな音声合成H100 上で 50ms 未満の低遅延を実現
Streaming Speech-to-Text (STT)
音声エージェントやリアルタイム議事録向けの低遅延 ASR

対応言語の中核は、日本語、中国語、韓国語、英語、そしてスペイン語です。
アジアと南北アメリカを跨ぐビジネスで重要となる CJK + EN + ES をカバーしています。

ドキュメントは docs.kotoba.tech にて公開中です。

なぜ API を作ったのか

過去2年間、Kotoba のモデルは、当社の一般向け同時通訳アプリや、拡大を続けるエンタープライズ向けモデルライセンス事業を支えてきました。

音声プロダクトや AI エージェントを開発するチーム — コールセンター、車載アシスタント、会議ツール、ロボティクス、メディアローカライズなどから、私たちは一貫して同じ要望を受けてきました。

「アプリだけではなく、モデルエンドポイント自体を評価・導入したい」

今回のアルファ版は、その要望への回答です。

自社ワークロード上で Kotoba モデルを直接評価できるようになり、評価完了後には、本番ライセンス契約や専用 API キャパシティへの移行も可能になります。

Speech-to-Speech Translation: 東アジア言語で最高水準、そして人間通訳との差を縮小

私たちは、最新の Speech-to-Speech モデル（2026年4月版）を、プロ通訳者、2026年1月版の自社モデル、そして競合企業 O の翻訳 API と比較評価しました。

対象言語ペアは以下の3つです。

英語 → 日本語
日本語 → 英語
韓国語 → 日本語

Figure 1. Speech-to-speech translation quality (LLM-as-a-judge, higher is better) and latency (lower is better) across En→Ja, Ja→En, and Ko→Ja.

評価では、品質（LLM-as-a-judge、高いほど良い）と、遅延（低いほど良い）の両面を比較しました。

特に注目すべき点は2つあります。

品質面では、2026年4月版 Kotoba モデルは、

日本語 → 英語：0.40 vs 0.34
韓国語 → 日本語：0.35 vs 0.18

で company O を上回り、

英語 → 日本語：0.48 vs 0.47

では同等レベルを達成しました。

遅延面では、

英語 → 日本語：3.10秒 vs 4.90秒
韓国語 → 日本語：1.96秒 vs 5.06秒

と、大幅に高速です。

特に韓国語 → 日本語では、約2.6倍高速となり、この2言語ペアではプロ通訳者よりも速く、それでいて品質面でも人間通訳に迫っています。

CJK 中心のワークロードにおいて、Kotoba は現時点で company O より優れた品質・遅延バランスを提供しています。さらに、2026年1月版から4月版への進化を見る限り、その差は今後さらに広がっていくと考えています。

Japanese Agent TTS: 音声エージェント向け最高クラスの日本語 TTS

Kotoba の日本語 TTS を、4つの競合システムと比較し、

自然さ（Naturalness）
正確性（Correctness）

の両面で評価しました。

日本語 Agent TTS ベンチマーク（高いほど良い）

SYSTEM	MOS ↑	CORRECTNESS ↑
Kotoba	4.15	0.80
Company A	4.12	0.73
Company B	3.19	0.46
Company C	2.08	0.14
Company D	1.99	0.27

* MOS = Mean Opinion Score（1–5）、Correctness = エージェントタスク成功率（0–1）、競合名は匿名化

Kotoba は自然さ（MOS 4.15）でトップとなり、さらにエージェントタスクの正確性（0.80）でも、すべての競合を大きく上回りました。

特に重要なのは Correctness の差です。Company A は音質そのものでは近いスコア（MOS 4.12）ですが、タスク完遂能力では 7 ポイント低くなっています。

日本語音声エージェントを本番運用する開発者にとって、これは「デモ」と「実運用」の違いを意味します。

このアルファ版は誰向けか

本アルファ版は、以下のような本番ユースケースで Kotoba を評価したいチーム向けに公開されています。

Voice agents and conversational AI — フルデュプレックス対話向けに最適化された Streaming STT + TTS
Real-time translation — 会議、放送、コールセンター、ライブイベント

Kotoba のモデルは既に米国および日本の大手企業で利用されています。今回の Alpha API は、新しいチームが、自社データ上で同じ技術を迅速に評価するための最速ルートです。評価後には、モデルライセンスや本番 API 利用も可能になります。

オンプレミス・オンデバイス対応

ホスト型 API に加えて、Kotoba はオンプレミス環境へのデプロイもサポートしています。これは、データ所在、セキュリティ、コンプライアンス要件により、パブリッククラウド推論を利用できない企業向けです。特に、日本および米国の金融、医療、政府、大企業 IT 領域でニーズがあります。

また、一部モデルはオンデバイス形態でも提供可能であり、

モバイル
自動車
ロボティクス
エッジデバイス

など、低遅延・プライバシー・オフライン動作が重要な用途に対応しています。

オンプレミスまたはオンデバイス導入をご検討の場合は、評価時にご相談ください。

始めるには

Docs: docs.kotoba.tech
Evaluation access: お問い合わせいただき、Alpha 用認証情報およびライセンスをご相談ください
More from Kotoba: site.kotoba.tech

皆さまがどのようなものを作るのか、楽しみにしています。

メールマガジンに登録

新機能・モデルの公開・製品ニュースなど、Kotobaの最新情報をいち早くお届けします。

メールマガジンに登録

新機能・モデルの公開・製品ニュースなど、Kotobaの最新情報をいち早くお届けします。

メールマガジンに登録

新機能・モデルの公開・製品ニュースなど、Kotobaの最新情報をいち早くお届けします。

メールマガジンに登録

新機能・モデルの公開・製品ニュースなど、Kotobaの最新情報をいち早くお届けします。

Select Language

Japanese

Select Language

Japanese

Select Language

Japanese

利用規約

プライバシーポリシー

Kotoba API & SDK Alpha 発表ー開発者向け Speech-to-Speech、Streaming STT、TTS

なぜ API を作ったのか

Speech-to-Speech Translation: 東アジア言語で最高水準、そして人間通訳との差を縮小

Figure 1. Speech-to-speech translation quality (LLM-as-a-judge, higher is better) and latency (lower is better) across En→Ja, Ja→En, and Ko→Ja.

Japanese Agent TTS: 音声エージェント向け最高クラスの日本語 TTS

* MOS = Mean Opinion Score（1–5）、Correctness = エージェントタスク成功率（0–1）、競合名は匿名化

このアルファ版は誰向けか

オンプレミス・オンデバイス対応

始めるには

メールマガジンに登録

メールマガジンに登録

メールマガジンに登録

メールマガジンに登録

Products

Company

Connect