ニュース

Kotoba API & SDK Alpha 発表ー開発者向け Speech-to-Speech、Streaming STT、TTS

Kotoba Technologies は、Kotoba API および SDK のアルファ版を公開します。これにより、当社の最先端音声モデルを、開発者やエンタープライズ企業が評価用途で利用できるようになります。

今回のアルファ版では、米国および日本の大手企業に既に採用されている基盤モデル群へ、開発者が直接アクセスし、テスト・ベンチマーク・プロトタイピングを行うことが可能になります。

アルファ版には、次世代の音声プロダクトを支える3つのモデルファミリーが含まれています。

  • Speech-to-Speech Translation
    会話のテンポを維持したまま行う、リアルタイム・エンドツーエンド音声翻訳

  • Streaming Text-to-Speech (TTS)
    エージェント型・会話型インターフェース向けに設計された、自然で表現力豊かな音声合成H100 上で 50ms 未満の低遅延を実現

  • Streaming Speech-to-Text (STT)
    音声エージェントやリアルタイム議事録向けの低遅延 ASR

対応言語の中核は、日本語、中国語、韓国語、英語、そしてスペイン語です。
アジアと南北アメリカを跨ぐビジネスで重要となる CJK + EN + ES をカバーしています。

ドキュメントは docs.kotoba.tech にて公開中です。

なぜ API を作ったのか

過去2年間、Kotoba のモデルは、当社の一般向け同時通訳アプリや、拡大を続けるエンタープライズ向けモデルライセンス事業を支えてきました。

音声プロダクトや AI エージェントを開発するチーム — コールセンター、車載アシスタント、会議ツール、ロボティクス、メディアローカライズなど から、私たちは一貫して同じ要望を受けてきました。

「アプリだけではなく、モデルエンドポイント自体を評価・導入したい」

今回のアルファ版は、その要望への回答です。

自社ワークロード上で Kotoba モデルを直接評価できるようになり、評価完了後には、本番ライセンス契約や専用 API キャパシティへの移行も可能になります。

Speech-to-Speech Translation: 東アジア言語で最高水準、そして人間通訳との差を縮小

私たちは、最新の Speech-to-Speech モデル(2026年4月版)を、プロ通訳者、2026年1月版の自社モデル、そして競合企業 O の翻訳 API と比較評価しました。

対象言語ペアは以下の3つです。

  • 英語 → 日本語

  • 日本語 → 英語

  • 韓国語 → 日本語

Figure 1. Speech-to-speech translation quality (LLM-as-a-judge, higher is better) and latency (lower is better) across En→Ja, Ja→En, and Ko→Ja.

評価では、品質(LLM-as-a-judge、高いほど良い)と、遅延(低いほど良い)の両面を比較しました。

特に注目すべき点は2つあります。

品質面では、2026年4月版 Kotoba モデルは、

  • 日本語 → 英語:0.40 vs 0.34

  • 韓国語 → 日本語:0.35 vs 0.18

で company O を上回り、

  • 英語 → 日本語:0.48 vs 0.47

では同等レベルを達成しました。

遅延面では、

  • 英語 → 日本語:3.10秒 vs 4.90秒

  • 韓国語 → 日本語:1.96秒 vs 5.06秒

と、大幅に高速です。

特に韓国語 → 日本語では、約2.6倍高速となり、この2言語ペアではプロ通訳者よりも速く、それでいて品質面でも人間通訳に迫っています。

CJK 中心のワークロードにおいて、Kotoba は現時点で company O より優れた品質・遅延バランスを提供しています。さらに、2026年1月版から4月版への進化を見る限り、その差は今後さらに広がっていくと考えています。

Japanese Agent TTS: 音声エージェント向け最高クラスの日本語 TTS

Kotoba の日本語 TTS を、4つの競合システムと比較し、

  • 自然さ(Naturalness)

  • 正確性(Correctness)

の両面で評価しました。

日本語 Agent TTS ベンチマーク(高いほど良い)

SYSTEM

MOS ↑

CORRECTNESS ↑

Kotoba

4.15

0.80

Company A

4.12

0.73

Company B

3.19

0.46

Company C

2.08

0.14

Company D

1.99

0.27

* MOS = Mean Opinion Score(1–5)、Correctness = エージェントタスク成功率(0–1)、競合名は匿名化

Kotoba は自然さ(MOS 4.15)でトップとなり、さらにエージェントタスクの正確性(0.80)でも、すべての競合を大きく上回りました。

特に重要なのは Correctness の差です。Company A は音質そのものでは近いスコア(MOS 4.12)ですが、タスク完遂能力では 7 ポイント低くなっています。

日本語音声エージェントを本番運用する開発者にとって、これは「デモ」と「実運用」の違いを意味します。

このアルファ版は誰向けか

本アルファ版は、以下のような本番ユースケースで Kotoba を評価したいチーム向けに公開されています。

  • Voice agents and conversational AI — フルデュプレックス対話向けに最適化された Streaming STT + TTS

  • Real-time translation — 会議、放送、コールセンター、ライブイベント

Kotoba のモデルは既に米国および日本の大手企業で利用されています。今回の Alpha API は、新しいチームが、自社データ上で同じ技術を迅速に評価するための最速ルートです。評価後には、モデルライセンスや本番 API 利用も可能になります。

オンプレミス・オンデバイス対応

ホスト型 API に加えて、Kotoba はオンプレミス環境へのデプロイもサポートしています。これは、データ所在、セキュリティ、コンプライアンス要件により、パブリッククラウド推論を利用できない企業向けです。特に、日本および米国の金融、医療、政府、大企業 IT 領域でニーズがあります。

また、一部モデルはオンデバイス形態でも提供可能であり、

  • モバイル

  • 自動車

  • ロボティクス

  • エッジデバイス

など、低遅延・プライバシー・オフライン動作が重要な用途に対応しています。

オンプレミスまたはオンデバイス導入をご検討の場合は、評価時にご相談ください。

始めるには

皆さまがどのようなものを作るのか、楽しみにしています。

Copyright © Kotoba Technologies 2026

Japanese
Japanese
Japanese