🧠 日本語ドキュメント
English →

🧠Layer 2: ASR / LLM / TTS

音声認識・言語モデル・音声合成のバックエンド選択肢(差し替え可能)。

音声パイプライン(STT→LLM→TTS)の各段は 環境変数で差し替え可能です。 出典: INVENTORY.md §1.4config.py の AEGIS_ 設定)。

STT(音声認識)バックエンド

🧪

stub(既定)

AEGIS_STT_BACKEND=stub
🗣️

whisper

AEGIS_STT_BACKEND=whisper
🌐

viibevoice(HTTP)

AEGIS_STT_URL=...
☁️

elevenlabs

scribe_v2

LLM(言語モデル)モード

🧪

stub(固定応答・既定)

AEGIS_LLM_MODE=stub
🔁

openai_compat(ollama / vLLM / LM Studio)

AEGIS_LLM_URL=http://localhost:11434/v1, model=gemma2:9b
🤖

OpenAI Realtime(Route C)

gpt-realtime(音声直結)

TTS(音声合成)バックエンド

🔊

edge_tts(既定・速度 +28%)

AEGIS_TTS_BACKEND=edge_tts
🎵

kokoro

AEGIS_TTS_BACKEND=kokoro
🎶

piper

AEGIS_TTS_BACKEND=piper
☁️

elevenlabs(要 VOICE_ID)

eleven_multilingual_v2
ℹ️設計の狙い

各段を voice_backend / stt_backend / tts_backend で切替できるため、ベンダー依存を避けつつ 段階的に本番品質へ寄せられます(Phase 3 のローカル音声化を見据えた switchpoint)。