🧠Layer 2: ASR / LLM / TTS
音声認識・言語モデル・音声合成のバックエンド選択肢(差し替え可能)。
音声パイプライン(STT→LLM→TTS)の各段は 環境変数で差し替え可能です。
出典: INVENTORY.md §1.4(config.py の AEGIS_ 設定)。
STT(音声認識)バックエンド
🧪
stub(既定)
AEGIS_STT_BACKEND=stub 🗣️
whisper
AEGIS_STT_BACKEND=whisper 🌐
viibevoice(HTTP)
AEGIS_STT_URL=... ☁️
elevenlabs
scribe_v2 LLM(言語モデル)モード
🧪
stub(固定応答・既定)
AEGIS_LLM_MODE=stub 🔁
openai_compat(ollama / vLLM / LM Studio)
AEGIS_LLM_URL=http://localhost:11434/v1, model=gemma2:9b 🤖
OpenAI Realtime(Route C)
gpt-realtime(音声直結) TTS(音声合成)バックエンド
🔊
edge_tts(既定・速度 +28%)
AEGIS_TTS_BACKEND=edge_tts 🎵
kokoro
AEGIS_TTS_BACKEND=kokoro 🎶
piper
AEGIS_TTS_BACKEND=piper ☁️
elevenlabs(要 VOICE_ID)
eleven_multilingual_v2 ℹ️設計の狙い
各段を voice_backend / stt_backend / tts_backend で切替できるため、ベンダー依存を避けつつ
段階的に本番品質へ寄せられます(Phase 3 のローカル音声化を見据えた switchpoint)。