本文へスキップ
← WORKS

リアルタイムAIアバター — HeyGen × RAG対話システム

HeyGenのStreaming Avatar APIとRAG対話エンジンを組み合わせ、フォトリアルなAIアバターによる接客・案内システムを構築。Whisper STT → GPT-4 + RAG → HeyGen Streaming Avatarのパイプラインで、自然な音声対話を実現。

ROLE
AIエンジニア / テクニカルリード
TEAM
4名(AI 2名 + フロントエンド 1名 + PM 1名)
PERIOD
7ヶ月
  • ペルソナ: 5種類(施設案内・商品説明・FAQ・イベント・医療受付)をフォトリアルなアバターで切替可能。医療ペルソナは受付案内に限定(高リスク意図は有人エスカレーション)
  • ユーザー満足度: 4.2 / 5.0(パイロット運用アンケート)
  • 有人対応なし解決率: 78%(従来の電話問合せの約4割を代替)
  • HeyGen Streaming Avatar APIの採用により、TTS・アバター映像生成の自社インフラ構築が不要となり、フォトリアルなアバター表現と開発工数の削減を両立
TECHNOLOGIES
HeyGen Interactive AvatarGPT-4LangChainPineconeWhisperFastAPIWebSocketReactGCP
リアルタイムAIアバター デモ: HeyGenアバター × RAG対話
処理パイプライン全体図 — Voice Capture → Whisper STT → GPT-4 + RAG → HeyGen Streaming Avatar → Output※画像はイメージです
Real-time Dialogue Pipeline: 音声入力からアバター応答までの処理フロー
対話シーケンス図とペルソナ管理 — コンポーネント間のデータフロー・コンテキストウィンドウ管理・ガードレール設計※画像はイメージです
Conversation Sequence: ペルソナ切替・コンテキスト管理・Safety設計

企業の接客・案内業務をAIで代替するために、自然な音声対話が可能なAIアバターが求められた。課題は3つ:(1) 音声入力から応答開始までのレイテンシを人間の対話テンポに収めること、(2) 施設ごとに異なるナレッジとペルソナ(外見・口調・性格)を柔軟に切り替えられること、(3) ハルシネーションや不適切な応答を防ぐガードレールの実装。加えて、2Dイラストではなくフォトリアルなアバターによる対話体験が求められていた。

HeyGenのStreaming Avatar APIを中核に据えたリアルタイム対話パイプラインを設計。音声入力はWebRTC + VADで検知し、Whisper large-v3で日本語STT。テキストをPineconeでベクトル検索してRAGコンテキストを構築し、GPT-4でストリーミング応答を生成。生成テキストをチャンク単位でHeyGen Streaming Avatar APIに送信し、フォトリアルなアバターがリップシンク付きで応答する映像をリアルタイム配信する構成とした。LLMの応答生成とHeyGenの映像配信をストリーミング接続で並列化することでレイテンシを最小化。

ペルソナは5種類を定義し、HeyGenアバター(外見・声質)とシステムプロンプト(口調・制約事項・ナレッジベース参照先)の組み合わせで構成。管理画面からNoCodeで切替可能とした。

ガードレールとして、入力フィルタ(PII検知)、トピック制限(対応範囲外は有人エスカレーション)、ハルシネーションチェック(RAG根拠に基づかない回答の検出と信頼度スコア付与)を実装。医療受付ペルソナは受付案内に限定し、診断・処方等は行わない設計とした(高リスク意図は有人エスカレーション)。