Azure AI Searchのハイブリッド検索機能を活用し、ベクトル検索(意味的類似性)とBM25キーワード検索(正確な用語一致)を並列実行、Reciprocal Rank Fusion(RRF)で統合する検索パイプラインを構築。さらに多言語対応のCross-Encoderでリランキングし、Top-5の高精度コンテキストをGPT-4oに渡して回答を生成する。
Document Ingestion Pipelineでは、6つのソースからドキュメントを取り込み、Recursive Character Splittingでチャンク化(512トークン、オーバーラップ50)。見出し・セクション境界を尊重し、部門・更新日のメタデータを付与。Azure OpenAIのEmbeddingsモデルでベクトルに変換し、デュアルインデックス(Vector + Keyword)を構築した。
日本語特有の課題として、形態素解析(MeCab / Sudachi)によるBM25のトークナイズ最適化、社内略語・固有名詞の同義語辞書によるクエリ拡張を実装。Azure AD SSO連携により、部門・ロールに応じたドキュメントのアクセス制御を検索結果に反映した。