〜長時間コーディングを安定させるマルチエージェント構成の実践〜
単一AIの限界を理解し、自社環境(Codex等)で高品質な出力を維持するための設計手法を学ぶ。
「何を言うか」ではなく「どう動かすか(外部構造)」の設計。
生成AIと評価AIを分離し、フィードバックループを回す。
※履歴の要約ではなく、状態をファイルに書き出す「コンテキストリセット」が重要。
短い指示から詳細な「仕様書」を作成。
実装詳細(どう作るか)には踏み込まず、「何を作るか」の定義に特化することで、後工程の混乱を防ぐ。
仕様書に基づき実装を行う実行部隊。
作業着手前に、Evaluatorと「スプリント契約(何をもって完了とするかの事前合意)」を結び、曖昧な実装を防ぐ。
成果物をテスト・採点し、問題があれば不合格にして差し戻す。
コードを読むだけでなく、テストツール等を用いて「実際にアプリを操作する」動的テストを実施。基準に対して厳格にチューニングされる。
ハーネス設計を実際の開発環境でどのように運用するかの具体例です。
Plannerを省略し、Generator + Evaluatorの2エージェント構成で消費を抑える。
構造的な品質低下を防ぐため、フルハーネス(3エージェント)構成を採用する。
【マインドセット】
ハーネスは「AIの苦手を補う仕組み」。AIモデルの進化に合わせて不要な手順は削り、運用を最適化していく姿勢が求められます。
単発生成から反復型フローへ。過去資産を活用し、高品質なDSLを安定構築する仕組み
ゼロから作らず、必ず references の台帳を参照する。共通価値が高いDSLは原本へ随時フィードバックする。
中間メモや合否履歴は output に留め、最終合格したDSLのみを対象部門の「正本フォルダ」へ保存する。