AIスパコン「さくらONE」のオブザーバビリティ
2025年10月27日(月) 14:30 - 15:00
(30分)
Track A
セッション概要
LLMなどの大規模なAI基盤モデルの学習は、ハイエンドGPU、高帯域・低遅延のインターコネクトネットワークや分散ストレージを統合した高性能計算機インフラを必要とします。さくらインターネットでは、この要件に最適化したAIスパコン「さくらONE」を開発し、スパコン性能ランキングTOP500で世界49位を獲得しました。講演者は「さくらONE」を対象にオブザーバビリティを向上させる研究開発を行っています。そこで本講演では、 1. 前提知識:分散学習のワークロードとその基盤の特性が、オブザーバビリティ業界が主に対象とするウェブアプリケーションの特性とは大きく異なること 2. さくらONEの事例:実際に収集しているテレメトリーデータとその活用例、および、VictoriaMetrics、VictoriaLogs、Pyroscope、otel-ebpf-profiler、Grafanaを用いたデータ収集・分析システム 3. 最先端の研究動向:eBPFによるGPU処理の計装法など論文で提案されている手法 を紹介します。
スピーカー

Yuuki Tsubouchi
さくらインターネット研究所 上級研究員
SREの研究者。5年のSRE経験を経て、2019年よりさくらインターネットで研究開発に従事。テレメトリーシステムへの負荷増大に関する研究で博士号取得。最近の興味はAIインフラの性能と信頼性およびAIOps。
全体のタイムテーブルを見る
共有: