apache/spark

5 articles

前提知識

Apache Spark のモノリポ構造、約40の Maven モジュール、主要なエントリーポイント、そして Classic と Connect のアーキテクチャ上の分割を体系的に理解するためのメンタルモデル。

spark-submit から Spark アプリケーション起動までの初期化パスを完全に追跡し、SparkContext の初期化シーケンス、SparkEnv、そして二層スケジューリングスタックを詳しく解説します。

Spark SQL の Catalyst オプティマイザを深掘りする。TreeNode 抽象化、RuleExecutor フレームワーク、そしてパースから物理プランニングまでの完全なクエリパイプラインを解説します。

物理的な SparkPlan が分散計算へと変わるまでを解説します。RDD の特性、ステージ生成、シャッフルシステム、BlockManager、そして Adaptive Query Execution について深く掘り下げます。

gRPC/Protobuf によるクライアント・サーバー分離の仕組みと、SparkSessionExtensions・プラグイン可能なクラスターマネージャー・ShuffleManager・Data Source API V2 といった拡張パターンの解説。