AI PrimerAI Primer
FlashAttention-4 benchmarks 1613 TFLOPs/s on B200, 1.3x over cuDNN 9.13 | AI Primer