vLLM ve Triton ile maliyet optimizasyonu — pratik karşılaştırma
PagedAttention, işletim sistemlerinden ödünç alınan sayfalama fikriyle KV-önbellek parçalanmasını ortadan kaldırıyor; vLLM bunun üzerine kurulu sunum yığını olarak aynı gecikme seviyesinde 2-4 kat throughput sağlıyor. Bu kazancın sorgu başına maliyete ve vLLM ile Triton/TensorRT-LLM seçimine ne anlama geldiğini mühendislik gözüyle inceledik.