Speculative-Decoding on jonam'Log

Speculative-Decoding on jonam'Loghttps://www.jonam.io/tags/speculative-decoding/Recent content in Speculative-Decoding on jonam'LogHugo -- gohugo.ioen© 2026 Manoj. All Rights Reserved.Mon, 18 May 2026 00:00:00 +0000DraftOShttps://www.jonam.io/journal/inference-engineering/product-ideas/draftos/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/product-ideas/draftos/Use idle CPU cores on GPU instances to draft tokens while the GPU verifies.Speculative Prefillhttps://www.jonam.io/journal/inference-engineering/research-topics/speculative-prefill/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/speculative-prefill/Speculative decoding is common; this asks whether speculation can reduce long-prompt prefill latency.Online EAGLE Draft Learninghttps://www.jonam.io/journal/inference-engineering/research-topics/online-eagle-draft-learning/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/online-eagle-draft-learning/Speculative decoding throws away a useful supervision signal: which draft tokens were accepted.SpecDraft Cloudhttps://www.jonam.io/journal/inference-engineering/product-ideas/specdraft-cloud/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/product-ideas/specdraft-cloud/A draft model service that learns from accepted and rejected tokens.