Research Topics on jonam'Log

Research Topics on jonam'Loghttps://www.jonam.io/journal/inference-engineering/research-topics/Recent content in Research Topics on jonam'LogHugo -- gohugo.ioen© 2026 Manoj. All Rights Reserved.Mon, 18 May 2026 00:00:00 +0000Position-Invariant Document KV Cachehttps://www.jonam.io/journal/inference-engineering/research-topics/position-invariant-document-kv-cache/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/position-invariant-document-kv-cache/Can document KV states be cached independent of prompt position and reused across RAG queries?Temporal TurboQuant KV Tieringhttps://www.jonam.io/journal/inference-engineering/research-topics/temporal-turboquant-kv-tiering/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/temporal-turboquant-kv-tiering/Recent tokens stay high precision, older tokens degrade to INT4 or INT2, and TurboQuant makes the low-bit tiers less painful.Roofline-Adaptive Inference Schedulerhttps://www.jonam.io/journal/inference-engineering/research-topics/roofline-adaptive-inference-scheduler/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/roofline-adaptive-inference-scheduler/Move from static max_num_seqs to a feedback loop that chases the hardware ridge point.Speculative Prefillhttps://www.jonam.io/journal/inference-engineering/research-topics/speculative-prefill/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/speculative-prefill/Speculative decoding is common; this asks whether speculation can reduce long-prompt prefill latency.Quantization Divergence As Hallucination Signalhttps://www.jonam.io/journal/inference-engineering/research-topics/quantization-divergence-hallucination-signal/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/quantization-divergence-hallucination-signal/If FP8/INT4 and FP16 disagree sharply, the model may be in a fragile region.Online EAGLE Draft Learninghttps://www.jonam.io/journal/inference-engineering/research-topics/online-eagle-draft-learning/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/online-eagle-draft-learning/Speculative decoding throws away a useful supervision signal: which draft tokens were accepted.SLO-Aware KV Cache Tieringhttps://www.jonam.io/journal/inference-engineering/research-topics/slo-aware-kv-cache-tiering/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/slo-aware-kv-cache-tiering/Premium users get hot KV blocks; batch users spill to cheaper memory tiers.Attention Head Similarity Pruninghttps://www.jonam.io/journal/inference-engineering/research-topics/attention-head-similarity-pruning/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/attention-head-similarity-pruning/Measure cross-head similarity on a prompt and skip heads that are redundant for that input.Unlearning Layer In Attentionhttps://www.jonam.io/journal/inference-engineering/research-topics/unlearning-layer-in-attention/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/unlearning-layer-in-attention/Can we attenuate undesirable token associations inside attention without full retraining?Hardware-Aware AI CPU Ideashttps://www.jonam.io/journal/inference-engineering/research-topics/hardware-aware-inference-cpu-ideas/Mon, 18 May 2026 00:00:00 +0000https://www.jonam.io/journal/inference-engineering/research-topics/hardware-aware-inference-cpu-ideas/The software layer that becomes valuable if inference hardware shifts from GPU-first to AI CPU and custom accelerator designs.