Thẻ self-consistency

self-consistency — sử dụng nhiều chuỗi tư duy hoặc nhiều lần sampling để LLM chốt câu trả lời nhất quán.

Tree of Thoughts: Search Strategies, Heuristics & Rollout Policies

Tree of Thoughts (ToT) Applied: Algorithms & Implementations – Đào Sâu Search Strategies, Heuristics Và Rollout Policies Anh Hải “Deep Dive” đây. Hôm nay mình lăn xả đào sâu vào Tree of Thoughts (ToT), một cách tiếp cận prompting cho…

$chain of thought cho math symbolic reasoning prompt templates multi step dung 1446$

Chain-of-Thought cho Math & Symbolic Reasoning: Prompt templates multi-step đúng

Chain-of-Thought cho Math & Symbolic Reasoning: Prompt Templates Giúp LLM Giải Đúng Từng Bước Một Chào anh em dev, Mình là Hải đây, hôm nay ngồi cà phê với thằng junior trong team, nó hỏi: “Anh ơi, dùng GPT-4o hay…

llms nghien cuu khoa hoc reproducibility pitfalls

LLMs Nghiên cứu Khoa học: Reproducibility Pitfalls & Fixes

LLMs Trong Nghiên Cứu Khoa Học: Reproducibility Và Quản Lý Reference – Deep Dive Vào Use Cases, Lỗ Hổng Và Mitigation Hallucination Chào anh em dev kiêm researcher, anh Hải đây. Hôm nay anh chọn góc nhìn Deep Dive để…

prompting data science prompts tao phan tich notebooks tai su dung han che 1440

Prompting Data Science: Prompts tạo phân tích, notebooks tái sử dụng – Hạn chế

Prompting cho Data Science & Analysis: Hướng dẫn từng bước từ Junior lên Pro Chào anh em dev, data analyst! Mình là Hải đây, hôm nay với vai Hải “Mentor”, mình sẽ dẫn dắt anh em từ con số 0…

Code Models Interpretability: Token Attribution & Training Traceback

Deep Dive: Interpretability cho Code Models – Token-Level Attribution và Traceback to Training Data Chào anh em dev, hôm nay anh Hải “Deep Dive” đây. Mình ngồi cà phê sáng nay, lướt qua mấy paper mới về LLMs cho code…

kinh nghiem llm cho code review docs pair programming 1432

Kinh nghiệm LLM cho Code Review, Docs, Pair-Programming

LLM-Assisted Software Engineering: Workflow Thực Dụng Cho Code Review, Docs & Pair-Programming – Đừng Để Nó Làm Màu Yo anh em dev, anh Hải “Pragmatic” đây. 12 năm code từ PHP thuần đến microservices scale triệu CCU, mình ghét nhất…

automated code generation program synthesis tu spec den code test driven 1430

Automated Code Generation & Program Synthesis: Từ spec đến code test-driven

Deep Dive vào Automated Code Generation & Program Synthesis: Từ Spec Đến Code Đúng, Với Unit-Test-Driven Chào anh em dev, Hôm nay anh Hải ở mode Deep Dive, kiểu giảng viên cà phê sữa ngồi mổ xẻ under the hood…

safe tool use tu llms grounding sandboxing react patterns 1420

Safe Tool Use từ LLMs: Grounding, sandboxing, ReAct patterns

Tool Use & API Calling từ LLMs: Sandboxing, Grounding và ReAct Pattern Để Tránh “Tự Đâm” Chính Mình Anh Hải “Security” đây. Hơn 12 năm code, mình từng thấy bao nhiêu lần dev tin tưởng LLM gọi tool/API mà không…

kinh nghiem agent architectures planner executor patterns 1418

Kinh nghiệm Agent Architectures – Planner + Executor Patterns

Agent Architectures: Planner + Executor Patterns – Orchestration LLM Như Kiến Trúc Sư Thông Minh Chào anh em dev, anh Hải đây. Hôm nay ngồi cà phê, lướt qua mấy thread trên Reddit về LLM Agent, thấy nhiều bro vẫn…

kinh nghiem dialog state memory design cho agents 1412

Kinh nghiệm Dialog State & Memory Design cho Agents

Conversational Agents: Deep Dive Vào Dialog State Tracking Và Memory Design Chào anh em dev, Hôm nay anh Hải ở mode Deep Dive, ngồi đào bới under the hood của Conversational Agents (Agent hội thoại). Không phải kiểu chat chit…

kinh nghiem tich hop asr tts voi llm latency quality trade offs 1402

Kinh nghiệm tích hợp ASR-TTS với LLM: Latency-quality trade-offs

Xây Pipeline ASR -> LLM -> TTS: Trade-off Latency vs Quality Ở Mức 100ms End-to-End Chào anh em dev, anh Hải đây. Hôm nay ngồi cà phê, nghĩ về cái pipeline voice AI: ASR (Automatic Speech Recognition – Nhận diện…

CLIP-style vs Beyond: Vision-Language Models Training VN

Vision-Language Models: CLIP-style và Beyond — Đào Sâu Training Objectives, Zero-Shot Retrieval, Fine-Tuning Cho Tiếng Việt Chào anh em dev, mình là Hải đây. Hôm nay với góc nhìn Hải “Deep Dive”, mình sẽ lột trần cơ chế bên dưới…

kinh nghiem multimodal models fusion pretraining alignment 1394

Kinh nghiệm Multimodal Models: Fusion, Pretraining, Alignment

Deep Dive Multimodal Models: Fusion Architectures, Pretraining Strategies & Cross-Modal Alignment Chào anh em dev, mình là Hải đây. Hôm nay với vai Hải “Deep Dive”, mình sẽ lột trần từng lớp bên dưới của Multimodal Models – những con…

Symbolic vs Neural: Neuro-symbolic Hybrid Models

Hybrid Models: Kết Hợp Symbolic & Neural – Đào Sâu Neuro-Symbolic Integration Cho Constraints Solving Và Logic Layers Chào anh em dev, anh Hải đây. Hôm nay ngồi cà phê, lướt qua mấy paper về AI mới thấy hybrid models…

giam latency early exit cascade async retrieval 1386

Giảm Latency: Early Exit, Cascade, Async Retrieval

Latency-Sensitive Design: Techniques & Trade-offs Early Exit, Cascade Models, và Async Retrieval – Đừng Để User Chờ Đói ⚡ Chào anh em dev, anh Hải “Performance” đây – thằng cha ám ảnh với latency p95 dưới 100ms và RPS vọt…

giam chi phi llm inference spot mixed precision prompt caching 1382

Giảm chi phí LLM Inference: Spot, Mixed Precision, Prompt Caching

Tối Ưu Chi Phí Inference LLM: Spot Instances, Mixed Precision Và Các Chiến Thuật Caching Giảm Bill GPU Xuống Còn 1/3 Chào anh em dev, anh Hải đây – thằng cha ám ảnh với performance từ hồi code PHP thuần…

Serving LLMs at Scale: Sharding, Model Parallelism, Batching

Serving LLMs at Scale: Architecture & Patterns Chào anh em dev, anh Hải đây. Hôm nay ngồi cà phê, nghĩ về chuyện serve LLM ở scale lớn. Không phải kiểu toy project chạy local trên RTX 4090 đâu, mà là…

toi uu latency model xla tvm compilation kernel tuning 1376

Tối ưu Latency Model: XLA, TVM Compilation & Kernel Tuning

⚡ Model Compilation & Optimized Kernels: XLA vs TVM – Giảm Latency Inference Từ 250ms Xuống 38ms Chào anh em dev, hôm nay anh Hải “Performance” đây. Ai từng build hệ thống ML inference mà latency cứ ùn tắc như…

magnitude vs movement pruning loi ich sparse inference 1372

Magnitude vs Movement Pruning: Lợi ích Sparse Inference

⚡ Pruning & Sparse Models: Giảm Memory 70%, Inference Latency Từ 250ms Xuống 78ms Với Magnitude Và Movement Pruning Chào anh em dev, anh Hải đây – thằng cha nghiện performance từ thời PHP 5.4 giờ chuyển sang torch 2.1.…

knowledge distillation recipe giam latency size model 1368

Knowledge Distillation: Recipe giảm latency/size model

Knowledge Distillation: Giảm Latency Model AI Từ 250ms Xuống 35ms Với Student-Teacher Setup Chào anh em dev, Anh Hải đây, hôm nay ngồi cà phê đen đá, nghĩ về cái vấn đề đau đầu nhất khi deploy AI model lên…

Quantization INT8/4-bit: Post-training vs QAT – Lossless tricks

Quantization Kỹ Thuật: INT8/4-bit Và Beyond – Deep Dive Vào Cơ Chế Bên Dưới, Post-Training Vs QAT, Lossless Tricks Chào anh em dev, Hôm nay anh Hải “Deep Dive” đây, kiểu ngồi cà phê đào sâu under the hood của…

On-device Inference & TinyLLMs: Compression, Quantization, Distillation

On-device Inference & TinyLLMs: Giảm Latency Từ 500ms Xuống 23ms Trên Edge Device Bằng Compression, Quantization Và Distillation Chào anh em dev, Hải đây. Hôm nay ngồi cà phê, nghĩ về cái cảnh deploy LLM inference lên edge device –…

LLM Apps: GDPR, CCPA Compliance – Provenance & Audit Trails

LLM Apps và Bom Nổ Chậm: Compliance GDPR/CCPA, Data Provenance, Audit Trails Anh Hải “Security” đây. Lâu rồi không chém gió về bảo mật, hôm nay phải nhắc anh em một phát vì LLM đang hot quá, ai cũng nhảy…

bias fairness ngon ngu metric fairness debiasing 1354

Bias & Fairness Ngôn ngữ: Metric Fairness, Debiasing

Bias & Fairness trong NLP: Deep Dive Under the Hood Phát Hiện và Giảm Thiểu Chào anh em dev, mình là Hải đây. Hôm nay với góc nhìn Hải “Deep Dive”, mình sẽ lột trần cơ chế bên dưới của…

Đang là xu hướng