AI Tools13 มิถุนายน 2569

Local AI Coding บนเครื่องตัวเอง: เลือก Model และตั้งค่าให้ทำงานได้จริง

Tim Janepat

ผู้ก่อตั้ง AiCEO Academy · ผู้เชี่ยวชาญด้าน AI

Local AI Coding บนเครื่องตัวเอง: เลือก Model และตั้งค่าให้ทำงานได้จริง

ทำ AI coding บนเครื่องตัวเองได้ฟรีไม่ต้องจ่ายค่า API ด้วย local model รู้วิธีเลือก model จาก VRAM ที่มี ตั้งค่า LM Studio และเชื่อม VS Code ทำ agentic coding ได้จริง ไม่เกิน 160 ตัวอักษร

ผมเริ่มทดลองรัน AI model บนเครื่องตัวเองมาสักพักแล้ว และสิ่งที่ Tech With Tim เพิ่งสรุปออกมาใน complete guide ของเขาก็ยืนยันสิ่งที่ผมเจอมาตลอด — local model ในปัจจุบันดีพอที่จะทำ agentic coding ได้จริง ไม่ใช่แค่ตอบคำถามง่ายๆ แต่สร้างไฟล์ แก้โค้ด รัน bash command และจัดการ task ต่อเนื่องได้โดยไม่ต้องออนไลน์และไม่เสียค่าใช้จ่ายเพิ่มแม้แต่บาทเดียว

แนวคิดหลักคือแทนที่จะจ่ายเงินให้ Cursor หรือ Claude Code ทุกครั้งที่ agent ทำงาน เราสามารถใช้ GPU บนเครื่องตัวเองแทนได้ ไม่มีค่า API ไม่มีค่า subscription ไม่มีข้อมูลส่งออกไปยัง server ภายนอก แน่นอนว่ามีข้อจำกัดเรื่อง hardware อยู่บ้าง แต่ถ้าคุณมีเครื่องที่ค่อนข้างใหม่ โดยเฉพาะ Mac M-series หรือ PC ที่มี GPU ระดับกลางถึงสูง model ที่ได้จะเพียงพอสำหรับงาน coding ในชีวิตประจำวันส่วนใหญ่

บทความนี้จะพาไปตั้งแต่ทำความเข้าใจ hardware ว่าเครื่องตัวเองรัน model ขนาดไหนได้ ไปจนถึงการเลือก model ที่ใช่ การใช้ LM Studio โหลดและจัดการ model และการเชื่อมทุกอย่างเข้ากับ VS Code เพื่อทำ agentic coding ได้จริงในทุกวัน

สรุปสั้น ๆ

Local model ทำ agentic coding ได้โดยไม่ต้องอินเทอร์เน็ต ไม่มีค่า API ไม่มี subscription
ตัวกำหนดหลักคือ VRAM (Windows) หรือ unified memory (Mac M-series)
ใช้สอง model คู่กัน — model เล็กสำหรับ autocomplete และ model ใหญ่สำหรับ chat/edit
Qwen 2.5 และ Qwen 3 คือ family ที่แนะนำสำหรับ coding ในตอนนี้
ต้องใช้ LM Studio ร่วมกับ VS Code เพื่อทำ setup ทั้งหมด

ทำไม Local Model ถึงน่าสนใจสำหรับนักพัฒนา

เวลาใช้ Claude Code หรือ Cursor เราก็คือกำลัง "เช่าเครื่อง" ของ Anthropic หรือ Cursor มารัน model เครื่องพวกนั้นมี RAM หลาย terabyte มี GPU เป็นชุด และรองรับ request จากผู้ใช้พร้อมกันหลักล้านคน แน่นอนว่าพลังของมันสูงกว่าเครื่องส่วนตัวมาก แต่เราก็จ่ายเงินทุกครั้งที่ใช้ ไม่ว่าจะเป็นค่า token หรือค่า subscription รายเดือน

Local model เปลี่ยนสมการนี้ — GPU บนเครื่องตัวเองทำงานแทน ไม่มีการส่งข้อมูลออกไปภายนอก ไม่มีค่าใช้จ่ายแม้จะรันหลักพัน request ต่อวัน และถ้าเน็ตหลุดกลางงาน งานก็ไม่ค้าง ผมเองใช้ local model สำหรับ task ที่ต้อง iterate เยอะ เช่น refactor โค้ด เขียน unit test หรือ debug ยาวๆ เพราะไม่กินโควต้า แล้วค่อยไปพึ่ง Claude Opus เฉพาะ task ที่ซับซ้อนจริงๆ

ข้อจำกัดที่ต้องยอมรับคือ ณ ตอนนี้เรายังรัน model ระดับ Opus บนเครื่องส่วนตัวไม่ได้ ที่ดีที่สุดในปัจจุบันอยู่ประมาณ Sonnet หรือ Haiku แต่สำหรับงาน coding ทั่วไป 80-90% มันเพียงพอมาก และถ้า hardware ยิ่งดี ก็ยิ่งใกล้เคียง cloud model มากขึ้นเรื่อยๆ

VRAM คือตัวกำหนดทุกอย่าง

ก่อนโหลด model ไหนก็ตาม ต้องรู้ตัวเลขสำคัญหนึ่งตัวก่อน นั่นคือ VRAM หรือ video memory บนการ์ดจอ ตัวเลขนี้กำหนดว่า model ขนาดไหนจะวิ่งได้ในระดับที่ใช้งานได้จริง ถ้า model ใหญ่เกิน VRAM มันจะ overflow ไปอยู่ใน system RAM หรือแม้กระทั่ง disk ซึ่งช้ากว่าปกติ 100 เท่า ใช้ได้แต่แทบไม่มีประโยชน์ในทางปฏิบัติ

บน Windows ให้ดู spec ของ GPU ตัวเอง ไม่ว่าจะเป็น RTX 4090 (24GB VRAM), RTX 3060 (12GB) หรือรุ่นอื่นๆ ตัวเลข VRAM นั้นคือ ceiling ของ model ที่รันได้ดี บน Mac M-series ระบบใช้ unified memory ที่ CPU และ GPU ใช้ร่วมกัน ถ้ามี 64GB RAM ก็ใช้ได้ทั้งหมดในทางทฤษฎี แต่จริงๆ OS และ process อื่นๆ กินไปส่วนหนึ่ง ให้คิดว่าใช้ได้ประมาณ 75-80% ของ RAM ที่มี Mac M5 Max 64GB ของผมโหลด model ได้ประมาณ 50-55GB โดยไม่ติดปัญหา

อีกจุดที่ต่างกันระหว่าง Mac กับ Windows GPU คือความเร็วของหน่วยความจำ Mac M4 Max มี memory bandwidth ประมาณ 546 GB/s ขณะที่ RTX 4090 มีถึง 1,008 GB/s ดังนั้น แม้ Mac จะโหลด model ใหญ่กว่าได้ แต่ dedicated GPU แรงๆ มักให้ tokens per second สูงกว่าเพราะ memory เร็วกว่า ไม่ใช่ว่าใหญ่กว่าแล้วดีกว่าเสมอไป

ตัวเลขที่ควรจำ: เลือก model ที่ขนาดไม่เกิน 50-60% ของ VRAM ที่มี เพื่อเหลือเนื้อที่สำหรับ context window และให้ model วิ่งได้เร็วจริงๆ

เลือก Model ที่ใช่: Qwen Family คือคำตอบ

เวลาตั้งค่า local coding ให้คิดแยกเป็นสอง model ชั้นแรกคือ autocomplete model ที่เล็กและเร็ว ใช้ suggest โค้ดขณะพิมพ์ ชั้นสองคือ main chat/edit model ที่ใหญ่และฉลาดกว่า ใช้สำหรับ chat แก้ไขโค้ด และ agentic task ทั้งสองต้องรันพร้อมกัน

สำหรับ autocomplete แทบทุกคนใช้ Qwen 2.5 Coder 1.5B เพราะขนาดแค่ไม่กี่ร้อย MB รันได้แม้บนเครื่องที่ไม่มี GPU ดีๆ ความเร็วสูงพอที่จะ suggest code ได้แทบ real-time ส่วน main model ขึ้นอยู่กับ hardware:

VRAM / Unified Memory	Main Model แนะนำ
ไม่มี GPU	Qwen 2.5 Coder 1.5-3B
8GB VRAM / 16GB Mac	Qwen 2.5 Coder 7B
12-16GB VRAM / 24-32GB Mac	Qwen 3.6 14B หรือ Qwen 3 Coder 30B
24GB+ VRAM / 64GB+ Mac	Qwen 3.6 35B หรือ Qwen 3 Coder Next

สิ่งสำคัญที่สุดในการเลือก main model คือต้องรองรับ tool use เพราะถ้าไม่มี agentic mode จะไม่ทำงาน model จะตอบแค่ข้อความ ไม่สามารถสร้างไฟล์ แก้โค้ด หรือรัน command ได้จริง ผมเคยทดลอง model หลายตัวที่ดูน่าสนใจแล้วพบว่าบางตัวไม่ support tool use เลยต้องเช็คก่อนเสมอก่อนดาวน์โหลด

Quantization: ขนาดเล็กลงโดยไม่เสียคุณภาพมาก

เวลาโหลด model ใน LM Studio จะเห็นตัวเลือกหลายแบบ เช่น Q2, Q3, Q4, Q6 หรือ F16 นี่คือระดับของ quantization หรือการบีบอัด model ให้เล็กลงโดยลด precision ของ weight บางส่วน ผลคือ model เล็กลงและเร็วขึ้น แต่สูญเสียคุณภาพเล็กน้อย

F16 คือ model ครบทุก parameter ใหญ่สุดใช้ VRAM มากสุด Q4 ลดขนาดลงประมาณครึ่งหนึ่งของ F16 แต่ผลลัพธ์ในงาน coding ต่างกันน้อยมาก ส่วน Q2 เล็กที่สุดแต่เริ่มเห็นว่าคุณภาพลดลงพอสังเกตได้ สำหรับงานส่วนใหญ่ Q4 คือ sweet spot ที่ขนาดพอดี เร็ว และยังฉลาดพอ ผมใช้ Q4 ของ Qwen 3.6 35B บน M5 Max ได้ประมาณ 100 tokens/sec ซึ่งตอบสนองได้ลื่นมากในการใช้งานจริง

อีกสิ่งที่ควรรู้คือ active parameters เช่น Qwen 3.6 14B-A3B หมายถึง model มี 14B parameters ทั้งหมด แต่ active ตอนรันจริงแค่ 3B นี่คือ architecture แบบ mixture-of-experts ที่ช่วยให้รัน model ใหญ่บนเครื่อง VRAM น้อยกว่าได้ และมักให้ความเร็วดีด้วย เวลาเห็น A3B, A6B, A9B ในชื่อ model ให้รู้ว่านั่นคือ active parameters ไม่ใช่ขนาดจริงทั้งหมด

ตั้งค่า LM Studio และเชื่อม VS Code

LM Studio เป็นแอปฟรีที่ช่วยโหลดและจัดการ local model ได้ละเอียดกว่า Ollama มี UI ชัดเจน ดาวน์โหลดมาติดตั้งแล้วเปิดขึ้นมา ขั้นแรกไปที่หน้า model browser ค้นหาชื่อ model ที่เลือก เช่น "qwen3.6 35b" แล้วโหลด version Q4 ลงมา รอโหลดให้เสร็จ จากนั้นไปที่ส่วน Developer แล้วกด Start Server เพื่อเปิด local API endpoint ที่ localhost:1234 ซึ่ง VS Code หรือ tool อื่นๆ จะมาเรียกใช้ได้

กลับมาที่ Chat แล้วโหลด model เข้ามา ตั้ง GPU offload ให้สูงสุดเพื่อให้ GPU ทำงานเต็มที่ ตั้ง context length ตามที่ VRAM รับได้ context ยาวกิน VRAM เพิ่ม จะมีตัวเลขแสดงการใช้หน่วยความจำให้เห็นตลอด ลองคุยกับ model สักสองสามคำถาม สังเกต tokens per second ถ้าได้ 50+ ถือว่าใช้งานได้สบาย ถ้าได้ 100+ จะรู้สึกลื่นมากในการทำงาน

ฝั่ง VS Code Microsoft เพิ่ม built-in support สำหรับ custom local model provider เข้ามาแล้ว เชื่อม endpoint http://localhost:1234 เข้าไปใน settings เลือก Qwen 3.6 เป็น main model สำหรับ chat และ edit และตั้ง Qwen 2.5 Coder 1.5B เป็น autocomplete model แยกต่างหาก จากนั้นทดสอบ agentic task จริงๆ สักอันเพื่อยืนยันว่า tool use ทำงานได้จริง ไม่ใช่แค่ chat

สรุป

Local AI coding ไม่ใช่แค่ทางเลือกสำหรับคนอยากประหยัดเงิน แต่เป็น setup ที่มีประโยชน์จริงสำหรับงาน coding ที่ต้อง iterate บ่อย ต้องการ privacy หรือต้องทำงาน offline hardware ยิ่งดีขึ้นทุกปี model ก็ยิ่งแรงขึ้น ผมคิดว่าอีกไม่นาน local model จะเป็นส่วนหนึ่งของ workflow นักพัฒนาส่วนใหญ่อย่างหลีกเลี่ยงไม่ได้

ขั้นตอนต่อไป:

เช็ค VRAM (Windows) หรือ unified memory (Mac) ของเครื่องตัวเอง
ดาวน์โหลด LM Studio และเลือก model จาก Qwen family ตามตารางด้านบน
โหลด Qwen 2.5 Coder 1.5B เพิ่มสำหรับ autocomplete
เปิด developer server ใน LM Studio และเชื่อม VS Code เข้า localhost:1234
ทดสอบ agentic task จริงสัก 1-2 อัน แล้วประเมินความเร็วและคุณภาพ

คำถามที่พบบ่อย

Q.Local model คืออะไร แตกต่างจาก cloud model ยังไง

Local model คือ AI model ที่รันบน hardware ของเราเอง ไม่ส่งข้อมูลออกไป server ภายนอก ไม่มีค่า API และใช้ได้แม้ไม่มีอินเทอร์เน็ต ต่างจาก cloud model อย่าง GPT-4 หรือ Claude ที่ต้องเรียก API และมีค่าใช้จ่ายตามการใช้งาน

Q.VRAM เท่าไหร่ถึงทำ local AI coding ได้จริง

ขั้นต่ำที่ใช้งานได้จริงคือ 8GB VRAM (Windows) หรือ 16GB unified memory (Mac M-series) ซึ่งสามารถรัน Qwen 2.5 Coder 7B ได้ ถ้ามี 16GB+ VRAM หรือ 32GB+ Mac จะรัน model ที่ใหญ่และฉลาดกว่าได้ดีขึ้น

Q.Qwen model คืออะไร ทำไมถึงแนะนำสำหรับ local coding

Qwen คือ family of AI models จาก Alibaba ที่ออกแบบมาทำงานได้ดีบน hardware ทั่วไป รองรับ tool use ซึ่งจำเป็นสำหรับ agentic coding มีหลายขนาดตั้งแต่ 1.5B ถึง 70B+ parameters ให้เลือกตาม hardware และมีประสิทธิภาพ coding สูงในบรรดา local model ด้วยกัน

Q.LM Studio คืออะไร ใช้ทำอะไร

LM Studio เป็นแอปพลิเคชันฟรีสำหรับ Mac/Windows ช่วยดาวน์โหลด จัดการ และรัน local AI model ได้สะดวก มี developer mode ที่เปิด local API server ให้ VS Code และ tool อื่นๆ เชื่อมต่อมาใช้งานได้

Q.Quantization คืออะไร ควรเลือก Q4 หรือ Q6

Quantization คือการบีบอัด AI model ให้เล็กลงโดยลด precision บางส่วน Q4 ลดขนาดได้มากและยังคุณภาพดีในงาน coding ส่วน Q6 ใกล้เคียง full precision มากกว่าแต่ขนาดใหญ่กว่า สำหรับ VRAM จำกัด Q4 มักเป็น sweet spot ที่ดีที่สุด

#local AI#LM Studio#Qwen#agentic coding#AI coding#VRAM#local model