XDA ने एक ही डेस्कटॉप पर Gemma 4 की Qwen 3.5 से तुलना करने में एक सप्ताह बिताया, और टिप्पणियों के थ्रेड ने एक शांत बात साबित की: अधिकांश पाठकों के पास पहले से ही एक स्थानीय-LLM स्टैक चल रहा था। यह श्रेणी शौक खिलौनों से आगे निकल गई है। परिमाणित 7B और 14B मॉडल कोड समीक्षा, सारांश और नियमित लेखन के लिए पर्याप्त हैं, मध्यम आकार के MoE मॉडलों की नई लहर ने बंद सीमांत मॉडलों से दूरी को कम कर दिया है, और llama.cpp को लपेटने वाले ऐप्स वास्तविक सॉफ्टवेयर जैसे दिखने लगे हैं।
हमने Windows, macOS और Linux पर स्थानीय LLM चलाने के लिए 8 सर्वश्रेष्ठ ऐप्स का परीक्षण किया। बेंचमार्क उबाऊ सामान थे: वे Ryzen लैपटॉप पर मॉडल कितनी तेजी से चलाते हैं, RTX कार्ड पर GPU ऑफलोड को कितनी स्वच्छता से संभालते हैं, क्या चैट UI वास्तव में सुखद है, और अगली बड़ी मॉडल आने पर कितना टूटते हैं। इस श्रेणी में मूल्य आमतौर पर कम मायने रखता है क्योंकि अधिकांश मजबूत विकल्प मुफ्त हैं।
स्थानीय-LLM ऐप में क्या देखना चाहिए
कुछ मानदंड उन उपकरणों को अलग करते हैं जो दैनिक उपयोग के एक सप्ताह तक जीवित रहते हैं उन से जो अनइंस्टॉल हो जाते हैं:
- बैकएंड पोर्टेबिलिटी। llama.cpp वास्तविक मानक है। जो ऐप्स इसे साफ़ तरीके से लपेटते हैं वे मुफ्त में बग फिक्स पाते हैं। जो ऐप्स अपनी फोर्क रखते हैं वे नई मॉडल आर्किटेक्चर में पिछड़ जाते हैं।
- परिमाणीकरण समर्थन। GGUF वह प्रारूप है जो वास्तव में भेजा जाता है। यदि कोई ऐप हाल की GGUF फ़ाइल लोड नहीं कर सकता है, तो यह एक मृत अंत है।
- GPU ऑफलोड। Nvidia पर CUDA, AMD पर ROCm, Apple Silicon पर Metal। उपकरण इस बात में बहुत अलग हैं कि वे वास्तव में कितना उपयोग करते हैं।
- चैट UI बनाम API। कुछ उपयोगकर्ता एक पॉलिश किए गए चैट विंडो चाहते हैं। अन्य को संपादक एक्सटेंशन में प्लग करने के लिए एक स्थानीय OpenAI-संगत एंडपॉइंट चाहिए। सबसे मजबूत ऐप्स दोनों प्रदान करते हैं।
- मॉडल खोज। Hugging Face कैटलॉग है। जो ऐप्स खोज और एक-क्लिक डाउनलोड को शामिल करते हैं वे वास्तविक समय बचाते हैं।
- गोपनीयता मुद्रा। कुछ ऐप्स पूरी तरह से ऑफलाइन चलते हैं। अन्य डिफ़ॉल्ट रूप से विश्लेषण के लिए घर फोन करते हैं और रोकने के लिए एक फ्लैग की आवश्यकता होती है।
त्वरित तुलना
| ऐप | सर्वश्रेष्ठ | प्लेटफॉर्म | मुफ्त योजना | विशिष्ट विशेषता |
|---|---|---|---|---|
| Ollama | वन-लाइन इंस्टॉल और CLI जिसे आप लिपि कर सकते हैं | Windows, macOS, Linux | हाँ (खुला स्रोत) | localhost पर OpenAI-संगत API |
| LM Studio | अंतर्निहित मॉडल खोज के साथ पॉलिश किया गया चैट UI | Windows, macOS, Linux | हाँ (व्यक्तिगत उपयोग के लिए मुफ्त) | Quant फ़िल्टरिंग के साथ Hugging Face एकीकरण |
| Jan | पूरी तरह से खुला स्रोत चैट क्लाइंट जो ऑफलाइन मोड का सम्मान करता है | Windows, macOS, Linux | हाँ (खुला स्रोत) | कोई टेलीमेट्री नहीं और स्वच्छ सेटिंग्स |
| GPT4All | GPU के बिना लैपटॉप के लिए हल्का चैट | Windows, macOS, Linux | हाँ (खुला स्रोत) | कम RAM मशीनों के लिए CPU-प्रथम quants |
| Msty | साइड-दर-साइड तुलना के लिए बहु-मॉडल विभाजन दृश्य | Windows, macOS, Linux | हाँ (मुफ्त स्तर) | एक विंडो में दो स्थानीय मॉडलों की तुलना करें |
| Open WebUI | स्व-होस्ट किया गया चैट फ्रंटएंड जो ब्राउज़र में चलता है | Docker (कोई भी OS) | हाँ (खुला स्रोत) | मल्टी-यूजर मोड और प्रति-चैट मॉडल स्विचिंग |
| Llamafile | मॉडल प्रति एक एक्सीक्यूटेबल, कोई इंस्टॉलर नहीं | Windows, macOS, Linux | हाँ (खुला स्रोत) | एक फ़ाइल पर डबल-क्लिक करके मॉडल चलाएं |
| Text Generation WebUI | सैंपलर ट्यूनिंग और एक्सटेंशन के साथ पावर-यूजर प्लेग्राउंड | Windows, macOS, Linux | हाँ (खुला स्रोत) | जनरेशन पैरामीटर पर गहरी नियंत्रण |
डेस्कटॉप पर स्थानीय LLM चलाने के लिए 8 सर्वश्रेष्ठ ऐप्स
1. Ollama — दैनिक उपयोग के लिए सर्वश्रेष्ठ वन-लाइन इंस्टॉल
Ollama इस श्रेणी में डिफ़ॉल्ट के सबसे करीब है। एक एकल इंस्टॉलर एक CLI और पृष्ठभूमि सेवा छोड़ता है, फिर ollama run llama3.2 एक परिमाणित मॉडल खींचता है और चैट शुरू करता है। समान डेमॉन localhost:11434 पर एक OpenAI-संगत API को उजागर करता है, जिसका अर्थ है कि प्रत्येक संपादक एक्सटेंशन और नोटबुक जो OpenAI बोलते हैं बिना बदलाव के काम करते हैं। मॉडल लाइब्रेरी सार्थक डिफ़ॉल्ट quants के साथ अधिकांश लोकप्रिय परिवारों को कवर करती है।
जहां यह कम पड़ता है: पहली पक्ष UI न्यूनतम है। Ollama एक runtime है, एक चैट ऐप नहीं, इसलिए आप इसे एक टर्मिनल से बात करते हैं या इसे एक अलग फ्रंटएंड के साथ जोड़ते हैं। कस्टम प्रॉम्प्ट और टेम्पलेट Modelfile में रहते हैं, जो शक्तिशाली है लेकिन एक कदम जोड़ता है।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: ollama.com
निचली पंक्ति: अगर आप एक बैकएंड चाहते हैं जो “बस काम करता है” और आप अपना UI लाना खुश हैं तो स्थानीय LLM के लिए Ollama चुनें।
2. LM Studio — अंतर्निहित मॉडल खोज के साथ सर्वश्रेष्ठ चैट UI
LM Studio पॉलिश किया गया चैट क्लाइंट है जो अधिकांश लोग वेब डेमो को आगे बढ़ाने के बाद उतरते हैं। मॉडल ब्राउज़र सीधे Hugging Face से जुड़ता है, quant स्तर और आर्किटेक्चर द्वारा फ़िल्टर करता है, और दिखाता है कि क्या फ़ाइल वास्तव में आपके VRAM में फिट होगी। चैट विंडो सिस्टम प्रॉम्प्ट, प्रीसेट, मल्टी-टर्न संपादन और एक स्थानीय सर्वर मोड का समर्थन करता है जो Ollama के समान OpenAI-संगत एंडपॉइंट को उजागर करता है।
जहां यह कम पड़ता है: लाइसेंस व्यक्तिगत उपयोग के लिए मुफ्त अनुमति देता है लेकिन व्यावसायिक संदर्भों के लिए भुगतान की योजना की आवश्यकता होती है, जो कंपनी के लैपटॉप पर डालने से पहले जानना मूल्यवान है। ऐप बंद स्रोत है।
मूल्य:
- मुफ्त: व्यक्तिगत उपयोग
- भुगतान किया गया: व्यावसायिक उपयोग के लिए काम योजना
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: lmstudio.ai
निचली पंक्ति: अगर आप एक विंडो चाहते हैं जो मॉडल खोज, quant चयन, चैट और स्थानीय API को संभालता है तो स्थानीय LLM के लिए LM Studio चुनें।
3. Jan — सर्वश्रेष्ठ पूरी तरह से खुला स्रोत चैट क्लाइंट
Jan वह है जो होता है जब एक टीम LM Studio के अनुभव को खरोंच से खुला स्रोत के रूप में बनाती है। मॉडल स्टोर को तैयार किया जाता है, चैट UI साफ है, और परियोजना के पास कोई टेलीमेट्री के बिना पूरी तरह से ऑफलाइन चलने की घोषित नीति है। सेटिंग्स पैनल स्पष्ट करता है कि कौन से स्विच नेटवर्क कॉल को प्रभावित करते हैं, जो इस श्रेणी में असामान्य है।
जहां यह कम पड़ता है: कार्यक्षमता समान हार्डवेयर पर LM Studio के एक बाल से पिछड़ जाती है, आंशिक रूप से क्योंकि टीम हाइपर-विशिष्ट GPU ट्यूनिंग पर पोर्टेबिलिटी को प्राथमिकता देती है। मोबाइल और दूरस्थ-API कहानियां डेस्कटॉप चैट की तुलना में नई हैं।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: jan.ai
निचली पंक्ति: अगर आप LM Studio UX चाहते हैं बिना बंद स्रोत लाइसेंस के और विश्लेषण ऑप्ट-आउट टॉगल पर भरोसा किए बिना तो स्थानीय LLM के लिए Jan चुनें।
4. GPT4All — GPU के बिना कम-स्पेक लैपटॉप के लिए सर्वश्रेष्ठ
GPT4All स्थानीय-LLM दृश्य के शुरुआती दिनों से है और अभी भी अधिकांश से बेहतर उबाऊ काम करता है। डिफ़ॉल्ट मॉडल सूची CPU अनुमान के लिए ट्यून की जाती है, छोटे quants एक समर्पित GPU के बिना मशीनों पर चलते हैं, और चैट UI अब स्थानीय दस्तावेज़ चैट शामिल करता है जो डिस्क पर एक फ़ोल्डर की ओर इशारा करता है। उपयोगकर्ताओं के लिए जिन्होंने पुराने लैपटॉप पर 7B मॉडल चलाने की कोशिश की और धीमापन से उछले, क्यूरेट किए गए छोटे-मॉडल चयन सही शुरुआती बिंदु है।
जहां यह कम पड़ता है: GPU त्वरण समर्थित है लेकिन परियोजना का फोकस नहीं है। चैट UI कार्यात्मक के बजाय सुंदर है।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: gpt4all.io
निचली पंक्ति: अगर आपका हार्डवेयर विनम्र है और आप एक चैट क्लाइंट चाहते हैं जो इसके लिए ट्यून किए गए मॉडल के साथ आता है तो स्थानीय LLM के लिए GPT4All चुनें।
5. Msty — दो मॉडलों को साइड-दर-साइड की तुलना करने के लिए सर्वश्रेष्ठ
Msty एक कम स्पष्ट विकल्प है जो एक विशिष्ट अंतराल को भरता है: यह एक बार में दो स्थानीय मॉडलों से बात कर सकता है और उनके उत्तरों को साइड-दर-साइड दिखा सकता है। दूरस्थ API के लिए हुक के साथ संयुक्त, यह एक ही प्रॉम्प्ट पर एक नए Qwen रिलीज़ को Gemma quant के खिलाफ बेंचमार्क करने का सबसे आसान तरीका है बिना दो विंडो को जॉगल किए। ज्ञान स्टैक आपको चैट के लिए पुनर्प्राप्ति के लिए फ़ोल्डर या URL संलग्न करने की अनुमति देता है।
जहां यह कम पड़ता है: मुफ्त स्तर अधिकांश व्यक्तिगत उपयोग को कवर करता है, लेकिन कुछ शक्तिशाली सुविधाएं भुगतान योजना के पीछे बैठती हैं। मॉडल खोज LM Studio की तुलना में संकीर्ण है।
मूल्य:
- मुफ्त: सुविधा समृद्ध व्यक्तिगत योजना
- भुगतान किया गया: उन्नत सुविधाओं के लिए Aurum योजना
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: msty.app
निचली पंक्ति: अगर आप सक्रिय रूप से मॉडलों की तुलना करते हैं और एक चैट क्लाइंट चाहते हैं जो इस वर्कफ़्लो के लिए डिज़ाइन किया गया है तो स्थानीय LLM के लिए Msty चुनें।
6. Open WebUI — परिवार या टीम सर्वर के लिए सर्वश्रेष्ठ ब्राउज़र फ्रंटएंड
Open WebUI एक कंटेनरीकृत वेब ऐप के रूप में चलता है और नेटवर्क पर Ollama (या किसी भी OpenAI-संगत बैकएंड) से बात करता है। इंटरफेस ChatGPT वेब ऐप की तरह दिखता है, भूमिका-आधारित पहुंच नियंत्रण के साथ मल्टी-यूजर खातों का समर्थन करता है, और प्रति-कथोपकथन मॉडल स्विचिंग को संभालता है। एक घर या छोटी टीम के लिए जो एक स्थानीय मॉडल सर्वर चाहता है जिसे हर कोई किसी भी ब्राउज़र से उपयोग कर सकता है, यह सबसे स्वच्छ उत्तर है।
जहां यह कम पड़ता है: यह मानता है कि आपके पास कहीं Ollama (या समकक्ष) पहले से चल रहा है। मल्टी-यूजर सुविधाओं को थोड़ी सेटअप की आवश्यकता है। यह एक ब्राउज़र ऐप है, इसलिए कोई मूल डेस्कटॉप पॉलिश नहीं है।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Docker, Windows, macOS या Linux पर किसी भी आधुनिक ब्राउज़र से सुलभ
डाउनलोड करें: openwebui.com
निचली पंक्ति: अगर आप एक घर की प्रयोगशाला या छोटी टीम के लिए एक साझा चैट फ्रंटएंड चाहते हैं और एक कंटेनर चलाने में सहज हैं तो स्थानीय LLM के लिए Open WebUI चुनें।
7. Llamafile — सर्वश्रेष्ठ शून्य-स्थापन विकल्प
Llamafile एक मॉडल और llama.cpp runtime को एक एकल निष्पादन योग्य के रूप में वितरित करता है जो कोई सेटअप के बिना Windows, macOS और Linux पर चलता है। एक फ़ाइल डाउनलोड करें, डबल-क्लिक करें, और एक स्थानीय चैट UI ब्राउज़र में खुल जाता है। प्रारूप Cosmopolitan परियोजना से एक बुद्धिमान क्रॉस-प्लेटफॉर्म बाइनरी ट्रिक पर निर्भर करता है, जिसका अर्थ है कि समान फ़ाइल ऑपरेटिंग सिस्टम में काम करती है।
जहां यह कम पड़ता है: कोई मॉडल ब्राउज़र नहीं। आप मॉडल को फ़ाइलों के रूप में प्रबंधित करते हैं। अपडेट को निष्पादन योग्य फ़ाइल को स्वैप करने की आवश्यकता है। कुछ एंटीवायरस टूल बाइनरी को चिह्नित करते हैं, जो GitHub समस्याओं में एक आवर्ती शिकायत है।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: github.com/Mozilla-Ocho/llamafile
निचली पंक्ति: अगर आप किसी के साथ एक काम करने वाले मॉडल को साझा करने के लिए सबसे निरपेक्ष निम्नतम-समारोह तरीका चाहते हैं जिसने Hugging Face के बारे में कभी नहीं सुना है तो स्थानीय LLM के लिए Llamafile चुनें।
8. Text Generation WebUI — सर्वश्रेष्ठ पावर-यूजर प्लेग्राउंड
Text Generation WebUI (कभी-कभी oobabooga कहा जाता है) सभी समावेशी विकल्प है। कई बैकएंड, सूर्य के नीचे प्रत्येक sampler, एक एक्सटेंशन सिस्टम जो RAG, वर्ण कार्ड, आवाज़ और छवि-आधारित चैट जोड़ता है। शोधकर्ता और मेकर जो sampler ट्यूनिंग, कंट्रास्टिव डिकोडिंग और अस्पष्ट quant प्रारूपों की परवाह करते हैं यहां उतरते हैं।
जहां यह कम पड़ता है: सेटअप इस सूची के अन्य विकल्पों की तुलना में अधिक fiddly है, मिश्रण में Python पर्यावरण और CUDA उपकरण। UI सूचना-घने तरीके से अनौपचारिक उपयोगकर्ताओं को अभिभूत करता है।
मूल्य:
- मुफ्त: खुला स्रोत, कोई लाइसेंस शुल्क नहीं
- भुगतान किया गया: कोई नहीं
प्लेटफॉर्म: Windows, macOS, Linux
डाउनलोड करें: github.com/oobabooga/text-generation-webui
निचली पंक्ति: अगर आप हर नॉब चाहते हैं और Python पर्यावरण में सहज हैं तो स्थानीय LLM के लिए Text Generation WebUI चुनें।
सही एक कैसे चुनें
अगर आप काम करने वाले सेटअप का सबसे सरल रास्ता चाहते हैं, Ollama स्थापित करें और इसे चैट फ्रंटएंड के साथ पेयर करें जो आपको पसंद है।
अगर आप एक ऐप चाहते हैं जो एक पॉलिश विंडो में सब कुछ करता है, LM Studio स्थापित करें।
अगर खुला स्रोत आपके लिए महत्वपूर्ण है, Jan स्थापित करें।
अगर आपका लैपटॉप पुराना है या GPU नहीं है, GPT4All स्थापित करें और इसके क्यूरेट किए गए छोटे मॉडलों पर टिके रहें।
अगर आप सक्रिय रूप से मॉडलों की तुलना करते हैं, Msty स्थापित करें।
अगर आप घर के लिए एक साझा चैट सर्वर चाहते हैं, Open WebUI चलाएं जिसके पीछे Ollama हो।
अगर आप शून्य समारोह चाहते हैं, उस मॉडल के लिए Llamafile डाउनलोड करें जिसकी आप परवाह करते हैं।
अगर आप हर नॉब चाहते हैं, Text Generation WebUI स्थापित करें और पहले रन के लिए एक दोपहर बजट करें।
FAQ
क्या स्थानीय LLM एक discrete GPU के बिना लैपटॉप पर काम करता है?
हाँ। Quantized 3B और 7B मॉडल एकीकृत ग्राफिक्स या शुद्ध CPU पर चलते हैं, धीरे लेकिन उपयोगी रूप से। GPT4All और Llamafile दोनों इस मामले के लिए ट्यून किए गए छोटे मॉडल भेजते हैं।
स्थानीय LLM चलाने के लिए मुझे कितना VRAM चाहिए?
Q4 quantization पर 7B मॉडल के साथ आरामदायक अनुभव के लिए, लगभग 6 GB VRAM। Q4 पर 14B के लिए, लगभग 10 GB। 70B वर्ग मॉडल के लिए, 24 GB या अधिक की गणना करें, या कम गति पर CPU RAM और GPU में विभाजित करें।
क्या Ollama स्थानीय LLM के लिए सर्वश्रेष्ठ ऐप है?
यह अधिकांश उपयोगकर्ताओं के लिए सर्वश्रेष्ठ बैकएंड है। अगर आप एक ही विंडो में एक पॉलिश चैट UI भी चाहते हैं, LM Studio या Jan “सर्वश्रेष्ठ ऐप” के करीब है। Ollama प्लस एक अलग UI सबसे सामान्य स्टैक है।
क्या स्थानीय LLM वास्तव में निजी हैं?
हाँ, एक चेतावनी के साथ। अनुमान पूरी तरह से आपकी मशीन पर चलता है। समस्या यह है कि कुछ ऐप्स डिफ़ॉल्ट रूप से विश्लेषण या अपडेट चेक के लिए घर फोन करते हैं। Jan और GPT4All बंद बटन को स्पष्ट करते हैं। LM Studio इसे सेटिंग्स के तहत है।
क्या मैं अपने कोड संपादक के साथ एक स्थानीय LLM का उपयोग कर सकता हूं?
हाँ। कोई भी ऐप जो OpenAI-संगत एंडपॉइंट (Ollama, LM Studio, Jan, Msty) को उजागर करता है OpenAI को लक्ष्य करने वाले संपादक एक्सटेंशन में आधार URL के रूप में सेट किया जा सकता है। Continue, Cursor की bring-your-own-key मोड, और अधिकांश VS Code एक्सटेंशन इसे स्वीकार करते हैं।