डीपसीक स्वयं-सुधार मॉडल के साथ अगली एआई क्रांति की तैयारी कर रहा है।
कुछ ही महीने पहले, वॉल स्ट्रीट के जनरेटिव एआई पर बड़े दांव को एक निर्णायक क्षण का सामना करना पड़ा जब यह उभरा डीपसीक दृश्य में. अपनी अत्यधिक नियंत्रित प्रकृति के बावजूद, ओपन-सोर्स डीपसीक ने साबित कर दिया है कि एक अभूतपूर्व अनुमानात्मक एआई मॉडल के लिए अरबों डॉलर की आवश्यकता नहीं होती है और इसे मामूली संसाधनों के साथ हासिल किया जा सकता है। यह उन्नत एआई मॉडल विकसित करने की हमारी समझ में एक बड़े बदलाव का प्रतिनिधित्व करता है।
इसे हुवावे, ओप्पो और वीवो जैसी दिग्गज कंपनियों ने तेजी से व्यावसायिक रूप से अपना लिया, जबकि माइक्रोसॉफ्ट, अलीबाबा और टेनसेंट जैसी कंपनियों ने भी तेजी से इसे अपने प्लेटफॉर्म पर जगह दे दी। अब, इस चर्चित चीनी कंपनी का अगला लक्ष्य स्वयं को बेहतर बनाने वाले एआई मॉडल हैं, जो स्वयं को बेहतर बनाने के लिए लूपिंग "जज-रिवार्ड" दृष्टिकोण का उपयोग करते हैं। यह प्रवृत्ति कम्पनियों द्वारा अधिक कुशल और प्रभावी AI प्रणालियां विकसित करने के लिए जारी प्रयास को दर्शाती है।
प्री-प्रिंट पेपर में (के माध्यम से) ब्लूमबर्गडीपसीक और चीन के त्सिंगुआ विश्वविद्यालय के शोधकर्ताओं ने एक नए दृष्टिकोण का वर्णन किया है जो एआई मॉडल को आत्म-सुधार के तरीके से अधिक स्मार्ट और अधिक कुशल बना सकता है। अंतर्निहित तकनीक को "स्व-सिद्धांतबद्ध महत्वपूर्ण नियंत्रण" (एसपीसीटी) के रूप में जाना जाता है, और इस दृष्टिकोण को तकनीकी रूप से "जनरेटिव रिवार्ड मॉडलिंग" (जीआरएम) के रूप में जाना जाता है। यह दृष्टिकोण कृत्रिम बुद्धिमत्ता के लिए सुदृढीकरण सीखने के क्षेत्र में एक महत्वपूर्ण विकास का प्रतिनिधित्व करता है।

सरल शब्दों में कहें तो यह एक तरह से वास्तविक समय फीडबैक लूप बनाने जैसा है। एआई मॉडल को मुख्य रूप से प्रशिक्षण के दौरान मॉडल के आकार का विस्तार करके बेहतर बनाया जाता है। इसके लिए बहुत अधिक मानव श्रम और कंप्यूटिंग संसाधनों की आवश्यकता होती है। डीपसीक एक ऐसी प्रणाली का प्रस्ताव करता है जहां एक प्राथमिक "मध्यस्थ" एआई मॉडल के लिए आलोचनाओं और सिद्धांतों के अपने सेट के साथ आता है क्योंकि यह उपयोगकर्ता के प्रश्नों का उत्तर तैयार करता है। इस दृष्टिकोण का उद्देश्य प्रशिक्षण प्रक्रिया में गहन मानव संसाधनों पर निर्भरता को कम करना है।
आलोचनाओं और सिद्धांतों के इस सेट की तुलना एआई मॉडल के केंद्र में स्थापित नियमों और वांछित परिणाम से की जाती है। यदि मिलान का स्तर उच्च है, तो एक इनाम संकेत उत्पन्न होता है, जो प्रभावी रूप से एआई को अगले दौर में बेहतर प्रदर्शन करने के लिए निर्देशित करता है। मूल्यांकन और पुरस्कार की यह सतत प्रक्रिया मॉडल की सीखने और अनुकूलन की क्षमता को बढ़ाती है।
इसके पीछे के विशेषज्ञ बताते हैं कि शोध पत्र डीपसीक-जीआरएम नामक स्वयं-सुधार करने वाले एआई मॉडल की अगली पीढ़ी के लिए। पेपर में शामिल बेंचमार्क यह संकेत देते हैं कि ये मॉडल गूगल के जेमिनी, मेटा के लामा और ओपनएआई के जीपीटी-4o से बेहतर प्रदर्शन करते हैं। डीपसीक का कहना है कि अगली पीढ़ी के ये एआई मॉडल ओपन सोर्स के माध्यम से जारी किए जाएंगे। खुलेपन के प्रति यह प्रतिबद्धता एआई में नवाचार की गति को तेज कर सकती है।
स्व-सुधार करने वाली एआई: क्या यह संभव है?

स्वयं को बेहतर बनाने में सक्षम कृत्रिम बुद्धिमत्ता के विचार ने महत्वाकांक्षी और विवादास्पद चर्चाओं को जन्म दिया है। गूगल के पूर्व सीईओ एरिक श्मिट ने कहा है कि हमें ऐसी प्रणालियों के लिए एक “ऑफ स्विच” की आवश्यकता हो सकती है। और इसे स्थानांतरित कर दिया गया धन श्मिट ने कहा, "जब कोई प्रणाली स्वयं में सुधार कर सकती है, तो हमें उसे निष्क्रिय करने पर गंभीरता से विचार करना चाहिए।" स्व-सुधार वाली एआई प्रणालियाँ एआई के क्षेत्र में सबसे महत्वपूर्ण विकासों में से एक हैं।
पुनरावृत्तीय स्व-सुधार करने वाली एआई की अवधारणा पूरी तरह से नई नहीं है। एक सुपर-बुद्धिमान मशीन का विचार, जो बेहतर मशीनें बनाने में सक्षम हो, वापसी वास्तव में 1965 में गणितज्ञ आई. जे. गुड ने इसका सुझाव दिया था। 2007 में, कृत्रिम बुद्धिमत्ता विशेषज्ञ एलीएज़र युडकोव्स्की ने इसके बारे में परिकल्पना की थी बीज एआई, एक कृत्रिम बुद्धिमत्ता “आत्म-समझ, आत्म-संशोधन और पुनरावृत्त आत्म-सुधार के लिए डिज़ाइन की गई है।”
2024 में जापानी कंपनी सकाना एआई ने पेश किया ब्यौरा संकल्पना "एआई वर्ल्ड" एक ऐसी प्रणाली के बारे में है जो संपूर्ण शोध पत्र उत्पादन लाइन को शुरू से अंत तक संचालित करने में सक्षम है। और इसमें एक पनना इस वर्ष के मार्च में प्रकाशित एक शोध पत्र में, मेटा विशेषज्ञों ने स्व-पुरस्कृत भाषा मॉडल का अनावरण किया जहां एआई स्वयं प्रशिक्षण के दौरान पुरस्कार देने के लिए न्यायाधीश के रूप में कार्य करता है। स्व-शिक्षण एआई प्रणालियों की ओर यह कदम कृत्रिम बुद्धिमत्ता के विकास में एक प्रतिमान बदलाव का प्रतिनिधित्व करता है।
माइक्रोसॉफ्ट के सीईओ सत्य नडेला ने कहा कि ओपनएआई के o1 मॉडल द्वारा एआई विकास को अनुकूलित किया जा रहा है और यह पुनरावर्ती चरण में प्रवेश कर चुका है: "हम बेहतर एआई बनाने के लिए एआई उपकरण बनाने हेतु एआई का उपयोग कर रहे हैं" pic.twitter.com/IHuFIpQl2C
- ज़ारथुस्त्र (@tsarnick) अक्टूबर 21
मेटा द्वारा अपने लामा 2 एआई मॉडल के आंतरिक परीक्षणों में, जिसमें नवीन स्व-पुरस्कृत प्रौद्योगिकी का उपयोग किया गया है, यह दर्शाया गया है कि यह एंथ्रोपिक के क्लाउड 2, गूगल के जेमिनी प्रो, तथा ओपनएआई के जीपीटी-4 मॉडल जैसे प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है। एंथ्रोपिक, अमेज़न द्वारा समर्थित उपलब्ध कराए गए विवरण उन्होंने इसे पुरस्कार हेरफेर कहा, जो एक अप्रत्याशित प्रक्रिया है "जहां मॉडल सीधे अपने पुरस्कार तंत्र को संशोधित करता है।"
इस विचार पर गूगल भी बहुत पीछे नहीं है। जर्नल में प्रकाशित एक अध्ययन में कहा गया है कि प्रकृति इस महीने की शुरुआत में, गूगल डीपमाइंड के विशेषज्ञों ने ड्रीमर नामक एक एआई एल्गोरिदम का प्रदर्शन किया, जो व्यायाम के उदाहरण के रूप में माइनक्राफ्ट का उपयोग करके आत्म-सुधार कर सकता है।
काम करता है आईबीएम विशेषज्ञ उनका अपना दृष्टिकोण है जिसे इनफरेंशियल क्लोजर ट्रेनिंग कहा जाता है, जहां एक एआई मॉडल अपनी प्रतिक्रियाओं का उपयोग करता है और खुद को बेहतर बनाने के लिए प्रशिक्षण डेटा के आधार पर उनका मूल्यांकन करता है। हालाँकि, पूरी परिकल्पना सकारात्मक नहीं है।
शोध से पता चलता है कि जब एआई मॉडल स्वयं-निर्मित सिंथेटिक डेटा पर खुद को प्रशिक्षित करने का प्रयास करते हैं, तो उन्हें दोषों का सामना करना पड़ता है, जिसे बोलचाल की भाषा में "मॉडल क्रैश" कहा जाता है। यह देखना दिलचस्प होगा कि डीपसीक इस विचार को किस प्रकार क्रियान्वित करता है, तथा क्या वह अपने पश्चिमी प्रतिस्पर्धियों की तुलना में अधिक किफायती तरीके से ऐसा कर सकता है।