मेटा एआई मॉडल्स को महत्वपूर्ण आदेशों और अन्य आदेशों के बीच अंतर करने की कला सिखाता है।
ओपनएआई o1 और डीपसीक-आर1 जैसे तर्क मॉडलों में अतिचिंतन की समस्या होती है। यदि आप उससे एक सरल प्रश्न पूछें, जैसे कि, "1+1 क्या है?", तो वह उत्तर देने से पहले कई सेकंड सोचेगी।

आदर्श रूप से, एआई मॉडल को, मनुष्यों की तरह, यह निर्धारित करने में सक्षम होना चाहिए कि कब सीधा उत्तर देना है और कब प्रतिक्रिया देने से पहले सोचने के लिए अतिरिक्त समय और संसाधन आवंटित करना है। और ऐसा होता भी है नई टेक्नोलॉजी शोधकर्ताओं द्वारा प्रस्तुत मेटा एआई وइलिनोइस विश्वविद्यालय, शिकागो क्वेरी कठिनाई के आधार पर अनुमान बजट आवंटित करने के लिए मॉडलों को प्रशिक्षित करना। इसके परिणामस्वरूप तीव्र प्रतिक्रिया, कम लागत और कंप्यूटिंग संसाधनों का बेहतर आवंटन होता है।
महँगा तर्क
बड़े भाषा मॉडल (एलएलएम) तर्क कार्यों पर अपने प्रदर्शन में सुधार कर सकते हैं जब वे विचारों की लंबी श्रृंखलाएं उत्पन्न करते हैं, जिन्हें अक्सर "विचारों की श्रृंखला" (सीओटी) के रूप में जाना जाता है। विचार श्रृंखला तकनीक की सफलता ने अनुमान समय मापन तकनीकों के एक पूरे समूह को जन्म दिया है जो मॉडल को समस्या के बारे में अधिक गहराई से “सोचने”, कई उत्तरों को उत्पन्न करने और उनकी समीक्षा करने तथा सर्वोत्तम उत्तर को चुनने के लिए मजबूर करता है।
बहुमत मतदान (एमवी) तर्क मॉडल में प्रयुक्त मुख्य विधियों में से एक है, जहां अनेक उत्तर उत्पन्न किए जाते हैं और सबसे अधिक बार पूछे जाने वाले उत्तर को चुना जाता है। इस दृष्टिकोण की समस्या यह है कि मॉडल एक समान व्यवहार अपनाता है, प्रत्येक इनपुट को एक कठिन तर्क समस्या के रूप में मानता है और अनेक उत्तर उत्पन्न करने के लिए अनावश्यक संसाधनों का उपभोग करता है।
बुद्धिमान तर्क
नए शोध पत्र में प्रशिक्षण तकनीकों की एक श्रृंखला प्रस्तावित की गई है जो तर्क मॉडल को प्रतिक्रिया देने में अधिक कुशल बनाती है। पहला चरण "अनुक्रमिक मतदान" (एसवी) है, जहां एक बार एक विशेष उत्तर एक निश्चित संख्या में प्रकट होने पर मॉडल तर्क प्रक्रिया को रोक देता है। उदाहरण के लिए, फॉर्म में अधिकतम आठ उत्तर तैयार करने तथा कम से कम तीन बार आने वाले उत्तर को चुनने को कहा जाता है। यदि मॉडल को उपरोक्त सरल प्रश्न दिया जाए, तो पहले तीन उत्तर समान होने की संभावना है, जिससे शीघ्र रोक लग जाएगी, समय और कंप्यूटिंग संसाधनों की बचत होगी।
उनके प्रयोगों से पता चलता है कि जब एस.वी. समान संख्या में उत्तर उत्पन्न करता है, तो यह गणित की प्रतियोगिता समस्याओं पर शास्त्रीय एम.वी. से बेहतर प्रदर्शन करता है। हालाँकि, SV को अतिरिक्त निर्देशों और कोड जेनरेशन की आवश्यकता होती है, जिससे यह कोड-से-परिशुद्धता अनुपात के संदर्भ में MV के बराबर हो जाता है।

दूसरी तकनीक, अनुकूली अनुक्रमिक मतदान (ASV), मॉडल को समस्या की जांच करने और समस्या के कठिन होने पर ही एकाधिक उत्तर उत्पन्न करने की आवश्यकता बताकर SV में सुधार करती है। सरल समस्याओं (जैसे 1+1 दावा) के लिए, मॉडल मतदान प्रक्रिया से गुजरे बिना केवल एक उत्तर उत्पन्न करता है। इससे मॉडल सरल और जटिल दोनों प्रकार की समस्याओं से निपटने में अधिक कुशल हो जाता है।
सुदृढीकरण सीखना
यद्यपि एस.वी. और ए.एस.वी. दोनों तकनीकें मॉडल की दक्षता में सुधार करती हैं, फिर भी उन्हें बड़ी मात्रा में मैन्युअल रूप से लेबल किए गए डेटा की आवश्यकता होती है। इस समस्या को कम करने के लिए, शोधकर्ताओं ने "अनुमान बजट-बाधित नीति अनुकूलन" (आईबीपीओ) का प्रस्ताव दिया है, जो एक सुदृढीकरण सीखने का एल्गोरिदम है जो मॉडल को क्वेरी कठिनाई के आधार पर तर्क पथ की लंबाई समायोजित करना सिखाता है।
आईबीपीओ को बड़े भाषा मॉडल (एलएलएम) को अनुमान बजट की सीमाओं के भीतर रहते हुए अपनी प्रतिक्रियाओं में सुधार करने की अनुमति देने के लिए डिज़ाइन किया गया है। सुदृढीकरण सीखने का एल्गोरिदम मॉडल को लगातार ASV प्रक्षेप पथ उत्पन्न करके, प्रतिक्रियाओं का मूल्यांकन करके, और सही उत्तर और इष्टतम अनुमान बजट प्रदान करने वाले परिणामों का चयन करके मैन्युअल रूप से लेबल किए गए डेटा पर प्रशिक्षण द्वारा प्राप्त लाभों को पार करने में सक्षम बनाता है।
उनके प्रयोगों से पता चलता है कि आईबीपीओ पेरेटो फ्रंट में सुधार करता है, जिसका अर्थ है कि एक निश्चित अनुमान बजट के लिए, आईबीपीओ पर प्रशिक्षित मॉडल अन्य बेसलाइनों से बेहतर प्रदर्शन करता है।
ये निष्कर्ष शोधकर्ताओं की इस चेतावनी के बीच सामने आए हैं कि वर्तमान AI मॉडल संघर्ष कर रहे हैं। चूंकि कंपनियां उच्च गुणवत्ता वाले प्रशिक्षण डेटा खोजने और अपने मॉडलों को बेहतर बनाने के वैकल्पिक तरीकों की खोज करने के लिए संघर्ष कर रही हैं।
एक आशाजनक समाधान सुदृढीकरण सीखना है, जहां मॉडल को एक लक्ष्य दिया जाता है और उसे अपने स्वयं के समाधान खोजने की अनुमति दी जाती है, जो कि पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) के विपरीत है, जहां मॉडल को हाथ से लेबल किए गए उदाहरणों पर प्रशिक्षित किया जाता है।
आश्चर्य की बात यह है कि यह मॉडल अक्सर ऐसे समाधान खोज लेता है जिनके बारे में मनुष्य ने सोचा भी नहीं होता। यह एक ऐसा फार्मूला है जो डीपसीक-आर1 के साथ काम करता प्रतीत होता है, जिसने अमेरिकी एआई प्रयोगशालाओं के प्रभुत्व को चुनौती दी।
शोधकर्ताओं ने पाया कि "प्रॉम्प्ट-आधारित विधियां और SFT पूर्ण अनुकूलन और दक्षता के लिए संघर्ष करते हैं, जो इस अनुमान का समर्थन करता है कि अकेले SFT स्व-सही क्षमताओं को सक्षम नहीं करता है। यह अवलोकन समवर्ती कार्य द्वारा भी समर्थित है, जो बताता है कि यह स्व-सही व्यवहार संकेतों या SFT द्वारा मैन्युअल रूप से उत्पन्न होने के बजाय RL के दौरान स्वतः ही उभरता है।"
टिप्पणियाँ बंद हैं।