यदि आपके पास AI मॉडल प्रशिक्षण डेटा समाप्त हो जाए तो क्या होगा?
कृत्रिम बुद्धिमत्ता में तीव्र प्रगति मुख्य रूप से सटीक और बड़े पैमाने पर प्रशिक्षण डेटा की उपलब्धता पर निर्भर करती है। जैसे-जैसे कृत्रिम बुद्धिमत्ता का उपयोग विभिन्न क्षेत्रों में फैल रहा है, कई कंपनियों को उपलब्ध प्रशिक्षण डेटा की कमी से संबंधित चुनौतियों का सामना करना पड़ रहा है, जो उनके द्वारा विकसित बुद्धिमान मॉडलों की गुणवत्ता और प्रभावशीलता को प्रभावित कर सकता है। तो, इस कमी के बावजूद हम एआई प्रणालियों का प्रशिक्षण और विकास कैसे जारी रख सकते हैं?
ऐसा लग सकता है कि इंटरनेट पर डेटा की भरमार है, लेकिन AI ने पहले ही अधिकांश खुले स्रोतों का उपयोग कर लिया है। हालाँकि, इसका मतलब यह नहीं है कि प्रगति रुक जाएगी। डेटा अंतर को पाटने के लिए नई रणनीतियाँ अपनाई जा सकती हैं, जैसे सिंथेटिक डेटा उत्पन्न करना, व्यक्तिगत डेटा एकत्र करना, तथा असंरचित डेटा का नवीन तरीकों से उपयोग करना। इस लेख में, हम इन नवीन समाधानों का पता लगाएंगे और देखेंगे कि वे किस प्रकार AI के विकास में सहायता कर सकते हैं, तथा यह सुनिश्चित करेंगे कि यह उपयोगकर्ताओं को बेहतर प्रदर्शन और अधिक मूल्य प्रदान करता रहे।

1. प्लस डेटा हमेशा ऑनलाइन जोड़ा जाता है।
संक्षेप में, एआई रिसर्च इंस्टीट्यूट का कहना है: युग उच्च गुणवत्ता वाला डेटा जिस पर AI को प्रशिक्षित किया जाता है, 2026 तक समाप्त हो सकता है।
वहां मुख्य शब्द है "कर सकते हैं।" इंटरनेट में जोड़े जाने वाले डेटा की मात्रा हर साल बढ़ती जा रही है, इसलिए 2026 से पहले कुछ क्रांतिकारी बदलाव हो सकते हैं। हालांकि, यह अभी भी एक उचित अनुमान है - किसी भी तरह से, एआई प्रणालियों के लिए अच्छा डेटा किसी बिंदु पर समाप्त हो जाएगा।
हालाँकि, हमें यह याद रखना चाहिए कि हर साल लगभग 147 ज़ेटाबाइट डेटा ऑनलाइन जोड़ा जाता है (डेटाबेस के अनुसार)। विस्फोट के विषय). एक ज़ेटाबाइट 1,000,000,000,000,000,000,000 बिट डेटा के बराबर है। वास्तविक रूप में, यह 30 बिलियन से अधिक 4K फिल्में हैं (वास्तविक, लेकिन अथाह)। यह एआई के लिए छानने योग्य जानकारी की एक आश्चर्यजनक मात्रा है।
हालाँकि, एआई मानव द्वारा उत्पादित डेटा की तुलना में अधिक तेजी से डेटा का उपभोग कर रहा है...
2. AI कम गुणवत्ता वाले डेटा को भूल सकता है।
बेशक, 147 ज़ेटाबाइट्स का सारा डेटा अच्छा डेटा नहीं है। जो दिखता है, उससे कहीं अधिक है। लेकिन यह अनुमान लगाया गया है कि 2050 तक AI निम्न-गुणवत्ता वाले भाषा डेटा का भी उपभोग करेगा।
उन्होंने बताया रायटर फोटोबकेट, जो कभी विश्व के सबसे बड़े छवि संग्रहों में से एक था, अब अपनी विशाल लाइब्रेरी को एआई प्रशिक्षण कम्पनियों को लाइसेंस देने के लिए बातचीत कर रहा है। चित्रों में DALL-E और Midjourney जैसे मॉडलों को प्रशिक्षित करने के लिए डेटा होता है, लेकिन 2060 तक वह भी समाप्त हो सकता है। यहां एक बड़ी समस्या यह भी है: फोटोबकेट में XNUMX के दशक के सोशल नेटवर्किंग प्लेटफॉर्म जैसे माइस्पेस से चित्र शामिल थे, जिसका अर्थ है कि वे वर्तमान फोटोग्राफी की तरह उच्च गुणवत्ता वाले नहीं हैं। इसके परिणामस्वरूप डेटा की गुणवत्ता कम हो जाती है।
फोटोबकेट अकेला नहीं है। फरवरी 2024 में, गूगल ने रेडिट के साथ एक समझौता किया, जिसके तहत सर्च दिग्गज को एआई को प्रशिक्षित करने के लिए सोशल मीडिया प्लेटफॉर्म के उपयोगकर्ता डेटा का उपयोग करने की अनुमति दी गई। अन्य सोशल मीडिया प्लेटफॉर्म भी एआई प्रशिक्षण उद्देश्यों के लिए उपयोगकर्ता डेटा प्रदान करते हैं; कुछ लोग इसका उपयोग आंतरिक AI मॉडलों को प्रशिक्षित करने के लिए करते हैं, जैसे कि मेटा का लामा।
हालाँकि, कम गुणवत्ता वाले डेटा से कुछ जानकारी निकाली जा सकती है, लेकिन माइक्रोसॉफ्ट कथित तौर पर एआई के लिए डेटा को चुनिंदा रूप से "अनदेखा" करने का एक तरीका विकसित कर रहा है। यह समाधान मुख्य रूप से बौद्धिक संपदा के मुद्दों के लिए उपयोग किया जाएगा, लेकिन इसका यह भी अर्थ हो सकता है कि उपकरण यह भूल सकते हैं कि उन्होंने निम्न-गुणवत्ता वाले डेटासेट से क्या सीखा था।
हम बहुत अधिक चयनात्मक हुए बिना भी एआई को अधिक डेटा दे सकते हैं; ये एआई प्रणालियां तब चुन सकती हैं कि सीखने के लिए क्या सबसे उपयोगी है।
3. वाक् पहचान वीडियो और पॉडकास्ट में उपलब्ध डेटा को अनलॉक करती है।
अब तक एआई उपकरणों को दिया गया डेटा मुख्यतः पाठ और कुछ हद तक चित्र से बना है। इसमें निस्संदेह परिवर्तन आएगा, और संभवतः पहले ही हो चुका है, क्योंकि वाक् पहचान सॉफ्टवेयर का अर्थ होगा कि प्रचुर मात्रा में उपलब्ध वीडियो और पॉडकास्ट भी AI को प्रशिक्षित कर सकते हैं।
यह ध्यान देने योग्य है कि ओपनएआई ने स्वचालित वाक् पहचान (एएसआर) के लिए ओपन-सोर्स न्यूरल नेटवर्क विकसित किया है। फुसफुसाना, 680.000 घंटों के बहुभाषी, बहु-कार्य डेटा का उपयोग करके। इसके बाद OpenAI ने यूट्यूब वीडियो से दस लाख घंटों से अधिक की जानकारी को अपने बड़े भाषा मॉडल, GPT-4 में फीड किया।
यह अन्य AI प्रणालियों के लिए एक आदर्श मॉडल है, जो विभिन्न स्रोतों से वीडियो और ऑडियो को लिखने के लिए वाक् पहचान का उपयोग करते हैं तथा उस डेटा को अपने AI मॉडल के माध्यम से चलाते हैं।
वोआ लासी StatistaYouTube पर हर मिनट 500 घंटे से अधिक वीडियो अपलोड किए जाते हैं, यह संख्या 2019 से काफी स्थिर बनी हुई है। और इसमें डेलीमोशन और पॉडबीन जैसे अन्य वीडियो और ऑडियो प्लेटफॉर्म का उल्लेख नहीं है। यदि एआई अपना ध्यान इन जैसे नए डेटासेटों पर केंद्रित कर सके, तो भी अभी भी बहुत अधिक मात्रा में जानकारी है जिसे हमें निकालने की आवश्यकता है।
4. एआई मुख्यतः अंग्रेजी तक ही सीमित रहा है।
व्हिस्पर से हम सिर्फ इतना ही नहीं सीख सकते। ओपनएआई ने 117000 घंटों के गैर-अंग्रेजी ऑडियो डेटा का उपयोग करके मॉडल को प्रशिक्षित किया। यह विशेष रूप से दिलचस्प है क्योंकि कई AI प्रणालियों को मुख्य रूप से अंग्रेजी का उपयोग करके या अन्य संस्कृतियों को पश्चिमी दृष्टिकोण से देखकर प्रशिक्षित किया जाता है।
मूलतः, अधिकांश उपकरण अपने रचनाकारों की संस्कृति से बंधे होते हैं।
उदाहरण के तौर पर ChatGPT को लें। 2022 में रिलीज़ होने के तुरंत बाद, जिल वाकर रेटबर्गनॉर्वे के बर्गन विश्वविद्यालय में डिजिटल संस्कृति के प्रोफेसर ने चैटजीपीटी के साथ प्रयोग किया और निम्नलिखित निष्कर्ष निकाला:
"चैटजीपीटी को नॉर्वेजियन संस्कृति के बारे में ज़्यादा जानकारी नहीं है। या यूँ कहें कि नॉर्वेजियन संस्कृति के बारे में जो कुछ भी पता है, वह ज़्यादातर अंग्रेज़ी भाषा के स्रोतों से सीखा हुआ माना जाता है... चैटजीपीटी स्पष्ट रूप से अमेरिकी मूल्यों और कानूनों के साथ संरेखित है। कई मामलों में, ये नॉर्वेजियन और यूरोपीय मूल्यों के करीब हैं, लेकिन हमेशा ऐसा नहीं होता है।
इसके बाद एआई प्रणालियों को विभिन्न राष्ट्रीयताओं के अधिक संख्या में लोगों के साथ बातचीत करने के लिए विकसित किया जा सकता है, या ऐसी प्रणालियों को प्रशिक्षित करने के लिए अधिक विविध भाषाओं और संस्कृतियों का उपयोग किया जा सकता है। वर्तमान में, कई एआई मॉडल एकल लाइब्रेरी तक सीमित हैं; यदि इसे विश्व भर के पुस्तकालयों की चाबियाँ दे दी जाएं तो यह विकसित हो सकता है।
5. प्रकाशन गृह कृत्रिम बुद्धिमत्ता विकसित करने में मदद कर सकते हैं।

बौद्धिक संपदा स्पष्ट रूप से एक बड़ा मुद्दा है, लेकिन कुछ प्रकाशक लाइसेंसिंग समझौते करके एआई को आगे बढ़ाने में मदद कर सकते हैं। इसका अर्थ है कि उपकरणों को ऑनलाइन स्रोतों से कम गुणवत्ता वाली जानकारी के बजाय पुस्तकों से उच्च गुणवत्ता वाला, यानी विश्वसनीय डेटा देना।
दरअसल, फेसबुक, इंस्टाग्राम और व्हाट्सएप के मालिक मेटा ने "बिग फाइव" प्रकाशकों में से एक साइमन एंड शूस्टर को खरीदने पर विचार किया है। विचार यह था कि कंपनी के प्रकाशित साहित्य का उपयोग मेटा के एआई को प्रशिक्षित करने के लिए किया जाए। यह सौदा अंततः विफल हो गया, संभवतः कंपनी द्वारा लेखकों की पूर्व सहमति के बिना आईपी पते को संभालने के नैतिक ग्रे क्षेत्र के कारण।
एक अन्य विकल्प जिस पर विचार किया जा रहा है, वह है नए शीर्षकों के लिए व्यक्तिगत लाइसेंसिंग अधिकार खरीदना। इससे रचनाकारों के लिए चिंता का विषय बन सकता है, लेकिन यदि हमारे पास उपयोग योग्य डेटा समाप्त हो जाए तो भी यह AI उपकरण विकसित करने का एक दिलचस्प तरीका होगा।
6. सिंथेटिक डेटा ही भविष्य है।
अन्य सभी समाधान अभी भी सीमित हैं, लेकिन एक विकल्प है जो भविष्य में एआई की समृद्धि का कारण बन सकता है: सिंथेटिक डेटा। इसकी पहले से ही एक वास्तविक संभावना के रूप में जांच की जा रही है।
तो फिर सिंथेटिक डेटा क्या है? यह कृत्रिम बुद्धिमत्ता द्वारा निर्मित डेटा है; जिस प्रकार मनुष्य डेटा बनाते हैं, उसी प्रकार इस विधि में AI प्रशिक्षण उद्देश्यों के लिए डेटा बनाएगा।
वास्तव में, एआई विश्वसनीय डीपफेक वीडियो बना सकता है। इस डीपफेक वीडियो को एआई को वापस फीड किया जा सकता है ताकि वह मूलतः एक काल्पनिक परिदृश्य से सीख सके। आखिरकार, यह मनुष्यों के सीखने का एक मुख्य तरीका है: हम अपने आसपास की दुनिया को समझने के लिए कुछ पढ़ते या देखते हैं।
एआई प्रणालियां संभवतः पहले से ही कृत्रिम जानकारी का उपभोग कर चुकी हैं। डीपफेक प्रौद्योगिकी ने ऑनलाइन भ्रामक और गलत जानकारी फैलाई है, इसलिए जब एआई सिस्टम इंटरनेट सामग्री को स्कैन करता है, तो यह समझ में आता है कि कुछ लोग नकली सामग्री के संपर्क में आए हैं।
हां, इसका एक भयावह पक्ष भी है। यह AI प्रणालियों को नुकसान पहुंचा सकता है या सीमित कर सकता है, तथा उन उपकरणों द्वारा की गई त्रुटियों को मजबूत और फैला सकता है। कंपनियां इस समस्या को खत्म करने के लिए काम कर रही हैं; हालाँकि, वाक्यांश "एआई एक दूसरे से सीखते हैं और गलतियाँ करते हैं" कई विज्ञान कथा दुःस्वप्न परिदृश्यों के लिए एक कथानक बिंदु है।
7. कृत्रिम बुद्धिमत्ता का बेहतर उपयोग
कृत्रिम बुद्धिमत्ता उपकरण विवादास्पद हैं। इसके कई नकारात्मक पहलू हैं, लेकिन आलोचक इसके लाभों को नजरअंदाज करते हैं। उदाहरण के लिए, ऑडिट और परामर्श नेटवर्क इंगित करता है कि पीडब्ल्यूसी [PDF] कृत्रिम बुद्धिमत्ता 15.7 तक वैश्विक अर्थव्यवस्था में 2030 ट्रिलियन डॉलर तक का योगदान दे सकती है।
इसके अलावा, कृत्रिम बुद्धिमत्ता का उपयोग पहले से ही पूरी दुनिया में किया जा रहा है। संभवतः आपने आज भी इसे किसी न किसी रूप में प्रयोग किया होगा, और शायद इसका एहसास भी नहीं हुआ होगा। अब जिन्न बोतल से बाहर आ चुका है, और अब मुख्य बात यह है कि उसे विश्वसनीय, उच्च गुणवत्ता वाले आंकड़ों पर प्रशिक्षित किया जाए ताकि हम उसका उचित उपयोग कर सकें।
कृत्रिम बुद्धिमत्ता के अपने फायदे और नुकसान हैं। इसमें निश्चित रूप से संतुलन खोजना होगा।
उपलब्ध प्रशिक्षण डेटा की कमी के कारण एआई उपकरणों के सामने चुनौतियां बढ़ती जा रही हैं, जिससे उनकी प्रगति और विकास पर प्रतिकूल प्रभाव पड़ने का खतरा है। इस चुनौती पर काबू पाने के लिए, नवीन समाधान अपनाए जा रहे हैं, जैसे सिंथेटिक डेटा का उपयोग करना, अप्रशिक्षित शिक्षण का लाभ उठाना, तथा डेटा साझा करने के लिए संस्थानों के बीच सहयोग को बढ़ावा देना। ये समाधान डेटा के नए स्रोत उपलब्ध कराने में सहायता करते हैं, तथा यह सुनिश्चित करते हैं कि बुद्धिमान मॉडलों में सुधार जारी रहे तथा उनका कुशलतापूर्वक और प्रभावी ढंग से विकास होता रहे।
टिप्पणियाँ बंद हैं।