एनवीडिया एआई छवि निर्माण की सबसे बड़ी चुनौतियों को हल करने में मदद करता है।

उच्च शक्ति और कंप्यूटिंग आवश्यकताएं एआई में एक बुनियादी समस्या हैं, विशेष रूप से मीडिया निर्माण जैसे कार्यों में। मोबाइल फोन पर, इन कार्यों को स्थानीय रूप से चलाने पर, केवल शक्तिशाली प्रोसेसर वाले कुछ महंगे उपकरण ही इस फीचर सेट को चला सकते हैं। यहां तक ​​कि जब इसे क्लाउड में बड़े पैमाने पर क्रियान्वित किया जाता है, तब भी यह एक महंगी प्रक्रिया है।

एनवीडिया ने संभवतः एमआईटी और सिंघुआ विश्वविद्यालय के साथ साझेदारी में इस चुनौती का चुपचाप समाधान किया है। टीम ने एक हाइब्रिड एआई इमेज जेनरेशन टूल बनाया है जिसका नाम है हार्ट (हाइब्रिड ऑटो ट्रांसफॉर्मर) मूलतः दो सर्वाधिक व्यापक रूप से प्रयुक्त एआई इमेज निर्माण तकनीकों का संयोजन है। इसका परिणाम एक बहुत तेज़ उपकरण है जिसकी कंप्यूटिंग आवश्यकताएं काफी कम हैं।

आपको यह अंदाजा देने के लिए कि वह कितनी तेज़ है, मैंने उससे बास गिटार बजाते हुए तोते की छवि बनाने को कहा। इसने लगभग एक सेकेण्ड में ही अगली छवि लौटा दी। मैं बड़ी मुश्किल से प्रगति बार पर नजर रख पा रहा था। जब मैंने उसी इनपुट का उपयोग फॉर्म के साथ किया गूगल छवि 3 जेमिनी पर 9 एमबीपीएस इंटरनेट कनेक्शन पर इसमें लगभग 10-200 सेकंड का समय लगा।

हार्ट द्वारा निर्मित तोते की छवि।

कृत्रिम बुद्धि का उपयोग करके छवि निर्माण में एक बड़ी छलांग

जब एआई छवियों ने गति प्राप्त करना शुरू किया, तो प्रसार प्रौद्योगिकी इसके पीछे प्रेरक शक्ति थी, जिसने ओपनएआई के डैल-ई इमेज जनरेटर, गूगल के इमेजन और स्टेबल डिफ्यूजन जैसे उत्पादों को शक्ति प्रदान की। इस विधि से उच्च-रिजोल्यूशन और विस्तृत चित्र प्राप्त होते हैं। हालाँकि, AI चित्र बनाने के लिए कई चरणों की आवश्यकता होती है, जिससे यह धीमा और कम्प्यूटेशनल रूप से महंगा हो जाता है।

दूसरा तरीका जो हाल ही में लोकप्रिय हुआ है, वह है स्व-प्रतिगामी मॉडल, जो चैटबॉट्स के समान कार्य करता है तथा पिक्सेल भविष्यवाणी प्रौद्योगिकी का उपयोग करके चित्र उत्पन्न करता है। यह विधि तेज़ है, लेकिन इसमें AI छवि निर्माण में त्रुटियाँ होने की संभावना भी अधिक है।

एम.आई.टी. की एक टीम ने दोनों विधियों को एक पैकेज में सम्मिलित कर दिया है, जिसे HART कहा जाता है। यह तकनीक संपीड़ित छवि तत्वों को असतत टोकनों के रूप में पूर्वानुमानित करने के लिए एक ऑटोरिग्रैसिव मॉडल पर निर्भर करती है, जबकि एक छोटा प्रसार मॉडल गुणवत्ता हानि की भरपाई के लिए बाकी का ध्यान रखता है। इस दृष्टिकोण से चरणों की संख्या बीस से घटकर केवल आठ रह जाती है।

HART के पीछे के विशेषज्ञों का दावा है कि यह तकनीक "ऐसी छवियां उत्पन्न करती है जो अत्याधुनिक प्रसार मॉडल की गुणवत्ता से मेल खाती हैं या उससे भी बेहतर होती हैं, लेकिन ऐसा लगभग नौ गुना तेजी से करती हैं।" HART 700 मिलियन पैरामीटर्स की रेंज वाले एक ऑटोरिग्रैसिव मॉडल और एक छोटे प्रसार मॉडल को जोड़ता है, जो 37 मिलियन पैरामीटर्स को संभाल सकता है।

HART के लिए छवि प्रशिक्षण का विकास।

कंप्यूटिंग लागत संकट का समाधान

दिलचस्प बात यह है कि यह हाइब्रिड HART उपकरण 2 बिलियन पैरामीटर्स की क्षमता के साथ अत्याधुनिक मॉडलों के समान अच्छे चित्र उत्पन्न करने में सक्षम था। सबसे महत्वपूर्ण बात यह है कि HART ने नौ गुना तेजी से चित्र निर्माण करके यह उपलब्धि हासिल की, जबकि कंप्यूटिंग संसाधनों में 31% की कमी आई।

टीम के अनुसार, कम-कम्प्यूटेशन वाला दृष्टिकोण HART को फोन और लैपटॉप पर मूल रूप से चलाने की अनुमति देता है, जो एक बड़ी सफलता है। अभी तक, चैटजीपीटी और जेमिनी जैसे लोकप्रिय बाजार उत्पादों को चित्र बनाने के लिए इंटरनेट कनेक्शन की आवश्यकता होती है, क्योंकि कंप्यूटिंग क्लाउड सर्वर पर की जाती है।

परीक्षण वीडियो में, टीम ने इसे इंटेल कोर सीरीज प्रोसेसर और एनवीडिया जीफोर्स आरटीएक्स ग्राफिक्स कार्ड वाले एमएसआई लैपटॉप पर मूल रूप से चलाते हुए प्रदर्शित किया। यह एक ऐसा संयोजन है जिसे आप बाजार में उपलब्ध अधिकांश गेमिंग लैपटॉप में पा सकते हैं, और इसके लिए आपको बहुत अधिक पैसा खर्च नहीं करना पड़ता।

एआई छवियों का तुलनात्मक विश्लेषण।

HART 1 x 1 पिक्सेल रिज़ॉल्यूशन पर 1024:1024 पहलू अनुपात वाली छवियां बनाने में सक्षम है। इन चित्रों में विवरण का स्तर प्रभावशाली है, साथ ही दृश्य की शैलीगत विविधता और सटीकता भी प्रभावशाली है। परीक्षण के दौरान, टीम ने पाया कि हाइब्रिड एआई टूल तीन से छह गुना तेज था और सात गुना से अधिक उत्पादकता प्रदान करता था।

भविष्य की संभावनाएं रोमांचक हैं, विशेषकर जब HART की छवि क्षमताओं को भाषा मॉडल के साथ संयोजित किया जाए। एमआईटी टीम का कहना है, "भविष्य में, दृष्टि और भाषा के एकीकृत उत्पादक मॉडल के साथ बातचीत की जा सकती है, संभवतः इसे फर्नीचर के एक टुकड़े को इकट्ठा करने के लिए आवश्यक मध्यवर्ती चरणों को दिखाने के लिए कहकर।"

वे पहले से ही इस विचार पर काम कर रहे हैं, तथा ऑडियो और वीडियो निर्माण के लिए HART के दृष्टिकोण का परीक्षण करने की भी योजना बना रहे हैं। आप इसे आज़मा सकते हैं वेब नियंत्रण पैनल एमआईटी.

कुछ नुकसान

गुणवत्ता पर चर्चा में आगे बढ़ने से पहले, यह ध्यान दिया जाना चाहिए कि HART अभी भी अपनी प्रारंभिक अवस्था में एक शोध परियोजना है। तकनीकी रूप से, टीम द्वारा कुछ बाधाओं को उजागर किया गया है, जैसे अनुमान और प्रशिक्षण प्रक्रियाओं के दौरान ओवरहेड में वृद्धि। इस कार्यक्रम में निकट भविष्य में बड़े विकास होने की उम्मीद है।

HART की विफलताएं.

इन चुनौतियों को ठीक किया जा सकता है या नजरअंदाज किया जा सकता है, क्योंकि यहां की बड़ी योजना में वे छोटी हैं। इसके अलावा, कंप्यूटिंग दक्षता, गति और विलंबता के संदर्भ में HART द्वारा प्रदान किए जाने वाले जबरदस्त लाभों को देखते हुए, ये चुनौतियाँ किसी भी महत्वपूर्ण प्रदर्शन संबंधी समस्या को जन्म दिए बिना बनी रह सकती हैं।

टेक्स्ट प्रॉम्प्ट का उपयोग करते हुए HART के साथ अपने छोटे से अनुभव के दौरान, मैं यह देखकर आश्चर्यचकित था कि चित्र कितनी शीघ्रता से उत्पन्न हुए। मैंने कभी ऐसा परिदृश्य नहीं देखा जहां फ्रीवेयर को छवि बनाने में दो सेकंड से अधिक समय लगा हो। यहां तक ​​कि तीन पैराग्राफ (लगभग 200 शब्द) के संकेतों के साथ भी, HART ऐसी छवियां उत्पन्न करने में सक्षम था जो विवरण से पूरी तरह मेल खाती थीं।

HART के साथ उत्पन्न AI छवियों का नमूना।

विवरण की सटीकता के अलावा, चित्रों में भी बहुत सारा विवरण था। हालाँकि, HART में सामान्य AI इमेज जनरेशन सॉफ्टवेयर की कमियां हैं। उन्हें बुनियादी आकृतियाँ और चित्र बनाने में कठिनाई होती है, जैसे खाना खाना, चरित्र संरेखण, और परिप्रेक्ष्य को पकड़ना।

मानवीय संदर्भ में यथार्थवाद एक ऐसा क्षेत्र है जहां मैंने स्पष्ट खामियां देखी हैं। कुछ अवसरों पर, कार्यक्रम में बुनियादी बातों को गलत समझा गया, जैसे अंगूठी को हार समझ लेना। लेकिन कुल मिलाकर, ये त्रुटियाँ बहुत कम थीं और अपेक्षित थीं। कई AI उपकरण अभी भी यह काम ठीक से नहीं कर पाते हैं, भले ही वे काफी समय से मौजूद हैं।

कुल मिलाकर, मैं HART की जबरदस्त क्षमता को लेकर बहुत उत्साहित हूं। यह देखना दिलचस्प होगा कि क्या एमआईटी और एनवीडिया इससे कोई उत्पाद बनाते हैं, या केवल हाइब्रिड एआई इमेज जेनरेशन दृष्टिकोण को मौजूदा उत्पाद में अपनाते हैं। किसी भी तरह से, यह एक बहुत ही आशाजनक भविष्य की झलक है।

टिप्पणियाँ बंद हैं।