मैंने जेमिनी की नई नेटिव इमेज जेनरेशन सुविधा को आजमाया, और यह बिल्कुल अद्भुत है।
सारांश:
- गूगल ने नए जेमिनी 2.0 फ्लैश बीटा का उपयोग करके मूल छवि निर्माण और संपादन शुरू किया है।
- यह सुविधा अब AI स्टूडियो पर निःशुल्क उपलब्ध है, और आप सरल टेक्स्ट कमांड का उपयोग करके समन्वित छवियों की एक श्रृंखला तैयार और संपादित कर सकते हैं।
- आप तत्वों को हटा और जोड़ सकते हैं, पाठ सम्मिलित कर सकते हैं, चित्रों को रंगीन कर सकते हैं, दृश्य कहानी बना सकते हैं, और बहुत कुछ कर सकते हैं।
हम एक वर्ष से अधिक समय से AI में "नेटिवली मल्टीमॉडल" शब्द सुनते आ रहे हैं, लेकिन कम्पनियां अब तक अपने AI मॉडलों की पूर्ण मल्टीमॉडल क्षमता को सामने लाने में धीमी रही हैं। गूगल ने अंततः अपना नवीनतम प्रोटोटाइप, "जेमिनी 2.0 फ्लैश एक्सपेरीमेंटल" जारी कर दिया है... मूल चित्र बनाने और संपादित करने की क्षमताअरे.
अब आप सोच रहे होंगे कि छवि निर्माण का क्या महत्व है? AI इमेज जनरेशन कुछ समय से ChatGPT जैसे सभी प्रमुख AI चैटबॉट्स के साथ उपलब्ध है। खैर, जब हम चैटजीपीटी या जेमिनी पर एआई छवियां उत्पन्न करते हैं, तो इसे डैल-ई 3 या इमेजेन 3 जैसे विशेष प्रसार-आधारित मॉडल पर निर्देशित किया जाता है। इन मॉडलों को छवियों पर प्रशिक्षित किया जाता है और केवल छवियां उत्पन्न करने के लिए डिज़ाइन किया जाता है; यह मुख्य एआई मॉडल का विस्तार है, उसका हिस्सा नहीं।
हालाँकि, भाषाई दृष्टि मॉडल जैसे मिथुन राशि मूलतः मल्टीमीडिया, जिसका अर्थ है कि यह पाठ और चित्र दोनों को स्वाभाविक रूप से समझ सकता है, उत्पन्न कर सकता है और संशोधित कर सकता है। अभी तक किसी भी तकनीकी कंपनी ने यह सुविधा उपयोगकर्ताओं के लिए उपलब्ध नहीं कराई है। ओपनएआई ने 4 में GPT-2024o के साथ अपनी मूल छवि निर्माण सुविधा का प्रदर्शन किया, लेकिन फिर भी, इसे कभी जारी नहीं किया गया।
मूल छवि निर्माण सुविधा के साथ, आपको मिलेगा: बेहतर समन्वय जहां बहु-मोडल मॉडलों को विभिन्न मीडिया के विशाल डेटासेट पर प्रशिक्षित किया जाता है। परिणामस्वरूप, इन मॉडलों में अवधारणाओं की बेहतर समझ होती है और दुनिया के बारे में व्यापक ज्ञान प्रदर्शित होता है।
चित्र बनाने के अलावा, आप सरल टेक्स्ट कमांड का उपयोग करके चित्रों को सहजता से संपादित भी कर सकते हैं। उदाहरण के लिए, आप एक चित्र अपलोड कर सकते हैं और मॉडल से चित्र में धूप का चश्मा जोड़ने, बोल्ड टेक्स्ट डालने, ऑब्जेक्ट हटाने आदि के लिए कह सकते हैं। डिफ्यूज़न मॉडल, जो प्रत्येक नए कमांड के साथ पूरी छवि को पुनः उत्पन्न करते हैं, के विपरीत, नेटिव मल्टीमीडिया मॉडल कई संपादनों में एकरूपता बनाए रखते हैं।
जेमिनी 2.0 फ्लैश डेमो का उपयोग करके चित्र बनाएं
वर्तमान में, मूल छवि निर्माण सुविधा सार्वजनिक उपयोगकर्ताओं के लिए उपलब्ध नहीं है। मूल छवि निर्माण के साथ जेमिनी 2.0 फ्लैश डेमो केवल गूगल के एआई स्टूडियो प्लेटफॉर्म पर उपलब्ध है (चहचहाना) मुक्त करने के लिए।
एआई स्टूडियो पर मॉडल का पूर्वावलोकन करने के बाद, इसे निकट भविष्य में सभी के उपयोग के लिए जेमिनी पर जारी किया जाएगा। हालाँकि, मैंने इमेज निर्माण सुविधा के साथ नए जेमिनी मॉडल को आज़माया, और यह एक बहुत ही रोमांचक अनुभव था।
सबसे पहले, मैंने जेमिनी की छवि निर्माण क्षमता की निरंतरता को प्रदर्शित करने के लिए एक दृश्य गाइड के साथ शुरुआत की। मैंने जैमिनी से ऑमलेट बनाने की विधि पर एक दृश्य मार्गदर्शिका बनाने को कहा, जिसमें प्रक्रिया के प्रत्येक चरण के लिए एक फोटो भी शामिल था।
जैसा कि आप देख सकते हैं, परिणाम बिना किसी त्रुटि के सभी छवियों में एक समान हैं। यहां तक कि कटोरा भी दूसरे चित्र जैसा ही है। अंततः, आप 1024 x 680 रिज़ॉल्यूशन में चित्र डाउनलोड कर सकते हैं। इस तरह, आप अपनी इच्छानुसार किसी भी चीज़ के लिए एक दृश्य मार्गदर्शिका बना सकते हैं।
इसके बाद, मैंने जेमिनी से एक सुन्दर मेज का चित्र बनाने को कहा, और फिर उसे मेज को कैमरे के मध्य कोण से देखने को कहा। उन्होंने एकदम सही काम किया. इसके बाद, मैंने जेमिनी से टेबल पर एक प्लेस्टेशन जोड़ने और उसे करीब से देखने को कहा। एक बार फिर, जेमिनी ने सफलता प्राप्त की। जैसा कि आप नीचे देख सकते हैं, AI मॉडल में इसके पीछे दर्पण में PS5 का प्रतिबिंब भी शामिल था।
मूल फोटो संपादन को प्रदर्शित करने के लिए, मैंने अपनी गैलरी से एक फोटो अपलोड की और जेमिनी 2.0 से टेबल से वाइन ग्लास हटाने को कहा। इसके बाद, मैंने जैमिनी से पिज्जा में मशरूम डालने को कहा और उसने बहुत अच्छा काम किया। फिर मैंने जेमिनी से इसमें क्रोइसैन जोड़ने को कहा, और अब आपके सामने एआई फोटो संपादन की सभी विशेषताएं हैं, जिसके लिए जेमिनी की मल्टीमीडिया क्षमताओं को धन्यवाद।
इसके बाद, मैंने अपनी एक तस्वीर अपलोड की, जेमिनी से धूप का चश्मा जोड़ने को कहा, और फिर अपनी शर्ट पर "बीबॉम" लिख दिया। दोनों का क्रियान्वयन बहुत अच्छे ढंग से किया गया।
अंत में, मैंने जेमिनी से एक चित्र रंगने को कहा, और उसने वह भी अच्छा किया। मेरा मतलब है कि चित्र पहले की अपेक्षा अधिक सुन्दर है, इसमें कोई अजीब त्रुटि, विकृति या चित्र का कोई भाग छूटा हुआ नहीं है।

जेमिनी की नई मल्टीमीडिया क्षमताओं के साथ आप कई उपयोग के मामले अनुभव कर सकते हैं। गूगल ने मूल छवि निर्माण और संपादन में बहुत अच्छा काम किया है, और मैं आने वाले सप्ताहों में इसकी सीमाओं का परीक्षण करने के लिए इसका अधिक गहनता से उपयोग करने की योजना बना रहा हूं।
वीडियो निर्माण के लिए Veo 2 और विशेष छवि निर्माण के लिए Imagen 3 जारी करने के बाद, Google कई क्षेत्रों में OpenAI से आगे निकल गया है; सिर्फ एआई टेक्स्ट जनरेशन के क्षेत्र में ही नहीं। इसलिए, यह देखना दिलचस्प होगा कि ओपनएआई चैटजीपीटी के साथ बढ़त हासिल करने के लिए क्या करता है।