परिचय
मल्टिमॉडल आर्टिफिशल इंटेलिजेंस (बहुविध कृत्रिम बुद्धि) एक अग्रणी (अत्याधुनिक) प्रौद्योगिकी (कटिंग-एज टेक्नोलॉजी उन उपकरणों, तकनीकों या उपलब्धियों को संदर्भित करती है जो सबसे वर्तमानकालिक और उच्च-स्तरीय परिणामों को नियोजित करती हैं।) है जो कृत्रिम बुद्धि (एआई) तंत्र की कार्यप्रणाली में क्रांति लाने पर केंद्रित है। यह एआई का एक प्रकार है जो डेटा के कई साधनों का उपयोग करता है ताकि निर्धारण अधिक सटीक रूप से किए जा सके, व्यावहारिक निष्कर्ष निकाले जा सके और वास्तविक जगत की समस्याओं के संबंध में अधिक सटीक पूर्वानुमान लगाए जा सके। दूसरे शब्दों में, मल्टिमॉडल एआई में विभिन्न प्रकार के डेटा का उपयोग किया जाता है ताकि उनसे सूचना निकाली जा सके और किसी स्थिति या समस्या को अधिक व्यापक रूप से समझने के लिए उसका विश्लेषण किया जा सके। मल्टिमॉडल एआई में, कई संवेदी तौर-तरीकों को सहज रूप से शामिल कर सूचनाओं का प्रसंस्करण और व्याख्या की जाती है। दूसरे शब्दों में, मल्टिमॉडल एआई तंत्र ऑडियो, वीडियो, छवियों, टेक्स्ट (पाठ्यांश) और ऐसे अन्य विशिष्ट स्रोतों या साधनों से प्राप्त डेटा को एक साथ प्रस्तुत एवं उपयोग कर सकते हैं। इसमें विभिन्न संवेदी इनपुट (निविष्टि) से प्राप्त जानकारी का उपयोग करने की एक विशिष्ट विशेषता है, जिसके फलस्वरूप एक प्रक्रिया/शैली की प्रतिकृति निर्मित होती है जिसमें मनुष्य अपने आस-पास के वातावरण की व्याख्या और उससे अंतःक्रिया करता है। ओपनएआई (OpenAI—एक अनुसंधान एवं परिनियोजन कंपनी) के जीपीटी-3.5 और जीपीटी-4 नामक मॉडल (प्रतिरूप) मल्टिमॉडल एआई के क्षेत्र में हुए प्रमुख विकास हैं। ये छवियों को संसाधित करने और उन्हें शब्दों में वर्णित करने में सक्षम हैं।
सिंगल-मॉडल एआई बनाम मल्टिमॉडल एआई
सिंगल-मॉडल एक एकल स्रोत या एकल प्रकार के डेटा का उपयोग करता है, जबकि मल्टिमॉडल एआई कई स्रोतों या कई प्रकार के डेटा का उपयोग करता है। अर्थात, सिंगल-मॉडल एआई एकल स्रोत से प्राप्त डेटा को संसाधित करता है; जबकि मल्टिमॉडल एआई टेक्स्ट, वीडियो, छवि, वाक् और ध्वनि जैसे कई स्रोतों से प्राप्त डेटा को संसाधित करता है।
सिंगल-मॉडल एआई के साथ, किसी विशेष स्थिति के बारे में केवल एक सीमित ज्ञान (Perception) प्राप्त किया जाता है, जो मानवीय अनुभव के साथ अधिक संगत नहीं होता है। इसके विपरीत, मल्टिमॉडल एआई से किसी विशेष स्थिति के संबंध में अधिक व्यापक ज्ञान प्राप्त होता है, जो बहुत हद तक मानवीय अनुभव के अनुरूप होता है।
मल्टिमॉडल एआई किस प्रकार कार्य करता है
मल्टिमॉडल एआई तंत्र निम्नलिखित तीन मूलभूत घटकों की सहायता से कार्य करते हैं:
- इनपुट मॉड्यूल: यह न्यूरल नेटवर्क (अर्थात तंत्रिका तंत्र, कृत्रिम बुद्धि के तहत एक पद्धति, जो कंप्यूटर को मानव मस्तिष्क द्वारा प्रेरित तरीके से डेटा संसाधित करना सिखाती है।) के अनुक्रम को संदर्भित करता है, जो डेटा को ग्रहण और संसाधित (या एन्कोड) करता है। यह डेटा—दृश्य, संवाद आदि हो सकता है। प्रत्येक न्यूरल नेटवर्क एक विशेष प्रकार के डेटा का प्रबंधन करता है। इस प्रकार, एक इनपुट मॉड्यूल में, कई यूनिमॉडल (एकल मॉडल) न्यूरल नेटवर्क होते हैं।
- फ्यूजन मॉड्यूल: एक फ्यूजन मॉड्यूल का उद्देश्य टेक्स्ट, दृश्य और वाक् जैसे सभी रीतियों से प्राप्त उपयुक्त डेटा को एकीकृत, व्यवस्थित और संसाधित करना है। यह मॉड्यूल संपूर्ण डेटा को एक एकीकृत डेटा सेट में परिवर्तित कर देता है, जो प्रत्येक डेटा प्रकार (टाइप) की क्षमता का इष्टतम उपयोग करता है। फ्यूजन मॉड्यूल को पूरा करने के लिए ग्राफ कॉन्वोशनल नेटवर्क (यह मशीन लर्निंग का एक उपसमूह है) और ट्रांसफॉर्मर मॉडल (ट्रांसफॉर्मर मॉडल एक न्यूरल नेटवर्क है जो किसी वाक्य में शब्दों जैसे अनुक्रमिक डेटा में संबंधों को खोज कर संदर्भ और इस प्रकार अर्थ सीखता है।) सहित विभिन्न डेटा संसाधन और गणितीय तकनीकों का उपयोग किया जाता है।
- आउटपुट मॉड्यूल: यह मॉड्यूल (एक ऐसा मॉड्यूल जो आउटपुट संकेतक के साथ अंतःक्रिया करता है उसे आउटपुट मॉड्यूल कहा जाता है। विद्युत अनुप्रयोगों जैसे बाहरी उपकरणों को जोड़ने के लिए आउटपुट मॉड्यूल की आवश्यकता होती है।) मल्टिमॉडल एआई से आउटपुट (निर्गम) उत्पन्न करता है। इस आउटपुट का उपयोग पूर्वानुमान लगाने, निर्णय लेने या मानव संचालक या तंत्र द्वारा उपयोग किए जाने वाले अन्य आउटपुट का सुझाव देने के लिए किया जा सकता है।
मल्टिमॉडल एआई तंत्र में अन्य घटक
मल्टिमॉडल एआई प्रणाली में अंतःस्थापित कुछ अन्य घटक/तकनीकें निम्नलिखित हैं:
- कंप्यूटर विजन टेक्नोलॉजी: यह तकनीक छवियों और वीडियो को प्रग्रहण (कैप्चर) करने के लिए है। यह वस्तु का पता लगाने और पहचानने की सुविधा प्रदान करती है, जैसे कि मनुष्यों को पहचानना तथा किसी के चलने एवं उछल-कूद करने जैसी गतिविधियों की पहचान करना।
- टेक्स्ट एनलिसिस टेक्नोलॉजी: इस तकनीक के साथ, सिस्टम लिखित टेक्स्ट को उसके लिखने के प्रयोजन के साथ पढ़ और उसको प्रस्तुत कर सकता है।
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी): इस तकनीक से वाक् अभिज्ञान और वाक् आउटपुट का प्रबंध किया जा सकता है। इसमें कई भाषाओं में मौखिक भाषा-से-पाठ और इसके विपरीत अनुवाद सहित भाषा-से-पाठ और पाठ-से-पाठ अनुवाद भी शामिल हैं। इसके अलावा, इस तकनीक से स्वर के उतार-चढ़ाव को भी पहचाना जा सकता है। इनमें व्यंग्य, बलाघात आदि शामिल हैं, जो प्रसंस्करण के समय संदर्भ प्रदान करते हैं।
- भंडारण और अभिकलन संसाधन: वास्तविक समय में अंतःक्रिया और गुणवत्तापूर्ण परिणाम केवल तभी संभव हैं जब भंडारण (स्टोरेज) और अभिकलन (कंप्यूट) संसाधनों का उपयोग डेटा माइनिंग (किसी असंशोधित डेटा के बड़े समूह से प्रयोग योग्य डेटा प्राप्त करने के लिए प्रयुक्त प्रक्रिया को डेटा माइनिंग के रूप में परिभाषित किया जाता है।), संसाधन और परिणाम सृजन में किया जाता है।
- समाकलन तंत्र: इस तंत्र के साथ, मल्टिमॉडल एआई विभिन्न डेटा प्रारूपों (टाइप) में उपलब्ध डेटा इनपुट को प्राथमिकता दे सकता है, संयोजित कर सकता है, व्यवस्थित कर सकता है और अलग कर सकता है। समाकलन (इन्टिग्रेशन) के माध्यम से ही संदर्भ विकसित किया जा सकता है, और बदले में, संदर्भ के आधार पर निर्णय लिए जा सकते हैं।
अभिकलन संसाधन अवसंरचना के ऐसे तत्व हैं जो डेटा प्राप्त, विश्लेषण और भंडारण करके समस्या समाधान और समाधान सृजन को सक्षम बनाते हैं। अभिकलन संसाधन, भौतिक (सर्वर) और आभासी (डेस्कटॉप) हो सकते हैं।
मल्टिमॉडल एआई का महत्व
मल्टिमॉडल एआई, कई तरीकों से महत्वपूर्ण है। इनमें से कुछ तरीके निम्नलिखित हैं:
- उद्योग: मल्टिमॉडल एआई का उपयोग कार्यस्थलों पर विभिन्न उद्देश्यों के लिए किया जा सकता है, जैसेः
- स्वास्थ्य सेवा क्षेत्र में, मल्टिमॉडल एआई किसी मरीज के जीवन संबंधी संकेतों और जटिल डेटा सेट का विश्लेषण करता है, जिसमें उनके सीटी स्कैन, डायग्नोस्टिक डेटा और रिकॉर्ड शामिल होते हैं ताकि उन्हें बेहतर उपचार दिया जा सके।
- औद्योगिक क्षेत्र में, यह विनिर्माण प्रक्रियाओं का संचालन करता है और उनकी दक्षता बढ़ाता है, जिससे उत्पाद की गुणवत्ता बढ़ती है और रखरखाव की लागत कम होती है।
- ऑटोमोटिव क्षेत्र में, यह चालक पर नजर रखता है ताकि थकान के लक्षणों, जैसे कि झपकी आना या अप्रत्याशित रूप से अपनी लाइन (मार्ग) छोड़ देना, पता लगाया जा सके। यह चालक को सतर्क रखने के लिए उसके साथ संवाद भी करता है और उन्हें आराम करने या चालक बदलने का सुझाव देता है।
- रोबोटिक्स: मल्टिमॉडल एआई रोबोटिक्स (कंप्यूटर द्वारा नियंत्रित मशीनें जिनका उपयोग स्वचालित रूप से कार्य करने के लिए किया जाता है) के विकास में एक महत्वपूर्ण भूमिका निभाता है, जैसा कि रोबोट और वास्तविक-जगत की व्यवस्थाओं, रोबोट और मनुष्यों/जानवरों/भवनों तथा इनके अभिगम बिंदुओं आदि के बीच अंतःक्रिया आवश्यक है। यह माइक्रोफोन, कैमरा, ग्लोबल पोजिशनिंग सिस्टम (जीपीएस) और ऐसे अन्य सेंसर से प्राप्त डेटा का उपयोग कर व्यापक रूप से व्यवस्था को समझता है, और फिर व्यवस्था के साथ उपयुक्त रूप से अंतःक्रिया करता है।
- इमेज कैप्शन: मल्टिमॉडल एआई तंत्र द्वारा स्वचालित रूप से सूचनात्मक कैप्शन (कैप्शन किसी चित्र या कार्टून के नीचे छपे शब्द होते हैं) बनाए जा सकते हैं। ये कैप्शन छवियों का स्पष्ट रूप से वर्णन करते हैं। परिणामस्वरूप, सामग्री सुलभ और अर्थपूर्ण बन जाती है।
- वीडियो विश्लेषण: मल्टिमॉडल एआई तंत्र वीडियो विश्लेषण में एक महत्वपूर्ण उद्देश्य पूरा करता है। ये श्रवणात्मक और दृश्य डेटा को एकीकृत कर वीडियो में क्रियाओं एवं घटनाओं को पहचानने में सहायता करते हैं।
- स्वायत्त चालन: स्वायत्त वाहन अपने दिशानिर्देशन (नेविगेशन) को सुविधाजनक बनाने और सुरक्षा को बढ़ावा देने के लिए मल्टिमॉडल एआई तंत्र की सहायता लेते हैं। इसके लिए ये तंत्र अलग-अलग सेंसर से प्राप्त डेटा का विश्लेषण करते हैं।
- वाक् अभिज्ञान: मल्टिमॉडल एआई पद्धति का उपयोग वाक् अभिज्ञान में भी किया जाता है। उदाहरण के लिए, OpenAI का व्हिस्पर। ये तंत्र ऑडियो (या बोली जाने वाली भाषा) को सामान्य पाठ में अनुवाद करने का काम करते हैं।
- आभासी वास्तविकता: मल्टिमॉडल एआई तंत्र का उपयोग कर आभासी वास्तविकता के अनुभव को बहुत बेहतर बनाया जा सकता है, जो विस्तृत संवेदी इनपुट देता है, जैसे कि न केवल दृश्य एवं ध्वनि का बल्कि तापमान और पवन भी का।
- क्रॉस-मॉडल (विभिन्न रूपात्मक बोध से संबंधित) डेटा एकीकरण: मल्टिमॉडल एआई का मुख्य उद्देश्य गंध, स्पर्श और मस्तिष्क द्वारा भेजे गए संकेतों सहित विविध बोध संबंधी डेटा को संयोजित करना है। यह गहन अनुभव और आधुनिक अनुप्रयोगों के अन्वेषण को बढ़ावा देता है।
- सामग्री (कंटेंट) निर्माण और बेहतर समझ: मल्टिमॉडल एआई का उपयोग दृश्य या पाठ्य संकेतों के आधार पर दृश्य या पाठ्य सामग्री तैयार करने में भी किया जाता है। इस प्रकार, यह कंटेंट की रचना की सुविधा प्रदान करता है। इसके अलावा, विभिन्न स्रोतों से एकत्र की गई एकीकृत सूचनाओं के कारण डेटा की उन्नत और अति सूक्ष्म व्याख्या होती है। उदाहरण के लिए, कंटेंट की बेहतर समझ प्राप्त करने के लिए पाठ्यांश और छवियों दोनों का विश्लेषण किया जा सकता है।
- बेहतर उपयोगकर्ता अनुभव: मल्टिमॉडल एआई तंत्र का उपयोग उपयोगकर्ताओं के प्रश्नों की व्याख्या करने और बेहतर रूप से उनका उत्तर देने के लिए आभासी सहायक/चैटबॉट्स में भी किया जाता है। वे ऐसा अपनी कही नई पंक्तियों के साथ-साथ दृश्य संकेतों को ध्यान में रखकर करते हैं।
- उन्नत परिशुद्धता: वाक् अभिज्ञान, कंप्यूटर विजन और एनएलपी जैसे कार्यों को उन्नत परिशुद्धता के साथ किया जा सकता है, जैसा कि मल्टिमॉडल एआई कई साधनों से डेटा को एकीकृत करता है। इस प्रकार, एआई तंत्र द्वारा अधिक सूचनात्मक निर्णय लिए जा सकते हैं।
- समस्या समाधान: मल्टिमॉडल एआई द्वारा कई जटिल समस्याओं का समाधान किया जा सकता है, जैसा कि यह विविध डेटा स्रोतों के उपयोगी निरीक्षण का उपयोग कर सकता है। उदाहरण के लिए, आपदा प्रबंधन के मामले में, मल्टिमॉडल एआई द्वारा उचित अनुक्रिया प्रदान करने और उचित अनुशंसा देने से पहले उपग्रह से प्राप्त छवियों, पाठ्यांश एवं दृश्य रिपोर्ट और सेंसर डेटा को संसाधित किया जाता है।
निष्कर्ष
मल्टिमॉडल एआई, एआई के क्षेत्र में एक उभरती हुई प्रौद्योगिकी है। यह डेवलपर्स (डेवलपर वह व्यक्ति होता है जो सॉफ्टवेयर और एप्लिकेशन बनाता है।) को नवाचार के मार्ग पर ले जाता है और उपयोगकर्ताओं को विभिन्न डोमेन (क्षेत्र) में इसके व्यावहारिक अनुप्रयोगों से लाभ उठाने में सक्षम बनाता है।
© Spectrum Books Pvt. Ltd.