मुख्य: कंप्यूटर विजन की दुनिया की खोज
घटना: SCBX AI EP4 को अनलॉक करना, कंप्यूटर विज़न: AI चीजों को कैसे देखता है जैसे हम करते हैं
सहयोग: एससीबीएक्स और Insiderly.ai
कार्यक्रम-स्थल: एससीबीएक्स नेक्स्टटेक, सियाम पैरागॉन, चौथी मंजिल
वक्ता: डॉ. संमृत मारुखतात वरिष्ठ शोधकर्ता, एनईसीटीईसी


जैसे-जैसे तकनीक आगे बढ़ती है, कंप्यूटर की शक्ति और तथाकथित कंप्यूटर विजन व्यापक हो गया है, जिससे किसी के लिए भी विशाल दुनिया को नेविगेट करना आसान हो गया है।
"एससीबीएक्स अनलॉकिंग एआई: ईपी 4" शीर्षक वाली संगोष्ठी में "कंप्यूटर विजन: हाउ एआई सी थिंग्स लाइक वी डू", एनईसीटीईसी के वरिष्ठ शोधकर्ता डॉ. संप्रीत मरुक्तात ने "कंप्यूटर विजन की दुनिया की खोज" विषय पर एक व्याख्यान दिया ताकि यह समझाया जा सके कि यह अत्याधुनिक एआई तकनीक लोगों के जीवन को बेहतर बनाने में कैसे मदद कर सकती है। प्रमुख बिंदु इस प्रकार हैं:
- यदि आप जानना चाहते हैं कि कंप्यूटर विजन का उपयोग किन क्षेत्रों के लिए किया जा सकता है? सबसे आसान तरीका है हॉलीवुड फिल्में जैसे 'आयरन कर्टन' फिल्म द टर्मिनेटर, जहां बुद्धिमान रोबोट चौतरफा उच्च तकनीक से लैस हैं, जिनमें से एक चीजों को देखना और उनका पता लगाना और उन्हें छवियों में संसाधित करना है, या फिल्म ईगल आइज़ में, जहां कृत्रिम बुद्धिमत्ता लोगों के मुंह को पढ़ने की कोशिश करती है कि वे क्या कह रहे हैं।
- कंप्यूटर विजन हमारे जीवन को तुरंत आसान बना सकता है, इसमें से एक हमें विभिन्न रूपों में जानकारी खोजने में मदद करना है, जैसे कि फ़ोटो खोजना। बस कई प्रकार के जनरेटिव एआई और कई प्लेटफॉर्म का उपयोग करें जो कॉपीराइट-मुक्त छवियों का समर्थन करते हैं।
इन फिल्मों में क्या पाया जाता है? अतीत में, इसे अवास्तविक के रूप में देखा जा सकता है। लेकिन अब यह वास्तविक है या वास्तविकता बनने की संभावना है, और न केवल इन दो फिल्मों में यह अवधारणा के माध्यम से अत्याधुनिक तकनीक के उपयोग को दर्शाता है, बल्कि फिल्म में कई अन्य प्रौद्योगिकियां हैं जो एक वास्तविकता बन गई हैं। हालाँकि, यह एक सफलता नहीं हो सकती है जिसका व्यापक रूप से कथा शैली के अनुसार उपयोग किया जा सकता है।

- कई क्षेत्रों में गहन कंप्यूटर दृष्टि का उपयोग किया जा रहा है, जैसे कि दवा, जो एआई का उपयोग छवि गुणवत्ता में सुधार करने के लिए करती है ताकि डॉक्टरों को एक्स-रे छवियों का अधिक सटीक निदान करने में मदद मिल सके, वस्तुओं का पता लगाने के लिए एआई का उपयोग करने के लिए, जैसे कि पेट में ट्यूमर का पता लगाना। 3 डी मान्यता मॉडलिंग, भाषण पहचान, आदि।
- डॉ. सम्फरीत कंप्यूटर विश्वदृष्टि के सिद्धांत की व्याख्या करें: कंप्यूटर दुनिया को पिक्सेल के रूप में देखते हैं। यह एक छोटे वर्ग की तरह दिखता है जिसे एक बड़ी छवि बनाने के लिए एक दूसरे के ऊपर रखा जाता है।
- कंप्यूटर दृष्टि का उपयोग करने वाला पहला काम डिजाइन था, छोटे पिक्सेल-स्तरीय चीजों को इकट्ठा करने के लिए कोड लिखकर। कंप्यूटर विजन एक ऐसे युग में शुरू हुआ जब एआई शब्द नहीं था।
- तंत्रिका नेटवर्क का उपयोग अब कंप्यूटर दृष्टि में किया जा रहा है ताकि छवि बनाने वाले पिक्सेल से स्वचालित रूप से सुविधाओं को निकालने में मदद मिल सके।
- कई अध्ययनों में, कई शोध टीमों ने पाया है कि इन तंत्रिका नेटवर्क से प्राप्त विशेषताएं विशेषज्ञों द्वारा डिज़ाइन किए गए लोगों की तुलना में अधिक प्रभावी हैं क्योंकि वे समान और समान हैं।
प्रत्येक पिक्सेल के संयोजन के कारण, यह नसों की तरह है जो तंत्रिका तंत्र बनाने के लिए एक साथ आते हैं। - प्रेरक शोधकर्ता क्रिएटिव को इस बात का अंदाजा है कि अगर वे एक बड़ा नेटवर्क बनाना चाहते हैं तो उन्हें क्या करना चाहिए। इससे एक चेहरे की रिकॉर्डिंग प्रणाली का निर्माण हुआ जो हमारे चेहरे की विशिष्ट विशेषताओं को रिकॉर्ड करेगा। इसका उपयोग चलती वस्तुओं का पता लगाने के लिए किया जाता है जहां वे हैं।
- तंत्रिका नेटवर्क पर अनुसंधान एआई से पहले भी लंबे समय से आसपास रहा है।
लेकिन अतीत में, हमारे पास एक बड़ा नेटवर्क बनाने का कोई तरीका नहीं था जो अच्छी तरह से काम करता था। - अब हम जानते हैं कि एक बड़ा नेटवर्क बनाने के लिए क्या करना है, और डेटा और कंप्यूटिंग शक्ति की मात्रा अतीत की तुलना में बहुत बेहतर है।
नतीजतन, बड़े पैमाने पर नेटवर्क का निर्माण और उपयोग, जिसे डीप न्यूरल नेटवर्क के रूप में भी जाना जाता है, का व्यापक रूप से उपयोग किया जाता है। - हम आमतौर पर जिन प्रणालियों का उपयोग करते हैं वे चेहरे की पहचान प्रणाली हैं।
या ऑब्जेक्ट डिटेक्शन सिस्टम जैसे कार, मोटरसाइकिल, या लोग सभी डीप न्यूरल नेटवर्क का उपयोग करते हैं। - यह कहा जा सकता है कि सभी कंप्यूटर दृष्टि कार्य आज गहरे तंत्रिका नेटवर्क का उपयोग करते हैं।

- लेकिन फिर भी आज इसे कई तरह से इस्तेमाल किया जा सकता है। कंप्यूटर दृष्टि की चुनौतियां कम नहीं हैं। यदि आपको बड़ी संख्या में चित्र बनाने और त्वरित समय में एक सुसंगत कैप्शन बनाने की आवश्यकता है, तो आप गुणवत्ता को कैसे नियंत्रित करते हैं?
वर्तमान में, एआई बनाया जा सकता है जो छवियों और पाठ दोनों पर काम कर सकता है, जैसे स्थिर प्रसार जो कैप्शन से चित्र उत्पन्न करता है, छवि कैप्शनिंग सिस्टम जो छवियों के लिए कैप्शन उत्पन्न करता है, दृश्य प्रश्न उत्तर प्रणाली जो छवियों से संबंधित प्रश्नों का उत्तर दे सकती है, और OpenAI की CLIP प्रणाली जो छवियों और कैप्शन के बीच स्थिरता देखने में मदद करती है।


चिकित्सा क्षेत्र में, जैसे कि फेफड़े का एक्स-रे विश्लेषण, एक ही सिद्धांत लागू होता है। प्रणाली, अर्थात्, तंत्रिका नेटवर्क का उपयोग नैदानिक इमेजिंग के लिए उपयुक्त सुविधाओं को बनाने के लिए किया जाता है, जैसे कि सामान्य लोगों या COVID-19 रोगियों के फेफड़ों के एक्स-रे, या रक्त स्लाइड छवियों से थैलेसीमिया विश्लेषण, डीप न्यूरल नेटवर्क का भी उपयोग करता है।
इन तंत्रिका नेटवर्क द्वारा बनाई गई विशेषताओं को सीधे शब्दों में व्याख्या करने में सक्षम नहीं हो सकता है। नतीजतन, सामान्य डॉक्टर इन तंत्रिका नेटवर्क द्वारा निदान को स्वीकार नहीं करते हैं।
आजकल, बहुत सारे डॉक्टर हैं जो एआई पर अपना शोध कर रहे हैं, और चिकित्सा अनुसंधान सम्मेलनों में इस विषय पर काफी अधिक शोध सम्मेलन हैं। 5-6 साल पहले की तुलना में, यह एक महत्वपूर्ण तंत्र है जिसने तंत्रिका नेटवर्क द्वारा निदान की अधिक से अधिक स्वीकृति प्रदान की है।


- डेवलपर्स के सामने एक और चुनौती सीमित डेटा के साथ डेटा तक पहुंच है, जिससे शोधकर्ताओं और श्रमिकों के लिए गुणवत्ता का काम विकसित करना असंभव हो जाता है। क्योंकि अक्सर जिनके पास जानकारी होती है उन्हें इसका उपयोग करने या विकसित करना जारी रखने की अनुमति नहीं होती है। नतीजतन, काम की गुणवत्ता वांछित के रूप में अच्छी नहीं है।
- इसके अलावा, कुछ एआई हैं जो थाई भाषा में अच्छे हैं। विकसित विदेशी मॉडलों की तुलना में, यह ऊपर वर्णित बुनियादी चुनौतियों और कई और अधिक को जन्म देगा।