सामग्री में जाएं
2 मिनट लाल SCBX एआई अनलॉक करना

SCBX UNLOCKING AI सेमिनार (EP4) से कंप्यूटर विजन की दुनिया की खोज का सारांश

สรุปเนื้อหา เรื่อง Exploring the world of Computer Vision จากงานสัมมนา SCBX UNLOCKING AI (EP4)

मुख्य: कंप्यूटर विजन की दुनिया की खोज

घटना: SCBX AI EP4 को अनलॉक करना, कंप्यूटर विज़न: AI चीजों को कैसे देखता है जैसे हम करते हैं

सहयोग: एससीबीएक्स और Insiderly.ai

कार्यक्रम-स्‍थल: एससीबीएक्स नेक्स्टटेक, सियाम पैरागॉन, चौथी मंजिल

वक्ता: डॉ. संमृत मारुखतात वरिष्ठ शोधकर्ता, एनईसीटीईसी

ดร.สรรพฤทธิ์ มฤคทัต Senior Researcher, NECTEC
ดร.สรรพฤทธิ์ มฤคทัต वरिष्ठ शोधकर्ता, NECTEC

जैसे-जैसे तकनीक आगे बढ़ती है, कंप्यूटर की शक्ति और तथाकथित कंप्यूटर विजन व्यापक हो गया है, जिससे किसी के लिए भी विशाल दुनिया को नेविगेट करना आसान हो गया है।

"एससीबीएक्स अनलॉकिंग एआई: ईपी 4" शीर्षक वाली संगोष्ठी में "कंप्यूटर विजन: हाउ एआई सी थिंग्स लाइक वी डू", एनईसीटीईसी के वरिष्ठ शोधकर्ता डॉ. संप्रीत मरुक्तात ने "कंप्यूटर विजन की दुनिया की खोज" विषय पर एक व्याख्यान दिया ताकि यह समझाया जा सके कि यह अत्याधुनिक एआई तकनीक लोगों के जीवन को बेहतर बनाने में कैसे मदद कर सकती है। प्रमुख बिंदु इस प्रकार हैं:

  1. यदि आप जानना चाहते हैं कि कंप्यूटर विजन का उपयोग किन क्षेत्रों के लिए किया जा सकता है? सबसे आसान तरीका है हॉलीवुड फिल्में जैसे 'आयरन कर्टन' फिल्म द टर्मिनेटर, जहां बुद्धिमान रोबोट चौतरफा उच्च तकनीक से लैस हैं, जिनमें से एक चीजों को देखना और उनका पता लगाना और उन्हें छवियों में संसाधित करना है, या फिल्म ईगल आइज़ में, जहां कृत्रिम बुद्धिमत्ता लोगों के मुंह को पढ़ने की कोशिश करती है कि वे क्या कह रहे हैं।
  1. कंप्यूटर विजन हमारे जीवन को तुरंत आसान बना सकता है, इसमें से एक हमें विभिन्न रूपों में जानकारी खोजने में मदद करना है, जैसे कि फ़ोटो खोजना। बस कई प्रकार के जनरेटिव एआई और कई प्लेटफॉर्म का उपयोग करें जो कॉपीराइट-मुक्त छवियों का समर्थन करते हैं।

इन फिल्मों में क्या पाया जाता है? अतीत में, इसे अवास्तविक के रूप में देखा जा सकता है। लेकिन अब यह वास्तविक है या वास्तविकता बनने की संभावना है, और न केवल इन दो फिल्मों में यह अवधारणा के माध्यम से अत्याधुनिक तकनीक के उपयोग को दर्शाता है, बल्कि फिल्म में कई अन्य प्रौद्योगिकियां हैं जो एक वास्तविकता बन गई हैं। हालाँकि, यह एक सफलता नहीं हो सकती है जिसका व्यापक रूप से कथा शैली के अनुसार उपयोग किया जा सकता है।

  1. कई क्षेत्रों में गहन कंप्यूटर दृष्टि का उपयोग किया जा रहा है, जैसे कि दवा, जो एआई का उपयोग छवि गुणवत्ता में सुधार करने के लिए करती है ताकि डॉक्टरों को एक्स-रे छवियों का अधिक सटीक निदान करने में मदद मिल सके, वस्तुओं का पता लगाने के लिए एआई का उपयोग करने के लिए, जैसे कि पेट में ट्यूमर का पता लगाना। 3 डी मान्यता मॉडलिंग, भाषण पहचान, आदि।
  2. डॉ. सम्फरीत कंप्यूटर विश्वदृष्टि के सिद्धांत की व्याख्या करें: कंप्यूटर दुनिया को पिक्सेल के रूप में देखते हैं। यह एक छोटे वर्ग की तरह दिखता है जिसे एक बड़ी छवि बनाने के लिए एक दूसरे के ऊपर रखा जाता है।
  3. कंप्यूटर दृष्टि का उपयोग करने वाला पहला काम डिजाइन था, छोटे पिक्सेल-स्तरीय चीजों को इकट्ठा करने के लिए कोड लिखकर। कंप्यूटर विजन एक ऐसे युग में शुरू हुआ जब एआई शब्द नहीं था।
  4. तंत्रिका नेटवर्क का उपयोग अब कंप्यूटर दृष्टि में किया जा रहा है ताकि छवि बनाने वाले पिक्सेल से स्वचालित रूप से सुविधाओं को निकालने में मदद मिल सके।
  1. लेकिन फिर भी आज इसे कई तरह से इस्तेमाल किया जा सकता है। कंप्यूटर दृष्टि की चुनौतियां कम नहीं हैं। यदि आपको बड़ी संख्या में चित्र बनाने और त्वरित समय में एक सुसंगत कैप्शन बनाने की आवश्यकता है, तो आप गुणवत्ता को कैसे नियंत्रित करते हैं?

वर्तमान में, एआई बनाया जा सकता है जो छवियों और पाठ दोनों पर काम कर सकता है, जैसे स्थिर प्रसार जो कैप्शन से चित्र उत्पन्न करता है, छवि कैप्शनिंग सिस्टम जो छवियों के लिए कैप्शन उत्पन्न करता है, दृश्य प्रश्न उत्तर प्रणाली जो छवियों से संबंधित प्रश्नों का उत्तर दे सकती है, और OpenAI की CLIP प्रणाली जो छवियों और कैप्शन के बीच स्थिरता देखने में मदद करती है।

Visual Questions Answering เป็นตัวอย่างการใช้งาน Computer Vision ที่น่าสนใจ
दृश्य प्रश्नों का उत्तर कंप्यूटर दृष्टि का उपयोग करने का एक दिलचस्प उदाहरण है।

चिकित्सा क्षेत्र में, जैसे कि फेफड़े का एक्स-रे विश्लेषण, एक ही सिद्धांत लागू होता है। प्रणाली, अर्थात्, तंत्रिका नेटवर्क का उपयोग नैदानिक इमेजिंग के लिए उपयुक्त सुविधाओं को बनाने के लिए किया जाता है, जैसे कि सामान्य लोगों या COVID-19 रोगियों के फेफड़ों के एक्स-रे, या रक्त स्लाइड छवियों से थैलेसीमिया विश्लेषण, डीप न्यूरल नेटवर्क का भी उपयोग करता है।

इन तंत्रिका नेटवर्क द्वारा बनाई गई विशेषताओं को सीधे शब्दों में व्याख्या करने में सक्षम नहीं हो सकता है। नतीजतन, सामान्य डॉक्टर इन तंत्रिका नेटवर्क द्वारा निदान को स्वीकार नहीं करते हैं।


आजकल, बहुत सारे डॉक्टर हैं जो एआई पर अपना शोध कर रहे हैं, और चिकित्सा अनुसंधान सम्मेलनों में इस विषय पर काफी अधिक शोध सम्मेलन हैं। 5-6 साल पहले की तुलना में, यह एक महत्वपूर्ण तंत्र है जिसने तंत्रिका नेटवर्क द्वारा निदान की अधिक से अधिक स्वीकृति प्रदान की है।

  1. डेवलपर्स के सामने एक और चुनौती सीमित डेटा के साथ डेटा तक पहुंच है, जिससे शोधकर्ताओं और श्रमिकों के लिए गुणवत्ता का काम विकसित करना असंभव हो जाता है। क्योंकि अक्सर जिनके पास जानकारी होती है उन्हें इसका उपयोग करने या विकसित करना जारी रखने की अनुमति नहीं होती है। नतीजतन, काम की गुणवत्ता वांछित के रूप में अच्छी नहीं है।
  2. इसके अलावा, कुछ एआई हैं जो थाई भाषा में अच्छे हैं। विकसित विदेशी मॉडलों की तुलना में, यह ऊपर वर्णित बुनियादी चुनौतियों और कई और अधिक को जन्म देगा।