Google भारत की भाषा विविधता को समझने के लिए AI का उपयोग करता है

Technology

नई दिल्ली : Google इंडिया ने प्रोजेक्ट वाणी पहल के लिए भारतीय विज्ञान संस्थान (IISc) के साथ मिलकर काम किया है जो पूरे भारत में भाषण डेटा एकत्र करेगा और इसका उपयोग एक कृत्रिम बुद्धिमत्ता (AI)-आधारित भाषा मॉडल बनाने के लिए करेगा जो विविध भारतीय भाषाओं और बोलियों को समझ सके। .

यह परियोजना बेंगलुरु स्थित IISc और AI और रोबोटिक्स टेक्नोलॉजी पार्क (आर्टपार्क) भाषा AI परियोजना का हिस्सा है जिसमें SYSPIN (भारतीय भाषाओं में सिंथेसाइजिंग स्पीच) और RESPIN (भारतीय भाषाओं में भाषण को पहचानना) शामिल है।

“भारत की बोली जाने वाली भाषाएं हर कुछ किलोमीटर पर बदल जाती हैं…मशीनों को कोई उम्मीद नहीं है। इसलिए, समावेशी भाषा एआई के लिए अनुसंधान और नवाचार को हमारे डेटासेट में इस विविधता को कैप्चर करने की आवश्यकता है,” आईआईएससी के एक प्रोफेसर प्रशांत कुमार घोष, जो इन पहलों का नेतृत्व करते हैं, ने प्रोजेक्ट वाणी को लॉन्च करने के कारणों की व्याख्या करते हुए कहा।

Google और IISc ने 773 जिलों से भाषण के नमूने एकत्र करने की योजना बनाई है। पहल, वर्तमान में 10 राज्यों के 80 जिलों में केंद्रित है, अगले कुछ वर्षों में हर जिले में विस्तार करने और 150,000 घंटे से अधिक क्यूरेटेड भाषण और 100 मिलियन वाक्यों के साथ भारत के ओपन-सोर्स भाषा डेटा के आकार और विविधता को बढ़ावा देने की उम्मीद है। भारतीय लिपियों में पाठ की। आर्टपार्क और आईआईएससी एक साथ इन डेटासेट का उपयोग करके स्वास्थ्य, कृषि और वित्तीय समावेशन जैसे क्षेत्रों में एप्लिकेशन बनाने के लिए शोधकर्ताओं और स्टार्टअप के लिए चुनौतियों का शुभारंभ करने की योजना बना रहे हैं।

गूगल रिसर्च इंडिया के निदेशक मनीष गुप्ता ने कहा कि वाणी को 100 से अधिक भारतीय भाषाओं के भाषण और पाठ डेटा पर प्रशिक्षित किया जाएगा। उन्होंने कहा कि नया मॉडल मल्टीलिंगुअल रिप्रेजेंटेशन्स फॉर इंडियन लैंग्वेजेज (एमयूआरआईएल) पर एक छलांग है, जो केवल टेक्स्ट वाला मॉडल था। नया मॉडल भाषण और पाठ दोनों का समर्थन करता है।

उन्होंने कहा, “हम यह सुनिश्चित करना चाहते हैं कि कोई भी भाषा जो 100,000 लोगों द्वारा बोली जाती है, कवर की गई है।” MuRIL एक बर्ट-आधारित भाषा मॉडल है जो 17 भारतीय भाषाओं पर प्रशिक्षित है। ट्रांसफॉर्मर्स से बर्ट या द्विदिश एनकोडर प्रतिनिधित्व एक Google द्वारा विकसित मशीन भाषा है। (एमएल)-आधारित तकनीक भाषा मॉडल उत्पन्न करने के लिए शब्दों के बीच प्रासंगिक संबंधों को सीखने के लिए।

गुप्ता ने एक अन्य एआई मॉडल की भी घोषणा की, जो एग्रीटेक स्टार्टअप्स और नीति निर्माताओं को कृषि संबंधी अंतर्दृष्टि प्रदान करने के लिए सैटेलाइट इमेजरी का उपयोग करेगा और एक एआई-आधारित ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) टूल है जिसे हस्तलिखित चिकित्सा नुस्खे पढ़ने के लिए प्रशिक्षित किया गया है।

Google रिसर्च इंडिया ने IIT मद्रास को भारत में उत्तरदायी AI के लिए एक केंद्र खोलने के लिए $1 मिलियन के अनुदान की भी घोषणा की। एआई मॉडल की तैनाती का समर्थन करने के लिए वाधवानी फाउंडेशन को समान राशि का एक और अनुदान दिया जाएगा।

गुप्ता ने कहा कि नया भाषा मॉडल 1,000 वैश्विक भाषाओं के लिए एक मॉडल बनाने के लिए व्यापक Google पहल का हिस्सा है। उन्होंने कहा, “हम यह सुनिश्चित करना चाहते हैं कि भारतीय भाषाएं इस मॉडल में प्रतिनिधित्व के मामले में सबसे आगे और केंद्र में हों।”

गुप्ता ने समझाया कि कई भारतीय भाषाओं में अपेक्षाकृत कम संसाधन हैं। बर्ट जैसे मॉडल उपलब्ध वेब संसाधनों पर बनाए गए हैं, और चूंकि भारतीय भाषाओं का प्रतिनिधित्व कम होता है, अक्सर भारतीय भाषाओं के साथ इन मॉडलों की क्षमता उतनी अच्छी नहीं होती जितनी कि शोधकर्ताओं द्वारा अपेक्षा की जाती है। उस ने कहा, गुप्ता ने यह भी आगाह किया कि समाज की भलाई के लिए भाषा के मॉडल को सावधानी से संभालना चाहिए।

उन्होंने बताया कि लैंग्वेज मॉडल फॉर डायलॉग एप्लिकेशन (LaMDA) और ChatGPT जैसे मॉडल मतिभ्रम के शिकार हैं। “वे एक स्पष्टीकरण के साथ आ सकते हैं जो ठोस लगता है लेकिन वास्तव में फर्जी है। जिम्मेदार तरीके से इन एआई मॉडलों के विकास पर काम करना बहुत महत्वपूर्ण हो जाता है।”

भारत में उत्तरदायी एआई केंद्र स्थापित करने के लिए आईआईटी मद्रास को $1 मिलियन का अनुदान अन्य संस्थानों और सामाजिक विज्ञान और कानून जैसे अन्य क्षेत्रों के शोधकर्ताओं को एक साथ लाने का एक प्रयास है। “जिम्मेदार एआई पर बहुत सारे शोध पश्चिमी संदर्भ में किए गए हैं। भारत में, क्षेत्र और जाति के आधार पर पूर्वाग्रह के अतिरिक्त आयाम हैं। यह महत्वपूर्ण है कि हम भारतीय संदर्भ में इन सभी पूर्वाग्रहों का अध्ययन करें और इन एआई मॉडलों को विकसित करते समय उन्हें ध्यान में रखें।”

इसी तरह, कृषि के लिए एआई मॉडल सैटेलाइट इमेजरी में एआई मॉडल को लागू करके क्षेत्र की कई समस्याओं को हल करने का एक प्रयास है। “हमारा काम रिमोट सेंसिंग और एआई के संयोजन पर केंद्रित है। हम खेत की सीमाओं और भूदृश्य की समझ की पहचान करने के लिए मॉडल को लागू करेंगे। फिर हम इस बात की गहराई में जा सकते हैं कि प्रत्येक खेत में कौन सी फसल उगाई जा रही है और संभावित उपज क्या है।”

गुप्ता ने कहा कि गूगल इकोसिस्टम में भागीदारों के साथ काम करेगा और यह डेटा सरकार, नीति निर्माताओं और स्टार्टअप्स को उपलब्ध कराएगा जो कृषि समाधान तैयार कर रहे हैं और कृषि स्टैक में योगदान दे रहे हैं जिसे भारत सरकार परिभाषित कर रही है। गूगल इसके लिए तेलंगाना सरकार के साथ मिलकर एक पायलट पर काम कर रहा है।

सभी को पकड़ो प्रौद्योगिकी समाचार और लाइव मिंट पर अपडेट। डाउनलोड करें टकसाल समाचार ऐप दैनिक प्राप्त करने के लिए बाजार अद्यतन & रहना व्यापार समाचार.

अधिक
कम

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *