3 सेकेंड में निकाल सकेंगे किसी की भी आवाज! Microsoft ने दिखाया VALL-E का जलवा

Microsoft VALL-E: माइक्रोसॉफ्ट ने एक कमाल का AI मॉडल इंट्रोड्यूस किया है. इसकी मदद से किसी भी टेक्स्ट को आवाज में कन्वर्ट किया जा सकता है. फिलहाल कंपनी इस प्रोजेक्ट पर काम कर रही है, लेकिन इसका एक सैंपल दिखाया है. ये AI मॉडल किसी भी टेक्स्ट को सिर्फ 3 सेकेंट के गैप में पढ़ सकता है. आइए जानते हैं इस टेक्नोलॉजी की डिटेल्स.

Advertisement
Microsoft ने दिखाई कमाल की टेक्नोलॉजी Microsoft ने दिखाई कमाल की टेक्नोलॉजी

aajtak.in

  • नई दिल्ली,
  • 23 जनवरी 2023,
  • अपडेटेड 5:49 PM IST

माइक्रोसॉफ्ट ने एक नया AI मॉडल पेश किया है, जिसका नाम VALL-E है. ये मॉडल अपने तरह का एक बेहतरीन प्रोडक्ट साबित हो सकता है. माइक्रोसॉफ्ट का ये प्रोडक्ट टेक्स्ट-टू-स्पीच पर काम करता है. यानी ये आपके लिखे को पढ़ सकता है, वो भी तीन सेकेंड में. इसकी काबिलियत इतने पर ही खत्म नहीं होती. 
 
ये मॉडल किसी की भी आवाज निकाल सकता है. VALL-E ना सिर्फ किसी की आवाज में टेक्स्ट को पढ़ सकता है. बल्कि ये आपके टेक्स्ट को एक इमोशनल टच दे सकता है. रिपोर्ट्स की मानें तो इस प्रोडक्ट का इस्तेमाल एक दिन हाई-एंड टेस्ट-टू-स्पीच एप्लिकेशन में किया जा सकेगा. 

Advertisement

क्या है टेक्नोलॉजी?

VALL-E माइक्रोसॉफ्ट का का एक प्रोजेक्ट है, जिसके कंपनी neural codec language model कहती है. रिसर्चर्स ने इसके बारे में कुछ डिटेल्स शेयर की हैं, जो चौंकाने वाली हैं. उन्होंने बताया है कि कैसे VALL-E को ट्रेनिंग दी गई है.

इस AI मॉडल को 60 हजार घंटे से ज्यादा की इंग्लिश लैंग्वेज स्पीच की ट्रेनिंग 7 हजार से ज्यादा स्पीकर से मिली है. ट्रेनिंग के दौरान ये जिस आवाज की नकल करता है, उसके रिजल्ट ओरिजनल से काफी करीब हैं.

अगर ऐसा फाइनल प्रोडक्ट में भी होता है, तो ये किसी स्पीकर के लिए लिखी हुई स्पीच को उसकी ही आवाज में आसानी से पढ़ सकेगा. यहां तक की ये उस स्पीच को किसी मशीन की तरह नहीं बल्कि एक इंसान की तरह पढ़ सकता है. ऐसे में Deepfake की तरह इसका गलत इस्तेमाल भी किया जा सकता है.  

Advertisement

हो सकता है गलत इस्तेमाल

रिसर्चर्स की टीम ने VALL-E के Github पेज पर दिखाया है कि ये कैसे काम करता है. रिपोर्ट्स की मानें तो इसका रिजल्ट मिक्स रहा. यानी कुछ मौकों पर इस AI मॉडल की रीडिंग एक मशीन की तरह थी, जबकि कुछ मौकों पर इसका रिजल्ट चौंकाने वाला था.

इसने किसी इंसान की तरह ही लिखे हुए टेक्स्ट को पढ़ा है. यहां तक की अगर किसी स्पीकर की रिकॉर्डेड आवाज में Echo था, तो आउटपुट में भी ऐसा ही नजर आया. 

इस मॉडल को बेहतर करने के लिए Microsoft ट्रेनिंग को बढ़ाने पर विचार कर रहा है. माइक्रोसॉफ्ट इसके कोड को ओपन सोर्स नहीं करेगा. कंपनी ने माना है कि इसका गलत इस्तेमाल किया जा सकता है.

Read more!
Advertisement

RECOMMENDED

Advertisement