scorecardresearch
 

3 सेकेंड में निकाल सकेंगे किसी की भी आवाज! Microsoft ने दिखाया VALL-E का जलवा

Microsoft VALL-E: माइक्रोसॉफ्ट ने एक कमाल का AI मॉडल इंट्रोड्यूस किया है. इसकी मदद से किसी भी टेक्स्ट को आवाज में कन्वर्ट किया जा सकता है. फिलहाल कंपनी इस प्रोजेक्ट पर काम कर रही है, लेकिन इसका एक सैंपल दिखाया है. ये AI मॉडल किसी भी टेक्स्ट को सिर्फ 3 सेकेंट के गैप में पढ़ सकता है. आइए जानते हैं इस टेक्नोलॉजी की डिटेल्स.

Advertisement
X
Microsoft ने दिखाई कमाल की टेक्नोलॉजी
Microsoft ने दिखाई कमाल की टेक्नोलॉजी

माइक्रोसॉफ्ट ने एक नया AI मॉडल पेश किया है, जिसका नाम VALL-E है. ये मॉडल अपने तरह का एक बेहतरीन प्रोडक्ट साबित हो सकता है. माइक्रोसॉफ्ट का ये प्रोडक्ट टेक्स्ट-टू-स्पीच पर काम करता है. यानी ये आपके लिखे को पढ़ सकता है, वो भी तीन सेकेंड में. इसकी काबिलियत इतने पर ही खत्म नहीं होती. 
 
ये मॉडल किसी की भी आवाज निकाल सकता है. VALL-E ना सिर्फ किसी की आवाज में टेक्स्ट को पढ़ सकता है. बल्कि ये आपके टेक्स्ट को एक इमोशनल टच दे सकता है. रिपोर्ट्स की मानें तो इस प्रोडक्ट का इस्तेमाल एक दिन हाई-एंड टेस्ट-टू-स्पीच एप्लिकेशन में किया जा सकेगा. 

क्या है टेक्नोलॉजी?

VALL-E माइक्रोसॉफ्ट का का एक प्रोजेक्ट है, जिसके कंपनी neural codec language model कहती है. रिसर्चर्स ने इसके बारे में कुछ डिटेल्स शेयर की हैं, जो चौंकाने वाली हैं. उन्होंने बताया है कि कैसे VALL-E को ट्रेनिंग दी गई है.

इस AI मॉडल को 60 हजार घंटे से ज्यादा की इंग्लिश लैंग्वेज स्पीच की ट्रेनिंग 7 हजार से ज्यादा स्पीकर से मिली है. ट्रेनिंग के दौरान ये जिस आवाज की नकल करता है, उसके रिजल्ट ओरिजनल से काफी करीब हैं.

अगर ऐसा फाइनल प्रोडक्ट में भी होता है, तो ये किसी स्पीकर के लिए लिखी हुई स्पीच को उसकी ही आवाज में आसानी से पढ़ सकेगा. यहां तक की ये उस स्पीच को किसी मशीन की तरह नहीं बल्कि एक इंसान की तरह पढ़ सकता है. ऐसे में Deepfake की तरह इसका गलत इस्तेमाल भी किया जा सकता है.  

Advertisement

हो सकता है गलत इस्तेमाल

रिसर्चर्स की टीम ने VALL-E के Github पेज पर दिखाया है कि ये कैसे काम करता है. रिपोर्ट्स की मानें तो इसका रिजल्ट मिक्स रहा. यानी कुछ मौकों पर इस AI मॉडल की रीडिंग एक मशीन की तरह थी, जबकि कुछ मौकों पर इसका रिजल्ट चौंकाने वाला था.

इसने किसी इंसान की तरह ही लिखे हुए टेक्स्ट को पढ़ा है. यहां तक की अगर किसी स्पीकर की रिकॉर्डेड आवाज में Echo था, तो आउटपुट में भी ऐसा ही नजर आया. 

इस मॉडल को बेहतर करने के लिए Microsoft ट्रेनिंग को बढ़ाने पर विचार कर रहा है. माइक्रोसॉफ्ट इसके कोड को ओपन सोर्स नहीं करेगा. कंपनी ने माना है कि इसका गलत इस्तेमाल किया जा सकता है.

Advertisement
Advertisement