India AI Impact Summit के दौरान Sarvam AI के बुलबुल मॉडल की भी बात हुई. Bulbul असल में एक Text-to-speech (TTS) सिस्टम है. यानी यह लिखे हुए टेक्स्ट को आवाज़ में बदलता है.
कंपनी का फोकस है कि यह आवाज़ भारतीय भाषाओं में ज्यादा नैचुरल लगे. अभी तक इस सेगमेंट में ज्यादातर अच्छे TTS मॉडल इंग्लिश और कुछ ग्लोबल भाषाओं पर ज्यादा मजबूत रहे हैं. Sarvam यहां इंडिया-फोकस्ड अप्रोच ले रहा है.
Bulbul क्या करता है और किस तरह का AI है
Bulbul जनरल AI नहीं है. यह ChatGPT या Gemini जैसा सवाल-जवाब करने वाला मॉडल नहीं है. यह खास तौर पर आवाज़ बनाने के लिए बना है. यानी आप टेक्स्ट देंगे और यह उसे बोलकर सुनाएगा.
Bulbul का इस्तेमाल ऑडियो कंटेंट, कॉल सेंटर, IVR सिस्टम, एजुकेशन ऐप और लोकल भाषा वाले प्लेटफॉर्म पर किया जा सकता है. कंपनी का दावा है कि Bulbul में भारतीय लहजे और उच्चारण को बेहतर तरीके से समझा गया है.
यह भी पढ़ें: क्या स्वदेसी Sarvam AI को पछाड़ सकता है?
भारतीय भाषाओं पर फोकस क्यों अहम है
भारत में बड़ी संख्या में लोग इंग्लिश के अलावा हिंदी और दूसरी भाषाओं में कंटेंट सुनना पसंद करते हैं. कई बार ग्लोबल Text-to-speech यानी मॉडल हिंदी या दूसरी लोकल भाषाओं को रोबोटिक टोन में बोलते हैं.
Sarvam का कहना है कि Bulbul में इस कमी को कम करने की कोशिश की गई है. मॉडल को इंडियन भाषाओं और हिंग्लिश जैसे मिक्स टेक्स्ट पर ट्रेन किया गया है. इसका मतलब है कि अगर टेक्स्ट में हिंदी और इंग्लिश दोनों मिक्स हों, तब भी आवाज़ ज्यादा नैचुरल सुनाई दे सकती है.
ChatGPT और Gemini से कैसे है अलग?
Bulbul की तुलना ChatGPT या Gemini से सीधे करना सही नहीं है. ChatGPT और Gemini जनरल AI सिस्टम हैं. वे सवालों के जवाब देते हैं. टेक्स्ट लिखते हैं. इमेज और दूसरे टास्क भी करते हैं.
Bulbul का काम सिर्फ आवाज़ बनाना है. Sarvam की टीम कुछ इंटरव्यू में यह कह चुकी है कि इंडियन लैंग्वेज की आवाज़ में Bulbul कुछ केस में ग्लोबल मॉडल्स से बेहतर सुनाई देता है. लेकिन यह तुलना सिर्फ टेक्स्ट टु स्पीच और लोकल भाषा के कॉन्टेक्स्ट में है. हर तरह के AI काम में नहीं.
कितना बेहतर है
Sarvam का कहना है कि उन्होंने अपने मॉडल को अलग-अलग लिसनिंग टेस्ट और इंटरनल बेंचमार्क में चेक किया है. लेकिन यह भी सच है कि ये टेस्ट ज्यादातर कंपनी के अपने या पार्टनर-बेस्ड स्टडी पर आधारित हैं. इंडस्ट्री लेवल पर बड़े पैमाने पर स्वतंत्र टेस्ट अभी सीमित हैं. इसलिए इन दावों को फाइनल फैसला नहीं माना जा सकता.
किसके लिए ज्यादा काम का हो सकता है Bulbul
Bulbul उन लोगों और कंपनियों के लिए ज्यादा काम का है जो लोकल भाषा में ऑडियो बनाते हैं. जैसे मीडिया हाउस, एजुकेशन प्लेटफॉर्म, न्यूज ऐप, और कस्टमर सपोर्ट सिस्टम.
जिन जगहों पर हिंदी और दूसरी भारतीय भाषाओं में सही टोन में आवाज़ चाहिए, वहां Bulbul एक प्रैक्टिकल ऑप्शन बन सकता है. खासकर तब जब ग्लोबल TTS मॉडल लोकल उच्चारण ठीक से नहीं पकड़ पाते.
Bulbul को कैसे इस्तेमाल करें और इसका प्राइसिंग मॉडल क्या है
Bulbul को सीधे Sarvam AI की वेबसाइट और API के जरिए इस्तेमाल किया जा सकता है. डेवलपर्स अपने ऐप, वेबसाइट या सिस्टम में Bulbul को इंटीग्रेट कर सकते हैं ताकि टेक्स्ट को ऑटोमैटिक आवाज़ में बदला जा सके.
इसके लिए Sarvam की API डॉक्यूमेंटेशन दी गई है जहां से सेटअप और टेस्टिंग की जा सकती है. फिलहाल Sarvam AI का सब्सक्रिप्शन और प्राइसिंग मॉडल यूज-केस और API यूसेज पर डिपेंड करता है.