इंसानों की तरह हिंदी में बात करता है स्वदेशी Sarvam AI का बुलबुल, आवाज बिल्कुल नैचुरल

AI Impact Summit के दौरान स्वदेशी AI Sarvam की तरफ से बुलबुल पेश किया गया. ये टेक्स्ट टु स्पीच मॉडल है जो टेक्स्ट से ऑडियो बनाता है. खासियत ये है कि ये हिंदी में नैचुरल इंसानों जैसी वॉयस आउटपुट दे सकता है.

Advertisement
Sarvam AI का टेक्स्ट टु स्पीच मॉडल Bulbul Sarvam AI का टेक्स्ट टु स्पीच मॉडल Bulbul

मुन्ज़िर अहमद

  • नई दिल्ली,
  • 17 फरवरी 2026,
  • अपडेटेड 9:27 PM IST

India AI Impact Summit के दौरान Sarvam AI के बुलबुल मॉडल की भी बात हुई. Bulbul असल में एक Text-to-speech (TTS) सिस्टम है. यानी यह लिखे हुए टेक्स्ट को आवाज़ में बदलता है.

कंपनी का फोकस है कि यह आवाज़ भारतीय भाषाओं में ज्यादा नैचुरल लगे. अभी तक इस सेगमेंट में ज्यादातर अच्छे TTS मॉडल इंग्लिश और कुछ ग्लोबल भाषाओं पर ज्यादा मजबूत रहे हैं. Sarvam यहां इंडिया-फोकस्ड अप्रोच ले रहा है.

Advertisement

Bulbul क्या करता है और किस तरह का AI है

Bulbul जनरल AI नहीं है. यह ChatGPT या Gemini जैसा सवाल-जवाब करने वाला मॉडल नहीं है. यह खास तौर पर आवाज़ बनाने के लिए बना है. यानी आप टेक्स्ट देंगे और यह उसे बोलकर सुनाएगा.

Bulbul का इस्तेमाल ऑडियो कंटेंट, कॉल सेंटर, IVR सिस्टम, एजुकेशन ऐप और लोकल भाषा वाले प्लेटफॉर्म पर किया जा सकता है. कंपनी का दावा है कि Bulbul में भारतीय लहजे और उच्चारण को बेहतर तरीके से समझा गया है.

यह भी पढ़ें: क्या स्वदेसी Sarvam AI को पछाड़ सकता है?

भारतीय भाषाओं पर फोकस क्यों अहम है

भारत में बड़ी संख्या में लोग इंग्लिश के अलावा हिंदी और दूसरी भाषाओं में कंटेंट सुनना पसंद करते हैं. कई बार ग्लोबल Text-to-speech यानी मॉडल हिंदी या दूसरी लोकल भाषाओं को रोबोटिक टोन में बोलते हैं.

Advertisement

Sarvam का कहना है कि Bulbul में इस कमी को कम करने की कोशिश की गई है. मॉडल को इंडियन भाषाओं और हिंग्लिश जैसे मिक्स टेक्स्ट पर ट्रेन किया गया है. इसका मतलब है कि अगर टेक्स्ट में हिंदी और इंग्लिश दोनों मिक्स हों, तब भी आवाज़ ज्यादा नैचुरल सुनाई दे सकती है.

ChatGPT और Gemini से कैसे है अलग?

Bulbul की तुलना ChatGPT या Gemini से सीधे करना सही नहीं है. ChatGPT और Gemini जनरल AI सिस्टम हैं. वे सवालों के जवाब देते हैं. टेक्स्ट लिखते हैं. इमेज और दूसरे टास्क भी करते हैं.

Bulbul का काम सिर्फ आवाज़ बनाना है. Sarvam की टीम कुछ इंटरव्यू में यह कह चुकी है कि इंडियन लैंग्वेज की आवाज़ में Bulbul कुछ केस में ग्लोबल मॉडल्स से बेहतर सुनाई देता है. लेकिन यह तुलना सिर्फ टेक्स्ट टु स्पीच और लोकल भाषा के कॉन्टेक्स्ट में है. हर तरह के AI काम में नहीं.

कितना बेहतर है

Sarvam का कहना है कि उन्होंने अपने मॉडल को अलग-अलग लिसनिंग टेस्ट और इंटरनल बेंचमार्क में चेक किया है. लेकिन यह भी सच है कि ये टेस्ट ज्यादातर कंपनी के अपने या पार्टनर-बेस्ड स्टडी पर आधारित हैं. इंडस्ट्री लेवल पर बड़े पैमाने पर स्वतंत्र टेस्ट अभी सीमित हैं. इसलिए इन दावों को फाइनल फैसला नहीं माना जा सकता.

Advertisement

किसके लिए ज्यादा काम का हो सकता है Bulbul

Bulbul उन लोगों और कंपनियों के लिए ज्यादा काम का है जो लोकल भाषा में ऑडियो बनाते हैं. जैसे मीडिया हाउस, एजुकेशन प्लेटफॉर्म, न्यूज ऐप, और कस्टमर सपोर्ट सिस्टम.

जिन जगहों पर हिंदी और दूसरी भारतीय भाषाओं में सही टोन में आवाज़ चाहिए, वहां Bulbul एक प्रैक्टिकल ऑप्शन बन सकता है. खासकर तब जब ग्लोबल TTS मॉडल लोकल उच्चारण ठीक से नहीं पकड़ पाते.

Bulbul को कैसे इस्तेमाल करें और इसका प्राइसिंग मॉडल क्या है

Bulbul को सीधे Sarvam AI की वेबसाइट और API के जरिए इस्तेमाल किया जा सकता है. डेवलपर्स अपने ऐप, वेबसाइट या सिस्टम में Bulbul को इंटीग्रेट कर सकते हैं ताकि टेक्स्ट को ऑटोमैटिक आवाज़ में बदला जा सके.

इसके लिए Sarvam की API डॉक्यूमेंटेशन दी गई है जहां से सेटअप और टेस्टिंग की जा सकती है. फिलहाल Sarvam AI का सब्सक्रिप्शन और प्राइसिंग मॉडल यूज-केस और API यूसेज पर डिपेंड करता है.

---- समाप्त ----

Read more!
Advertisement

RECOMMENDED

Advertisement