AI मॉडल्स को लेकर जब भी चर्चा होती है तो उसमें अमेरिका और चीन के मॉडल्स के नाम आते हैं. लेकिन अब बेंगलुरु के स्टार्टअप Sarvam AI ने सभी को हैरान कर दिया है और दुनियाभर के पॉपुलर मॉडल्स तक को पछाड़ दिया है.
ये स्टार्टअप भारत में शुरू से ही एक फाउंडेशनल AI मॉडल्स तैयार कर रही है और हाल ही में उसके दो टूल्स चर्चा में रहे हैं, जिनके नाम Sarvam Vision और Bulbul हैं.
Sarvam Vision क्या है?
Sarvam Vision AI ने ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) में सबसे शानदार परफॉर्म किया है. देसी AI ने कुछ बेंचमार्क्स पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और पॉपुलर चर्चित AI मॉडल्स से भी बेहतर परफॉर्म किया है. इसकी परफॉर्मेंस की तारीफ न सिर्फ यूजर्स बल्कि कई एक्सपर्ट भी कर रहे हैं.
Sarvam AI के को-फाउंडर प्रत्युष कुमार ने हाल ही में X प्लेटफॉर्म (पुराना नाम Twitter) पर कुछ पोस्ट किए हैं. इन पोस्ट में कंपनी के इन-हाउस AI मॉडल्स की अचीवमेंट को शेयर किया है.
फाउंडर के पोस्ट के मुताबिक, Sarvam Vision ने OmniDocBench v1.5 (English only subset) पर 93.28 परसेंट की एक्युरेसी हासिल की है, जिसमें Gemini और चैटजीपीटी जैसे मॉडल पीछे रह गए.
प्रत्युष कुमार का पोस्ट
OmniDocBench v1.5 बेंचमार्क चेक करता है कि AI सिस्टम रियल वर्ल्ड के डॉक्युमेंट्स को कितनी बेहतर तरीके से पढ़ते हैं और समझते हैं. Sarvam Vision ने कुल मिलाकर 93.28 प्रतिशत स्कोर किया, जिसमें मुश्किल डिजाइन, टेक्निकल टेबल और मैथ्स फॉर्मूला भी शामिल है. ये वे सेक्टर हैं, जहां स्टैंडर्ड OCR सिस्टम्स आमतौर पर फेल हो जाते हैं.
AI टूल की परफॉर्मेंस ने ग्लोबल लेवल पर फेम कर दिया है. बताते चलें कि Sarvam को पहले सिर्फ इंडिक लैंग्वेज मॉडल्स पर फोकस करने को लेकर सवालों का सामना करना पड़ता था. अब वही सवाल तारीफों में बदल गए हैं.
X पर टेक कमेंटेटर डीडी दास ने एक पोस्ट में कहा कि Sarvam के OCR और भारतीय भाषाओं के लिए स्पीच मॉडल्स काफी स्ट्रांग हैं और ये AI उस गैप को भरने का काम करता है, जिसे ग्लोबल AI ने अक्सर नजर अंदाज किया है. उन्होंने आगे का कि एक साल पहले Sarvam AI को लेकर जो लिखा था वह गलत था.
Sarvam AI की तारीफ कर रहे हैं कई यूजर्स
Sarvam को लेकर यूजर्स भी तारीफ कर रहे हैं. एक यूजर्स ने अपना एक्सपीरियंस शेयर किया है और लिखा कि मैंने कुछ दिन पहले ही इसका इस्तेमाल किया है और ये कमाल का है.
OCR के अलावा अपना नया AI वॉयस मॉडल Bulbul V3 को लॉन्च किया है. यह एक टेक्स्ट टू स्पीच AI मॉडल है, जिसका मतलब है कि यह AI सिस्टम टेक्स्ट की मदद से वॉयस जनरेट करता है.
Sarvam ने एक ब्लॉग पोस्ट में कहा कि हम Bulbul V3 लॉन्च कर रहे हैं. यह कंपनी का सबसे कैपेबल टेक्स्ट टू स्पीच मॉडल है. इसे भारतीय भाषाओं के लिए नेचुरल, एक्सप्रेसिव और प्रोडक्शन-रेडी वॉयस के लिए डिजाइन किया है.
Bulbul टूल में 11 भारतीय भाषाओं का सपोर्ट और 35 से ज्यादा वॉयस सपोर्ट शामिल किया है. कंपनी ने बताया है कि आने वाले दिनों में और भी लैंग्वेज सपोर्ट को शामिल किया जाएगा.