Sarvam AI

Sarvam Vision

Leading performance on global benchmarks; best-in-class accuracy for Indian languages.


ยท6 min read
Sarvam Vision

Introduction

Today, we are introducing Sarvam Vision. We have released models and applications across voice and text. With this release, we extend that work to vision. We live in a multimodal world, and vision is a crucial modality to ensure all perception problems can be solved for users and enterprises. Some of these problems surround document intelligence, general vision ("What am I seeing?") capabilities, among many others.

As part of the sovereign model series, we introduce a 3B-parameter state-space vision-language model. The model is capable of a range of visual understanding tasks, including image captioning, scene text recognition, chart interpretation, and complex table parsing.

A central challenge in vision today is high-accuracy document intelligence, particularly for Indian languages. Much of India's knowledge remains embedded in physical documents, scanned archives, and historical collections. This is knowledge locked in plain sight. Unlocking this material is essential for long-term preservation, access, and reuse across research, governance, and enterprise workflows.

Frontier Vision Language Models have established a high bar for processing modern English documents. However, a significant gap remains in the industry: most global models treat Indian languages as secondary, often resulting in lower accuracy for regional scripts. Along with pushing the frontiers of accuracy, our VLM is an inference-efficient 3B state-space model.

Model Training, Performance, and Benchmarks

At a high-level, our document intelligence architecture comprises the sovereign VLM and two harness modules - (a) semantic layout parser and (b) reading order network. The primary advances we made were for data curation and training algorithms.

The data curation effort underwent a rigorous process of creating high-quality synthetic and real-world document image-text samples for all Indian languages, alongside English. The data consisted of various domains like scientific literature, financial documents, government bulletins, historical manuscripts, textbooks, magazines, newspapers, among others. Each domain underwent data generation tailored to the specific use case. For example, in the case of chart understanding, our data consisted of chart-text pairs for a variety of tasks - like structured extraction, description, analysis. In the case table parsing, we built datasets that focus on structure and relationship recognition of the table cells.

On the algorithmic side, we performed a round of continual pretraining on the base Sarvam sovereign 3B model; followed by supervised fine-tuning and reinforcement learning using verifiable rewards.

Global Benchmarks

olmOCR-Bench

A benchmark for evaluating document-level OCR that performs pass-fail unit tests which are simple, unambiguous, and deterministically machine-verifiable. For the evaluation, we filtered out 1,258 samples out of 1,403 total samples in order to ensure the benchmarking is performed only on English documents.olmOCR-Bench-English. The implementation details can be found in this github repository.

CategorySarvam VisionMistral OCR 3ChandraGemini 3 ProPaddleOCR VL 1.5PaddleOCR VLDeepSeek OCR v2Gemini 3 FlashGPT 5.2
ArXiv Math86.585.481.470.685.485.481.966.561
Base99.699.999.899.898.898.699.899.899.8
Hdr/Ftr96.393.888.88496.996.995.683.875.6
TinyTxt9188.991.990.380.880.888.788.262.2
MultCol82.282.182.979.282.682.583.673.770.2
OldScan49.848.849.247.539.238.833.74634.6
OldMath8168.373.684.966.466.468.885.875.8
Tables88.386.188.284.984.183.978.175.979
Scroll
Scroll

olmOCR (Category-wise Performance Comparison)

OmniDocBench V1.5

A comprehensive benchmark for evaluating document parsing, featuring various document and layout types (academic papers, financial reports, and handwritten notes). We report the performance on the official English-only split from the evaluation set which contains 628 samples.

OmniDocBench V1.5 (Category-wise Performance Comparison)

Sarvam Indic OCR Bench

Global benchmarks focus heavily on English document parsing, and at present there is no Indic benchmark of similar standard to the best of our knowledge. We bridge this gap by creating Sarvam Indic OCR Bench which contains 20,267 samples from various document pages. The sample set is distributed across 22 official Indian languages - ranging from 1800-present and with varying quality of scans and content. Furthermore, they are curated at a semantic block-level to robustly evaluate character and word accuracy. We report word accuracy in this section which is computed as 100 x (1 - WER).

Language-wise accuracy on Sarvam Indic OCR Bench across all 22 scheduled Indian languages

LanguageSarvam VisionGemini 3 ProGCVOpus 4.5SuryaGemma3-27BGPT 5.2
Hindi95.9195.1290.9493.0881.8585.5784.86
Bengali92.6190.7988.2383.7670.8265.0770.52
Tamil93.4292.7389.6989.6275.9277.1461.87
Telugu87.7085.3282.5871.2858.7753.8835.70
Marathi93.1390.3987.8681.6672.2970.6163.81
Malayalam91.6087.1088.3082.8883.8020.0356.66
Kannada89.8987.3685.5477.4168.0545.9926.49
Odia81.9575.3982.2057.2261.16-9.5410.53
Punjabi92.2889.2988.1085.9171.7540.8359.98
Gujarati90.7488.4081.6377.5368.0262.6253.45
Urdu87.0185.7681.1777.8955.1764.9757.49
Sindhi90.2486.3186.7171.8961.3156.6949.00
Santhali80.3264.0254.7936.6231.2436.3727.44
Sanskrit81.6576.6264.904.2544.7734.85-21.22
Nepali93.9093.6191.4384.7380.9479.9167.63
Manipuri90.1189.3382.5059.0367.0965.683.26
Maithili81.9550.9649.0426.071.943.1613.68
Konkani91.1089.9683.0278.2671.9653.1335.73
Kashmiri55.9344.4633.4129.899.76-18.03-0.60
Dogri82.6179.7372.4648.9259.4147.386.08
Bodo89.1987.2178.6462.6068.0455.7634.19
Assamese88.7485.3684.5077.5875.7639.9052.71
Scroll
Scroll

Core Document Intelligence Capabilities

Text Extraction โ‰  Knowledge Extraction

Sarvam Vision fundamentally rethinks document intelligence as a knowledge extraction problem, while most alternatives stop at text extraction. Documents are more than words - they contain tables and visual elements like complex scientific charts, illustrations, and infographics. To truly extract all knowledge, any document intelligence model must attend to each and every pixel going beyond text. Sarvam Vision interprets visual logic that holds all information together. Whether it is extracting data points from a trend line or preserving a nested table, the model performs high-fidelity knowledge extraction end-to-end.

Illustrations of Various Domains

1. OCR on English + all 22 scheduled Indian languages

Original Scan
Original Scan

have knowledge of some vacant "Consulate" or "Special Service", that my Record and Endorsements would warrant my filling to the advantage of the Government A Knowledge of your Selection and appointment of Such only as are most fitting for the place regarded of politics or local influence has prompted me you and myself to look to you Mr President for that just consideration we have failed to secure at other hands, With the assurance of two having their Countrys welfare more at heart than their own personal interest believe us Mr President ## Your Obt Servants Wm H. Young and native of Erie County New York Wife F Rowland Young native of St Markes Florida address P.O. box 565 Washington DC

OCR result
Enhanced Version
Enhanced Version

Example 1

Original Scan
Original Scan

32 เฎชเฏเฎฐเฎฎเฏเฎนเฎธเฏเฎตเฎฐเฏ‚เฎชเฎฎเฏ. เฎŽเฎŸเฏเฎŸเฏ เฎ…เฎ•เฏเฎทเฎฐเฎ™เฏเฎ•เฎณเฏ, เฎ“เฎ™เฏเฎ•เฎพเฎฐเฎฎเฏ. เฎ‡เฎคเฏˆ เฎ…เฎฑเฎฟเฎจเฏเฎคเฎตเฎฉเฏ เฎ†เฎคเฏเฎฎ เฎชเฏเฎฐเฎ•เฏเฎฐเฏเฎคเฎฟ, เฎชเฏเฎฐเฎฎเฏเฎนเฎฎเฎฑเฎฟเฎจเฏเฎคเฎตเฎฉเฏ. เฎ…เฎตเฎฉเฏ‡ เฎฎเฏ‹เฎ•เฏเฎทเฎฎเฎŸเฏˆเฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎ“เฎฎเฏ เฎชเฏเฎฐเฎฎเฏเฎนเฎฎเฏ, เฎจ. เฎตเฎฟเฎทเฏเฎฃเฏ, เฎฎ. เฎฐเฏเฎคเฏเฎฐเฎฉเฏ, เฎจ. เฎˆเฎšเฏเฎตเฎฐเฎฉเฏ, เฎฐ. เฎ…เฎฃเฏเฎŸเฎตเฎฟเฎฐเฎพเฎŸเฏ, เฎฏ. เฎชเฏเฎฐเฏเฎทเฎฉเฏ, เฎฃ. เฎชเฎ•เฎตเฎพเฎฉเฏ, เฎฏ. เฎชเฎฐเฎฎเฎพเฎคเฏเฎฎเฎพ. (เฎชเฏเฎฐเฎฎเฏเฎน, เฎตเฎฟเฎทเฏเฎฃเฏ, เฎฐเฏเฎคเฏเฎฐ, เฎ…เฎฃเฏเฎŸ เฎตเฎฟเฎฐเฎพเฎŸเฏ, เฎชเฏเฎฐเฏเฎทเฎฉเฏ, เฎชเฎ•เฎตเฎพเฎฉเฏ, เฎชเฎฐเฎฎเฎพเฎคเฏเฎฎเฎพ) เฎŽเฎฉ เฎ…เฎฐเฏเฎคเฏเฎคเฎฎเฏ. เฎ…, เฎ‰, เฎฎ เฎชเฎฟเฎจเฏเฎคเฏ, เฎจเฎพเฎคเฎฎเฏ, เฎ•เฎฒเฏˆ, เฎ•เฎฒเฎพเฎคเฏ€เฎฐเฎฎเฏ, เฎชเฎฐเฎฎเฏ, เฎคเฎพเฎฐเฎ•เฎชเฏเฎฐเฎฎเฏเฎนเฎฎเฏ, เฎŽเฎฉ เฎ‡เฎตเฏˆเฎ•เฎณเฏˆ เฎ‰เฎชเฎพเฎธเฎฟเฎ•เฏเฎ•เฎตเฏ‡เฎฃเฏเฎฎเฏ. เฎ…. เฎชเฏเฎฐเฎฎเฏเฎนเฎพ-เฎœเฎพเฎฎเฏเฎชเฎตเฎพเฎฉเฏ, เฎ‰. เฎ‰เฎชเฏ‡เฎจเฏเฎคเฎฟเฎฐเฎฉเฏ-เฎนเฎฐเฎฟเฎจเฎพเฎฏเฎ•เฎฐเฏ, เฎฎ-เฎšเฎฟเฎตเฎฉเฏ-เฎนเฎจเฏเฎฎเฎพเฎฉเฏ, เฎชเฎฟเฎจเฏเฎคเฏ-เฎˆเฎšเฏเฎตเฎฐเฎฉเฏ -เฎšเฎคเฏเฎ•เฏเฎฉเฎฉเฏ, เฎจเฎพเฎคเฎฎเฏ-เฎตเฎฟเฎฐเฎพเฎŸเฏ-เฎชเฎฐเฎคเฎฉเฏ, เฎ•เฎฒเฎพ-เฎชเฏเฎฐเฏเฎทเฎฉเฏ-เฎฒเฎ•เฏเฎทเฏ เฎฎเฎฃเฎฉเฏ, เฎ•เฎฒเฎพเฎคเฏ€เฎฐเฎฎเฏ-เฎธเฏ€เฎคเฎพ, เฎชเฎฐเฎฉเฏ-เฎชเฎฐเฎฎเฎพเฎคเฏเฎฎเฎพ-เฎฐเฎพเฎฎเฎฐเฏ, เฎ‡เฎตเฏเฎตเฎฟเฎคเฎฎเฏ, เฎ“เฎฎเฏ เฎŽเฎฉเฏเฎฑ เฎ‡เฎจเฏเฎค เฎ…เฎ•เฏเฎทเฎฐเฎคเฏเฎคเฏˆเฎฏเฏ‡ เฎฐเฎฟเฎ•เฏเฎตเฏ‡เฎคเฎฎเฏ, เฎฏเฎœเฏ‚เฎฐเฏเฎตเฏ‡เฎคเฎฎเฏ เฎŽเฎฉเฏเฎชเฎคเฏ, เฎฏเฎพเฎœเฏเฎžเฎตเฎฒเฏเฎ•เฏเฎฏเฎฐเฏˆ เฎชเฎฐเฎคเฏเฎตเฎพเฎœเฎฐเฏ เฎ•เฏ‡เฎŸเฏเฎŸเฎคเฏเฎฎเฏ เฎ‡เฎคเฏเฎตเฏ‡. เฎŽเฎจเฏเฎค เฎฎเฎจเฏเฎคเฏเฎฐเฎคเฏเฎคเฎพเฎฒเฏ เฎˆเฎšเฏเฎตเฎฐเฎฉเฏ เฎชเฏเฎฐเฏ€เฎคเฎฟ เฎ…เฎŸเฏˆเฎ•เฎฟเฎฑเฎพเฎฉเฏ เฎŽเฎฉเฏเฎฑเฎคเฏเฎฎเฏ, เฎฏเฎพเฎœเฏเฎžเฎตเฎฒเฏเฎ•เฏเฎฏเฎฐเฏ เฎšเฏŠเฎฉเฏเฎฉเฎพเฎฐเฏ. เฎชเฎฐเฎฎเฎพเฎคเฏเฎฎเฎพ, เฎจเฎพเฎฐเฎพเฎฏเฎฃเฎฐเฏ, เฎœเฎพเฎฎเฏเฎชเฎตเฎพเฎฉเฏ, เฎนเฎจเฏเฎฎเฎพเฎฉเฏ, เฎšเฎคเฏเฎฐเฏเฎ•เฏเฎฉเฎฉเฏ, เฎชเฎฐเฎคเฎฉเฏ, เฎฒเฎ•เฏเฎทเฏเฎฎเฎฃเฎฉเฏ, เฎธเฏ€เฎคเฏˆ, เฎฐเฎพเฎฎเฎฉเฏ เฎ‡เฎตเฎฐเฏเฎ•เฎณเฏˆ เฎจเฎฎเฎธเฏเฎ•เฎฐเฎฟเฎ•เฏเฎ•เฎฟเฎฑเฏ‡เฎฉเฏ. เฎŽเฎฉเฎšเฏ เฎšเฏŠเฎฒเฏเฎฒเฎตเฏ‡เฎฃเฏเฎฎเฏ. เฎ‡เฎคเฏเฎตเฏ‡ เฎŽเฎŸเฏเฎŸเฏเฎตเฎฟเฎค เฎฎเฎจเฏเฎคเฏเฎฐเฎฎเฎพเฎ• เฎ‰เฎณเฏเฎณเฎคเฏ. เฎ‡เฎคเฏˆ เฎŽเฎตเฎฉเฏ เฎ…เฎคเฏเฎคเฎฟเฎฏเฎฏเฎฉเฎฎเฏ เฎšเฏ†เฎฏเฏเฎ•เฎฟเฎฑเฎพเฎฉเฏ‹? เฎ…เฎตเฎฉเฏ เฎ…เฎŸเฏˆเฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎ…เฎ•เฏเฎฉเฎฟ เฎชเฎฏเฎคเฏเฎคเฎฟเฎฉเฎฟเฎฉเฏเฎฑเฏ เฎจเฏ€เฎ™เฏเฎ•เฎฟ เฎชเฎฐเฎฟเฎšเฏเฎคเฏเฎคเฎฎเฎŸเฏˆ เฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎจเฎพเฎฐเฎพเฎฏเฎฃ เฎŽเฎฉเฏเฎฑ เฎŽเฎŸเฏเฎŸเฏ เฎ…เฎ•เฏเฎทเฎฐเฎฎเฎจเฏเฎคเฎฟเฎฐเฎคเฏเฎคเฎฟเฎฉเฎพเฎฒเฏ เฎ†เฎฏเฎฟเฎฐเฎฎเฏ เฎฐเฏเฎคเฏเฎฐ เฎœเฎชเฎฎเฏ เฎšเฏ†เฎฏเฏเฎค เฎชเฏเฎฃเฏเฎฏเฎฎเฎŸเฏˆเฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎ†เฎฏเฎฟเฎฐเฎฎเฏ เฎ•เฎพเฎฏเฎคเฏเฎฐเฏ€ เฎชเฎฒเฎฉเฏ, เฎ•เฏ‹เฎŸเฎฟ เฎชเฏเฎฐเฎฃเฎต เฎœเฎชเฎชเฎฒเฎฉเฏ, เฎจเฎพเฎฐเฎพเฎฏเฎฃเฎชเฎค เฎฎเฎŸเฏˆเฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎ‡เฎคเฏเฎคเฎพเฎฉเฏ เฎชเฎฐเฎฎเฎชเฎค เฎฎเฎพเฎฉ เฎตเฎฟเฎทเฏเฎฃเฏ เฎชเฎคเฎฎเฏ, เฎŽเฎฉ เฎŽเฎชเฏเฎชเฏŠเฎดเฏเฎคเฏเฎฎเฏ เฎตเฎฟเฎคเฏเฎตเฎพเฎฉเฏเฎ•เฎณเฏ เฎ…เฎฑเฎฟเฎฏเฎตเฏ‡ เฎจเฎฉเฏเฎฑเฎพเฎ•เฎชเฏ เฎชเฎพเฎฐเฏเฎ•เฏเฎ•เฎฟเฎฑเฎพเฎฐเฏเฎ•เฎณเฏ. เฎฎเฎฟเฎคเฎฟเฎฒเฏˆเฎฏเฎฟเฎฒเฏ เฎœเฎฉเฎ•เฎฐเฏ เฎชเฏเฎฐเฎพเฎฎเฏเฎนเฎฃเฎฐเฏเฎ•เฎณเฏˆ เฎœเฎฏเฎฟเฎคเฏเฎคเฏ เฎฏเฎพเฎœเฏเฎžเฎฏเฎตเฎฒเฏเฎ•เฏเฎฏเฎฐเฏˆเฎฏเฏเฎฎเฏ. เฎชเฏเฎฐเฏเฎนเฎธเฏเฎชเฎคเฎฟเฎฏเฏˆเฎฏเฏเฎฎเฏ เฎ•เฏ‡เฎŸเฏเฎŸเฏ เฎ‡เฎคเฏˆเฎฏเฏ‡ เฎšเฏŠเฎฉเฏเฎฉเฎพเฎฐเฏ เฎœเฏเฎฏเฏ‹เฎคเฎฟเฎฐเฏเฎฒเฎฟเฎ™เฏเฎ•เฎคเฏเฎคเฏˆ เฎชเฏเฎฐเฏเฎต เฎฎเฎคเฏเฎคเฎฟเฎฏเฎฟเฎฒเฏ เฎŽเฎตเฎฉเฏ เฎจเฎฟเฎคเฏเฎฏเฎฎเฏเฎคเฏเฎฏเฎพเฎฉเฎฎเฏ เฎšเฏ†เฎฏเฏเฎ•เฎฟเฎฑเฎพเฎฉเฏ‹? เฎ…เฎตเฎฉเฏ เฎธเฎคเฎพ เฎธเฎจเฏเฎฏเฎพเฎธเฎฟ เฎ†เฎ•เฎฟเฎฑเฎพเฎฉเฏ. เฎŽเฎฉเฎšเฏเฎšเฏŠเฎฒเฏเฎฒเฎฟ เฎ‰เฎชเฎจเฎฟเฎทเฎคเฏ เฎตเฎฟเฎธเฏเฎคเฎพเฎฐเฎฎเฎพเฎ• เฎฎเฏเฎŸเฎฟเฎคเฏเฎคเฎคเฏ. 25. เฎคเฏเฎฐเฎฟเฎชเฎพเฎคเฏ เฎตเฎฟเฎชเฏ‚เฎคเฎฟ เฎฎเฎนเฎพเฎจเฎพเฎฐเฎพเฎฏเฎฃ เฎ‰เฎชเฎจเฎฟเฎทเฎคเฏเฎตเฎฟเฎตเฎฐเฎฃเฎฎเฏ. เฎชเฎฐเฎฎเฎคเฎคเฏเฎตเฎฎเฎฑเฎฟเฎฏ เฎชเฏเฎฐเฎฎเฏเฎนเฎพ เฎคเฏ‡เฎตเฎฎเฎพเฎฉเฎชเฏเฎชเฎŸเฎฟ 1000-เฎตเฎฐเฏเฎทเฎฎเฏ เฎคเฎชเฎธเฏ เฎšเฏ†เฎฏเฏเฎคเฎพเฎฐเฏ. เฎฎเฎนเฎพเฎตเฎฟเฎทเฏเฎฃเฏ เฎชเฏเฎฐเฎธเฎฉเฏเฎฉเฎฎเฎพเฎ•เฎฟ, เฎชเฏเฎฐเฎฎเฏเฎนเฎฉเฏˆ เฎจเฏ€เฎ™เฏเฎ•เฎณเฏ เฎคเฎพเฎฉเฏ

OCR result
Enhanced Version
Enhanced Version

Example 2

Original Scan
Original Scan

เค…เคฎเคฐเคจเคพเคฅ เค•เฅ€ เค•เคฅเคพ เค‡เคธ เค•เคฅเคพ เค•เคพ เคจเคพเคฎ เค…เคฎเคฐ เค•เคฅเคพ เค‡เคธเคฒเคฟเค เคนเฅˆ เค•เคฟ เค‡เคธเค•เฅ‡ เคถเฅเคฐเคตเคฃ เค•เคฐเคจเฅ‡ เคธเฅ‡ เคถเคฟเคต- เคšเคพเคฎ เค•เฅ€ เคชเฅเคฐเคพเคชเฅเคคเคฟ เคนเฅ‹เคคเฅ€ เคนเฅˆเฅค เคฏเคน เคตเคน เคชเคฐเคฎ เคชเคตเคฟเคคเฅเคฐ เค•เคฅเคพ เคนเฅˆ เคœเคฟเคธเค•เฅ‡ เคธเฅเคจเคจเฅ‡ เคธเฅ‡ เคธเฅเคจเคจเฅ‡ เคตเคพเคฒเฅ‹เค‚ เค•เฅ‹ เค…เคฎเคฐเคชเคฆ เค•เฅ€ เคชเฅเคฐเคพเคชเฅเคคเคฟ เคนเฅ‹เคคเฅ€ เคนเฅˆเฅค เคคเคฅเคพ เคตเคน เค…เคฎเคฐ เคนเฅ‹ เคœเคพเคคเฅ‡ เคนเฅˆเค‚เฅค เคฏเคน เค•เคฅเคพ เคถเฅเคฐเฅ€ เคถเค‚เค•เคฐ เคญเค—เคตเคพเคจ เคจเฅ‡ เค‡เคธเฅ€ เค—เฅเคซเคพ เคฎเฅ‡เค‚ (เคถเฅเคฐเฅ€ เค…เคฎเคฐเคจเคพเคฅ เคœเฅ€ เค•เฅ€ เค—เฅเคซเคพ เคฎเฅ‡เค‚) เคญเค—เคตเคคเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€ เคœเฅ€ เค•เฅ‹ เคธเฅเคจเคพเคˆ เคฅเฅ€เฅค เค‡เคธ เค•เคฅเคพ เค•เฅ‹ เคธเฅเคจเค•เคฐ เคนเฅ€ เคถเฅเคฐเฅ€ เคถเฅเค•เคฆเฅ‡เคตเคœเฅ€ เค…เคฎเคฐ เคนเฅ‹ เค—เคฏเฅ‡ เคฅเฅ‡ เฅค เคœเคฌ เคญเค—เคตเคพเคจ เคถเฅเคฐเฅ€ เคถเค‚เค•เคฐ เคฏเคน เค•เคฅเคพ เคญเค—เคตเคคเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€ เค•เฅ‹ เคธเฅเคจเคพ เคฐเคนเฅ‡ เคฅเฅ‡ เคคเฅ‹ เคตเคนเคพเค‚ เคเค• เคคเฅ‹เคคเฅ‡ เค•เคพ เคฌเคšเฅเคšเคพ เคญเฅ€ เค‡เคธ เคชเคฐเคฎ เคชเคตเคฟเคคเฅเคฐ เค•เคฅเคพ เค•เฅ‹ เคธเฅเคจ เคฐเคนเคพ เคฅเคพ เค”เคฐ เค‡เคธเฅ‡ เคธเฅเคจเค•เคฐ เคซเคฟเคฐ เค‰เคธ เคคเฅ‹เคคเฅ‡ เค•เฅ‡ เคฌเคšเฅเคšเฅ‡ เคจเฅ‡ เคถเฅเคฐเฅ€ เคถเฅเค•เคฆเฅ‡เคต เคธเฅเคตเคฐเฅ‚เคช เค•เฅ‹ เคชเคพเคฏเคพ เคฅเคพ เฅค 'เคถเฅเค•' เคธเค‚เคธเฅเค•เฅƒเคค เคฎเฅ‡เค‚ เคคเฅ‹เคคเฅ‡ เค•เฅ‹ เค•เคนเคคเฅ‡ เคนเฅˆเค‚ เค”เคฐ เค‡เคธเฅ€ เค•เคพเคฐเคฃ เคฌเคพเคฆ เคฎเฅ‡เค‚ เคซเคฟเคฐ เคฎเฅเคจเคฟ 'เคถเฅเค•เคฆเฅ‡เคต, เค•เฅ‡ เคจเคพเคฎ เคธเฅ‡ เคธเค‚เคธเคพเคฐ เคฎเฅ‡เค‚ เคชเฅเคฐเคธเคฟเคฆเฅเคง เคนเฅเคเฅค เคฏเคน เค•เคฅเคพ เคญเค—เคตเคคเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€ เคคเคฅเคพ เคญเค—เคตเคพเคจ เคถเค‚เค•เคฐ เค•เคพ เคธเค‚เคตเคพเคฆ เคนเฅˆเฅค เคฏเคน เคชเคฐเคฎ-เคชเคตเคฟเคคเฅเคฐ เค•เคฅเคพ เคฒเฅ‹เค• เคต เคชเคฐเคฒเฅ‹เค• เค•เคพ เคธเฅเค– เคฆเฅ‡เคจเฅ‡ เคตเคพเคฒเฅ€ เคนเฅˆเค‚เฅค เคถเค‚เค•เคฐ เคญเค—เคตเคพเคจ เค”เคฐ เคœเค—เคคเคฎเคพเคคเคพ เค•เฅ‡ เค‡เคธ เคธเคฎเฅเคตเคพเคฆ เค•เคพ เคตเคฐเฅเคฃเคจ เคฎเฅƒเค—เฅ เคธเคนเคฟเคคเคพ, เคจเฅ€เคฒเคฎเคค เคชเฅเคฐเคพเคฃ, เคคเฅ€เคฐเฅเคฅ เคธเค‚เค—เฅเคฐเคน เค†เคฆเคฟ เค—เฅเคฐเคจเฅเคฅเฅ‹เค‚ เคฎเฅ‡เค‚ เคชเคพเคฏเคพ เคœเคพเคคเคพ เคนเฅˆเฅค เคนเคฎ เคฏเคนเคพเค เคชเคฐ เค†เคชเค•เฅ‡ เคธเคฎเฅเคฎเฅเค– เคฏเคน เคชเคฐเคฎ เคชเคตเคฟเคคเฅเคฐ เค•เคฅเคพ เคตเคฟเคธเฅเคคเคพเคฐ เคชเฅ‚เคฐเฅเคตเค• เคฐเค–เฅ‡เค‚เค—เฅ‡ เฅค เคฆเฅ‡เคต เค‹เคทเคฟ เคจเคพเคฐเคฆ เค•เคพ เค•เฅˆเคฒเคพเคถ เคชเคฐเฅเคตเคค เคชเคฐ เค†เคจเคพ เค”เคฐ เคถเฅเคฐเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€เคœเฅ€ เคธเฅ‡ เคชเฅ‚เค›เคจเคพ เค•เคฟ เคญเค—เคตเคพเคจ เคถเค‚เค•เคฐ เค•เฅ‡ เค—เคฒเฅ‡ เคฎเฅ‡เค‚ เคฐเฅเคฃเฅเคกเคฎเคพเคฒเคพ เค•เฅเคฏเฅ‹เค‚ เคนเฅˆ? เคเค• เคฌเคพเคฐ เคฆเฅ‡เคต เค‹เคทเคฟ เคจเคพเคฐเคฆ เค•เฅˆเคฒเคพเคถ เคชเคฐเฅเคตเคค เคชเคฐ เคญเค—เคตเคพเคจ เคถเฅเคฐเฅ€ เคถเค‚เค•เคฐ เค•เฅ‡ เคธเฅเคฅเคพเคจ เคชเคฐ เคฆเคฐเฅเคถเคจเคพเคฐเฅเคฅ เคชเคงเคพเคฐเฅ‡ เฅค เคญเค—เคตเคพเคจ เคถเฅเคฐเฅ€ เคถเค‚เค•เคฐ เค‰เคธ เคธเคฎเคฏ เคตเคจ, เคตเคฟเคนเคพเคฐ เค•เฅ‡ เคฒเคฟเค เค—เคฏเฅ‡ เคนเฅเค เคฅเฅ‡ เค”เคฐ เคญเค—เคตเคคเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€ เคฏเคนเคพเค เคชเคฐ เคตเคฟเคฐเคพเคœเคฎเคพเคจ เคฅเฅ€เค‚เฅค เคถเฅเคฐเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€เคœเฅ€ เคจเฅ‡ เคฆเฅ‡เคต เค‹เคทเคฟ เคจเคพเคฐเคฆ เค•เฅ‹ เคชเฅเคฐเคฃเคพเคฎ เค•เคฟเคฏเคพ เค”เคฐ เคธเคพเคฆเคฐ เค†เคธเคจ เคฆเคฟเคฏเคพเฅค เค”เคฐ เคฌเฅ‹เคฒเฅ€เค‚- 'เคฆเฅ‡เคต เค‹เคทเคฟ! เค†เคชเคจเฅ‡ เคฏเคนเคพเค เคชเคงเคพเคฐ เค•เคฐ เคนเคฎ เคชเคฐ เคฌเคกเคผเฅ€ เค•เฅƒเคชเคพ เค•เฅ€ เค…เคชเคจเฅ‡ เค†เคจเฅ‡ เค•เคพ เค•เคพเคฐเคฃ เค•เคนเคฟเค เฅค' เคฆเฅ‡เคต เค‹เคทเคฟ เคจเคพเคฐเคฆ เคฌเฅ‹เคฒเคพ-"เคฆเฅ‡เคตเฅ€! เคฎเฅ‡เคฐเคพ เคเค• เคชเฅเคฐเคถเฅเคจ เคนเฅˆ เค‰เคธเค•เคพ เค‰เคคเฅเคคเคฐ เคšเคพเคนเคคเคพ เคนเฅ‚เคเฅค" เคจเฅ‡ เค•เคนเคพ-โ€œเค•เคนเคฟเค?" เคถเฅเคฐเฅ€ เคชเคพเคฐเฅเคตเคคเฅ€เคœเฅ€ เคจเฅ‡ เค•เคนเคพ-"เค•เคนเคฟเค?" เคจเคพเคฐเคฆ เคฌเฅ‹เคฒเฅ‡-"เคฆเฅ‡เคตเฅ€! เคฎเฅเคเฅ‡ เค‡เคธ เคฌเคพเคค เค•เคพ เคฌเคกเคผเคพ เค†เคถเฅเคšเคฐเฅเคฏ เคนเฅˆ เคญเค—เคตเคพเคจ เคถเฅเคฐเฅ€ เคถเค‚เค•เคฐ เคœเฅ‹เค•เคฟ เคนเคฎ เคฆเฅ‹เคจเฅ‹เค‚ เคธเฅ‡ เคฌเคกเคผเฅ‡ เคนเฅˆเค‚เฅค เค‰เคจเค•เฅ‡ เค—เคฒเฅ‡ เคฎเฅ‡เค‚ เคฐเฅเคฃเฅเคก เคฎเคพเคฒเคพ เค•เฅเคฏเฅ‹เค‚ เคนเฅˆ?

OCR result
Enhanced Version
Enhanced Version

Example 3

2. Complex table parsing

Original Scan
Original Scan

6 Public Health Nursing TABLE 2. Study Findings

CharacteristicsExperimental 1
(n = 50)
Control 1
(n = 50)
Experimental 2
(n = 50)
Control 2
(n = 38)
Antenatal and childbirth care
Any antenatal care3349<.0014718<.001
Received tetanus immunization โ‰ฅ2
times during last pregnancyแตƒ
3350.0014729.379
Skilled attendant at last birth2045<.001812.084
Knowledge of danger signs during
the perinatal period
Number of danger signs recalled,
27 items (SD)
7.90 (3.07)4.70 (1.88)<.00113.92 (3.88)4.37 (2.62)<.001
Contraception
Number of modern methodsแต‡
recalled (SD)
4.06 (1.37)2.82 (1.08)<.0015.16 (1.00)2.00 (0.77)<.001
First aidแถœ
Acceptable treatment answeredแตˆ
457<.001335<.001
Health behaviors
Care for sick <5-year-old child
Has your child had a fever during
the last 2 weeks?
517.00449.066
Did you seek advice or treatment
for the illness outside of your home?
113.03909.001
Has your child had a cough or
difficulty breathing during the last
2 weeks?
1120.05249.066
Did you seek advice or treatment
for the illness outside of your home?
321.00013.400
Sanitation
What was done to dispose of the stool?
Appropriate methodแต‰
2622.106214.002
Inappropriate methodแถ 391317
Number of correct precautions against
malaria recalled (eight items)
Mean (SD)
2.64 (0.985)1.28 (0.784)<.0012.72 (1.011)0.58 (0.522)<.001
treatment (applying dirt and saliva, tomato, salt, or AJINOMOTO [monosodium glutamate]) for injuries that were sustained during agricultural work. The experimental villages had a significantly higher proportion of participants who answered that they received acceptable first aid treatment (E1-C1: ฯ‡2=57.85\chi^2 = 57.85, p<.001p <.001; E2-C2: ฯ‡2=24.57\chi^2 = 24.57, p<.001p <.001). Health behaviors. Care for sick โ‰ค5- year-old children-Compared to E1, significantly more children in C1 had experienced a fever during the 2-week period before questioning (ฯ‡2=4.22\chi^2 = 4.22, p =.004), and significantly more children in C1 were treated during their illness (ฯ‡2=5.29\chi^2 = 5.29, p =.04). Although the frequency of children with fever in C2 was higher than that in E2, there were

OCR result
Enhanced Version
Enhanced Version

Example 4

Original Scan
Original Scan

118 Egypt. J. Phytopathol., Vo. 50, No. 2, pp 104-123 Table (10): The effect of different control treatments on some growth parameters of two Tagetes varieties grown in infested soil 90 days after transplanting, under greenhouse conditions.

Tagetes spp.TreatmentsF. oxysporumF. solaniR. solani
Plant
height
(cm)
Fresh
weight
(g)
Dry
weight
(g)
Plant
height
(cm)
Fresh
weight
(g)
Dry
weight
(g)
Plant
height
(cm)
Fresh
weight
(g)
Dry
weight
(g)
Tagetes minutaBio-Cure B60400130.355380125.650360115.8
Bio-Cure F70460151.266450149.460455153.6
Rhizo-N76500163.473470155.570460156.6
Topsin-M 7082550182.780540179.977530175.7
Vitavax 20090600199.586590190.580580190.8
Wood vinegar80520172.975511171.570500167.8
Control3020065.83321070.63522070.6
Mean69.7461.4152.266.5450.114963.1443.6147.3
Tagetes erectaBio-Cure B65430135.759395130.754366122
Bio-Cure F73470155.871460155.563462164.7
Rhizo-N80520166.775485166.475473173
Topsin-M 7085565185.583455185.481540183
Vitavax 2009461021091610196.286595196.6
Wood vinegar83532178.682520175.675509177
Control3120565.032200713421071.4
Mean73476156.770.4446.4154.466.8450.7155.4
L.S.D. at 5% Treatments (T) = 2.30, Varieties (V) = 0.50, Fungi (F) = 3.30, Tร—V = 4.40, Tร—F = 5.60, Vร—F = 5.20, Tร—Vร—F = 6.40

OCR result
Enhanced Version
Enhanced Version

Example 5

3. Multilingual visual reasoning

Visual components in a document play an important role. Oftentimes charts and illustrations communicate details that are not present in the extracted text. Sarvam Vision delivers natively multilingual reasoning capabilities for such visual elements in a document.

Original Scan
Original Scan

| Metric | Decoding Temperature (Std Dev) | Suffix Injection (Std Dev) | Prompt Paraphrase (Std Dev) | | :--- | :--- | :--- | :--- | | Refusal Rate | ~0.195 | ~0.312 | ~0.134 | | Toxicity | ~0.110 | ~0.210 | ~0.092 | | AQI | ~0.020 | ~0.060 | ~0.020 | Figure 6: Standard Deviation of Metrics under Perturbations. AQI exhibits consistently lower variance than Refusal Rate (RR) and Detoxify-based Toxicity across decoding temperature, suffix injection, and prompt drift. This reflects its geometric robustness to generation stochasticity and surface perturbations, making it more stable for adversarial alignment evaluation.

ModelAQI (Clean)AQI (Jailbreak)Drop (%)
TinyLLaMA0.910.3462.6%
Phi-20.910.3561.5%
GPT-NeoX0.910.6132.9%
LLaMA-13B0.910.6726.4%
LLaMA-65B0.910.7319.8%
Table 10: AQI degradation under adversarial suffix in- jection. Smaller models show sharper collapses in latent safety separation. using LITMUS-P, a paraphrased variant of LIT- MUS generated via backtranslation and synonym augmentation. For each prompt, five semantically equivalent rewrites were used to elicit completions across four models. These results affirm that smaller models fail to encode paraphrase-invariant safety boundaries, while AQI captures these shifts via latent over- lap-quantified using XBI.
ModelAQI (Orig)AQI (Paraphrase)Drop (%)
TinyLLaMA0.580.3244.8
Phi-20.650.4530.8
LLaMA-13B0.780.7010.3
LLaMA-65B0.810.766.1
Table 11: AQI sensitivity to paraphrastic rewording. Higher-capacity models show improved latent invari- ance. D.4 Stability vs. Behavioral Metrics Across all three settings, AQI demonstrates lower variance and higher sensitivity to latent collapse (cf. Figure 6). Moreover, AQI deflection often precedesprecedes be- havioral collapse. In jailbreak scenarios, AQI drops by 40-60% even when detox scores remain low-indicating representational entanglement be- fore output misalignment. As illustrated by Figure 7, AQI deflection of- 45

OCR result
Enhanced Version
Enhanced Version

Example 6

Original Scan
Original Scan

เคšเคฟเคคเฅเคฐ เคถเฅ€เคฐเฅเคทเค•: เคชเฅเคฐเคพเคšเฅ€เคจ เคญเคพเคฐเคค เคตเคฟเคตเคฐเคฃ: เคฏเคน เคšเคฟเคคเฅเคฐ เคญเคพเคฐเคค เค•เคพ เคเค• เคตเคฟเคธเฅเคคเฅƒเคค เคเคคเคฟเคนเคพเคธเคฟเค• เคฎเคพเคจเคšเคฟเคคเฅเคฐ เคนเฅˆเฅค เค‡เคธเคฎเฅ‡เค‚ เคตเคฟเคญเคฟเคจเฅเคจ เคจเคฆเคฟเคฏเฅ‹เค‚, เคชเคฐเฅเคตเคค เคถเฅเคฐเฅƒเค‚เค–เคฒเคพเค“เค‚ เค”เคฐ เคญเฅŒเค—เฅ‹เคฒเคฟเค• เค•เฅเคทเฅ‡เคคเฅเคฐเฅ‹เค‚ เค•เฅ‹ เคฆเคฐเฅเคถเคพเคฏเคพ เค—เคฏเคพ เคนเฅˆเฅค เคฎเคพเคจเคšเคฟเคคเฅเคฐ เคชเคฐ เค•เคˆ เคธเฅเคฅเคพเคจเฅ‹เค‚ เค•เฅ‡ เคจเคพเคฎ เคฒเคฟเค–เฅ‡ เคนเฅˆเค‚ เคœเฅ‹ เคธเค‚เคญเคตเคคเคƒ เคชเฅเคฐเคพเคšเฅ€เคจ เคญเคพเคฐเคคเฅ€เคฏ เคฐเคพเคœเฅเคฏเฅ‹เค‚ เคฏเคพ เคถเคนเคฐเฅ‹เค‚ เค•เฅ‹ เค‡เค‚เค—เคฟเคค เค•เคฐเคคเฅ‡ เคนเฅˆเค‚เฅค เคจเฅ€เคšเฅ‡ เคฆเคพเคˆเค‚ เค“เคฐ 'เค…เค‚เค—เฅเคฐเฅ‡เคœเฅ€ เคฎเคฟเคฒ' (English Mill) เคฒเคฟเค–เคพ เคนเฅเค† เคธเฅเค•เฅ‡เคฒ เคฌเคพเคฐ เคนเฅˆเฅค

OCR result
Enhanced Version
Enhanced Version

Example 7

4. Visual data, structured outputs

Original Scan
Original Scan

เค…เคชเฅ‡เค•เฅเคทเคฟเคค เคชเคพเค เฅเคฏเค•เฅเคฐเคฎ เคธเฅเคงเคพเคฐ เค•เคฐเคจเฅ‡ เค…เคฅเคตเคพ เคจเฅ€เคคเคฟเค—เคค เค•เคพเคฐเฅเคฏเค•เฅเคฐเคฎเฅ‹เค‚ เค•เคพ เคเค• เคฎเค‚เคš เค‰เคชเคฒเคฌเฅเคง เค•เคฐเคพเค•เคฐ เคถเคฟเค•เฅเคทเคพ เคจเฅ€เคคเคฟ เคนเฅ‡เคคเฅ 'เคชเคฐเคฟเคฃเคพเคฎเฅ‹เค‚' เคชเคฐ เคงเฅเคฏเคพเคจ เค•เฅ‡เค‚เคฆเฅเคฐเคฟเคค เค•เคฐเคจเคพ เคนเฅˆเฅค เคชเฅเคฐเคคเคฟเคธเฅเคชเคฐเฅเคงเฅ€ เค”เคฐ เคธเคนเคฏเฅ‹เค—เฅ€ เคธเค‚เค˜เคตเคพเคฆ เค•เฅ€ เคญเคพเคตเคจเคพ เค•เฅ‹ เคฌเคขเคผเคพเคตเคพ เคฆเฅ‡เคจเฅ‡ เค•เฅ‡ เคฒเคฟเค เคจเฅ€เคคเคฟ เค†เคฏเฅ‹เค— เค•เฅ‡ เค…เคงเคฟเคฆเฅ‡เคถ เค•เฅ‡ เค…เคจเฅเคฐเฅ‚เคช, เคเคธเคˆเค•เฅเคฏเฅ‚เค†เคˆ เคฆเฅ‡เคถ เคญเคฐ เคฎเฅ‡เค‚ เคœเฅเคžเคพเคจ เค”เคฐ เคธเคฐเฅเคตเฅ‹เคคเฅเคคเคฎ เคชเฅเคฐเคฅเคพเค“เค‚ เค•เฅ‹ เคธเคพเคเคพ เค•เคฐเคจเฅ‡ เค•เฅ€ เคธเฅเคตเคฟเคงเคพ เคชเฅเคฐเคฆเคพเคจ เค•เคฐเคจเฅ‡ เค•เคพ เคชเฅเคฐเคฏเคพเคธ เค•เคฐเคคเคพ เคนเฅˆเฅค เคฎเคพเคจเคต เคธเค‚เคธเคพเคงเคจ เคตเคฟเค•เคพเคธ เคฎเค‚เคคเฅเคฐเคพเคฒเคฏ (เคเคฎเคเคšเค†เคฐเคกเฅ€), เคตเคฟเคถเฅเคต เคฌเฅˆเค‚เค• เค”เคฐ เค•เฅเคทเฅ‡เคคเฅเคฐ เคตเคฟเคถเฅ‡เคทเคœเฅเคžเฅ‹เค‚ เคœเฅˆเคธเฅ‡ เคชเฅเคฐเคฎเฅเค– เคนเคฟเคคเคงเคพเคฐเค•เฅ‹เค‚ เคธเคนเคฟเคค เคเค• เคธเคนเคฏเฅ‹เค—เฅ€ เคชเฅเคฐเค•เฅเคฐเคฟเคฏเคพ เค•เฅ‡ เคฎเคพเคงเฅเคฏเคฎ เคธเฅ‡ เคตเคฟเค•เคธเคฟเคค เคธเฅ‚เคšเค•เคพเค‚เค• เคฎเฅ‡เค‚ 30 เคฎเคนเคคเฅเคตเคชเฅ‚เคฐเฅเคฃ เคธเค‚เค•เฅ‡เคคเค• เคถเคพเคฎเคฟเคฒ เคนเฅˆเค‚เฅค เคฏเฅ‡ เคธเค‚เค•เฅ‡เคคเค• เคนเฅˆเค‚: เคถเฅเคฐเฅ‡เคฃเฅ€ 1: เคชเคฐเคฟเคฃเคพเคฎ เคกเฅ‹เคฎเฅ‡เคจ 1: เคถเคฟเค•เฅเคทเคฃ เคชเคฐเคฟเคฃเคพเคฎ เคกเฅ‹เคฎเฅ‡เคจ 2: เคชเคนเฅเค‚เคš เคชเคฐเคฟเคฃเคพเคฎ เคกเฅ‹เคฎเฅ‡เคจ 3: เคชเคฐเคฟเคฃเคพเคฎเฅ‹เค‚ เค•เฅ‡ เคฒเคฟเค เค…เคตเคธเค‚เคฐเคšเคจเคพ เค”เคฐ เคธเฅเคตเคฟเคงเคพเคเค‚ เคกเฅ‹เคฎเฅ‡เคจ 4: เค‡เค•เฅเคตเคฟเคŸเฅ€ เคชเคฐเคฟเคฃเคพเคฎ เคถเฅเคฐเฅ‡เคฃเฅ€ 2: เคถเคพเคธเฅ€-เคชเฅเคฐเค•เฅเคฐเคฟเคฏเคพ-เคธเคนเคพเคฏเคคเคพ เคชเคฐเคฟเคฃเคพเคฎ โ–ช เคถเคฟเค•เฅเคทเคฃ เคธเค‚เคฌเค‚เคงเฅ€ เคชเคฐเคฟเคฃเคพเคฎ โ–ช เค…เคญเคฟเค—เคฎ เคชเคฐเคฟเคฃเคพเคฎ โ–ช เคชเคฐเคฟเคฃเคพเคฎเฅ‹เค‚ เค•เฅ‡ เคฒเคฟเค เค…เคตเคธเค‚เคฐเคšเคจเคพ เค”เคฐ เคธเฅเคตเคฟเคงเคพเคเค‚ โ–ช เค‡เค•เฅเคตเคฟเคŸเฅ€ เคชเคฐเคฟเคฃเคพเคฎ โ–ช เคถเคพเคธเคจ เคชเฅเคฐเค•เฅเคฐเคฟเคฏเคพ เคธเคนเคพเคฏเคคเคพ เคชเคฐเคฟเคฃเคพเคฎ เคฏเคน เค›เคตเคฟ เคเค• เคชเคพเคˆ เคšเคพเคฐเฅเคŸ เคนเฅˆ เคœเฅ‹ เคชเคพเคเคš เค…เคฒเค—-เค…เคฒเค— เคถเฅเคฐเฅ‡เคฃเคฟเคฏเฅ‹เค‚ เคฎเฅ‡เค‚ เคชเฅเคฐเคคเคฟเคถเคค เคตเคฟเคคเคฐเคฃ เค•เฅ‹ เคชเฅเคฐเคฆเคฐเฅเคถเคฟเคค เค•เคฐเคคเฅ€ เคนเฅˆ, เคœเฅ‹ เคธเค‚เคญเคตเคคเคƒ เค•เคฟเคธเฅ€ เคฐเคฟเคชเฅ‹เคฐเฅเคŸ เคฏเคพ เค…เคงเฅเคฏเคฏเคจ เค•เฅ‡ เคจเคฟเคทเฅเค•เคฐเฅเคทเฅ‹เค‚ เคธเฅ‡ เคธเค‚เคฌเค‚เคงเคฟเคค เคนเฅˆเฅค เคฆเคพเคˆเค‚ เค“เคฐ เค•เฅ€ เคฒเฅ‡เคœเฅ‡เค‚เคก (legend) เคฐเค‚เค—เฅ‹เค‚ เค”เคฐ เค‰เคจเค•เฅ‡ เคธเค‚เคฌเค‚เคงเคฟเคค เคฒเฅ‡เคฌเคฒ เคฆเฅเคตเคพเคฐเคพ เคกเฅ‡เคŸเคพ เคฌเคฟเค‚เคฆเฅเค“เค‚ เค•เฅ€ เคชเคนเคšเคพเคจ เค•เคฐเคพเคคเฅ€ เคนเฅˆ: 'เคฒเคฐเฅเคจเคฟเค‚เค— เค†เค‰เคŸเค•เคฎเฅเคธ' (Learning Outcomes) เค•เฅ‡ เคฒเคฟเค เค—เฅเคฒเคพเคฌเฅ€, 'เคเค•เฅเคธเฅ‡เคธ เค†เค‰เคŸเค•เคฎเฅเคธ' (Access Outcomes) เค•เฅ‡ เคฒเคฟเค เคจเคพเคฐเค‚เค—เฅ€, 'เค‡เคจเฅเคซเฅเคฐเคพเคธเฅเคŸเฅเคฐเค•เฅเคšเคฐ เคเค‚เคก เคซเฅˆเคธเคฟเคฒเคฟเคŸเฅ€เคœ เคซเฅ‰เคฐ เค†เค‰เคŸเค•เคฎเฅเคธ' (Infrastructure & Facilities for Outcomes) เค•เฅ‡ เคฒเคฟเค เคชเฅ€เคฒเคพ, 'เค‡เค•เฅเคตเคฟเคŸเฅ€ เค†เค‰เคŸเค•เคฎเฅเคธ' (Equity Outcomes) เค•เฅ‡ เคฒเคฟเค เคนเคฐเคพ, เค”เคฐ 'เค—เคตเคฐเฅเคจเฅ‡เค‚เคธ เคชเฅเคฐเฅ‹เคธเฅ‡เคธเฅ‡เคธ เคเคกเคฟเค‚เค— เค†เค‰เคŸเค•เคฎเฅเคธ' (Governance Processes Aiding Outcomes) เค•เฅ‡ เคฒเคฟเค เคจเฅ€เคฒเคพเฅค เคกเฅ‡เคŸเคพ เค•เคพ เคตเคฟเคธเฅเคคเฅƒเคค เคตเคฟเคตเคฐเคฃ เค‡เคธ เคชเฅเคฐเค•เคพเคฐ เคนเฅˆ: 1. เคฒเคฐเฅเคจเคฟเค‚เค— เค†เค‰เคŸเค•เคฎเฅเคธ (Learning Outcomes): เคฏเคน เคถเฅเคฐเฅ‡เคฃเฅ€ เคธเคฌเคธเฅ‡ เคฌเคกเคผเคพ เคนเคฟเคธเฅเคธเคพ เคฐเค–เคคเฅ€ เคนเฅˆ, เคœเฅ‹ เค•เฅเคฒ เคนเคฟเคธเฅเคธเฅ‡เคฆเคพเคฐเฅ€ เค•เคพ 34% เคนเฅˆเฅค 2. เค‡เค•เฅเคตเคฟเคŸเฅ€ เค†เค‰เคŸเค•เคฎเฅเคธ (Equity Outcomes): เคฆเฅ‚เคธเคฐเคพ เคธเคฌเคธเฅ‡ เคฌเคกเคผเคพ เค–เค‚เคก เคนเคฐเฅ‡ เคฐเค‚เค— เคฎเฅ‡เค‚ เคฆเคฐเฅเคถเคพเคฏเคพ เค—เคฏเคพ เคนเฅˆ, เคœเฅ‹ 28% เคนเฅˆเฅค 3. เค—เคตเคฐเฅเคจเฅ‡เค‚เคธ เคชเฅเคฐเฅ‹เคธเฅ‡เคธเฅ‡เคธ เคเคกเคฟเค‚เค— เค†เค‰เคŸเค•เคฎเฅเคธ (Governance Processes Aiding Outcomes): เคจเฅ€เคฒเฅ‡ เคฐเค‚เค— เคฎเฅ‡เค‚ เคฆเคฟเค–เคพเคฏเคพ เค—เคฏเคพ, เคฏเคน เค–เค‚เคก 26% เคนเฅˆเฅค 4. เคเค•เฅเคธเฅ‡เคธ เค†เค‰เคŸเค•เคฎเฅเคธ (Access Outcomes): เคจเคพเคฐเค‚เค—เฅ€ เคฐเค‚เค— เคฎเฅ‡เค‚ เคšเคฟเคคเฅเคฐเคฟเคค, เคฏเคน เคญเคพเค— 9% เคนเฅˆเฅค 5. เค‡เคจเฅเคซเฅเคฐเคพเคธเฅเคŸเฅเคฐเค•เฅเคšเคฐ เคเค‚เคก เคซเฅˆเคธเคฟเคฒเคฟเคŸเฅ€เคœ เคซเฅ‰เคฐ เค†เค‰เคŸเค•เคฎเฅเคธ (Infrastructure & Facilities for Outcomes): เคชเฅ€เคฒเฅ‡ เคฐเค‚เค— เคฎเฅ‡เค‚ เคฆเคฟเค–เคพเคˆ เคฆเฅ‡เคจเฅ‡ เคตเคพเคฒเคพ, เคฏเคน เคธเคฌเคธเฅ‡ เค›เฅ‹เคŸเคพ เคธเฅเคฒเคพเค‡เคธ เค•เฅ‡เคตเคฒ 3% เคนเฅˆเฅค เค•เฅเคฒ เคฎเคฟเคฒเคพเค•เคฐ, เคถเฅ€เคฐเฅเคท เคคเฅ€เคจ เคถเฅเคฐเฅ‡เคฃเคฟเคฏเคพเค‚ ('เคฒเคฐเฅเคจเคฟเค‚เค—', 'เค‡เค•เฅเคตเคฟเคŸเฅ€', เค”เคฐ 'เค—เคตเคฐเฅเคจเฅ‡เค‚เคธ') เคธเคพเคฎเฅ‚เคนเคฟเค• เคฐเฅ‚เคช เคธเฅ‡ เคชเฅ‚เคฐเฅ‡ เคตเฅƒเคคเฅเคค เค•เฅ‡ เคฒเค—เคญเค— 88% เคนเฅˆเค‚, เคœเคฌเค•เคฟ เคถเฅ‡เคท เคฆเฅ‹ เคถเฅเคฐเฅ‡เคฃเคฟเคฏเคพเค‚ เคฎเคฟเคฒเค•เคฐ เคถเฅ‡เคท 12% เคฌเคจเคพเคคเฅ€ เคนเฅˆเค‚เฅค เคธเฅเค•เฅ‚เคฒเฅ€ เคถเคฟเค•เฅเคทเคพ เค•เฅ‡ เคชเคฐเคฟเคฃเคพเคฎ เคตเคพเคธเฅเคคเคตเคฟเค• เคถเคฟเค•เฅเคทเคฃ เคชเคฐเคฟเคฃเคพเคฎเฅ‹เค‚ เคฎเฅ‡เค‚ เคนเฅ‹เคจเฅ‡ เคšเคพเคนเคฟเคเฅค เคฏเคน เคชเฅเคฐเคฃเคพเคฒเฅ€ เคถเคฟเค•เฅเคทเคฃ เคธเฅ€เค–เคจเฅ‡ เค•เฅ€ เค“เคฐ เค…เค—เฅเคฐเคธเคฐ เคนเฅˆ เคฏเคน เคธเฅเคจเคฟเคถเฅเคšเคฟเคค เค•เคฐเคจเฅ‡ เค•เฅ‡ เคฒเคฟเค เคเคธเคˆเค•เฅเคฏเฅ‚เค†เคˆ เคถเคฟเค•เฅเคทเคฃ เคชเคฐเคฟเคฃเคพเคฎเฅ‹เค‚ เค•เฅ‡ เคฒเคฟเค เคฒเค—เคญเค— เค…เคชเคจเคพ เค†เคงเคพ เคฏเฅ‹เค—เคฆเคพเคจ เคฆเฅ‡เคคเคพ เคนเฅˆเฅค เคถเคฟเค•เฅเคทเคฃ เคชเคฐ เคงเฅเคฏเคพเคจ เค•เฅ‡เค‚เคฆเฅเคฐเคฟเคค เคฐเคนเฅ‡ เคฏเคน เคธเฅเคจเคฟเคถเฅเคšเคฟเคค เค•เคฐเคจเฅ‡ เค•เฅ‡ เคฒเคฟเค เคฏเคน เคธเคฎเฅ‚เคšเฅ‡ เคฐเคพเคทเฅเคŸเฅเคฐ เคฎเฅ‡เค‚ เคเค• เคฎเคœเคฌเฅ‚เคค เคธเค‚เค•เฅ‡เคค เคญเฅ‡เคœเคคเคพ เคนเฅˆเฅค เคคเฅเคฒเคจเคพเคคเฅเคฎเค• เคธเฅเคตเคฟเคงเคพ เคชเฅเคฐเคฆเคพเคจ เค•เคฐเคจเฅ‡ เค•เฅ‡ เคฒเคฟเค, เคฐเคพเคœเฅเคฏเฅ‹เค‚ เค”เคฐ เคธเค‚เค˜ เคฐเคพเคœเฅเคฏ เค•เฅเคทเฅ‡เคคเฅเคฐเฅ‹เค‚ เค•เฅ‹ เคฌเคกเคผเฅ‡ เคฐเคพเคœเฅเคฏเฅ‹เค‚, เค›เฅ‹เคŸเฅ‡ เคฐเคพเคœเฅเคฏเฅ‹เค‚ เค”เคฐ เคธเค‚เค˜ เคฐเคพเคœเฅเคฏ เค•เฅเคทเฅ‡เคคเฅเคฐเฅ‹เค‚ เค•เฅ‡ เคฐเฅ‚เคช เคฎเฅ‡เค‚ เคตเคฐเฅเค—เฅ€เค•เฅƒเคค เค•เคฟเคฏเคพ เค—เคฏเคพ เคนเฅˆเฅค เค‡เคจ เคธเคฎเฅ‚เคนเฅ‹เค‚ เคฎเฅ‡เค‚ เคธเคฎเค—เฅเคฐ เคจเคฟเคทเฅเคชเคพเคฆเคจ เคธเฅเค•เฅ‹เคฐ 45

OCR result
Enhanced Version
Enhanced Version

Example 8

In-the-Wild OCR and Perception

Sarvam Vision is built on a foundation of general image understanding and multilingual capabilities. While our current efforts are focused on pushing the frontiers of document intelligence, these broader capabilities remain a core part of the model.

Some illustrations of how Sarvam Vision interprets the natural image contexts:

English Caption

English Caption

output

The image captures a wide, paved asphalt road stretching into the distance under a bright, clear sky. On the left side of the road, there is a sidewalk lined with a series of blue and white metal bike racks. Behind these racks, a low fence with a green base and yellow horizontal bars separates the sidewalk from a dense, lush green tree line. The trees are thick with foliage, creating a natural canopy over the road. In the middle distance, a blue public trash bin is visible near the fence. Further down the road, several motorcyclists are riding away from the viewpoint, and a white car is also visible in the distance. The road surface is marked with white dashed lines. The overall scene is bright and sunny, suggesting a clear day.

Kannada Caption

Kannada Caption

output

เฒˆ เฒšเฒฟเฒคเณเฒฐเฒตเณ เฒ’เฒ‚เฒฆเณ เฒตเฒฟเฒถเฒพเฒฒเฒตเฒพเฒฆ เฒกเฒพเฒ‚เฒฌเฒฐเณ เฒฐเฒธเณเฒคเณ†เฒฏเฒจเณเฒจเณ เฒคเณ‹เฒฐเฒฟเฒธเณเฒคเณเฒคเฒฆเณ†, เฒ‡เฒฆเณ เฒฌเฒนเณเฒถเฒƒ เฒ’เฒ‚เฒฆเณ เฒนเณ†เฒฆเณเฒฆเฒพเฒฐเฒฟเฒฏเฒพเฒ—เฒฟเฒฐเฒฌเฒนเณเฒฆเณ. เฒฐเฒธเณเฒคเณ†เฒฏ เฒŽเฒกเฒญเฒพเฒ—เฒฆเฒฒเณเฒฒเฒฟ เฒฆเฒŸเณเฒŸเฒตเฒพเฒฆ เฒนเฒธเฒฟเฒฐเณ เฒฎเฒฐเฒ—เฒณ เฒธเฒพเฒฒเณ เฒ‡เฒฆเณ†, เฒ‡เฒฆเณ เฒฐเฒธเณเฒคเณ†เฒฏ เฒฎเณ‡เฒฒเณ† เฒจเณˆเฒธเฒฐเณเฒ—เฒฟเฒ• เฒฎเณ‡เฒฒเณเฒ›เฒพเฒตเฒฃเฒฟเฒฏเฒจเณเฒจเณ เฒธเณƒเฒทเณเฒŸเฒฟเฒธเณเฒคเณเฒคเฒฆเณ†. เฒฎเฒฐเฒ—เฒณ เฒชเฒ•เณเฒ•เฒฆเฒฒเณเฒฒเฒฟ เฒคเฒฟเฒณเฒฟ เฒจเณ€เฒฒเฒฟ เฒฌเฒฃเณเฒฃเฒฆ เฒฒเณ‹เฒนเฒฆ เฒฌเณ‡เฒฒเฒฟ เฒฎเฒคเณเฒคเณ เฒ’เฒ‚เฒฆเณ เฒธเฒฃเณเฒฃ เฒจเณ€เฒฒเฒฟ เฒฌเฒฃเณเฒฃเฒฆ เฒ•เฒธเฒฆ เฒฌเณเฒŸเณเฒŸเฒฟ เฒ‡เฒฆเณ†. เฒฐเฒธเณเฒคเณ†เฒฏ เฒฌเฒฒเฒฌเฒฆเฒฟเฒฏเฒฒเณเฒฒเฒฟ, เฒฆเณ‚เฒฐเฒฆเฒฒเณเฒฒเฒฟ เฒ•เณ†เฒฒเฒตเณ เฒœเฒจเฒฐเณ เฒฎเณ‹เฒŸเฒพเฒฐเณ เฒธเณˆเฒ•เฒฒเณเฒ—เฒณเฒฒเณเฒฒเฒฟ เฒชเณเฒฐเฒฏเฒพเฒฃเฒฟเฒธเณเฒคเณเฒคเฒฟเฒฐเณเฒตเณเฒฆเฒจเณเฒจเณ เฒ•เฒพเฒฃเฒฌเฒนเณเฒฆเณ. เฒฐเฒธเณเฒคเณ†เฒฏ เฒฎเณ‡เฒฒเณ† เฒฌเฒฟเฒณเฒฟ เฒฌเฒฃเณเฒฃเฒฆ เฒ—เณ†เฒฐเณ†เฒ—เฒณเฒจเณเฒจเณ เฒ—เณเฒฐเณเฒคเฒฟเฒธเฒฒเฒพเฒ—เฒฟเฒฆเณ†. เฒ†เฒ•เฒพเฒถเฒตเณ เฒชเณเฒฐเฒ•เฒพเฒถเฒฎเฒพเฒจเฒตเฒพเฒ—เฒฟเฒฆเณเฒฆเณ, เฒ‡เฒฆเณ เฒฌเฒฟเฒธเฒฟเฒฒเฒฟเฒจ เฒฆเฒฟเฒจเฒตเฒจเณเฒจเณ เฒธเณ‚เฒšเฒฟเฒธเณเฒคเณเฒคเฒฆเณ†.

OCR in the wild

OCR in the wild

output

เชœเชพเชนเซ‡เชฐ เชจเซ‹เชŸเซ€เชธ เช†เชฅเซ€ เช† เชœเชพเชนเซ‡เชฐ เชจเซ‹เชŸเซ€เชธ เชฅเซ€ เชœเชพเชฃ เช•เชฐเชตเชพ เชฎเชพเช‚ เช†เชตเซ‡ เช›เซ‡ เช•เซ‡ เชธเชฆเชฐเชนเซ เช“เชกเชพ เชงเซเชตเชพเชฐเชพ เชซเชพเชณเชตเชตเชพเชฎเชพเช‚ เช†เชตเซ‡เชฒ เชชเซเชฒเซ‹เชŸ เช‰เชชเชฐ เช•เซ‹เชˆเช เช˜เชจ เช•เชšเชฐเซ‹ (เชธเซ‹เชฒเซ€เชก เชตเซ‡เชธเซเชŸ) เชจเชพเช–เชตเซ‹ เชจเชนเซ€ เชธเชฆเชฐเชนเซ เชœเช—เซเชฏเชพ เช‰เชชเชฐ เช•เชšเชฐเซ‹ เชจเชพเช–เชจเชพเชฐ เชธเชพเชฎเซ‡ เช—เชพเชฎ เชชเช‚เชšเชพเชฏเชค เช…เชธเชฒเชพเชฒเซ€ เชงเซเชตเชพเชฐเชพ เช•เชพเชฏเชฆเซ‡เชธเชฐ เชจเซ€ เช•เชพเชฐเซเชฏเชตเชพเชนเซ€ เชนเชพเชฅ เชงเชฐเชตเชพเชฎเชพเช‚ เช†เชตเชถเซ‡ เชœเซ‡เชจเซ€ เชจเซ‹เช‚เชง เชฒเซ‡เชถเซ‹. เชธเชฐเชชเช‚เชš เชถเซเชฐเซ€ เช…เชธเชฒเชพเชฒเซ€ เช—เซเชฐเชพเชฎ เชชเช‚เชšเชพเชฏเชค

Structured information extraction in the wild

Structured information extraction in the wild

output

| STA | ETA | Airline | Flt No | Origin | Status | | :---: | :---: | :--- | :--- | :--- | :--- | | 02:00 | 01:29 | IndiGo | 6E 6256 | เฒ•เณ‹เฒฒเณเฒ•เฒคเฒพ | เฒ†เฒ—เฒฎเฒฟเฒธเฒฟเฒฆเณ† | | 02:00 | 01:56 | IndiGo | 6E 5284 | เฒฎเณเฒ‚เฒฌเฒฏเฒฟ | เฒ†เฒ—เฒฎเฒฟเฒธเฒฟเฒฆเณ† | | 02:05 | 02:01 | IndiGo | 6E 996 | เฒ…เฒนเฒฎเฒฆเฒพเฒฌเฒพเฒฆเณ | เฒ†เฒ—เฒฎเฒฟเฒธเฒฟเฒฆเณ† | | 02:10 | 02:10 | IndiGo | 6E 1723 | เฒฆเณ‹เฒนเฒพ | เฒธเฒฐเฒฟเฒฏเฒพเฒฆ เฒธเฒฎเฒฏ | | 02:20 | 02:00 | QATAR | QR 572 | เฒฆเณ‹เฒนเฒพ | เฒฌเณ‡เฒ— เฒ†เฒ—เฒฎเฒฟเฒธเณเฒคเณเฒคเฒฟเฒฆเณ† | | 02:20 | 02:10 | IndiGo | 6E 361 | เฒชเณเฒฃเณ† | เฒธเฒฐเฒฟเฒฏเฒพเฒฆ เฒธเฒฎเฒฏ | | 02:30 | 02:35 | Emirates | EK 568 | เฒฆเณเฒฌเณˆ | เฒธเฒฐเฒฟเฒฏเฒพเฒฆ เฒธเฒฎเฒฏ | | 02:50 | 02:50 | AirArabia | G9 496 | เฒถเฒพเฒฐเณเฒœเฒพ | เฒธเฒฐเฒฟเฒฏเฒพเฒฆ เฒธเฒฎเฒฏ | | 03:05 | 03:05 | ETIHAD | EY 216 | เฒ…เฒฌเณเฒงเฒพเฒฌเฒฟ | เฒธเฒฐเฒฟเฒฏเฒพเฒฆ เฒธเฒฎเฒฏ | | 03:05 | 02:41 | IndiGo | 6E 2403 | เฒฆเณ†เฒนเฒฒเฒฟ | เฒฌเณ‡เฒ— เฒ†เฒ—เฒฎเฒฟเฒธเณเฒคเณเฒคเฒฟเฒฆเณ† |

Student Handwriting Recognition

Student Handwriting Recognition

output

APJ Abdul Kalam was a great scientist and leader from India. He loved science and worked hard to make rockets and missiles. He was also known as "Missile Man". He became India's President in 2002 and was affectionately called the "People's President". Kalam played a pivotal role at the Defence Research and Development Organization (DRDO) and ISRO. He was the brain behind India's indigenous missile development, leading projects like Agni and Prithvi.

Edge Cases

While the performance of the models are significantly better than other models for Indian languages; it is not perfect. We did find edge cases - a few of them are shared here. Incorrect translation of the Bengali script while describing the image.

Incorrect translation of the bengali script while describing the image.

Incorrect translation of the bengali script while describing the image.

output

The image shows the storefront of a shop named "Doyamondilibrerii," which translates to "Doyamond Library." The shop is located in Kolkata, as indicated by the address "368, Rabindra Sarani, Kolkata-6" on the signboard. The signboard is black with white Bengali script. Above the shop, there is a balcony with a red metal railing and green shutters. The building's facade is painted pink, and there are decorative carvings on the left side. A black electrical wire runs across the front of the building. The shop appears to be a local bookstore or library.

A low resource Indic Language

A low resource Indic Language

output

The image depicts a busy street scene in an urban area. There are two auto-rickshaws, one black and one green, driving on the road. Several people are walking on the street, and there are various shops and buildings on either side of the street. The sky is blue with some clouds.

For the above image, the model was prompted to describe the scene in Santhali (a low-resource Indian language). Instruction following for such long-tail requests can be low quality.

Experience Sarvam Vision & Get Started with Document Intelligence API Today

Sarvam Visionโ€™s Document Intelligence is built to handle real-world, production-grade workloads and weโ€™re just getting started! To kick things off and accelerate adoption, weโ€™re making the Document Intelligence APIs & Vision experience completely free for the entire month of February, 2026. This is your chance to push the model to its limits, experiment at scale, and start building with zero friction.

Want to try it right away?Jump into our no-code, interactive experience on the Sarvam API Platform. Simply log in and enjoy unlimited usage for the month of February!https://dashboard.sarvam.ai/

Ready to integrate into your product?Head over to our API Developer Docs for ready-to-use SDKs, clear examples, and everything you need to get production-ready in minutes.

Building something exciting?Join our Discord Developer Community to stay up to date on new releases, share feedback, and collaborate directly with the Sarvam team.

Weโ€™re excited to work closely with developers and partners to build on this strong foundation and unlock powerful downstream applications across education, healthcare, video intelligence, and more. Nowโ€™s the time to explore, experiment, and build with Sarvam Vision.

Curious what else we're building? Explore our APIs and start creating.