Nanonets-OCR2 for FiftyOne

A FiftyOne Zoo Model integration for Nanonets-OCR2, a powerful vision-language model that transforms documents into structured markdown with intelligent content recognition and semantic tagging.

Features

Nanonets-OCR2 goes beyond traditional OCR by providing:

LaTeX Equation Recognition: Converts mathematical formulas to LaTeX syntax
Intelligent Image Description: Describes images within documents using <img> tags
Signature Detection: Isolates signatures with <signature> tags
Watermark Extraction: Detects watermarks with <watermark> tags
Smart Checkbox Handling: Converts checkboxes to Unicode symbols (☐, ☑, ☒)
Complex Table Extraction: Outputs tables in HTML format
Flow Charts & Org Charts: Extracts as Mermaid code
Handwritten Documents: Trained on handwritten text across multiple languages
Multilingual Support: English, Chinese, French, Spanish, Portuguese, German, Italian, Russian, Japanese, Korean, Arabic, and more
Visual Question Answering: Provides answers directly from documents

Installation

pip install fiftyone

Usage

import fiftyone as fo
import fiftyone.zoo as foz
from fiftyone.utils.huggingface import load_from_hub

# Load your dataset
dataset = load_from_hub("Voxel51/scanned_receipts", max_samples=200)

# Register the model source
foz.register_zoo_model_source(
    "https://github.com/prernadh/nanonets_ocr2",
    overwrite=True
)

# Load the model
model = foz.load_zoo_model("nanonets/Nanonets-OCR2-3B")

# Apply OCR to your dataset
dataset.apply_model(model, label_field="ocr_text")

# Launch the App to view results
session = fo.launch_app(dataset)

Structured Output

The model returns text with semantic markup:

Regular text extracted naturally

<table>
  <tr><td>Column 1</td><td>Column 2</td></tr>
</table>

Inline equation: $E = mc^2$

<img>Description of chart showing sales data</img>

<watermark>CONFIDENTIAL</watermark>

<page_number>5</page_number>

Checkboxes: ☑ Complete ☐ Incomplete

Citation

@misc{Nanonets-OCR2,
  title={Nanonets-OCR2: A model for transforming documents into structured markdown with intelligent content recognition and semantic tagging},
  author={Souvik Mandal and Ashish Talewar and Siddhant Thakuria and Paras Ahuja and Prathamesh Juvatkar},
  year={2025},
}

Resources

License

See LICENSE for details.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
manifest.json		manifest.json
nanonet_ocr.gif		nanonet_ocr.gif
nanonets_ocr_example.ipynb		nanonets_ocr_example.ipynb
zoo.py		zoo.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Nanonets-OCR2 for FiftyOne

Features

Installation

Usage

Structured Output

Citation

Resources

License

About

Uh oh!

Releases

Packages

Languages

License

prernadh/nanonets_ocr2

Folders and files

Latest commit

History

Repository files navigation

Nanonets-OCR2 for FiftyOne

Features

Installation

Usage

Structured Output

Citation

Resources

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages