Configuration and Pipeline Options

Relevant source files

This page documents the hierarchical configuration system in Docling, which controls how documents are processed through pipelines and models. The configuration system has three main layers: FormatOption (which defines backend and pipeline selection), PipelineOptions (which configure pipeline-level behavior), and model-specific options (which configure individual AI models like OCR, layout detection, and VLMs).

For information about how formats are detected and routed to pipelines, see Format Detection and Routing. For details on the plugin system that extends model options, see Plugin System.

Configuration Hierarchy

The Docling configuration system follows a three-tier hierarchy that flows from high-level format decisions down to individual model parameters.

Sources: docling/document_converter.py75-156 docling/datamodel/pipeline_options.py70-900

FormatOption Layer

FormatOption associates an input format with a specific backend and pipeline implementation. Each format has a corresponding FormatOption subclass that defines the processing strategy.

FormatOption Class Structure

Class	Pipeline	Backend	Purpose
`PdfFormatOption`	`StandardPdfPipeline`	`DoclingParseDocumentBackend`	PDF processing with ML models
`WordFormatOption`	`SimplePipeline`	`MsWordDocumentBackend`	DOCX processing
`ExcelFormatOption`	`SimplePipeline`	`MsExcelDocumentBackend`	XLSX processing
`PowerpointFormatOption`	`SimplePipeline`	`MsPowerpointDocumentBackend`	PPTX processing
`ImageFormatOption`	`StandardPdfPipeline`	`ImageDocumentBackend`	Image processing
`HTMLFormatOption`	`SimplePipeline`	`HTMLDocumentBackend`	HTML processing
`MarkdownFormatOption`	`SimplePipeline`	`MarkdownDocumentBackend`	Markdown processing
`AudioFormatOption`	`AsrPipeline`	`NoOpBackend`	Audio/video transcription
`LatexFormatOption`	`SimplePipeline`	`LatexDocumentBackend`	LaTeX processing

FormatOption Configuration Flow

The DocumentConverter initializes format options in its constructor docling/document_converter.py209-257 Each FormatOption is validated using a Pydantic model validator that sets default pipeline_options if not provided docling/document_converter.py79-84

Sources: docling/document_converter.py75-186 docling/datamodel/base_models.py37-42

PipelineOptions Hierarchy

PipelineOptions is the base class for all pipeline configuration. Different pipelines extend this base with their specific requirements.

Pipeline Options Class Diagram

Sources: docling/datamodel/pipeline_options.py70-1300

PdfPipelineOptions

PdfPipelineOptions is the most complex pipeline configuration, used by StandardPdfPipeline for processing PDFs and images with ML models.

Key Fields:

Field	Type	Default	Description
`do_ocr`	`bool`	`True`	Enable OCR processing
`do_table_structure`	`bool`	`True`	Enable table structure recognition
`ocr_options`	`OcrOptions`	`OcrAutoOptions()`	OCR engine configuration
`table_structure_options`	`BaseTableStructureOptions`	`TableStructureOptions()`	Table model configuration
`layout_options`	`LayoutOptions`	`LayoutObjectDetectionOptions()`	Layout detection configuration
`images_scale`	`float`	`2.0`	Scale factor for processing images
`generate_page_images`	`bool`	`False`	Whether to generate page images
`generate_picture_images`	`bool`	`False`	Whether to extract picture images

The options also include enrichment model configurations:

picture_description_options: For generating picture descriptions
picture_classifier_options: For classifying picture types
chart_extraction_options: For extracting chart data
code_classifier_options: For detecting code blocks
formula_classifier_options: For detecting formulas

Sources: docling/datamodel/pipeline_options.py961-1166

VlmPipelineOptions

VlmPipelineOptions configures Vision-Language Model pipelines that process documents using multimodal AI models.

Key Fields:

Field	Type	Description
`vlm_options`	`Union[InlineVlmOptions, ApiVlmOptions]`	VLM model configuration
`generate_page_images`	`bool`	Generate page images for VLM input
`images_scale`	`float`	Image scaling factor
`max_image_size`	`Optional[int]`	Maximum image dimension

The vlm_options field uses a discriminated union to support both inline (local) and API-based (remote) VLM execution.

Sources: docling/datamodel/pipeline_options.py1228-1266

AsrPipelineOptions

AsrPipelineOptions configures Automatic Speech Recognition for audio and video files.

Key Fields:

Field	Type	Description
`asr_options`	`InlineAsrOptions`	ASR model configuration
`generate_audio_waveform`	`bool`	Generate waveform visualization

Sources: docling/datamodel/pipeline_options.py1268-1294

Model-Specific Options

Model-specific options configure individual AI models used within pipelines. These inherit from BaseOptions and implement the kind field for discrimination.

OCR Options Hierarchy

Common OCR Fields:

All OCR options share these base fields from OcrOptions docling/datamodel/pipeline_options.py121-145:

lang: List of language codes for OCR
force_full_page_ocr: Force OCR on entire page
bitmap_area_threshold: Minimum bitmap area percentage to trigger OCR

OCR Engine-Specific Fields:

Engine	Key Fields	Notes
`OcrAutoOptions`	None (uses defaults)	Automatically selects available engine
`RapidOcrOptions`	`backend`, `text_score`, `use_det`, `use_cls`, `use_rec`	Supports onnxruntime, openvino, paddle, torch backends
`EasyOcrOptions`	`use_gpu`, `confidence_threshold`, `recog_network`	GPU acceleration support
`TesseractCliOcrOptions`	`tesseract_cmd`, `path`, `psm`	CLI-based Tesseract
`TesseractOcrOptions`	`path`, `psm`	Python bindings (tesserocr)
`OcrMacOptions`	`recognition`, `framework`	Native macOS Vision framework

Sources: docling/datamodel/pipeline_options.py121-462

Table Structure Options

TableStructureOptions configures the TableFormer model for extracting table structure.

Fields:

do_cell_matching: Enable cell content matching (default: True)
mode: Processing mode (FAST or ACCURATE)

The ACCURATE mode provides higher quality but slower processing, while FAST prioritizes speed over precision docling/datamodel/pipeline_options.py76-119

Sources: docling/datamodel/pipeline_options.py76-119

Layout Detection Options

Layout detection options configure object detection models that identify document structure elements (text blocks, figures, tables, etc.).

LayoutObjectDetectionOptions Fields:

layout_model_spec: Model specification (e.g., EGRET, HERON families)
engine_options: Inference engine options (HuggingFace Transformers or ONNX)
postprocessor: Configuration for layout postprocessing

The options support model presets that can be selected using the from_preset() method docling/datamodel/pipeline_options.py689-723

Sources: docling/datamodel/pipeline_options.py674-781

VLM Model Options

VLM (Vision-Language Model) options configure multimodal AI models. Docling supports both inline (local) and API-based (remote) VLM execution.

InlineVlmOptions configures local VLM execution:

repo_id: HuggingFace model repository ID
inference_framework: Runtime (MLX for Apple Silicon, TRANSFORMERS for cross-platform, VLLM for high-throughput)
load_in_8bit: Enable 8-bit quantization
response_format: Expected output format (DOCTAGS, MARKDOWN, HTML, OTSL)
trust_remote_code: Allow custom model code execution

ApiVlmOptions configures remote VLM API calls:

url: API endpoint (OpenAI-compatible)
model: Model name at the endpoint
concurrency: Maximum concurrent requests
timeout: Request timeout in seconds
headers: Optional HTTP headers

Sources: docling/datamodel/pipeline_options_vlm_model.py18-372

Enrichment Model Options

Enrichment models enhance the document with additional metadata and transformations.

Picture Description Options:

Picture description options support filtering by classification label, so descriptions are only generated for specific picture types docling/datamodel/pipeline_options.py472-486

Other Enrichment Options:

DocumentPictureClassifierOptions: Classify pictures (charts, figures, diagrams, etc.)
ChartExtractorOptions: Extract data from bar/pie/line charts
CodeClassifierOptions: Detect and label code blocks
FormulaClassifierOptions: Detect and label mathematical formulas

Sources: docling/datamodel/pipeline_options.py464-673

Preset System

The preset system provides pre-configured option sets for common use cases, particularly for VLM models.

VLM Preset Registry

Using Presets:

The preset system uses a class variable registry docling/datamodel/pipeline_options.py1297-1331 and provides factory methods for creating options from preset IDs docling/datamodel/pipeline_options.py1333-1373

Available VLM Presets:

Presets are defined in docling/datamodel/vlm_model_specs.py and include:

granite_docling: Granite-Docling model with Transformers
granite_docling_mlx: Granite-Docling with MLX (Apple Silicon)
granite_docling_api: Granite-Docling via API (vLLM, LM Studio, Ollama)
smoldocling_transformers: SmolDocling with Transformers
granite_vision: Granite Vision for chart extraction
deepseek_ocr_lmstudio: DeepSeek-OCR via LM Studio

Sources: docling/datamodel/pipeline_options.py1297-1373 docling/datamodel/vlm_model_specs.py1-300

Configuration Examples

Example 5: CLI to API Mapping

The CLI options in docling/cli/main.py374-850 map to configuration classes:

CLI Flag	Configuration Class	Field
`--ocr / --no-ocr`	`PdfPipelineOptions`	`do_ocr`
`--force-ocr`	`OcrOptions`	`force_full_page_ocr`
`--tables / --no-tables`	`PdfPipelineOptions`	`do_table_structure`
`--ocr-engine`	`PdfPipelineOptions`	`ocr_options.kind`
`--ocr-lang`	`OcrOptions`	`lang`
`--table-mode`	`TableStructureOptions`	`mode`
`--pipeline`	`FormatOption`	`pipeline_cls`
`--vlm-model`	`VlmPipelineOptions`	`vlm_options` (preset)

Sources: docling/cli/main.py374-850

Configuration and Pipeline Options

Relevant source files

For information about how formats are detected and routed to pipelines, see Format Detection and Routing. For details on the plugin system that extends model options, see Plugin System.

Configuration Hierarchy

The Docling configuration system follows a three-tier hierarchy that flows from high-level format decisions down to individual model parameters.

Sources: docling/document_converter.py75-156 docling/datamodel/pipeline_options.py70-900

FormatOption Layer

FormatOption associates an input format with a specific backend and pipeline implementation. Each format has a corresponding FormatOption subclass that defines the processing strategy.

FormatOption Class Structure

Class	Pipeline	Backend	Purpose
`PdfFormatOption`	`StandardPdfPipeline`	`DoclingParseDocumentBackend`	PDF processing with ML models
`WordFormatOption`	`SimplePipeline`	`MsWordDocumentBackend`	DOCX processing
`ExcelFormatOption`	`SimplePipeline`	`MsExcelDocumentBackend`	XLSX processing
`PowerpointFormatOption`	`SimplePipeline`	`MsPowerpointDocumentBackend`	PPTX processing
`ImageFormatOption`	`StandardPdfPipeline`	`ImageDocumentBackend`	Image processing
`HTMLFormatOption`	`SimplePipeline`	`HTMLDocumentBackend`	HTML processing
`MarkdownFormatOption`	`SimplePipeline`	`MarkdownDocumentBackend`	Markdown processing
`AudioFormatOption`	`AsrPipeline`	`NoOpBackend`	Audio/video transcription
`LatexFormatOption`	`SimplePipeline`	`LatexDocumentBackend`	LaTeX processing

FormatOption Configuration Flow

Sources: docling/document_converter.py75-186 docling/datamodel/base_models.py37-42

PipelineOptions Hierarchy

PipelineOptions is the base class for all pipeline configuration. Different pipelines extend this base with their specific requirements.

Pipeline Options Class Diagram

Sources: docling/datamodel/pipeline_options.py70-1300

PdfPipelineOptions

PdfPipelineOptions is the most complex pipeline configuration, used by StandardPdfPipeline for processing PDFs and images with ML models.

Key Fields:

Field	Type	Default	Description
`do_ocr`	`bool`	`True`	Enable OCR processing
`do_table_structure`	`bool`	`True`	Enable table structure recognition
`ocr_options`	`OcrOptions`	`OcrAutoOptions()`	OCR engine configuration
`table_structure_options`	`BaseTableStructureOptions`	`TableStructureOptions()`	Table model configuration
`layout_options`	`LayoutOptions`	`LayoutObjectDetectionOptions()`	Layout detection configuration
`images_scale`	`float`	`2.0`	Scale factor for processing images
`generate_page_images`	`bool`	`False`	Whether to generate page images
`generate_picture_images`	`bool`	`False`	Whether to extract picture images

The options also include enrichment model configurations:

picture_description_options: For generating picture descriptions
picture_classifier_options: For classifying picture types
chart_extraction_options: For extracting chart data
code_classifier_options: For detecting code blocks
formula_classifier_options: For detecting formulas

Sources: docling/datamodel/pipeline_options.py961-1166

VlmPipelineOptions

VlmPipelineOptions configures Vision-Language Model pipelines that process documents using multimodal AI models.

Key Fields:

Field	Type	Description
`vlm_options`	`Union[InlineVlmOptions, ApiVlmOptions]`	VLM model configuration
`generate_page_images`	`bool`	Generate page images for VLM input
`images_scale`	`float`	Image scaling factor
`max_image_size`	`Optional[int]`	Maximum image dimension

The vlm_options field uses a discriminated union to support both inline (local) and API-based (remote) VLM execution.

Sources: docling/datamodel/pipeline_options.py1228-1266

AsrPipelineOptions

AsrPipelineOptions configures Automatic Speech Recognition for audio and video files.

Key Fields:

Field	Type	Description
`asr_options`	`InlineAsrOptions`	ASR model configuration
`generate_audio_waveform`	`bool`	Generate waveform visualization

Sources: docling/datamodel/pipeline_options.py1268-1294

Model-Specific Options

Model-specific options configure individual AI models used within pipelines. These inherit from BaseOptions and implement the kind field for discrimination.

OCR Options Hierarchy

Common OCR Fields:

All OCR options share these base fields from OcrOptions docling/datamodel/pipeline_options.py121-145:

lang: List of language codes for OCR
force_full_page_ocr: Force OCR on entire page
bitmap_area_threshold: Minimum bitmap area percentage to trigger OCR

OCR Engine-Specific Fields:

Engine	Key Fields	Notes
`OcrAutoOptions`	None (uses defaults)	Automatically selects available engine
`RapidOcrOptions`	`backend`, `text_score`, `use_det`, `use_cls`, `use_rec`	Supports onnxruntime, openvino, paddle, torch backends
`EasyOcrOptions`	`use_gpu`, `confidence_threshold`, `recog_network`	GPU acceleration support
`TesseractCliOcrOptions`	`tesseract_cmd`, `path`, `psm`	CLI-based Tesseract
`TesseractOcrOptions`	`path`, `psm`	Python bindings (tesserocr)
`OcrMacOptions`	`recognition`, `framework`	Native macOS Vision framework

Sources: docling/datamodel/pipeline_options.py121-462

Table Structure Options

TableStructureOptions configures the TableFormer model for extracting table structure.

Fields:

do_cell_matching: Enable cell content matching (default: True)
mode: Processing mode (FAST or ACCURATE)

The ACCURATE mode provides higher quality but slower processing, while FAST prioritizes speed over precision docling/datamodel/pipeline_options.py76-119

Sources: docling/datamodel/pipeline_options.py76-119

Layout Detection Options

Layout detection options configure object detection models that identify document structure elements (text blocks, figures, tables, etc.).

LayoutObjectDetectionOptions Fields:

layout_model_spec: Model specification (e.g., EGRET, HERON families)
engine_options: Inference engine options (HuggingFace Transformers or ONNX)
postprocessor: Configuration for layout postprocessing

The options support model presets that can be selected using the from_preset() method docling/datamodel/pipeline_options.py689-723

Sources: docling/datamodel/pipeline_options.py674-781

VLM Model Options

VLM (Vision-Language Model) options configure multimodal AI models. Docling supports both inline (local) and API-based (remote) VLM execution.

InlineVlmOptions configures local VLM execution:

repo_id: HuggingFace model repository ID
inference_framework: Runtime (MLX for Apple Silicon, TRANSFORMERS for cross-platform, VLLM for high-throughput)
load_in_8bit: Enable 8-bit quantization
response_format: Expected output format (DOCTAGS, MARKDOWN, HTML, OTSL)
trust_remote_code: Allow custom model code execution

ApiVlmOptions configures remote VLM API calls:

url: API endpoint (OpenAI-compatible)
model: Model name at the endpoint
concurrency: Maximum concurrent requests
timeout: Request timeout in seconds
headers: Optional HTTP headers

Sources: docling/datamodel/pipeline_options_vlm_model.py18-372

Enrichment Model Options

Enrichment models enhance the document with additional metadata and transformations.

Picture Description Options:

Picture description options support filtering by classification label, so descriptions are only generated for specific picture types docling/datamodel/pipeline_options.py472-486

Other Enrichment Options:

DocumentPictureClassifierOptions: Classify pictures (charts, figures, diagrams, etc.)
ChartExtractorOptions: Extract data from bar/pie/line charts
CodeClassifierOptions: Detect and label code blocks
FormulaClassifierOptions: Detect and label mathematical formulas

Sources: docling/datamodel/pipeline_options.py464-673

Preset System

The preset system provides pre-configured option sets for common use cases, particularly for VLM models.

VLM Preset Registry

Using Presets:

Available VLM Presets:

Presets are defined in docling/datamodel/vlm_model_specs.py and include:

granite_docling: Granite-Docling model with Transformers
granite_docling_mlx: Granite-Docling with MLX (Apple Silicon)
granite_docling_api: Granite-Docling via API (vLLM, LM Studio, Ollama)
smoldocling_transformers: SmolDocling with Transformers
granite_vision: Granite Vision for chart extraction
deepseek_ocr_lmstudio: DeepSeek-OCR via LM Studio

Sources: docling/datamodel/pipeline_options.py1297-1373 docling/datamodel/vlm_model_specs.py1-300

Configuration Examples

Example 1: Basic PDF Processing

Sources: docling/document_converter.py189-257 docling/datamodel/pipeline_options.py274-345

Example 2: VLM-Based Processing

Sources: docling/pipeline/vlm_pipeline.py1-500 docling/datamodel/pipeline_options.py1228-1266

Example 3: Advanced Table Extraction

Sources: docling/datamodel/pipeline_options.py97-119

Example 4: Multi-Model Enrichment

Sources: docling/datamodel/pipeline_options.py545-631

Example 5: CLI to API Mapping

The CLI options in docling/cli/main.py374-850 map to configuration classes:

CLI Flag	Configuration Class	Field
`--ocr / --no-ocr`	`PdfPipelineOptions`	`do_ocr`
`--force-ocr`	`OcrOptions`	`force_full_page_ocr`
`--tables / --no-tables`	`PdfPipelineOptions`	`do_table_structure`
`--ocr-engine`	`PdfPipelineOptions`	`ocr_options.kind`
`--ocr-lang`	`OcrOptions`	`lang`
`--table-mode`	`TableStructureOptions`	`mode`
`--pipeline`	`FormatOption`	`pipeline_cls`
`--vlm-model`	`VlmPipelineOptions`	`vlm_options` (preset)

Sources: docling/cli/main.py374-850

Configuration and Pipeline Options

Configuration Hierarchy

FormatOption Layer

FormatOption Class Structure

FormatOption Configuration Flow

PipelineOptions Hierarchy

Pipeline Options Class Diagram

PdfPipelineOptions

VlmPipelineOptions

AsrPipelineOptions

Model-Specific Options

OCR Options Hierarchy

Table Structure Options

Layout Detection Options

VLM Model Options

Enrichment Model Options

Preset System

VLM Preset Registry

Configuration Examples

Example 1: Basic PDF Processing

Example 2: VLM-Based Processing

Example 3: Advanced Table Extraction

Example 4: Multi-Model Enrichment

Example 5: CLI to API Mapping

On this page

Configuration and Pipeline Options

Configuration Hierarchy

FormatOption Layer

FormatOption Class Structure

FormatOption Configuration Flow

PipelineOptions Hierarchy

Pipeline Options Class Diagram

PdfPipelineOptions

VlmPipelineOptions

AsrPipelineOptions

Model-Specific Options

OCR Options Hierarchy

Table Structure Options

Layout Detection Options

VLM Model Options

Enrichment Model Options

Preset System

VLM Preset Registry

Configuration Examples

Example 1: Basic PDF Processing

Example 2: VLM-Based Processing

Example 3: Advanced Table Extraction

Example 4: Multi-Model Enrichment

Example 5: CLI to API Mapping

On this page