Add chunked prefill and limit mm per prompt options

2025-12-04 19:21:08 +00:00 · 2025-09-25 14:29:49 -04:00 · 2025-09-25 14:29:49 -04:00 · fe425fde20
commit fe425fde20
parent 8f88a98e5d
1 changed files with 2 additions and 0 deletions
--- a/olmocr/pipeline.py
+++ b/olmocr/pipeline.py
@ -599,6 +599,8 @@ async def vllm_server_task(model_name_or_path, args, semaphore, unknown_args=Non
        str(args.tensor_parallel_size),
        "--data-parallel-size",
        str(args.data_parallel_size),
+        "--enable-chunked-prefill",
+        "--limit-mm-per-prompt '{\"video\": 0}'"
    ]

    if args.gpu_memory_utilization is not None: