Merge pull request #341 from charitarthchugh/charitarthchugh/vllm-defaults-speedup

Add chunked prefill and limit mm per prompt options
2025-11-02 02:54:53 +00:00 · 2025-10-06 13:23:47 -07:00 · 2025-10-06 13:23:47 -07:00 · 2b70b50312
commit 2b70b50312
parent f4356de091 fe425fde20
1 changed files with 2 additions and 0 deletions
--- a/olmocr/pipeline.py
+++ b/olmocr/pipeline.py
@ -636,6 +636,8 @@ async def vllm_server_task(model_name_or_path, args, semaphore, unknown_args=Non
        str(args.tensor_parallel_size),
        "--data-parallel-size",
        str(args.data_parallel_size),
+        "--enable-chunked-prefill",
+        "--limit-mm-per-prompt '{\"video\": 0}'"
    ]

    if args.gpu_memory_utilization is not None: