olmocr/tests/test_dataloader.py

import unittest
from functools import partial

import pytest
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import AutoProcessor

from olmocr.train.dataloader import (
    build_finetuning_dataset,
    extract_openai_batch_response,
    list_dataset_files,
    load_jsonl_into_ds,
)
from olmocr.train.dataprep import batch_prepare_data_for_qwen2_training


@pytest.mark.nonci
class TestBatchQueryResponseDataset(unittest.TestCase):
    def testLoadS3(self):
        ds = load_jsonl_into_ds("s3://ai2-oe-data/jakep/openai_batch_data_v2/*.jsonl", first_n_files=3)

        print(f"Loaded {len(ds)} entries")
        print(ds)
        print(ds["train"])

    def testFinetuningDS(self):
        ds = build_finetuning_dataset(
            response_glob_path="s3://ai2-oe-data/jakep/pdfdata/openai_batch_done_v5_1_eval/*.json",
        )

        print(ds)

        processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")

        ds = ds.with_transform(partial(batch_prepare_data_for_qwen2_training, processor=processor, target_longest_image_dim=1024, target_anchor_text_len=6000))

        print(ds[0])

    def testPlotSequenceLengthHistogram(self):
        import plotly.express as px

        ds = build_finetuning_dataset(
            response_glob_path="s3://ai2-oe-data/jakep/pdfdata/openai_batch_done_v5_1_eval/*.json",
        )

        processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")

        ds = ds.with_transform(partial(batch_prepare_data_for_qwen2_training, processor=processor, target_longest_image_dim=1024, target_anchor_text_len=6000))

        processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")

        initial_len = len(ds)

        train_dataloader = DataLoader(ds, batch_size=1, num_workers=30, shuffle=False)

        max_seen_len = 0
        steps = 0
        sequence_lengths = []  # List to store sequence lengths
        for entry in tqdm(train_dataloader):
            num_input_tokens = entry["input_ids"].shape[1]
            max_seen_len = max(max_seen_len, num_input_tokens)
            sequence_lengths.append(num_input_tokens)  # Collecting sequence lengths

            if steps % 100 == 0:
                print(f"Max input len {max_seen_len}")

            steps += 1

            # model.forward(**{k: v.to("cuda:0") for (k,v) in entry.items()})
        print(f"Max input len {max_seen_len}")
        print(f"Total elements before filtering: {initial_len}")
        print(f"Total elements after filtering: {steps}")

        # Plotting the histogram using Plotly
        fig = px.histogram(
            sequence_lengths, nbins=100, title="Distribution of Input Sequence Lengths", labels={"value": "Sequence Length", "count": "Frequency"}
        )

        fig.write_image("sequence_lengths_histogram.png")
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00			`import unittest`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`from functools import partial`

Hopefully CI runs now 2025-02-14 20:42:19 +00:00			`import pytest`
isort 2025-01-29 15:25:10 -08:00			`from torch.utils.data import DataLoader`
			`from tqdm import tqdm`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`from transformers import AutoProcessor`
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00
Massive refactor from pdelfin to olmocr 2025-01-27 18:30:41 +00:00			`from olmocr.train.dataloader import (`
Organizing around a new style of dataloader 2024-10-16 18:06:27 +00:00			`build_finetuning_dataset,`
Formatting 2024-09-18 22:52:42 +00:00			`extract_openai_batch_response,`
isort 2025-01-29 15:25:10 -08:00			`list_dataset_files,`
Trying new run that will rewrite the prompts as it goes 2024-10-08 22:10:18 +00:00			`load_jsonl_into_ds,`
Formatting 2024-09-18 22:52:42 +00:00			`)`
Massive refactor from pdelfin to olmocr 2025-01-27 18:30:41 +00:00			`from olmocr.train.dataprep import batch_prepare_data_for_qwen2_training`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00
Hopefully CI runs now 2025-02-14 20:42:19 +00:00			`@pytest.mark.nonci`
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00			`class TestBatchQueryResponseDataset(unittest.TestCase):`
			`def testLoadS3(self):`
Allow loading files locally 2024-10-07 07:49:16 -07:00			`ds = load_jsonl_into_ds("s3://ai2-oe-data/jakep/openai_batch_data_v2/*.jsonl", first_n_files=3)`
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00
			`print(f"Loaded {len(ds)} entries")`
			`print(ds)`
			`print(ds["train"])`
Formatting 2024-09-18 22:52:42 +00:00
Organizing around a new style of dataloader 2024-10-16 18:06:27 +00:00			`def testFinetuningDS(self):`
			`ds = build_finetuning_dataset(`
Trying new run that will rewrite the prompts as it goes 2024-10-08 22:10:18 +00:00			`response_glob_path="s3://ai2-oe-data/jakep/pdfdata/openai_batch_done_v5_1_eval/*.json",`
Formatting 2024-09-18 22:52:42 +00:00			`)`
Starting to write dataloader for visual lm data 2024-09-18 21:42:09 +00:00
			`print(ds)`

Checking filtering logic 2024-10-02 22:45:40 +00:00			`processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")`
Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00
			`ds = ds.with_transform(partial(batch_prepare_data_for_qwen2_training, processor=processor, target_longest_image_dim=1024, target_anchor_text_len=6000))`
Checking filtering logic 2024-10-02 22:45:40 +00:00
			`print(ds[0])`

Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`def testPlotSequenceLengthHistogram(self):`
Black formatting 2025-01-29 15:30:39 -08:00			`import plotly.express as px`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00
Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00			`ds = build_finetuning_dataset(`
Checking filtering logic 2024-10-02 22:45:40 +00:00			`response_glob_path="s3://ai2-oe-data/jakep/pdfdata/openai_batch_done_v5_1_eval/*.json",`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`)`
Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")`

Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00			`ds = ds.with_transform(partial(batch_prepare_data_for_qwen2_training, processor=processor, target_longest_image_dim=1024, target_anchor_text_len=6000))`
Checking filtering logic 2024-10-02 22:45:40 +00:00
Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00			`processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")`
Going back to non iterable dataset, so shuffling works better, applying a light filter 2024-09-27 15:48:56 +00:00
Refactoring of train dataloaders 2024-10-16 18:26:25 +00:00			`initial_len = len(ds)`

			`train_dataloader = DataLoader(ds, batch_size=1, num_workers=30, shuffle=False)`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00
			`max_seen_len = 0`
			`steps = 0`
			`sequence_lengths = [] # List to store sequence lengths`
			`for entry in tqdm(train_dataloader):`
			`num_input_tokens = entry["input_ids"].shape[1]`
			`max_seen_len = max(max_seen_len, num_input_tokens)`
			`sequence_lengths.append(num_input_tokens) # Collecting sequence lengths`

			`if steps % 100 == 0:`
			`print(f"Max input len {max_seen_len}")`

			`steps += 1`

			`# model.forward(**{k: v.to("cuda:0") for (k,v) in entry.items()})`
			`print(f"Max input len {max_seen_len}")`
Checking filtering logic 2024-10-02 22:45:40 +00:00			`print(f"Total elements before filtering: {initial_len}")`
			`print(f"Total elements after filtering: {steps}")`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00
			`# Plotting the histogram using Plotly`
			`fig = px.histogram(`
Black formatting 2025-01-29 15:30:39 -08:00			`sequence_lengths, nbins=100, title="Distribution of Input Sequence Lengths", labels={"value": "Sequence Length", "count": "Frequency"}`
Sampling some sequence lengths 2024-09-25 09:05:11 -07:00			`)`

			`fig.write_image("sequence_lengths_histogram.png")`