olmocr

mirror of https://github.com/allenai/olmocr.git synced 2025-09-14 19:21:53 +00:00

Author	SHA1	Message	Date
Jake Poznanski	bede854cd5	Startng to write molmo formatters	2024-10-30 13:24:11 -07:00
Jake Poznanski	f13d0a5741	List configs to list	2024-10-24 03:07:32 +00:00
Jake Poznanski	180dde03c5	dataprep sampling tests	2024-10-23 22:53:05 +00:00
Jake Poznanski	64041bd6d7	Allow sampling different anchor text lens	2024-10-23 15:37:23 -07:00
Jake Poznanski	3c1b7de293	Refactoring of train dataloaders	2024-10-16 18:26:25 +00:00
Jake Poznanski	7b161533e2	Code to do local inference on fine tuned models for testing	2024-10-14 08:38:18 -07:00
Jake Poznanski	2dccc4be3b	Oops removing print	2024-10-11 16:23:14 +00:00
Jake Poznanski	2864f907e1	Dataloader fix with nicer tests	2024-10-10 16:58:45 +00:00
Jake Poznanski	1686790ac8	Checking filtering logic	2024-10-02 22:45:40 +00:00
Jake Poznanski	da1982acb8	Refactoring prompts into their own new folder	2024-09-30 18:48:17 +00:00
Jake Poznanski	8ec9e35f22	dataprep issue	2024-09-28 04:31:11 +00:00
Jake Poznanski	decfd7fbc1	Fixing the refiner input prompt to something simpler that doesn't depend on the training data. Fixing beaker job workspace and bumping priority to high.	2024-09-27 22:54:07 +00:00
Jake Poznanski	22b765e6be	Going back to non iterable dataset, so shuffling works better, applying a light filter	2024-09-27 15:48:56 +00:00
Jake Poznanski	c00e40d1c4	More fixes	2024-09-26 23:10:07 +00:00
Jake Poznanski	84e9da637c	Removing lambda due to pickling errors	2024-09-26 21:39:08 +00:00
Jake Poznanski	9cbc128553	Sampling some sequence lengths	2024-09-25 09:05:11 -07:00
Jake Poznanski	ea0226c499	More flexibility in dataloader dims	2024-09-24 19:47:13 -07:00
Jake Poznanski	ea731055d7	More realistic configuration	2024-09-24 14:50:23 -07:00
Jake Poznanski	5a0bcb7b1d	batch inference slowness	2024-09-24 09:13:47 -07:00
Jake Poznanski	28bcf72e11	Hoping to get a quick batch inference pipeline rolling	2024-09-24 08:56:36 -07:00
Jake Poznanski	3ed14a9ea5	Prepping new training stuff	2024-09-23 08:53:56 -07:00
Jake Poznanski	55035b02c9	Tries to run a forward pass but oOMS	2024-09-20 15:05:23 -07:00
Jake Poznanski	4eddb1b45f	Okay, reasonably happy with the dataprep pipeline	2024-09-20 13:04:47 -07:00
Jake Poznanski	a47afe5c8d	Adding test to make sure the traning and inference time tokenization stays identical, currenlty failing	2024-09-20 12:01:05 -07:00
Jake Poznanski	fcb67ebd61	Prepping data to be in a trainable format	2024-09-20 09:25:54 -07:00

25 Commits