olmocr

mirror of https://github.com/allenai/olmocr.git synced 2025-07-03 07:05:50 +00:00

Author	SHA1	Message	Date
Chris Wilhelm	7e8492059c	wip	2025-03-13 15:31:55 -07:00
Chris Wilhelm	29b9054749	basic docker image and test	2025-03-13 15:31:55 -07:00
Jake Poznanski	abeaf028fd	Docker file builds faster now	2025-03-05 19:37:09 +00:00
Jake Poznanski	dc7cb5c8b5	Ruff fixes to CI	2025-03-03 15:56:39 -08:00
kyleclo	25df26fefd	readme	2025-02-28 10:12:07 -08:00
kyleclo	7e434d8466	Merge branch 'main' into kylel/elo	2025-02-28 10:06:40 -08:00
aman-17	0130a970c2	fixed style	2025-02-25 08:57:02 -08:00
Jake Poznanski	e4f9b1962f	Infinigram counting script for paper	2025-02-18 19:01:17 +00:00
Jake Poznanski	602012267e	Match script	2025-02-18 17:53:46 +00:00
Jake Poznanski	b871e4b425	Small helper to measure overlap	2025-02-18 17:14:56 +00:00
Jake Poznanski	58db354532	Fixing release script	2025-02-14 22:57:43 +00:00
kyleclo	86b17d0ea3	add boxplot drawing	2025-02-13 19:38:09 -08:00
kyleclo	a790ba73ee	update args; include output	2025-02-13 17:06:36 -08:00
kyleclo	88c18b3afa	human eval data; elo ratings script; dependencies	2025-02-13 16:59:09 -08:00
Jake Poznanski	04844b3f87	More beaker and docker fixes	2025-01-30 22:14:57 +00:00
Jake Poznanski	c69e0d6762	More cleanup, removing dead adv anchor code	2025-01-30 12:58:11 -08:00
Jake Poznanski	dcaca8aa90	Black formatting	2025-01-29 15:30:39 -08:00
Jake Poznanski	4a1762d455	isort	2025-01-29 15:25:10 -08:00
Jake Poznanski	b2894d0280	Massive refactor from pdelfin to olmocr	2025-01-27 18:30:41 +00:00
Jake Poznanski	5b429ad100	Higher lr for molmo, fixed evals	2025-01-24 23:15:35 +00:00
Jake Poznanski	d0eea81c00	Dealing with issue with molmo unused params	2025-01-24 16:27:42 +00:00
Jake Poznanski	ef4167dc45	Test set script	2025-01-14 19:36:18 +00:00
Jake Poznanski	cff97990bf	Moving to official sglang release	2024-11-22 19:37:31 +00:00
Jake Poznanski	9e2e09bd06	More fixes	2024-11-18 15:04:50 -08:00
Jake Poznanski	8e16780b82	Beaker stuff	2024-11-14 08:49:12 -08:00
Jake Poznanski	4c3bf7045d	Beaker fixes	2024-11-13 14:24:23 -08:00
Jake Poznanski	83bb1dcd3b	Dockerfile fixes	2024-11-13 12:59:52 -08:00
Jake Poznanski	6c9c785130	Using version strings	2024-11-13 12:35:40 -08:00
Jake Poznanski	39256c19bb	Beaker running	2024-11-13 10:25:35 -08:00
Jake Poznanski	867e2c9a36	Docker builds	2024-11-13 09:46:08 -08:00
Jake Poznanski	a091412079	Starting to play with docker too	2024-11-13 09:35:34 -08:00
Jake Poznanski	93d70683d4	More docs	2024-11-04 17:28:09 +00:00
Jake Poznanski	cda0ad7984	Config typo	2024-10-30 21:18:48 +00:00
Jake Poznanski	cf3b377bb9	train script	2024-10-30 14:05:02 -07:00
Jake Poznanski	a1a4798ce7	Some crazy idea I had to simplify futures and memory limits	2024-10-23 21:51:37 +00:00
Jake Poznanski	f6ac591fe9	vllm benchmarker	2024-10-23 18:14:50 +00:00
Jake Poznanski	d99096e9a2	Adding vllm profile script for reference	2024-10-22 20:00:34 +00:00
Jake Poznanski	31becaf7e4	S2orc dataset extractor	2024-10-21 21:28:44 +00:00
Jake Poznanski	3ecbeae6dc	Trying save to s3 but with threaded saver	2024-10-17 21:39:01 +00:00
Jake Poznanski	529d51d57d	Put LR back, need to save larger checkpoints to weka to prevent timeouts	2024-10-17 19:46:25 +00:00
Jake Poznanski	063be21287	New image	2024-10-16 14:46:28 -07:00
Jake Poznanski	90cb80fd65	Docker update	2024-10-16 21:40:39 +00:00
Jake Poznanski	a8b50ae8fa	Preloading the datasets directly	2024-10-10 19:57:51 +00:00
Jake Poznanski	230c8a9f9a	Trying new run that will rewrite the prompts as it goes	2024-10-08 22:10:18 +00:00
Jake Poznanski	adc702c918	FIxing wandb key	2024-10-08 18:16:39 +00:00
Jake Poznanski	4fb7e9b184	Updated eval script	2024-10-08 16:09:25 +00:00
Jake Poznanski	fb4e585e9f	Trying out non-lora training	2024-10-08 15:20:37 +00:00
Jake Poznanski	44bcdc771b	Hopefully can use weka for the train datasets now	2024-10-07 16:14:28 +00:00
Jake Poznanski	78e3a94173	Adding pluto ib	2024-10-03 15:33:17 +00:00
Jake Poznanski	0ddaf9023d	Getting ready to launch a new training run	2024-10-02 23:04:56 +00:00

1 2 3 4

169 Commits