OCRmyPDF/misc/watcher.py

#!/usr/bin/env python3
# SPDX-FileCopyrightText: 2019 Ian Alexander <https://github.com/ianalexander>
# SPDX-FileCopyrightText: 2020 James R Barlow <https://github.com/jbarlow83>
# SPDX-License-Identifier: MIT

"""Watch a directory for new PDFs and OCR them."""

from __future__ import annotations

import json
import logging
import os
import shutil
import sys
import time
from datetime import datetime
from pathlib import Path

import pikepdf
from watchdog.events import PatternMatchingEventHandler
from watchdog.observers import Observer
from watchdog.observers.polling import PollingObserver

import ocrmypdf

# pylint: disable=logging-format-interpolation


def getenv_bool(name: str, default: str = 'False'):
    return os.getenv(name, default).lower() in ('true', 'yes', 'y', '1')


INPUT_DIRECTORY = os.getenv('OCR_INPUT_DIRECTORY', '/input')
OUTPUT_DIRECTORY = os.getenv('OCR_OUTPUT_DIRECTORY', '/output')
ARCHIVE_DIRECTORY = os.getenv('OCR_ARCHIVE_DIRECTORY', '/processed')
OUTPUT_DIRECTORY_YEAR_MONTH = getenv_bool('OCR_OUTPUT_DIRECTORY_YEAR_MONTH')
ON_SUCCESS_DELETE = getenv_bool('OCR_ON_SUCCESS_DELETE')
ON_SUCCESS_ARCHIVE = getenv_bool('OCR_ON_SUCCESS_ARCHIVE')
DESKEW = getenv_bool('OCR_DESKEW')
OCR_JSON_SETTINGS = json.loads(os.getenv('OCR_JSON_SETTINGS', '{}'))
POLL_NEW_FILE_SECONDS = int(os.getenv('OCR_POLL_NEW_FILE_SECONDS', '1'))
USE_POLLING = getenv_bool('OCR_USE_POLLING')
RETRIES_LOADING_FILE = int(os.getenv('OCR_RETRIES_LOADING_FILE', '5'))
LOGLEVEL = os.getenv('OCR_LOGLEVEL', 'INFO')
PATTERNS = ['*.pdf', '*.PDF']

log = logging.getLogger('ocrmypdf-watcher')


def get_output_dir(root, basename):
    if OUTPUT_DIRECTORY_YEAR_MONTH:
        today = datetime.today()
        output_directory_year_month = (
            Path(root) / str(today.year) / f'{today.month:02d}'
        )
        if not output_directory_year_month.exists():
            output_directory_year_month.mkdir(parents=True, exist_ok=True)
        output_path = Path(output_directory_year_month) / basename
    else:
        output_path = Path(OUTPUT_DIRECTORY) / basename
    return output_path


def wait_for_file_ready(file_path):
    # This loop waits to make sure that the file is completely loaded on
    # disk before attempting to read. Docker sometimes will publish the
    # watchdog event before the file is actually fully on disk, causing
    # pikepdf to fail.

    retries = RETRIES_LOADING_FILE
    while retries:
        try:
            pdf = pikepdf.open(file_path)
        except (FileNotFoundError, pikepdf.PdfError) as e:
            log.info(f"File {file_path} is not ready yet")
            log.debug("Exception was", exc_info=e)
            time.sleep(POLL_NEW_FILE_SECONDS)
            retries -= 1
        else:
            pdf.close()
            return True

    return False


def execute_ocrmypdf(file_path):
    file_path = Path(file_path)
    output_path = get_output_dir(OUTPUT_DIRECTORY, file_path.name)

    log.info("-" * 20)
    log.info(f'New file: {file_path}. Waiting until fully loaded...')
    if not wait_for_file_ready(file_path):
        log.info(f"Gave up waiting for {file_path} to become ready")
        return
    log.info(f'Attempting to OCRmyPDF to: {output_path}')
    exit_code = ocrmypdf.ocr(
        input_file=file_path,
        output_file=output_path,
        deskew=DESKEW,
        **OCR_JSON_SETTINGS,
    )
    if exit_code == 0:
        if ON_SUCCESS_DELETE:
            log.info(f'OCR is done. Deleting: {file_path}')
            file_path.unlink()
        elif ON_SUCCESS_ARCHIVE:
            log.info(f'OCR is done. Archiving {file_path.name} to {ARCHIVE_DIRECTORY}')
            shutil.move(file_path, f'{ARCHIVE_DIRECTORY}/{file_path.name}')
        else:
            log.info('OCR is done')
    else:
        log.info('OCR is done')


class HandleObserverEvent(PatternMatchingEventHandler):
    def on_any_event(self, event):
        if event.event_type in ['created']:
            execute_ocrmypdf(event.src_path)


def main():
    ocrmypdf.configure_logging(
        verbosity=(
            ocrmypdf.Verbosity.default
            if LOGLEVEL != 'DEBUG'
            else ocrmypdf.Verbosity.debug
        ),
        manage_root_logger=True,
    )
    log.setLevel(LOGLEVEL)
    log.info(
        f"Starting OCRmyPDF watcher with config:\n"
        f"Input Directory: {INPUT_DIRECTORY}\n"
        f"Output Directory: {OUTPUT_DIRECTORY}\n"
        f"Output Directory Year & Month: {OUTPUT_DIRECTORY_YEAR_MONTH}\n"
        f"Archive Directory: {ARCHIVE_DIRECTORY}"
    )
    log.debug(
        f"INPUT_DIRECTORY: {INPUT_DIRECTORY}\n"
        f"OUTPUT_DIRECTORY: {OUTPUT_DIRECTORY}\n"
        f"OUTPUT_DIRECTORY_YEAR_MONTH: {OUTPUT_DIRECTORY_YEAR_MONTH}\n"
        f"ARCHIVE_DIRECTORY: {ARCHIVE_DIRECTORY}\n"
        f"ON_SUCCESS_DELETE: {ON_SUCCESS_DELETE}\n"
        f"ON_SUCCESS_ARCHIVE: {ON_SUCCESS_ARCHIVE}\n"
        f"DESKEW: {DESKEW}\n"
        f"ARGS: {OCR_JSON_SETTINGS}\n"
        f"POLL_NEW_FILE_SECONDS: {POLL_NEW_FILE_SECONDS}\n"
        f"RETRIES_LOADING_FILE: {RETRIES_LOADING_FILE}\n"
        f"USE_POLLING: {USE_POLLING}\n"
        f"LOGLEVEL: {LOGLEVEL}"
    )

    if 'input_file' in OCR_JSON_SETTINGS or 'output_file' in OCR_JSON_SETTINGS:
        log.error('OCR_JSON_SETTINGS should not specify input file or output file')
        sys.exit(1)

    handler = HandleObserverEvent(patterns=PATTERNS)
    if USE_POLLING:
        observer = PollingObserver()
    else:
        observer = Observer()
    observer.schedule(handler, INPUT_DIRECTORY, recursive=True)
    observer.start()
    try:
        while True:
            time.sleep(1)
    except KeyboardInterrupt:
        observer.stop()
    observer.join()


if __name__ == "__main__":
    main()
Allow watchdog 2. (#815) * Allow watchdog 2. The breaking change was dropping support for macOS 10.12 and earlier, which doesn't affect us. * Add shebang to watcher script. 2021-08-04 05:48:25 -04:00			`#!/usr/bin/env python3`
Change to SPDX license tracking 2022-07-28 01:06:46 -07:00			`# SPDX-FileCopyrightText: 2019 Ian Alexander <https://github.com/ianalexander>`
			`# SPDX-FileCopyrightText: 2020 James R Barlow <https://github.com/jbarlow83>`
			`# SPDX-License-Identifier: MIT`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00
Additional ruff fixes 2023-04-14 01:23:57 -07:00			`"""Watch a directory for new PDFs and OCR them."""`

Modernize type annotations 2022-07-23 00:39:24 -07:00			`from __future__ import annotations`

watcher: allow all parameters to ocrmypdf.pdf to be passed by JSON 2020-03-15 21:45:51 -07:00			`import json`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`import logging`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`import os`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`import shutil`
watcher: allow all parameters to ocrmypdf.pdf to be passed by JSON 2020-03-15 21:45:51 -07:00			`import sys`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`import time`
			`from datetime import datetime`
			`from pathlib import Path`

ifmain -> main() 2020-02-10 01:10:12 -08:00			`import pikepdf`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`from watchdog.events import PatternMatchingEventHandler`
			`from watchdog.observers import Observer`
watcher: add polling and log level adjustment 2020-04-05 02:50:39 -07:00			`from watchdog.observers.polling import PollingObserver`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00
			`import ocrmypdf`

ifmain -> main() 2020-02-10 01:10:12 -08:00			`# pylint: disable=logging-format-interpolation`

watcher: fix bool not working as expecting Closes #821 2021-08-21 17:30:14 -07:00
			`def getenv_bool(name: str, default: str = 'False'):`
			`return os.getenv(name, default).lower() in ('true', 'yes', 'y', '1')`


Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`INPUT_DIRECTORY = os.getenv('OCR_INPUT_DIRECTORY', '/input')`
			`OUTPUT_DIRECTORY = os.getenv('OCR_OUTPUT_DIRECTORY', '/output')`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`ARCHIVE_DIRECTORY = os.getenv('OCR_ARCHIVE_DIRECTORY', '/processed')`
watcher: fix bool not working as expecting Closes #821 2021-08-21 17:30:14 -07:00			`OUTPUT_DIRECTORY_YEAR_MONTH = getenv_bool('OCR_OUTPUT_DIRECTORY_YEAR_MONTH')`
			`ON_SUCCESS_DELETE = getenv_bool('OCR_ON_SUCCESS_DELETE')`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`ON_SUCCESS_ARCHIVE = getenv_bool('OCR_ON_SUCCESS_ARCHIVE')`
watcher: fix bool not working as expecting Closes #821 2021-08-21 17:30:14 -07:00			`DESKEW = getenv_bool('OCR_DESKEW')`
watcher: Fix JSONDecodeError if OCR_JSON_SETTINGS not set Fixes #516 2020-03-29 21:58:31 -07:00			`OCR_JSON_SETTINGS = json.loads(os.getenv('OCR_JSON_SETTINGS', '{}'))`
watcher: cleanup getenv casting 2020-05-08 03:49:49 -07:00			`POLL_NEW_FILE_SECONDS = int(os.getenv('OCR_POLL_NEW_FILE_SECONDS', '1'))`
watcher: fix bool not working as expecting Closes #821 2021-08-21 17:30:14 -07:00			`USE_POLLING = getenv_bool('OCR_USE_POLLING')`
watcher: added setting RETRIES_LOADING_FILE to avoid giving up to early (#1063) 2023-01-26 02:36:54 +01:00			`RETRIES_LOADING_FILE = int(os.getenv('OCR_RETRIES_LOADING_FILE', '5'))`
watcher: fix OCR_LOGLEVEL env var not processed Closes #702 2020-12-27 02:02:44 -08:00			`LOGLEVEL = os.getenv('OCR_LOGLEVEL', 'INFO')`
watcher: include uppercase .PDF too 2020-11-12 02:29:47 -08:00			`PATTERNS = ['.pdf', '.PDF']`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`log = logging.getLogger('ocrmypdf-watcher')`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00
watcher: some refactoring 2020-01-28 12:56:19 -08:00
			`def get_output_dir(root, basename):`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`if OUTPUT_DIRECTORY_YEAR_MONTH:`
			`today = datetime.today()`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`output_directory_year_month = (`
			`Path(root) / str(today.year) / f'{today.month:02d}'`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`)`
			`if not output_directory_year_month.exists():`
			`output_directory_year_month.mkdir(parents=True, exist_ok=True)`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`output_path = Path(output_directory_year_month) / basename`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`else:`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`output_path = Path(OUTPUT_DIRECTORY) / basename`
			`return output_path`


			`def wait_for_file_ready(file_path):`
Watched folder bug fixes, new flags, and docs updates. 2020-01-19 19:11:54 -08:00			`# This loop waits to make sure that the file is completely loaded on`
			`# disk before attempting to read. Docker sometimes will publish the`
			`# watchdog event before the file is actually fully on disk, causing`
			`# pikepdf to fail.`
watcher: some refactoring 2020-01-28 12:56:19 -08:00
watcher: added setting RETRIES_LOADING_FILE to avoid giving up to early (#1063) 2023-01-26 02:36:54 +01:00			`retries = RETRIES_LOADING_FILE`
Wait for file based on pikepdf 2020-01-30 12:40:48 -08:00			`while retries:`
			`try:`
			`pdf = pikepdf.open(file_path)`
			`except (FileNotFoundError, pikepdf.PdfError) as e:`
			`log.info(f"File {file_path} is not ready yet")`
			`log.debug("Exception was", exc_info=e)`
			`time.sleep(POLL_NEW_FILE_SECONDS)`
			`retries -= 1`
			`else:`
			`pdf.close()`
			`return True`

			`return False`
watcher: some refactoring 2020-01-28 12:56:19 -08:00

			`def execute_ocrmypdf(file_path):`
			`file_path = Path(file_path)`
			`output_path = get_output_dir(OUTPUT_DIRECTORY, file_path.name)`

			`log.info("-" * 20)`
			`log.info(f'New file: {file_path}. Waiting until fully loaded...')`
Wait for file based on pikepdf 2020-01-30 12:40:48 -08:00			`if not wait_for_file_ready(file_path):`
			`log.info(f"Gave up waiting for {file_path} to become ready")`
			`return`
Order of events 2020-01-30 12:40:19 -08:00			`log.info(f'Attempting to OCRmyPDF to: {output_path}')`
Watched folder bug fixes, new flags, and docs updates. 2020-01-19 19:11:54 -08:00			`exit_code = ocrmypdf.ocr(`
watcher: allow all parameters to ocrmypdf.pdf to be passed by JSON 2020-03-15 21:45:51 -07:00			`input_file=file_path,`
			`output_file=output_path,`
			`deskew=DESKEW,`
			`**OCR_JSON_SETTINGS,`
Watched folder bug fixes, new flags, and docs updates. 2020-01-19 19:11:54 -08:00			`)`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`if exit_code == 0:`
			`if ON_SUCCESS_DELETE:`
			`log.info(f'OCR is done. Deleting: {file_path}')`
			`file_path.unlink()`
			`elif ON_SUCCESS_ARCHIVE:`
			`log.info(f'OCR is done. Archiving {file_path.name} to {ARCHIVE_DIRECTORY}')`
			`shutil.move(file_path, f'{ARCHIVE_DIRECTORY}/{file_path.name}')`
log completion message (#1044) This logs the "done" message if neither delete nor archive options are set. 2022-12-15 02:24:41 +01:00			`else:`
			`log.info('OCR is done')`
Watched folder bug fixes, new flags, and docs updates. 2020-01-19 19:11:54 -08:00			`else:`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`log.info('OCR is done')`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00

			`class HandleObserverEvent(PatternMatchingEventHandler):`
			`def on_any_event(self, event):`
Watched folder bug fixes, new flags, and docs updates. 2020-01-19 19:11:54 -08:00			`if event.event_type in ['created']:`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`execute_ocrmypdf(event.src_path)`


ifmain -> main() 2020-02-10 01:10:12 -08:00			`def main():`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`ocrmypdf.configure_logging(`
watcher: fix OCR_LOGLEVEL env var not processed Closes #702 2020-12-27 02:02:44 -08:00			`verbosity=(`
			`ocrmypdf.Verbosity.default`
			`if LOGLEVEL != 'DEBUG'`
			`else ocrmypdf.Verbosity.debug`
			`),`
			`manage_root_logger=True,`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`)`
watcher: add polling and log level adjustment 2020-04-05 02:50:39 -07:00			`log.setLevel(LOGLEVEL)`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`log.info(`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`f"Starting OCRmyPDF watcher with config:\n"`
			`f"Input Directory: {INPUT_DIRECTORY}\n"`
			`f"Output Directory: {OUTPUT_DIRECTORY}\n"`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`f"Output Directory Year & Month: {OUTPUT_DIRECTORY_YEAR_MONTH}\n"`
			`f"Archive Directory: {ARCHIVE_DIRECTORY}"`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`)`
watcher: some refactoring 2020-01-28 12:56:19 -08:00			`log.debug(`
Update logging and env var extensibility 2020-01-20 10:45:28 -08:00			`f"INPUT_DIRECTORY: {INPUT_DIRECTORY}\n"`
			`f"OUTPUT_DIRECTORY: {OUTPUT_DIRECTORY}\n"`
			`f"OUTPUT_DIRECTORY_YEAR_MONTH: {OUTPUT_DIRECTORY_YEAR_MONTH}\n"`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`f"ARCHIVE_DIRECTORY: {ARCHIVE_DIRECTORY}\n"`
Update logging and env var extensibility 2020-01-20 10:45:28 -08:00			`f"ON_SUCCESS_DELETE: {ON_SUCCESS_DELETE}\n"`
watcher: Add an option to archive processed originals (#951) * watcher: Add an option to archive processed originals This adds a feature from existing OCRmyPDF watchdog Docker containers like meyay/ocrmypdf-batch and unze/ocrmypdf-watchdog. With this option, the input directory can be kept clean from already processed files, without losing the originals. * docs: Improve watcher.py's Docker parameters documentation 2022-06-18 00:17:03 +02:00			`f"ON_SUCCESS_ARCHIVE: {ON_SUCCESS_ARCHIVE}\n"`
Update logging and env var extensibility 2020-01-20 10:45:28 -08:00			`f"DESKEW: {DESKEW}\n"`
watcher: allow all parameters to ocrmypdf.pdf to be passed by JSON 2020-03-15 21:45:51 -07:00			`f"ARGS: {OCR_JSON_SETTINGS}\n"`
Update logging and env var extensibility 2020-01-20 10:45:28 -08:00			`f"POLL_NEW_FILE_SECONDS: {POLL_NEW_FILE_SECONDS}\n"`
watcher: added setting RETRIES_LOADING_FILE to avoid giving up to early (#1063) 2023-01-26 02:36:54 +01:00			`f"RETRIES_LOADING_FILE: {RETRIES_LOADING_FILE}\n"`
watcher: add polling and log level adjustment 2020-04-05 02:50:39 -07:00			`f"USE_POLLING: {USE_POLLING}\n"`
watcher: fix OCR_LOGLEVEL env var not processed Closes #702 2020-12-27 02:02:44 -08:00			`f"LOGLEVEL: {LOGLEVEL}"`
Update logging and env var extensibility 2020-01-20 10:45:28 -08:00			`)`
watcher: some refactoring 2020-01-28 12:56:19 -08:00
watcher: allow all parameters to ocrmypdf.pdf to be passed by JSON 2020-03-15 21:45:51 -07:00			`if 'input_file' in OCR_JSON_SETTINGS or 'output_file' in OCR_JSON_SETTINGS:`
			`log.error('OCR_JSON_SETTINGS should not specify input file or output file')`
			`sys.exit(1)`

Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`handler = HandleObserverEvent(patterns=PATTERNS)`
watcher: add polling and log level adjustment 2020-04-05 02:50:39 -07:00			`if USE_POLLING:`
			`observer = PollingObserver()`
			`else:`
			`observer = Observer()`
Add improved example demonstrating watched folder functionality Closes #466 2019-12-28 15:37:08 -08:00			`observer.schedule(handler, INPUT_DIRECTORY, recursive=True)`
			`observer.start()`
			`try:`
			`while True:`
			`time.sleep(1)`
			`except KeyboardInterrupt:`
			`observer.stop()`
			`observer.join()`
ifmain -> main() 2020-02-10 01:10:12 -08:00

			`if __name__ == "__main__":`
			`main()`