llama-hub/loader_hub/file/image/base.py

"""Image Reader.

A parser for image files.

"""

import re
from pathlib import Path
from typing import Dict, Optional, cast, List

from llama_index.readers.base import BaseReader
from llama_index.readers.schema.base import Document, ImageDocument


class ImageReader(BaseReader):
    """Image parser.

    Extract text from images using DONUT.

    """

    def __init__(
        self,
        text_type: str = "text",
        parser_config: Optional[Dict] = None,
        keep_image: bool = False,
        parse_text: bool = True,
    ):
        """Init parser."""
        self._text_type = text_type
        if parser_config is None and parse_text:
            if text_type == "plain_text":
                import pytesseract

                processor = None
                model = pytesseract
            else:
                from transformers import DonutProcessor, VisionEncoderDecoderModel

                processor = DonutProcessor.from_pretrained(
                    "naver-clova-ix/donut-base-finetuned-cord-v2"
                )
                model = VisionEncoderDecoderModel.from_pretrained(
                    "naver-clova-ix/donut-base-finetuned-cord-v2"
                )
            parser_config = {"processor": processor, "model": model}
        self._parser_config = parser_config
        self._keep_image = keep_image
        self._parse_text = parse_text

    def load_data(
        self, file: Path, extra_info: Optional[Dict] = None
    ) -> List[Document]:
        """Parse file."""
        from PIL import Image

        from llama_index.img_utils import img_2_b64

        # load document image
        image = Image.open(file)
        if image.mode != "RGB":
            image = image.convert("RGB")

        # Encode image into base64 string and keep in document
        image_str: Optional[str] = None
        if self._keep_image:
            image_str = img_2_b64(image)

        # Parse image into text
        text_str: str = ""
        if self._parse_text:
            model = self._parser_config["model"]
            processor = self._parser_config["processor"]

            if processor:
                import torch

                device = "cuda" if torch.cuda.is_available() else "cpu"
                model.to(device)

                # prepare decoder inputs
                task_prompt = "<s_cord-v2>"
                decoder_input_ids = processor.tokenizer(
                    task_prompt, add_special_tokens=False, return_tensors="pt"
                ).input_ids

                pixel_values = processor(image, return_tensors="pt").pixel_values

                outputs = model.generate(
                    pixel_values.to(device),
                    decoder_input_ids=decoder_input_ids.to(device),
                    max_length=model.decoder.config.max_position_embeddings,
                    early_stopping=True,
                    pad_token_id=processor.tokenizer.pad_token_id,
                    eos_token_id=processor.tokenizer.eos_token_id,
                    use_cache=True,
                    num_beams=3,
                    bad_words_ids=[[processor.tokenizer.unk_token_id]],
                    return_dict_in_generate=True,
                )

                sequence = processor.batch_decode(outputs.sequences)[0]
                sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(
                    processor.tokenizer.pad_token, ""
                )
                # remove first task start token
                text_str = re.sub(r"<.*?>", "", sequence, count=1).strip()
            else:
                import pytesseract

                model = cast(pytesseract, self._parser_config["model"])
                text_str = model.image_to_string(image)

        return [
            ImageDocument(
                text=text_str,
                image=image_str,
            )
        ]
Added new file readers 2023-02-03 20:12:03 -08:00			`"""Image Reader.`

			`A parser for image files.`

			`"""`

			`import re`
			`from pathlib import Path`
Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00			`from typing import Dict, Optional, cast, List`
Added new file readers 2023-02-03 20:12:03 -08:00
swap out gpt_index imports for llama_index imports (#49) * cr * cr * cr --------- Co-authored-by: Jerry Liu <jerry@robustintelligence.com> Co-authored-by: Jesse Zhang <jessetanzhang@gmail.com> 2023-02-20 21:46:58 -08:00			`from llama_index.readers.base import BaseReader`
Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00			`from llama_index.readers.schema.base import Document, ImageDocument`
Added new file readers 2023-02-03 20:12:03 -08:00

			`class ImageReader(BaseReader):`
			`"""Image parser.`

			`Extract text from images using DONUT.`

			`"""`

Update image parser (#111) 2023-03-14 23:13:43 -07:00			`def __init__(`
			`self,`
			`text_type: str = "text",`
			`parser_config: Optional[Dict] = None,`
			`keep_image: bool = False,`
			`parse_text: bool = True,`
			`):`
Added new file readers 2023-02-03 20:12:03 -08:00			`"""Init parser."""`
Update image parser (#111) 2023-03-14 23:13:43 -07:00			`self._text_type = text_type`
			`if parser_config is None and parse_text:`
			`if text_type == "plain_text":`
			`import pytesseract`

			`processor = None`
			`model = pytesseract`
			`else:`
			`from transformers import DonutProcessor, VisionEncoderDecoderModel`
Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00
Update image parser (#111) 2023-03-14 23:13:43 -07:00			`processor = DonutProcessor.from_pretrained(`
			`"naver-clova-ix/donut-base-finetuned-cord-v2"`
			`)`
			`model = VisionEncoderDecoderModel.from_pretrained(`
			`"naver-clova-ix/donut-base-finetuned-cord-v2"`
			`)`
			`parser_config = {"processor": processor, "model": model}`
			`self._parser_config = parser_config`
			`self._keep_image = keep_image`
			`self._parse_text = parse_text`
Add tesseract model for plain text image (#46) * Add tessearact model for plain text image * Update recommended changes 2023-02-18 08:48:00 +05:30
Added new file readers 2023-02-03 20:12:03 -08:00			`def load_data(`
			`self, file: Path, extra_info: Optional[Dict] = None`
Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00			`) -> List[Document]:`
Added new file readers 2023-02-03 20:12:03 -08:00			`"""Parse file."""`
Add tesseract model for plain text image (#46) * Add tessearact model for plain text image * Update recommended changes 2023-02-18 08:48:00 +05:30			`from PIL import Image`
Polish 2023-02-17 19:28:21 -08:00
Update image parser (#111) 2023-03-14 23:13:43 -07:00			`from llama_index.img_utils import img_2_b64`

			`# load document image`
			`image = Image.open(file)`
			`if image.mode != "RGB":`
			`image = image.convert("RGB")`

			`# Encode image into base64 string and keep in document`
			`image_str: Optional[str] = None`
			`if self._keep_image:`
			`image_str = img_2_b64(image)`

			`# Parse image into text`
			`text_str: str = ""`
			`if self._parse_text:`
			`model = self._parser_config["model"]`
			`processor = self._parser_config["processor"]`

			`if processor:`
			`import torch`

			`device = "cuda" if torch.cuda.is_available() else "cpu"`
			`model.to(device)`

			`# prepare decoder inputs`
			`task_prompt = "<s_cord-v2>"`
			`decoder_input_ids = processor.tokenizer(`
			`task_prompt, add_special_tokens=False, return_tensors="pt"`
			`).input_ids`

			`pixel_values = processor(image, return_tensors="pt").pixel_values`

			`outputs = model.generate(`
			`pixel_values.to(device),`
			`decoder_input_ids=decoder_input_ids.to(device),`
			`max_length=model.decoder.config.max_position_embeddings,`
			`early_stopping=True,`
			`pad_token_id=processor.tokenizer.pad_token_id,`
			`eos_token_id=processor.tokenizer.eos_token_id,`
			`use_cache=True,`
			`num_beams=3,`
			`bad_words_ids=[[processor.tokenizer.unk_token_id]],`
			`return_dict_in_generate=True,`
			`)`

			`sequence = processor.batch_decode(outputs.sequences)[0]`
			`sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(`
			`processor.tokenizer.pad_token, ""`
			`)`
			`# remove first task start token`
			`text_str = re.sub(r"<.*?>", "", sequence, count=1).strip()`
			`else:`
			`import pytesseract`
Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00
Update image parser (#111) 2023-03-14 23:13:43 -07:00			`model = cast(pytesseract, self._parser_config["model"])`
			`text_str = model.image_to_string(image)`

Update after refactoring away parsers in LlamaIndex, also update docs to 0.6.0 API (#264) 2023-05-16 23:26:33 -04:00			`return [`
			`ImageDocument(`
			`text=text_str,`
			`image=image_str,`
			`)`
			`]`