llama-hub/loader_hub/file/pdf/base.py

"""Read PDF files."""

from pathlib import Path
from typing import Dict, List, Optional

from llama_index.readers.base import BaseReader
from llama_index.readers.schema.base import Document


class PDFReader(BaseReader):
    """PDF reader."""

    def load_data(
        self, file: Path, extra_info: Optional[Dict] = None
    ) -> List[Document]:
        """Parse file."""
        import PyPDF2

        text_list = []
        with open(file, "rb") as fp:
            # Create a PDF object
            pdf = PyPDF2.PdfReader(fp)

            # Get the number of pages in the PDF document
            num_pages = len(pdf.pages)

            # Iterate over every page
            for page in range(num_pages):
                # Extract the text from the page
                page_text = pdf.pages[page].extract_text()
                text_list.append(page_text)
        text = "\n".join(text_list)

        return [Document(text, extra_info=extra_info)]
Proof of concept for loaders depending on others 2023-02-03 15:39:24 -08:00			`"""Read PDF files."""`

			`from pathlib import Path`
cr 2023-02-03 23:38:12 -08:00			`from typing import Dict, List, Optional`
Proof of concept for loaders depending on others 2023-02-03 15:39:24 -08:00
swap out gpt_index imports for llama_index imports (#49) * cr * cr * cr --------- Co-authored-by: Jerry Liu <jerry@robustintelligence.com> Co-authored-by: Jesse Zhang <jessetanzhang@gmail.com> 2023-02-20 21:46:58 -08:00			`from llama_index.readers.base import BaseReader`
			`from llama_index.readers.schema.base import Document`
Proof of concept for loaders depending on others 2023-02-03 15:39:24 -08:00

			`class PDFReader(BaseReader):`
			`"""PDF reader."""`

			`def load_data(`
			`self, file: Path, extra_info: Optional[Dict] = None`
			`) -> List[Document]:`
			`"""Parse file."""`
Requirements txt implemented 2023-02-03 20:41:20 -08:00			`import PyPDF2`

Proof of concept for loaders depending on others 2023-02-03 15:39:24 -08:00			`text_list = []`
			`with open(file, "rb") as fp:`
			`# Create a PDF object`
			`pdf = PyPDF2.PdfReader(fp)`

			`# Get the number of pages in the PDF document`
			`num_pages = len(pdf.pages)`

			`# Iterate over every page`
			`for page in range(num_pages):`
			`# Extract the text from the page`
			`page_text = pdf.pages[page].extract_text()`
			`text_list.append(page_text)`
			`text = "\n".join(text_list)`

			`return [Document(text, extra_info=extra_info)]`