unstructured/test_unstructured/partition/test_tsv.py

from test_unstructured.partition.test_constants import EXPECTED_TABLE, EXPECTED_TEXT
from unstructured.cleaners.core import clean_extra_whitespace
from unstructured.documents.elements import Table
from unstructured.partition.tsv import partition_tsv

EXPECTED_FILETYPE = "text/tsv"


def test_partition_tsv_from_filename(filename="example-docs/stanley-cups.tsv"):
    elements = partition_tsv(filename=filename)

    assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT
    assert elements[0].metadata.text_as_html == EXPECTED_TABLE
    assert elements[0].metadata.filetype == EXPECTED_FILETYPE
    for element in elements:
        assert element.metadata.filename == "stanley-cups.tsv"


def test_partition_tsv_from_filename_with_metadata_filename(
    filename="example-docs/stanley-cups.tsv",
):
    elements = partition_tsv(filename=filename, metadata_filename="test")

    assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT
    for element in elements:
        assert element.metadata.filename == "test"


def test_partition_tsv_from_file(filename="example-docs/stanley-cups.tsv"):
    with open(filename, "rb") as f:
        elements = partition_tsv(file=f)

    assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT
    assert isinstance(elements[0], Table)
    assert elements[0].metadata.text_as_html == EXPECTED_TABLE
    assert elements[0].metadata.filetype == EXPECTED_FILETYPE
    for element in elements:
        assert element.metadata.filename is None


def test_partition_tsv_from_file_with_metadata_filename(filename="example-docs/stanley-cups.tsv"):
    with open(filename, "rb") as f:
        elements = partition_tsv(file=f, metadata_filename="test")

    assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT
    for element in elements:
        assert element.metadata.filename == "test"


def test_partition_tsv_filename_exclude_metadata(filename="example-docs/stanley-cups.tsv"):
    elements = partition_tsv(filename=filename, include_metadata=False)

    assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT
    assert isinstance(elements[0], Table)
    assert elements[0].metadata.text_as_html is None
    assert elements[0].metadata.filetype is None
    for element in elements:
        assert element.metadata.filename is None


def test_partition_tsv_from_file_exclude_metadata(filename="example-docs/stanley-cups.tsv"):
    with open(filename, "rb") as f:
        elements = partition_tsv(file=f, include_metadata=False)

    for i in range(len(elements)):
        assert elements[i].metadata.to_dict() == {}
feat: partition_tsv for tab separated value files (#758) * first pass at partition_tsv * working tests * create constants for tests and debug `make test` failure * make check and tidy * undo changes for testing locally * update changelog and version * fix bricks.rst * refactor if statements * make tidy * fix README and change try/except to if/else * update changelog and version * fix\ docstring 2023-06-15 13:50:53 -05:00			`from test_unstructured.partition.test_constants import EXPECTED_TABLE, EXPECTED_TEXT`
			`from unstructured.cleaners.core import clean_extra_whitespace`
			`from unstructured.documents.elements import Table`
			`from unstructured.partition.tsv import partition_tsv`

			`EXPECTED_FILETYPE = "text/tsv"`


			`def test_partition_tsv_from_filename(filename="example-docs/stanley-cups.tsv"):`
			`elements = partition_tsv(filename=filename)`

			`assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT`
			`assert elements[0].metadata.text_as_html == EXPECTED_TABLE`
			`assert elements[0].metadata.filetype == EXPECTED_FILETYPE`
feat: add metadata_filename parameter across all partition functions (#811) * fix conflicts * add tests and clean metadata_filename in partitions * fix test_email and remove comments * make tidy/check * update changelog and version * fix tests * make tidy again 2023-07-05 15:02:22 -05:00			`for element in elements:`
			`assert element.metadata.filename == "stanley-cups.tsv"`


			`def test_partition_tsv_from_filename_with_metadata_filename(`
			`filename="example-docs/stanley-cups.tsv",`
			`):`
			`elements = partition_tsv(filename=filename, metadata_filename="test")`

			`assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT`
			`for element in elements:`
			`assert element.metadata.filename == "test"`
feat: partition_tsv for tab separated value files (#758) * first pass at partition_tsv * working tests * create constants for tests and debug `make test` failure * make check and tidy * undo changes for testing locally * update changelog and version * fix bricks.rst * refactor if statements * make tidy * fix README and change try/except to if/else * update changelog and version * fix\ docstring 2023-06-15 13:50:53 -05:00

			`def test_partition_tsv_from_file(filename="example-docs/stanley-cups.tsv"):`
			`with open(filename, "rb") as f:`
			`elements = partition_tsv(file=f)`

			`assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT`
			`assert isinstance(elements[0], Table)`
			`assert elements[0].metadata.text_as_html == EXPECTED_TABLE`
			`assert elements[0].metadata.filetype == EXPECTED_FILETYPE`
feat: add metadata_filename parameter across all partition functions (#811) * fix conflicts * add tests and clean metadata_filename in partitions * fix test_email and remove comments * make tidy/check * update changelog and version * fix tests * make tidy again 2023-07-05 15:02:22 -05:00			`for element in elements:`
			`assert element.metadata.filename is None`


			`def test_partition_tsv_from_file_with_metadata_filename(filename="example-docs/stanley-cups.tsv"):`
			`with open(filename, "rb") as f:`
			`elements = partition_tsv(file=f, metadata_filename="test")`

			`assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT`
			`for element in elements:`
			`assert element.metadata.filename == "test"`
feat: partition_tsv for tab separated value files (#758) * first pass at partition_tsv * working tests * create constants for tests and debug `make test` failure * make check and tidy * undo changes for testing locally * update changelog and version * fix bricks.rst * refactor if statements * make tidy * fix README and change try/except to if/else * update changelog and version * fix\ docstring 2023-06-15 13:50:53 -05:00

feat: add include_metadata across all partition functions (#853) * add include_metadata kwarg and tests to parsers add exclude_metadata to docx add test for doc to exclude metadata add include_metadata kwarg to email add include_metadata kwarg to epub add include_metadata kwarg to json add exclude_metadata tests to md add include_metadata kwarg and tests for msg parse add include_metadata kwarg and tests for odt parse add include_metadata kwarg and tests for org parse add include_metadata kwarg and tests for ppt and pptx parse add include_metadata kwarg and tests for rst parse add include_metadata kwarg and tests for rtf parse add include_metadata tests for text parse add include_metadata tests for tsv parse add include_metadata tests for xlsx parse add include_metadata tests for xml parse * WIP add include_metadata to partition_pdf * add include_metadata tests to partition_pdf * make tidy/check * update changelog and version * change test asserts and move docstring logic to process_metadata * make tidy * fix tests asserts * linting, linting, linting * sync versions * skip api call test not on main --------- Co-authored-by: Matt Robinson <mrobinson@unstructured.io> Co-authored-by: Matt Robinson <mrobinson@unstructuredai.io> 2023-06-30 09:44:46 -05:00			`def test_partition_tsv_filename_exclude_metadata(filename="example-docs/stanley-cups.tsv"):`
feat: partition_tsv for tab separated value files (#758) * first pass at partition_tsv * working tests * create constants for tests and debug `make test` failure * make check and tidy * undo changes for testing locally * update changelog and version * fix bricks.rst * refactor if statements * make tidy * fix README and change try/except to if/else * update changelog and version * fix\ docstring 2023-06-15 13:50:53 -05:00			`elements = partition_tsv(filename=filename, include_metadata=False)`

			`assert clean_extra_whitespace(elements[0].text) == EXPECTED_TEXT`
			`assert isinstance(elements[0], Table)`
			`assert elements[0].metadata.text_as_html is None`
			`assert elements[0].metadata.filetype is None`
feat: add metadata_filename parameter across all partition functions (#811) * fix conflicts * add tests and clean metadata_filename in partitions * fix test_email and remove comments * make tidy/check * update changelog and version * fix tests * make tidy again 2023-07-05 15:02:22 -05:00			`for element in elements:`
			`assert element.metadata.filename is None`
feat: add include_metadata across all partition functions (#853) * add include_metadata kwarg and tests to parsers add exclude_metadata to docx add test for doc to exclude metadata add include_metadata kwarg to email add include_metadata kwarg to epub add include_metadata kwarg to json add exclude_metadata tests to md add include_metadata kwarg and tests for msg parse add include_metadata kwarg and tests for odt parse add include_metadata kwarg and tests for org parse add include_metadata kwarg and tests for ppt and pptx parse add include_metadata kwarg and tests for rst parse add include_metadata kwarg and tests for rtf parse add include_metadata tests for text parse add include_metadata tests for tsv parse add include_metadata tests for xlsx parse add include_metadata tests for xml parse * WIP add include_metadata to partition_pdf * add include_metadata tests to partition_pdf * make tidy/check * update changelog and version * change test asserts and move docstring logic to process_metadata * make tidy * fix tests asserts * linting, linting, linting * sync versions * skip api call test not on main --------- Co-authored-by: Matt Robinson <mrobinson@unstructured.io> Co-authored-by: Matt Robinson <mrobinson@unstructuredai.io> 2023-06-30 09:44:46 -05:00

			`def test_partition_tsv_from_file_exclude_metadata(filename="example-docs/stanley-cups.tsv"):`
			`with open(filename, "rb") as f:`
			`elements = partition_tsv(file=f, include_metadata=False)`

			`for i in range(len(elements)):`
			`assert elements[i].metadata.to_dict() == {}`