haystack/test/preview/components/retrievers/test_memory_retriever.py

from typing import Dict, Any

import pytest

from haystack.preview import Pipeline
from haystack.preview.testing.factory import document_store_class
from haystack.preview.components.retrievers.memory import MemoryRetriever
from haystack.preview.dataclasses import Document
from haystack.preview.document_stores import MemoryDocumentStore


@pytest.fixture()
def mock_docs():
    return [
        Document.from_dict({"content": "Javascript is a popular programming language"}),
        Document.from_dict({"content": "Java is a popular programming language"}),
        Document.from_dict({"content": "Python is a popular programming language"}),
        Document.from_dict({"content": "Ruby is a popular programming language"}),
        Document.from_dict({"content": "PHP is a popular programming language"}),
    ]


class TestMemoryRetriever:
    @pytest.mark.unit
    def test_init_default(self):
        retriever = MemoryRetriever(MemoryDocumentStore())
        assert retriever.filters is None
        assert retriever.top_k == 10
        assert retriever.scale_score

    @pytest.mark.unit
    def test_init_with_parameters(self):
        retriever = MemoryRetriever(MemoryDocumentStore(), filters={"name": "test.txt"}, top_k=5, scale_score=False)
        assert retriever.filters == {"name": "test.txt"}
        assert retriever.top_k == 5
        assert not retriever.scale_score

    @pytest.mark.unit
    def test_init_with_invalid_top_k_parameter(self):
        with pytest.raises(ValueError, match="top_k must be > 0, but got -2"):
            MemoryRetriever(MemoryDocumentStore(), top_k=-2, scale_score=False)

    @pytest.mark.unit
    def test_valid_run(self, mock_docs):
        top_k = 5
        ds = MemoryDocumentStore()
        ds.write_documents(mock_docs)

        retriever = MemoryRetriever(ds, top_k=top_k)
        result = retriever.run(queries=["PHP", "Java"])

        assert "documents" in result
        assert len(result["documents"]) == 2
        assert len(result["documents"][0]) == top_k
        assert len(result["documents"][1]) == top_k
        assert result["documents"][0][0].content == "PHP is a popular programming language"
        assert result["documents"][1][0].content == "Java is a popular programming language"

    @pytest.mark.unit
    def test_invalid_run_wrong_store_type(self):
        SomeOtherDocumentStore = document_store_class("SomeOtherDocumentStore")
        with pytest.raises(ValueError, match="document_store must be an instance of MemoryDocumentStore"):
            MemoryRetriever(SomeOtherDocumentStore())

    @pytest.mark.integration
    @pytest.mark.parametrize(
        "query, query_result",
        [
            ("Javascript", "Javascript is a popular programming language"),
            ("Java", "Java is a popular programming language"),
        ],
    )
    def test_run_with_pipeline(self, mock_docs, query: str, query_result: str):
        ds = MemoryDocumentStore()
        ds.write_documents(mock_docs)
        retriever = MemoryRetriever(ds)

        pipeline = Pipeline()
        pipeline.add_component("retriever", retriever)
        result: Dict[str, Any] = pipeline.run(data={"retriever": {"queries": [query]}})

        assert result
        assert "retriever" in result
        results_docs = result["retriever"]["documents"]
        assert results_docs
        assert results_docs[0][0].content == query_result

    @pytest.mark.integration
    @pytest.mark.parametrize(
        "query, query_result, top_k",
        [
            ("Javascript", "Javascript is a popular programming language", 1),
            ("Java", "Java is a popular programming language", 2),
            ("Ruby", "Ruby is a popular programming language", 3),
        ],
    )
    def test_run_with_pipeline_and_top_k(self, mock_docs, query: str, query_result: str, top_k: int):
        ds = MemoryDocumentStore()
        ds.write_documents(mock_docs)
        retriever = MemoryRetriever(ds)

        pipeline = Pipeline()
        pipeline.add_component("retriever", retriever)
        result: Dict[str, Any] = pipeline.run(data={"retriever": {"queries": [query], "top_k": top_k}})

        assert result
        assert "retriever" in result
        results_docs = result["retriever"]["documents"]
        assert results_docs
        assert len(results_docs[0]) == top_k
        assert results_docs[0][0].content == query_result
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`from typing import Dict, Any`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`import pytest`

			`from haystack.preview import Pipeline`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`from haystack.preview.testing.factory import document_store_class`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00			`from haystack.preview.components.retrievers.memory import MemoryRetriever`
			`from haystack.preview.dataclasses import Document`
Add @store decorator (#5438) 2023-07-26 09:32:23 +02:00			`from haystack.preview.document_stores import MemoryDocumentStore`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00

			`@pytest.fixture()`
			`def mock_docs():`
			`return [`
			`Document.from_dict({"content": "Javascript is a popular programming language"}),`
			`Document.from_dict({"content": "Java is a popular programming language"}),`
			`Document.from_dict({"content": "Python is a popular programming language"}),`
			`Document.from_dict({"content": "Ruby is a popular programming language"}),`
			`Document.from_dict({"content": "PHP is a popular programming language"}),`
			`]`


Remove BaseTestComponent (#5613) * Remove BaseTestComponent * Add release notes 2023-08-23 17:03:37 +02:00			`class TestMemoryRetriever:`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00			`@pytest.mark.unit`
			`def test_init_default(self):`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`retriever = MemoryRetriever(MemoryDocumentStore())`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`assert retriever.filters is None`
			`assert retriever.top_k == 10`
			`assert retriever.scale_score`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.unit`
			`def test_init_with_parameters(self):`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`retriever = MemoryRetriever(MemoryDocumentStore(), filters={"name": "test.txt"}, top_k=5, scale_score=False)`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`assert retriever.filters == {"name": "test.txt"}`
			`assert retriever.top_k == 5`
			`assert not retriever.scale_score`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.unit`
			`def test_init_with_invalid_top_k_parameter(self):`
			`with pytest.raises(ValueError, match="top_k must be > 0, but got -2"):`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`MemoryRetriever(MemoryDocumentStore(), top_k=-2, scale_score=False)`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.unit`
			`def test_valid_run(self, mock_docs):`
			`top_k = 5`
			`ds = MemoryDocumentStore()`
			`ds.write_documents(mock_docs)`
feat: extend `pipeline.add_component` to support stores (#5261) * add protocol and adapt pipeline * change API in pipeline.add_component * adapt pipeline tests * adapt memoryretriever * additional checks * separate protocol and mixin * review feedback & update tests * pylint * Update haystack/preview/document_stores/protocols.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update haystack/preview/document_stores/memory/document_store.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * docstring of Store * adapt memorydocumentstore * fix tests * remove direct inheritance * pylint * Update haystack/preview/document_stores/mixins.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update test/preview/components/retrievers/test_memory_retriever.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update test/preview/components/retrievers/test_memory_retriever.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update test/preview/components/retrievers/test_memory_retriever.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update test/preview/components/retrievers/test_memory_retriever.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * Update test/preview/components/retrievers/test_memory_retriever.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * test names * revert suggestion * private self._stores * move asserts out * remove protocols * review feedback * review feedback * fix tests * mypy * review feedback * fix tests & other details * naming * mypy * fix tests * typing * partial review feedback * move .store to input dataclass * Revert "move .store to input dataclass" This reverts commit 53f624b99f3414c89d5134711725b31bd94ef77a. * disable reusing components with stores * disable sharing components with docstores * Update mixins.py * black * upgrade canals & fix tests --------- Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> 2023-07-17 15:06:19 +02:00
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`retriever = MemoryRetriever(ds, top_k=top_k)`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`result = retriever.run(queries=["PHP", "Java"])`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`assert "documents" in result`
			`assert len(result["documents"]) == 2`
			`assert len(result["documents"][0]) == top_k`
			`assert len(result["documents"][1]) == top_k`
			`assert result["documents"][0][0].content == "PHP is a popular programming language"`
			`assert result["documents"][1][0].content == "Java is a popular programming language"`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.unit`
			`def test_invalid_run_wrong_store_type(self):`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`SomeOtherDocumentStore = document_store_class("SomeOtherDocumentStore")`
			`with pytest.raises(ValueError, match="document_store must be an instance of MemoryDocumentStore"):`
			`MemoryRetriever(SomeOtherDocumentStore())`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.integration`
			`@pytest.mark.parametrize(`
			`"query, query_result",`
			`[`
			`("Javascript", "Javascript is a popular programming language"),`
			`("Java", "Java is a popular programming language"),`
			`],`
			`)`
			`def test_run_with_pipeline(self, mock_docs, query: str, query_result: str):`
			`ds = MemoryDocumentStore()`
			`ds.write_documents(mock_docs)`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`retriever = MemoryRetriever(ds)`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`pipeline = Pipeline()`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`pipeline.add_component("retriever", retriever)`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`result: Dict[str, Any] = pipeline.run(data={"retriever": {"queries": [query]}})`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`assert result`
			`assert "retriever" in result`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`results_docs = result["retriever"]["documents"]`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00			`assert results_docs`
feat: batch mode for `MemoryRetriever` (v2) (#5287) * memoryretriever batch mode * typing of output 2023-07-07 12:10:35 +02:00			`assert results_docs[0][0].content == query_result`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`@pytest.mark.integration`
			`@pytest.mark.parametrize(`
			`"query, query_result, top_k",`
			`[`
			`("Javascript", "Javascript is a popular programming language", 1),`
			`("Java", "Java is a popular programming language", 2),`
			`("Ruby", "Ruby is a popular programming language", 3),`
			`],`
			`)`
			`def test_run_with_pipeline_and_top_k(self, mock_docs, query: str, query_result: str, top_k: int):`
			`ds = MemoryDocumentStore()`
			`ds.write_documents(mock_docs)`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`retriever = MemoryRetriever(ds)`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`pipeline = Pipeline()`
Rework `MemoryRetriever` (#5582) * Remove DocumentStoreAwareMixin from MemoryRetriever * Add release notes * Update an article --------- Co-authored-by: Daria Fokina <daria.fokina@deepset.ai> 2023-08-18 16:33:35 +02:00			`pipeline.add_component("retriever", retriever)`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`result: Dict[str, Any] = pipeline.run(data={"retriever": {"queries": [query], "top_k": top_k}})`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00
			`assert result`
			`assert "retriever" in result`
Migrate existing v2 components to Canals 0.4.0 (#5532) * pin canals==0.4.0 * update audio components * allow audio components to receive whisper_params in init too * migrating memoryretriever * migrate memoryretriever * migrate TextFileToDocument * fix TextFileToDocument tests * fix pipeline tests * fix defaults management * reno * inverted assignments * Simplify release notes --------- Co-authored-by: Silvano Cerza <silvanocerza@gmail.com> 2023-08-09 15:51:32 +02:00			`results_docs = result["retriever"]["documents"]`
feat: BM25 retrieval for `MemoryDocumentStore` (#5151) 2023-06-27 17:42:23 +02:00			`assert results_docs`
feat: batch mode for `MemoryRetriever` (v2) (#5287) * memoryretriever batch mode * typing of output 2023-07-07 12:10:35 +02:00			`assert len(results_docs[0]) == top_k`
			`assert results_docs[0][0].content == query_result`