haystack/test/benchmarks/reader.py

from time import perf_counter
from typing import Dict
from pathlib import Path
import traceback
import datetime
import logging

from haystack import Pipeline
from haystack.nodes import BaseReader
from haystack.utils import aggregate_labels
from utils import load_eval_data, get_reader_config


def benchmark_reader(pipeline: Pipeline, labels_file: Path) -> Dict:
    try:
        labels, queries = load_eval_data(labels_file)
        eval_labels = aggregate_labels(labels)
        eval_queries = []
        eval_docs = []
        for multi_label in eval_labels:
            eval_queries.append(multi_label.query)
            eval_docs.append([multi_label.labels[0].document])

        # Run querying
        start_time = perf_counter()
        # We use run_batch instead of eval_batch because we want to get pure inference time
        predictions = pipeline.run_batch(queries=eval_queries, documents=eval_docs, labels=eval_labels, debug=True)
        end_time = perf_counter()
        querying_time = end_time - start_time

        # Evaluate predictions
        eval_result = pipeline._generate_eval_result_from_batch_preds(predictions_batches=predictions)
        metrics = eval_result.calculate_metrics()["Reader"]

        reader_type, reader_model, reader_top_k = get_reader_config(pipeline)
        results = {
            "querying": {
                "exact_match": metrics["exact_match"],
                "f1": metrics["f1"],
                "n_queries": len(eval_labels),
                "querying_time": querying_time,
                "seconds_per_query": querying_time / len(eval_labels),
                "reader": reader_type,
                "reader_model": reader_model,
                "top_k": reader_top_k,
                "date_time": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
                "error": None,
            }
        }

    except Exception:
        tb = traceback.format_exc()
        logging.error("##### The following Error was raised while running querying run:")
        logging.error(tb)
        reader_type, reader_model, reader_top_k = get_reader_config(pipeline)
        results = {
            "reader": {
                "exact_match": 0.0,
                "f1": 0.0,
                "n_queries": 0,
                "querying_time": 0.0,
                "seconds_per_query": 0.0,
                "reader": reader_type,
                "reader_model": reader_model,
                "date_time": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
                "error": str(tb),
            }
        }

    return results
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`from time import perf_counter`
			`from typing import Dict`
Create time and performance benchmarks for all readers and retrievers (#339) * add time and perf benchmark for es * Add retriever benchmarking * Add Reader benchmarking * add nq to squad conversion * add conversion stats * clean benchmarks * Add link to dataset * Update imports * add first support for neg psgs * Refactor test * set max_seq_len * cleanup benchmark * begin retriever speed benchmarking * Add support for retriever query index benchmarking * improve reader eval, retriever speed benchmarking * improve retriever speed benchmarking * Add retriever accuracy benchmark * Add neg doc shuffling * Add top_n * 3x speedup of SQL. add postgres docker run. make shuffle neg a param. add more logging * Add models to sweep * add option for faiss index type * remove unneeded line * change faiss to faiss_flat * begin automatic benchmark script * remove existing postgres docker for benchmarking * Add data processing scripts * Remove shuffle in script bc data already shuffled * switch hnsw setup from 256 to 128 * change es similarity to dot product by default * Error includes stack trace * Change ES default timeout * remove delete_docs() from timing for indexing * Add support for website export * update website on push to benchmarks * add complete benchmarks results * new json format * removed NaN as is not a valid json token * fix benchmarking for faiss hnsw queries. do sql calls in update_embeddings() as batches * update benchmarks for hnsw 128,20,80 * don't delete full index in delete_all_documents() * update texts for charts * update recall column for retriever * change scale and add units to desc * add units to legend * add axis titles. update desc * add html tags Co-authored-by: deepset <deepset@Crenolape.localdomain> Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-10-12 13:34:42 +02:00			`from pathlib import Path`
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`import traceback`
			`import datetime`
Update Documentation for Haystack 0.5.0 (#557) * Add languages and preprocessing pages * add content * address review comments * make link relative * update api ref with latest docstrings * move doc readme and update * add generator API docs * fix example code * design and link fix Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-11-06 10:53:22 +01:00			`import logging`
Create time and performance benchmarks for all readers and retrievers (#339) * add time and perf benchmark for es * Add retriever benchmarking * Add Reader benchmarking * add nq to squad conversion * add conversion stats * clean benchmarks * Add link to dataset * Update imports * add first support for neg psgs * Refactor test * set max_seq_len * cleanup benchmark * begin retriever speed benchmarking * Add support for retriever query index benchmarking * improve reader eval, retriever speed benchmarking * improve retriever speed benchmarking * Add retriever accuracy benchmark * Add neg doc shuffling * Add top_n * 3x speedup of SQL. add postgres docker run. make shuffle neg a param. add more logging * Add models to sweep * add option for faiss index type * remove unneeded line * change faiss to faiss_flat * begin automatic benchmark script * remove existing postgres docker for benchmarking * Add data processing scripts * Remove shuffle in script bc data already shuffled * switch hnsw setup from 256 to 128 * change es similarity to dot product by default * Error includes stack trace * Change ES default timeout * remove delete_docs() from timing for indexing * Add support for website export * update website on push to benchmarks * add complete benchmarks results * new json format * removed NaN as is not a valid json token * fix benchmarking for faiss hnsw queries. do sql calls in update_embeddings() as batches * update benchmarks for hnsw 128,20,80 * don't delete full index in delete_all_documents() * update texts for charts * update recall column for retriever * change scale and add units to desc * add units to legend * add axis titles. update desc * add html tags Co-authored-by: deepset <deepset@Crenolape.localdomain> Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-10-12 13:34:42 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`from haystack import Pipeline`
			`from haystack.nodes import BaseReader`
			`from haystack.utils import aggregate_labels`
			`from utils import load_eval_data, get_reader_config`
Create time and performance benchmarks for all readers and retrievers (#339) * add time and perf benchmark for es * Add retriever benchmarking * Add Reader benchmarking * add nq to squad conversion * add conversion stats * clean benchmarks * Add link to dataset * Update imports * add first support for neg psgs * Refactor test * set max_seq_len * cleanup benchmark * begin retriever speed benchmarking * Add support for retriever query index benchmarking * improve reader eval, retriever speed benchmarking * improve retriever speed benchmarking * Add retriever accuracy benchmark * Add neg doc shuffling * Add top_n * 3x speedup of SQL. add postgres docker run. make shuffle neg a param. add more logging * Add models to sweep * add option for faiss index type * remove unneeded line * change faiss to faiss_flat * begin automatic benchmark script * remove existing postgres docker for benchmarking * Add data processing scripts * Remove shuffle in script bc data already shuffled * switch hnsw setup from 256 to 128 * change es similarity to dot product by default * Error includes stack trace * Change ES default timeout * remove delete_docs() from timing for indexing * Add support for website export * update website on push to benchmarks * add complete benchmarks results * new json format * removed NaN as is not a valid json token * fix benchmarking for faiss hnsw queries. do sql calls in update_embeddings() as batches * update benchmarks for hnsw 128,20,80 * don't delete full index in delete_all_documents() * update texts for charts * update recall column for retriever * change scale and add units to desc * add units to legend * add axis titles. update desc * add html tags Co-authored-by: deepset <deepset@Crenolape.localdomain> Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-10-12 13:34:42 +02:00
Apply black formatting (#2115) * Testing black on ui/ * Applying black on docstores * Add latest docstring and tutorial changes * Create a single GH action for Black and docs to reduce commit noise to the minimum, slightly refactor the OpenAPI action too * Remove comments * Relax constraints on pydoc-markdown * Split temporary black from the docs. Pydoc-markdown was obsolete and needs a separate PR to upgrade * Fix a couple of bugs * Add a type: ignore that was missing somehow * Give path to black * Apply Black * Apply Black * Relocate a couple of type: ignore * Update documentation * Make Linux CI run after applying Black * Triggering Black * Apply Black * Remove dependency, does not work well * Remove manually double trailing commas * Update documentation Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> 2022-02-03 13:43:18 +01:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`def benchmark_reader(pipeline: Pipeline, labels_file: Path) -> Dict:`
			`try:`
			`labels, queries = load_eval_data(labels_file)`
			`eval_labels = aggregate_labels(labels)`
			`eval_queries = []`
			`eval_docs = []`
			`for multi_label in eval_labels:`
			`eval_queries.append(multi_label.query)`
			`eval_docs.append([multi_label.labels[0].document])`
add automation pipeline 2020-10-15 18:12:17 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`# Run querying`
			`start_time = perf_counter()`
			`# We use run_batch instead of eval_batch because we want to get pure inference time`
			`predictions = pipeline.run_batch(queries=eval_queries, documents=eval_docs, labels=eval_labels, debug=True)`
			`end_time = perf_counter()`
			`querying_time = end_time - start_time`
Merge branch 'master' into automate_benchmarks 2020-10-21 17:48:10 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`# Evaluate predictions`
			`eval_result = pipeline._generate_eval_result_from_batch_preds(predictions_batches=predictions)`
			`metrics = eval_result.calculate_metrics()["Reader"]`
Merge branch 'master' into automate_benchmarks 2020-10-21 17:48:10 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`reader_type, reader_model, reader_top_k = get_reader_config(pipeline)`
			`results = {`
test: Add scripts to send benchmark results to datadog (#5432) * Add config files * log benchmarks to stdout * Add top-k and batch size to configs * Add batch size to configs * fix: don't download files if they already exist * Add batch size to configs * refine script * Remove configs using 1m docs * update run script * update run script * update run script * datadog integration * remove out folder * gitignore benchmarks output * test: send benchmarks to datadog * remove uncommented lines in script * feat: take branch/tag argument for benchmark setup script * fix: run.sh should ignore errors * Remove changes unrelated to datadog * Apply black * Update test/benchmarks/utils.py Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> * PR feedback * Account for reader benchmarks not doing indexing * Change key of reader metrics * Apply PR feedback * Remove whitespace --------- Co-authored-by: rjanjua <rohan.janjua@gmail.com> Co-authored-by: Silvano Cerza <3314350+silvanocerza@users.noreply.github.com> 2023-08-03 10:09:00 +02:00			`"querying": {`
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`"exact_match": metrics["exact_match"],`
			`"f1": metrics["f1"],`
			`"n_queries": len(eval_labels),`
			`"querying_time": querying_time,`
			`"seconds_per_query": querying_time / len(eval_labels),`
			`"reader": reader_type,`
			`"reader_model": reader_model,`
			`"top_k": reader_top_k,`
			`"date_time": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),`
			`"error": None,`
			`}`
			`}`
Create time and performance benchmarks for all readers and retrievers (#339) * add time and perf benchmark for es * Add retriever benchmarking * Add Reader benchmarking * add nq to squad conversion * add conversion stats * clean benchmarks * Add link to dataset * Update imports * add first support for neg psgs * Refactor test * set max_seq_len * cleanup benchmark * begin retriever speed benchmarking * Add support for retriever query index benchmarking * improve reader eval, retriever speed benchmarking * improve retriever speed benchmarking * Add retriever accuracy benchmark * Add neg doc shuffling * Add top_n * 3x speedup of SQL. add postgres docker run. make shuffle neg a param. add more logging * Add models to sweep * add option for faiss index type * remove unneeded line * change faiss to faiss_flat * begin automatic benchmark script * remove existing postgres docker for benchmarking * Add data processing scripts * Remove shuffle in script bc data already shuffled * switch hnsw setup from 256 to 128 * change es similarity to dot product by default * Error includes stack trace * Change ES default timeout * remove delete_docs() from timing for indexing * Add support for website export * update website on push to benchmarks * add complete benchmarks results * new json format * removed NaN as is not a valid json token * fix benchmarking for faiss hnsw queries. do sql calls in update_embeddings() as batches * update benchmarks for hnsw 128,20,80 * don't delete full index in delete_all_documents() * update texts for charts * update recall column for retriever * change scale and add units to desc * add units to legend * add axis titles. update desc * add html tags Co-authored-by: deepset <deepset@Crenolape.localdomain> Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-10-12 13:34:42 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`except Exception:`
			`tb = traceback.format_exc()`
			`logging.error("##### The following Error was raised while running querying run:")`
			`logging.error(tb)`
			`reader_type, reader_model, reader_top_k = get_reader_config(pipeline)`
			`results = {`
			`"reader": {`
			`"exact_match": 0.0,`
			`"f1": 0.0,`
			`"n_queries": 0,`
			`"querying_time": 0.0,`
			`"seconds_per_query": 0.0,`
			`"reader": reader_type,`
			`"reader_model": reader_model,`
			`"date_time": datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),`
			`"error": str(tb),`
			`}`
			`}`
Create time and performance benchmarks for all readers and retrievers (#339) * add time and perf benchmark for es * Add retriever benchmarking * Add Reader benchmarking * add nq to squad conversion * add conversion stats * clean benchmarks * Add link to dataset * Update imports * add first support for neg psgs * Refactor test * set max_seq_len * cleanup benchmark * begin retriever speed benchmarking * Add support for retriever query index benchmarking * improve reader eval, retriever speed benchmarking * improve retriever speed benchmarking * Add retriever accuracy benchmark * Add neg doc shuffling * Add top_n * 3x speedup of SQL. add postgres docker run. make shuffle neg a param. add more logging * Add models to sweep * add option for faiss index type * remove unneeded line * change faiss to faiss_flat * begin automatic benchmark script * remove existing postgres docker for benchmarking * Add data processing scripts * Remove shuffle in script bc data already shuffled * switch hnsw setup from 256 to 128 * change es similarity to dot product by default * Error includes stack trace * Change ES default timeout * remove delete_docs() from timing for indexing * Add support for website export * update website on push to benchmarks * add complete benchmarks results * new json format * removed NaN as is not a valid json token * fix benchmarking for faiss hnsw queries. do sql calls in update_embeddings() as batches * update benchmarks for hnsw 128,20,80 * don't delete full index in delete_all_documents() * update texts for charts * update recall column for retriever * change scale and add units to desc * add units to legend * add axis titles. update desc * add html tags Co-authored-by: deepset <deepset@Crenolape.localdomain> Co-authored-by: Malte Pietsch <malte.pietsch@deepset.ai> Co-authored-by: PiffPaffM <markuspaff.mp@gmail.com> 2020-10-12 13:34:42 +02:00
refactor: Adapt reader benchmarks (#5005) 2023-05-26 11:40:35 +02:00			`return results`