datahub/metadata-ingestion/tests/performance/test_bigquery_usage.py

import logging
import os
import random
from datetime import timedelta
from typing import Iterable, Tuple

import humanfriendly
import psutil

from datahub.ingestion.api.workunit import MetadataWorkUnit
from datahub.ingestion.source.bigquery_v2.bigquery_config import (
    BigQueryUsageConfig,
    BigQueryV2Config,
)
from datahub.ingestion.source.bigquery_v2.bigquery_report import BigQueryV2Report
from datahub.ingestion.source.bigquery_v2.usage import BigQueryUsageExtractor
from datahub.utilities.perf_timer import PerfTimer
from tests.performance.bigquery import generate_events, ref_from_table
from tests.performance.data_generation import (
    NormalDistribution,
    generate_data,
    generate_queries,
)


def run_test():
    report = BigQueryV2Report()
    report.set_ingestion_stage("All", "Seed Data Generation")
    seed_metadata = generate_data(
        num_containers=2000,
        num_tables=20000,
        num_views=2000,
        time_range=timedelta(days=7),
    )
    all_tables = seed_metadata.tables + seed_metadata.views

    config = BigQueryV2Config(
        start_time=seed_metadata.start_time,
        end_time=seed_metadata.end_time,
        usage=BigQueryUsageConfig(
            include_top_n_queries=True,
            top_n_queries=10,
            apply_view_usage_to_tables=True,
        ),
        file_backed_cache_size=1000,
    )
    usage_extractor = BigQueryUsageExtractor(config, report)
    report.set_ingestion_stage("All", "Event Generation")

    num_projects = 100
    projects = [f"project-{i}" for i in range(num_projects)]
    table_to_project = {table.name: random.choice(projects) for table in all_tables}
    table_refs = {str(ref_from_table(table, table_to_project)) for table in all_tables}

    queries = list(
        generate_queries(
            seed_metadata,
            num_selects=240_000,
            num_operations=800_000,
            num_unique_queries=50_000,
            num_users=2000,
            query_length=NormalDistribution(2000, 500),
        )
    )
    queries.sort(key=lambda q: q.timestamp)
    events = list(generate_events(queries, projects, table_to_project, config=config))
    print(f"Events generated: {len(events)}")
    pre_mem_usage = psutil.Process(os.getpid()).memory_info().rss
    print(f"Test data size: {humanfriendly.format_size(pre_mem_usage)}")

    report.set_ingestion_stage("All", "Event Ingestion")
    with PerfTimer() as timer:
        workunits = usage_extractor._run(events, table_refs)
        num_workunits, peak_memory_usage = workunit_sink(workunits)
        report.set_ingestion_stage("All", "Done")
        print(f"Workunits Generated: {num_workunits}")
        print(f"Seconds Elapsed: {timer.elapsed_seconds():.2f} seconds")

    print(
        f"Peak Memory Used: {humanfriendly.format_size(peak_memory_usage - pre_mem_usage)}"
    )
    print(f"Disk Used: {report.usage_state_size}")
    print(f"Hash collisions: {report.num_usage_query_hash_collisions}")


def workunit_sink(workunits: Iterable[MetadataWorkUnit]) -> Tuple[int, int]:
    peak_memory_usage = psutil.Process(os.getpid()).memory_info().rss
    i: int = 0
    for i, wu in enumerate(workunits):
        if i % 10_000 == 0:
            peak_memory_usage = max(
                peak_memory_usage, psutil.Process(os.getpid()).memory_info().rss
            )
    peak_memory_usage = max(
        peak_memory_usage, psutil.Process(os.getpid()).memory_info().rss
    )

    return i, peak_memory_usage


if __name__ == "__main__":
    root_logger = logging.getLogger()
    root_logger.setLevel(logging.INFO)
    root_logger.addHandler(logging.StreamHandler())
    run_test()
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`import logging`
			`import os`
			`import random`
			`from datetime import timedelta`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from typing import Iterable, Tuple`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
			`import humanfriendly`
			`import psutil`

perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from datahub.ingestion.api.workunit import MetadataWorkUnit`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`from datahub.ingestion.source.bigquery_v2.bigquery_config import (`
			`BigQueryUsageConfig,`
			`BigQueryV2Config,`
			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from datahub.ingestion.source.bigquery_v2.bigquery_report import BigQueryV2Report`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`from datahub.ingestion.source.bigquery_v2.usage import BigQueryUsageExtractor`
			`from datahub.utilities.perf_timer import PerfTimer`
			`from tests.performance.bigquery import generate_events, ref_from_table`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from tests.performance.data_generation import (`
			`NormalDistribution,`
			`generate_data,`
			`generate_queries,`
			`)`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00

perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`def run_test():`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`report = BigQueryV2Report()`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Seed Data Generation")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`seed_metadata = generate_data(`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_containers=2000,`
			`num_tables=20000,`
			`num_views=2000,`
			`time_range=timedelta(days=7),`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
			`all_tables = seed_metadata.tables + seed_metadata.views`

			`config = BigQueryV2Config(`
			`start_time=seed_metadata.start_time,`
			`end_time=seed_metadata.end_time,`
feat(ingest/bigquery): usage for views (#8046) Co-authored-by: Tamas Nemeth <treff7es@gmail.com> Co-authored-by: Andrew Sikowitz <andrew.sikowitz@acryl.io> 2023-05-24 22:18:58 +05:30			`usage=BigQueryUsageConfig(`
			`include_top_n_queries=True,`
			`top_n_queries=10,`
			`apply_view_usage_to_tables=True,`
			`),`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`file_backed_cache_size=1000,`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
			`usage_extractor = BigQueryUsageExtractor(config, report)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Event Generation")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_projects = 100`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`projects = [f"project-{i}" for i in range(num_projects)]`
			`table_to_project = {table.name: random.choice(projects) for table in all_tables}`
			`table_refs = {str(ref_from_table(table, table_to_project)) for table in all_tables}`

perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`queries = list(`
			`generate_queries(`
			`seed_metadata,`
			`num_selects=240_000,`
			`num_operations=800_000,`
			`num_unique_queries=50_000,`
			`num_users=2000,`
			`query_length=NormalDistribution(2000, 500),`
			`)`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`queries.sort(key=lambda q: q.timestamp)`
			`events = list(generate_events(queries, projects, table_to_project, config=config))`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`print(f"Events generated: {len(events)}")`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`pre_mem_usage = psutil.Process(os.getpid()).memory_info().rss`
			`print(f"Test data size: {humanfriendly.format_size(pre_mem_usage)}")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Event Ingestion")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`with PerfTimer() as timer:`
fix(ingest/bigquery): Support cross project usage using FileBackedDict (#7663) Includes major refactor of bigquery usage ingestion, minor refactor of the source as a whole, and reporting cleanup. Includes bigquery performance testing changes. 2023-04-07 12:18:26 -07:00			`workunits = usage_extractor._run(events, table_refs)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_workunits, peak_memory_usage = workunit_sink(workunits)`
			`report.set_ingestion_stage("All", "Done")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`print(f"Workunits Generated: {num_workunits}")`
			`print(f"Seconds Elapsed: {timer.elapsed_seconds():.2f} seconds")`

			`print(`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`f"Peak Memory Used: {humanfriendly.format_size(peak_memory_usage - pre_mem_usage)}"`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`print(f"Disk Used: {report.usage_state_size}")`
			`print(f"Hash collisions: {report.num_usage_query_hash_collisions}")`


			`def workunit_sink(workunits: Iterable[MetadataWorkUnit]) -> Tuple[int, int]:`
			`peak_memory_usage = psutil.Process(os.getpid()).memory_info().rss`
			`i: int = 0`
			`for i, wu in enumerate(workunits):`
			`if i % 10_000 == 0:`
			`peak_memory_usage = max(`
			`peak_memory_usage, psutil.Process(os.getpid()).memory_info().rss`
			`)`
			`peak_memory_usage = max(`
			`peak_memory_usage, psutil.Process(os.getpid()).memory_info().rss`
			`)`

			`return i, peak_memory_usage`


			`if __name__ == "__main__":`
			`root_logger = logging.getLogger()`
			`root_logger.setLevel(logging.INFO)`
			`root_logger.addHandler(logging.StreamHandler())`
			`run_test()`