datahub/metadata-ingestion/tests/performance/bigquery/test_bigquery_usage.py

import logging
import os
import random
from datetime import timedelta

import humanfriendly
import psutil

from datahub.ingestion.source.bigquery_v2.bigquery_config import (
    BigQueryUsageConfig,
    BigQueryV2Config,
)
from datahub.ingestion.source.bigquery_v2.bigquery_report import BigQueryV2Report
from datahub.ingestion.source.bigquery_v2.common import BigQueryIdentifierBuilder
from datahub.ingestion.source.bigquery_v2.usage import BigQueryUsageExtractor
from datahub.sql_parsing.schema_resolver import SchemaResolver
from datahub.utilities.perf_timer import PerfTimer
from tests.performance.bigquery.bigquery_events import generate_events, ref_from_table
from tests.performance.data_generation import (
    NormalDistribution,
    generate_data,
    generate_queries,
)
from tests.performance.helpers import workunit_sink


def run_test():
    report = BigQueryV2Report()
    report.set_ingestion_stage("All", "Seed Data Generation")
    seed_metadata = generate_data(
        num_containers=2000,
        num_tables=20000,
        num_views=2000,
        time_range=timedelta(days=7),
    )
    all_tables = seed_metadata.all_tables

    config = BigQueryV2Config(
        start_time=seed_metadata.start_time,
        end_time=seed_metadata.end_time,
        usage=BigQueryUsageConfig(
            include_top_n_queries=True,
            top_n_queries=10,
            apply_view_usage_to_tables=True,
        ),
        file_backed_cache_size=1000,
    )
    usage_extractor = BigQueryUsageExtractor(
        config,
        report,
        schema_resolver=SchemaResolver(platform="bigquery"),
        identifiers=BigQueryIdentifierBuilder(config, report),
    )
    report.set_ingestion_stage("All", "Event Generation")

    num_projects = 100
    projects = [f"project-{i}" for i in range(num_projects)]
    table_to_project = {table.name: random.choice(projects) for table in all_tables}
    table_refs = {str(ref_from_table(table, table_to_project)) for table in all_tables}

    queries = list(
        generate_queries(
            seed_metadata,
            num_selects=240_000,
            num_operations=800_000,
            num_unique_queries=50_000,
            num_users=2000,
            query_length=NormalDistribution(2000, 500),
        )
    )
    queries.sort(key=lambda q: q.timestamp)
    events = list(generate_events(queries, projects, table_to_project, config=config))
    print(f"Events generated: {len(events)}")
    pre_mem_usage = psutil.Process(os.getpid()).memory_info().rss
    print(f"Test data size: {humanfriendly.format_size(pre_mem_usage)}")

    report.set_ingestion_stage("All", "Event Ingestion")
    with PerfTimer() as timer:
        workunits = usage_extractor._get_workunits_internal(events, table_refs)
        num_workunits, peak_memory_usage = workunit_sink(workunits)
        report.set_ingestion_stage("All", "Done")
        print(f"Workunits Generated: {num_workunits}")
        print(f"Seconds Elapsed: {timer.elapsed_seconds():.2f} seconds")

    print(
        f"Peak Memory Used: {humanfriendly.format_size(peak_memory_usage - pre_mem_usage)}"
    )
    print(f"Disk Used: {report.processing_perf.usage_state_size}")
    print(f"Hash collisions: {report.num_usage_query_hash_collisions}")


if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO)
    run_test()
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`import logging`
			`import os`
			`import random`
			`from datetime import timedelta`

			`import humanfriendly`
			`import psutil`

			`from datahub.ingestion.source.bigquery_v2.bigquery_config import (`
			`BigQueryUsageConfig,`
			`BigQueryV2Config,`
			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from datahub.ingestion.source.bigquery_v2.bigquery_report import BigQueryV2Report`
feat(ingest): add bigquery-queries source (#10994) Co-authored-by: Harshal Sheth <hsheth2@gmail.com> 2024-08-26 11:21:00 +05:30			`from datahub.ingestion.source.bigquery_v2.common import BigQueryIdentifierBuilder`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`from datahub.ingestion.source.bigquery_v2.usage import BigQueryUsageExtractor`
feat(ingest): sql parsing aggregator (#9786) 2024-02-09 16:27:45 -05:00			`from datahub.sql_parsing.schema_resolver import SchemaResolver`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`from datahub.utilities.perf_timer import PerfTimer`
test(ingest/unity): Add Unity Catalog memory performance testing (#8932) 2023-10-04 10:23:13 -04:00			`from tests.performance.bigquery.bigquery_events import generate_events, ref_from_table`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`from tests.performance.data_generation import (`
			`NormalDistribution,`
			`generate_data,`
			`generate_queries,`
			`)`
test(ingest/unity): Add Unity Catalog memory performance testing (#8932) 2023-10-04 10:23:13 -04:00			`from tests.performance.helpers import workunit_sink`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00

perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`def run_test():`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`report = BigQueryV2Report()`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Seed Data Generation")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`seed_metadata = generate_data(`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_containers=2000,`
			`num_tables=20000,`
			`num_views=2000,`
			`time_range=timedelta(days=7),`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
test(ingest/unity): Add Unity Catalog memory performance testing (#8932) 2023-10-04 10:23:13 -04:00			`all_tables = seed_metadata.all_tables`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
			`config = BigQueryV2Config(`
			`start_time=seed_metadata.start_time,`
			`end_time=seed_metadata.end_time,`
feat(ingest/bigquery): usage for views (#8046) Co-authored-by: Tamas Nemeth <treff7es@gmail.com> Co-authored-by: Andrew Sikowitz <andrew.sikowitz@acryl.io> 2023-05-24 22:18:58 +05:30			`usage=BigQueryUsageConfig(`
			`include_top_n_queries=True,`
			`top_n_queries=10,`
			`apply_view_usage_to_tables=True,`
			`),`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`file_backed_cache_size=1000,`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
feat(ingest): Create zero usage aspects (#8205) Co-authored-by: Mayuri Nehate <33225191+mayurinehate@users.noreply.github.com> 2023-06-22 17:07:50 -04:00			`usage_extractor = BigQueryUsageExtractor(`
			`config,`
			`report,`
feat(ingestion/bigquery): Use sqlglot_lineage for usage and add more perf timers (#9247) Co-authored-by: Andrew Sikowitz <andrew.sikowitz@acryl.io> 2023-12-28 15:24:26 +05:30			`schema_resolver=SchemaResolver(platform="bigquery"),`
feat(ingest): add bigquery-queries source (#10994) Co-authored-by: Harshal Sheth <hsheth2@gmail.com> 2024-08-26 11:21:00 +05:30			`identifiers=BigQueryIdentifierBuilder(config, report),`
feat(ingest): Create zero usage aspects (#8205) Co-authored-by: Mayuri Nehate <33225191+mayurinehate@users.noreply.github.com> 2023-06-22 17:07:50 -04:00			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Event Generation")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_projects = 100`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`projects = [f"project-{i}" for i in range(num_projects)]`
			`table_to_project = {table.name: random.choice(projects) for table in all_tables}`
			`table_refs = {str(ref_from_table(table, table_to_project)) for table in all_tables}`

perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`queries = list(`
			`generate_queries(`
			`seed_metadata,`
			`num_selects=240_000,`
			`num_operations=800_000,`
			`num_unique_queries=50_000,`
			`num_users=2000,`
			`query_length=NormalDistribution(2000, 500),`
			`)`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`queries.sort(key=lambda q: q.timestamp)`
			`events = list(generate_events(queries, projects, table_to_project, config=config))`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`print(f"Events generated: {len(events)}")`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`pre_mem_usage = psutil.Process(os.getpid()).memory_info().rss`
			`print(f"Test data size: {humanfriendly.format_size(pre_mem_usage)}")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`report.set_ingestion_stage("All", "Event Ingestion")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`with PerfTimer() as timer:`
feat(ingest): Create zero usage aspects (#8205) Co-authored-by: Mayuri Nehate <33225191+mayurinehate@users.noreply.github.com> 2023-06-22 17:07:50 -04:00			`workunits = usage_extractor._get_workunits_internal(events, table_refs)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`num_workunits, peak_memory_usage = workunit_sink(workunits)`
			`report.set_ingestion_stage("All", "Done")`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`print(f"Workunits Generated: {num_workunits}")`
			`print(f"Seconds Elapsed: {timer.elapsed_seconds():.2f} seconds")`

			`print(`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`f"Peak Memory Used: {humanfriendly.format_size(peak_memory_usage - pre_mem_usage)}"`
test(ingest/bigquery): Add performance testing framework for bigquery usage (#7690) - Creates metadata-ingestion/tests/performance directory - Excludes metadata-ingestion/tests from docs generation - Updates bigquery reporting around project state 2023-03-29 17:13:43 -04:00			`)`
feat(ingestion/bigquery): Use sqlglot_lineage for usage and add more perf timers (#9247) Co-authored-by: Andrew Sikowitz <andrew.sikowitz@acryl.io> 2023-12-28 15:24:26 +05:30			`print(f"Disk Used: {report.processing_perf.usage_state_size}")`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`print(f"Hash collisions: {report.num_usage_query_hash_collisions}")`


			`if __name__ == "__main__":`
fix(ingest/snowflake): add more reporting for usage aggregation, handle lineage errors (#10279) Co-authored-by: Harshal Sheth <hsheth2@gmail.com> 2024-05-07 21:12:39 +05:30			`logging.basicConfig(level=logging.INFO)`
perf(ingest/bigquery): Improve bigquery usage disk usage and speed (#7825) 2023-04-14 21:09:43 -04:00			`run_test()`