lineage updates

2025-08-13 11:46:51 +00:00 · 2025-03-18 12:36:36 +00:00 · 2025-03-18 12:36:36 +00:00 · eca67cb5ea
commit eca67cb5ea
parent 7d14004c99
1 changed files with 97 additions and 9 deletions
--- a/metadata-ingestion/src/datahub/ingestion/source/fivetran/fivetran.py
+++ b/metadata-ingestion/src/datahub/ingestion/source/fivetran/fivetran.py
@ -353,6 +353,9 @@ class FivetranSource(StatefulIngestionSourceBase):
        if not source_urn or not dest_urn:
            return
        # Initialize field-level lineage collection
        lineage_field_map: Dict[str, List[str]] = {}
        # If there are explicit column mappings, use them
        if lineage.column_lineage:
            for column_lineage in lineage.column_lineage:
@ -381,13 +384,20 @@ class FivetranSource(StatefulIngestionSourceBase):
                            downstreams=[dest_field_urn],
                        )
                    )
                    # Group source fields by destination field
                    if dest_field_urn not in lineage_field_map:
                        lineage_field_map[dest_field_urn] = []
                    lineage_field_map[dest_field_urn].append(source_field_urn)
                except Exception as e:
                    logger.warning(f"Failed to create column lineage: {e}")
            # If we have field mappings, create dataset-level lineage with field granularity
            if lineage_field_map:
                self._create_field_lineage_mcp(source_urn, dest_urn, lineage_field_map)
        else:
            # If no column mappings are provided, we'll need to attempt to infer column lineage
            # We know that Fivetran generally follows a pattern of preserving column names
            # but may adjust case based on destination platform
            try:
                logger.info(
                    f"No explicit column lineage for {lineage.source_table} -> {lineage.destination_table}. "
@ -405,7 +415,7 @@ class FivetranSource(StatefulIngestionSourceBase):
                    context=f"{lineage.source_table} → {lineage.destination_table}",
                )
-                # Add a placeholder entry to indicate column lineage is inferred rather than explicit
+                # Add a placeholder entry to indicate column lineage is inferred
                fine_grained_lineage.append(
                    FineGrainedLineage(
                        upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
@ -415,12 +425,73 @@ class FivetranSource(StatefulIngestionSourceBase):
                    )
                )
                # Note: In a more comprehensive solution, we would query the actual schema
                # of both tables and create proper column-level lineage
            except Exception as e:
                logger.warning(f"Failed to auto-generate column lineage: {e}")
    def _create_field_lineage_mcp(
        self,
        source_urn: DatasetUrn,
        dest_urn: DatasetUrn,
        lineage_field_map: Dict[str, List[str]],
    ) -> Optional[MetadataWorkUnit]:
        """
        Create field-level lineage between datasets using MetadataChangeProposal.
        Args:
            source_urn: Source dataset URN
            dest_urn: Destination dataset URN
            lineage_field_map: Map of destination field URNs to lists of source field URNs
        """
        try:
            from datahub.emitter.mcp import MetadataChangeProposalWrapper
            from datahub.metadata.com.linkedin.pegasus2avro.dataset import (
                DatasetLineageType,
                FineGrainedLineage,
                FineGrainedLineageDownstreamType,
                FineGrainedLineageUpstreamType,
                Upstream,
                UpstreamLineage,
            )
            # Create the upstream relationship
            upstream = Upstream(
                dataset=str(source_urn), type=DatasetLineageType.TRANSFORMED
            )
            # Create fine-grained lineages for each field mapping
            fine_grained_lineages = []
            for dest_field, source_fields in lineage_field_map.items():
                fine_grained_lineages.append(
                    FineGrainedLineage(
                        upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
                        upstreams=source_fields,
                        downstreamType=FineGrainedLineageDownstreamType.FIELD,
                        downstreams=[dest_field],
                    )
                )
            # Create the lineage aspect
            upstream_lineage = UpstreamLineage(
                upstreams=[upstream], fineGrainedLineages=fine_grained_lineages
            )
            # Create and emit the MCP
            lineage_mcp = MetadataChangeProposalWrapper(
                entityUrn=str(dest_urn),
                aspect=upstream_lineage,
            )
            # Now create a workunit from this MCP
            wu = MetadataWorkUnit(id=f"{dest_urn}-field-lineage", mcp=lineage_mcp)
            # Return the workunit - it will be collected and emitted by the main process
            return wu
        except Exception as e:
            logger.error(f"Error creating field-level lineage MCP: {e}", exc_info=True)
            return None
    def _build_lineage_properties(
        self,
        connector: Connector,
@ -1009,13 +1080,30 @@ class FivetranSource(StatefulIngestionSourceBase):
        for mcp in dataflow.generate_mcp():
            yield mcp.as_workunit()
        # Store field lineage workunits to emit after dataset workunits
        field_lineage_workunits = []
        # Check if we should create one datajob per table or one per connector
        if self.config.datajob_mode == DataJobMode.PER_TABLE:
            # Create one datajob per table
-            yield from self._get_per_table_datajob_workunits(connector, dataflow)
+            for wu in self._get_per_table_datajob_workunits(connector, dataflow):
                # If this is a field lineage workunit, store it for later
                if wu.id.endswith("-field-lineage"):
                    field_lineage_workunits.append(wu)
                else:
                    yield wu
        else:
            # Default: consolidated mode - one datajob per connector
-            yield from self._get_consolidated_datajob_workunits(connector, dataflow)
+            for wu in self._get_consolidated_datajob_workunits(connector, dataflow):
                # If this is a field lineage workunit, store it for later
                if wu.id.endswith("-field-lineage"):
                    field_lineage_workunits.append(wu)
                else:
                    yield wu
        # Now emit the field lineage workunits after all dataset workunits
        for wu in field_lineage_workunits:
            yield wu
    def _report_lineage_truncation(self, connector: Connector) -> None:
        """Report warning about truncated lineage."""