Phase 1.2: Complete Historical Analysis Integration - Add insufficient data detection, seasonal patterns, and integrate in main dashboard

2025-09-30 16:48:31 -03:00
parent c2d2b46b11
commit f3b8022224
2 changed files with 157 additions and 3 deletions
--- a/app/api/routes.py
+++ b/app/api/routes.py
@@ -44,12 +44,22 @@ async def get_cluster_status(
        pods = await k8s_client.get_all_pods()
        nodes_info = await k8s_client.get_nodes_info()
        
-        # Validate resources
+        # Validate resources with historical analysis
        all_validations = []
+        historical_service = HistoricalAnalysisService()
+        
        for pod in pods:
+            # Static validations
            pod_validations = validation_service.validate_pod_resources(pod)
            all_validations.extend(pod_validations)
            
+            # Historical analysis (async)
+            try:
+                historical_validations = await validation_service.validate_pod_resources_with_historical_analysis(pod, "24h")
+                all_validations.extend(historical_validations)
+            except Exception as e:
+                logger.warning(f"Error in historical analysis for pod {pod.name}: {e}")
+        
        # Get overcommit information
        overcommit_info = await prometheus_client.get_cluster_overcommit()
        
--- a/app/services/historical_analysis.py
+++ b/app/services/historical_analysis.py
@@ -197,6 +197,76 @@ class HistoricalAnalysisService:
        
        return validations
    
+    def _detect_seasonal_patterns(
+        self,
+        pod_name: str,
+        namespace: str,
+        container_name: str,
+        usage_values: List[float],
+        time_range: str
+    ) -> List[ResourceValidation]:
+        """Detect seasonal patterns and trends in resource usage"""
+        validations = []
+        
+        if len(usage_values) < 20:  # Need at least 20 data points for pattern detection
+            return validations
+        
+        # Calculate trend (simple linear regression)
+        n = len(usage_values)
+        x = list(range(n))
+        y = usage_values
+        
+        # Calculate slope
+        x_mean = sum(x) / n
+        y_mean = sum(y) / n
+        
+        numerator = sum((x[i] - x_mean) * (y[i] - y_mean) for i in range(n))
+        denominator = sum((x[i] - x_mean) ** 2 for i in range(n))
+        
+        if denominator != 0:
+            slope = numerator / denominator
+            
+            # Detect significant trends
+            if slope > 0.1:  # Increasing trend
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="seasonal_pattern",
+                    severity="info",
+                    message=f"Detected increasing resource usage trend over {time_range}",
+                    recommendation="Monitor for continued growth and consider proactive scaling"
+                ))
+            elif slope < -0.1:  # Decreasing trend
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="seasonal_pattern",
+                    severity="info",
+                    message=f"Detected decreasing resource usage trend over {time_range}",
+                    recommendation="Consider reducing resource requests/limits if trend continues"
+                ))
+        
+        # Detect high variability (coefficient of variation > 50%)
+        if y_mean > 0:
+            variance = sum((y[i] - y_mean) ** 2 for i in range(n)) / n
+            std_dev = variance ** 0.5
+            cv = std_dev / y_mean
+            
+            if cv > 0.5:  # High variability
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="seasonal_pattern",
+                    severity="warning",
+                    message=f"High resource usage variability detected (CV: {cv:.2f})",
+                    recommendation="Consider higher safety margins for requests/limits due to unpredictable usage"
+                ))
+        
+        return validations
+    
    def _analyze_cpu_metrics(
        self,
        pod_name: str,
@@ -210,14 +280,45 @@ class HistoricalAnalysisService:
        """Analyze CPU metrics"""
        validations = []
        
-        if not usage_data or not requests_data:
+        # Check for insufficient historical data
+        if not usage_data:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="info",
+                message=f"No CPU usage data available for {time_range}",
+                recommendation="Monitor workload for at least 24h to get reliable resource recommendations"
+            ))
            return validations
        
        # Calculate usage statistics
        usage_values = [float(point[1]) for point in usage_data if point[1] != 'NaN']
        if not usage_values:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="info",
+                message=f"No valid CPU usage data points for {time_range}",
+                recommendation="Check if pod is running and generating metrics"
+            ))
            return validations
        
+        # Check for minimal data points (less than 10 data points)
+        if len(usage_values) < 10:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="warning",
+                message=f"Limited CPU usage data ({len(usage_values)} points) for {time_range}",
+                recommendation="Wait for more data points or extend time range for reliable analysis"
+            ))
+        
        # Current values of requests/limits
        current_requests = self._safe_float(requests_data[0][1]) if requests_data else 0
        current_limits = self._safe_float(limits_data[0][1]) if limits_data else 0
@@ -228,6 +329,12 @@ class HistoricalAnalysisService:
        p95_usage = sorted(usage_values)[int(len(usage_values) * 0.95)]
        p99_usage = sorted(usage_values)[int(len(usage_values) * 0.99)]
        
+        # Detect seasonal patterns
+        seasonal_validations = self._detect_seasonal_patterns(
+            pod_name, namespace, container_name, usage_values, time_range
+        )
+        validations.extend(seasonal_validations)
+        
        # Request adequacy analysis
        if current_requests > 0:
            # Request too high (average usage < 50% of request)
@@ -295,14 +402,45 @@ class HistoricalAnalysisService:
        """Analyze memory metrics"""
        validations = []
        
-        if not usage_data or not requests_data:
+        # Check for insufficient historical data
+        if not usage_data:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="info",
+                message=f"No memory usage data available for {time_range}",
+                recommendation="Monitor workload for at least 24h to get reliable resource recommendations"
+            ))
            return validations
        
        # Calculate usage statistics
        usage_values = [float(point[1]) for point in usage_data if point[1] != 'NaN']
        if not usage_values:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="info",
+                message=f"No valid memory usage data points for {time_range}",
+                recommendation="Check if pod is running and generating metrics"
+            ))
            return validations
        
+        # Check for minimal data points (less than 10 data points)
+        if len(usage_values) < 10:
+            validations.append(ResourceValidation(
+                pod_name=pod_name,
+                namespace=namespace,
+                container_name=container_name,
+                validation_type="insufficient_historical_data",
+                severity="warning",
+                message=f"Limited memory usage data ({len(usage_values)} points) for {time_range}",
+                recommendation="Wait for more data points or extend time range for reliable analysis"
+            ))
+        
        # Current values of requests/limits (in bytes)
        current_requests = self._safe_float(requests_data[0][1]) if requests_data else 0
        current_limits = self._safe_float(limits_data[0][1]) if limits_data else 0
@@ -313,6 +451,12 @@ class HistoricalAnalysisService:
        p95_usage = sorted(usage_values)[int(len(usage_values) * 0.95)]
        p99_usage = sorted(usage_values)[int(len(usage_values) * 0.99)]
        
+        # Detect seasonal patterns
+        seasonal_validations = self._detect_seasonal_patterns(
+            pod_name, namespace, container_name, usage_values, time_range
+        )
+        validations.extend(seasonal_validations)
+        
        # Convert to MiB for better readability
        def bytes_to_mib(bytes_value):
            return bytes_value / (1024 * 1024)