Add CI/CD with GitHub Actions and migrate to Deployment

- Migrate from DaemonSet to Deployment for better efficiency - Add GitHub Actions for automatic build and deploy - Add Blue-Green deployment strategy with health checks - Add scripts for development and production workflows - Update documentation with CI/CD flow
2025-09-25 17:20:38 -03:00
parent 4e57a896fe
commit 3a6875a80e
12 changed files with 1344 additions and 13 deletions
--- a/app/services/historical_analysis.py
+++ b/app/services/historical_analysis.py
@@ -0,0 +1,445 @@
+"""
+Serviço de análise histórica usando métricas do Prometheus
+"""
+import logging
+import asyncio
+from typing import List, Dict, Any, Optional, Tuple
+from datetime import datetime, timedelta
+import aiohttp
+import json
+
+from app.models.resource_models import PodResource, ResourceValidation
+from app.core.config import settings
+
+logger = logging.getLogger(__name__)
+
+class HistoricalAnalysisService:
+    """Serviço para análise histórica de recursos usando Prometheus"""
+    
+    def __init__(self):
+        self.prometheus_url = settings.prometheus_url
+        self.time_ranges = {
+            '1h': 3600,      # 1 hora
+            '6h': 21600,     # 6 horas
+            '24h': 86400,    # 24 horas
+            '7d': 604800,    # 7 dias
+            '30d': 2592000   # 30 dias
+        }
+    
+    async def analyze_pod_historical_usage(
+        self, 
+        pod: PodResource, 
+        time_range: str = '24h'
+    ) -> List[ResourceValidation]:
+        """Analisar uso histórico de um pod"""
+        validations = []
+        
+        if time_range not in self.time_ranges:
+            time_range = '24h'
+        
+        end_time = datetime.now()
+        start_time = end_time - timedelta(seconds=self.time_ranges[time_range])
+        
+        try:
+            # Analisar CPU
+            cpu_analysis = await self._analyze_cpu_usage(
+                pod, start_time, end_time, time_range
+            )
+            validations.extend(cpu_analysis)
+            
+            # Analisar memória
+            memory_analysis = await self._analyze_memory_usage(
+                pod, start_time, end_time, time_range
+            )
+            validations.extend(memory_analysis)
+            
+        except Exception as e:
+            logger.error(f"Erro na análise histórica do pod {pod.name}: {e}")
+            validations.append(ResourceValidation(
+                pod_name=pod.name,
+                namespace=pod.namespace,
+                container_name="all",
+                validation_type="historical_analysis_error",
+                severity="warning",
+                message=f"Erro na análise histórica: {str(e)}",
+                recommendation="Verificar conectividade com Prometheus"
+            ))
+        
+        return validations
+    
+    async def _analyze_cpu_usage(
+        self, 
+        pod: PodResource, 
+        start_time: datetime, 
+        end_time: datetime,
+        time_range: str
+    ) -> List[ResourceValidation]:
+        """Analisar uso histórico de CPU"""
+        validations = []
+        
+        for container in pod.containers:
+            container_name = container["name"]
+            
+            try:
+                # Query para CPU usage rate
+                cpu_query = f'''
+                rate(container_cpu_usage_seconds_total{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    container="{container_name}",
+                    container!="POD",
+                    container!=""
+                }}[{time_range}])
+                '''
+                
+                # Query para CPU requests
+                cpu_requests_query = f'''
+                kube_pod_container_resource_requests{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    resource="cpu"
+                }}
+                '''
+                
+                # Query para CPU limits
+                cpu_limits_query = f'''
+                kube_pod_container_resource_limits{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    resource="cpu"
+                }}
+                '''
+                
+                # Executar queries
+                cpu_usage = await self._query_prometheus(cpu_query, start_time, end_time)
+                cpu_requests = await self._query_prometheus(cpu_requests_query, start_time, end_time)
+                cpu_limits = await self._query_prometheus(cpu_limits_query, start_time, end_time)
+                
+                if cpu_usage and cpu_requests:
+                    analysis = self._analyze_cpu_metrics(
+                        pod.name, pod.namespace, container_name,
+                        cpu_usage, cpu_requests, cpu_limits, time_range
+                    )
+                    validations.extend(analysis)
+                
+            except Exception as e:
+                logger.warning(f"Erro ao analisar CPU do container {container_name}: {e}")
+        
+        return validations
+    
+    async def _analyze_memory_usage(
+        self, 
+        pod: PodResource, 
+        start_time: datetime, 
+        end_time: datetime,
+        time_range: str
+    ) -> List[ResourceValidation]:
+        """Analisar uso histórico de memória"""
+        validations = []
+        
+        for container in pod.containers:
+            container_name = container["name"]
+            
+            try:
+                # Query para memória usage
+                memory_query = f'''
+                container_memory_working_set_bytes{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    container="{container_name}",
+                    container!="POD",
+                    container!=""
+                }}
+                '''
+                
+                # Query para memória requests
+                memory_requests_query = f'''
+                kube_pod_container_resource_requests{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    resource="memory"
+                }}
+                '''
+                
+                # Query para memória limits
+                memory_limits_query = f'''
+                kube_pod_container_resource_limits{{
+                    pod="{pod.name}",
+                    namespace="{pod.namespace}",
+                    resource="memory"
+                }}
+                '''
+                
+                # Executar queries
+                memory_usage = await self._query_prometheus(memory_query, start_time, end_time)
+                memory_requests = await self._query_prometheus(memory_requests_query, start_time, end_time)
+                memory_limits = await self._query_prometheus(memory_limits_query, start_time, end_time)
+                
+                if memory_usage and memory_requests:
+                    analysis = self._analyze_memory_metrics(
+                        pod.name, pod.namespace, container_name,
+                        memory_usage, memory_requests, memory_limits, time_range
+                    )
+                    validations.extend(analysis)
+                
+            except Exception as e:
+                logger.warning(f"Erro ao analisar memória do container {container_name}: {e}")
+        
+        return validations
+    
+    def _analyze_cpu_metrics(
+        self,
+        pod_name: str,
+        namespace: str,
+        container_name: str,
+        usage_data: List[Dict],
+        requests_data: List[Dict],
+        limits_data: List[Dict],
+        time_range: str
+    ) -> List[ResourceValidation]:
+        """Analisar métricas de CPU"""
+        validations = []
+        
+        if not usage_data or not requests_data:
+            return validations
+        
+        # Calcular estatísticas de uso
+        usage_values = [float(point[1]) for point in usage_data if point[1] != 'NaN']
+        if not usage_values:
+            return validations
+        
+        # Valores atuais de requests/limits
+        current_requests = float(requests_data[0][1]) if requests_data else 0
+        current_limits = float(limits_data[0][1]) if limits_data else 0
+        
+        # Estatísticas de uso
+        avg_usage = sum(usage_values) / len(usage_values)
+        max_usage = max(usage_values)
+        p95_usage = sorted(usage_values)[int(len(usage_values) * 0.95)]
+        p99_usage = sorted(usage_values)[int(len(usage_values) * 0.99)]
+        
+        # Análise de adequação dos requests
+        if current_requests > 0:
+            # Request muito alto (uso médio < 50% do request)
+            if avg_usage < current_requests * 0.5:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"CPU request muito alto: uso médio {avg_usage:.3f} cores vs request {current_requests:.3f} cores",
+                    recommendation=f"Considerar reduzir CPU request para ~{avg_usage * 1.2:.3f} cores (baseado em {time_range} de uso)"
+                ))
+            
+            # Request muito baixo (uso P95 > 80% do request)
+            elif p95_usage > current_requests * 0.8:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"CPU request pode ser insuficiente: P95 {p95_usage:.3f} cores vs request {current_requests:.3f} cores",
+                    recommendation=f"Considerar aumentar CPU request para ~{p95_usage * 1.2:.3f} cores (baseado em {time_range} de uso)"
+                ))
+        
+        # Análise de adequação dos limits
+        if current_limits > 0:
+            # Limit muito alto (uso P99 < 50% do limit)
+            if p99_usage < current_limits * 0.5:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="info",
+                    message=f"CPU limit muito alto: P99 {p99_usage:.3f} cores vs limit {current_limits:.3f} cores",
+                    recommendation=f"Considerar reduzir CPU limit para ~{p99_usage * 1.5:.3f} cores (baseado em {time_range} de uso)"
+                ))
+            
+            # Limit muito baixo (uso máximo > 90% do limit)
+            elif max_usage > current_limits * 0.9:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"CPU limit pode ser insuficiente: uso máximo {max_usage:.3f} cores vs limit {current_limits:.3f} cores",
+                    recommendation=f"Considerar aumentar CPU limit para ~{max_usage * 1.2:.3f} cores (baseado em {time_range} de uso)"
+                ))
+        
+        return validations
+    
+    def _analyze_memory_metrics(
+        self,
+        pod_name: str,
+        namespace: str,
+        container_name: str,
+        usage_data: List[Dict],
+        requests_data: List[Dict],
+        limits_data: List[Dict],
+        time_range: str
+    ) -> List[ResourceValidation]:
+        """Analisar métricas de memória"""
+        validations = []
+        
+        if not usage_data or not requests_data:
+            return validations
+        
+        # Calcular estatísticas de uso
+        usage_values = [float(point[1]) for point in usage_data if point[1] != 'NaN']
+        if not usage_values:
+            return validations
+        
+        # Valores atuais de requests/limits (em bytes)
+        current_requests = float(requests_data[0][1]) if requests_data else 0
+        current_limits = float(limits_data[0][1]) if limits_data else 0
+        
+        # Estatísticas de uso
+        avg_usage = sum(usage_values) / len(usage_values)
+        max_usage = max(usage_values)
+        p95_usage = sorted(usage_values)[int(len(usage_values) * 0.95)]
+        p99_usage = sorted(usage_values)[int(len(usage_values) * 0.99)]
+        
+        # Converter para MiB para melhor legibilidade
+        def bytes_to_mib(bytes_value):
+            return bytes_value / (1024 * 1024)
+        
+        # Análise de adequação dos requests
+        if current_requests > 0:
+            # Request muito alto (uso médio < 50% do request)
+            if avg_usage < current_requests * 0.5:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"Memória request muito alto: uso médio {bytes_to_mib(avg_usage):.1f}Mi vs request {bytes_to_mib(current_requests):.1f}Mi",
+                    recommendation=f"Considerar reduzir memória request para ~{bytes_to_mib(avg_usage * 1.2):.1f}Mi (baseado em {time_range} de uso)"
+                ))
+            
+            # Request muito baixo (uso P95 > 80% do request)
+            elif p95_usage > current_requests * 0.8:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"Memória request pode ser insuficiente: P95 {bytes_to_mib(p95_usage):.1f}Mi vs request {bytes_to_mib(current_requests):.1f}Mi",
+                    recommendation=f"Considerar aumentar memória request para ~{bytes_to_mib(p95_usage * 1.2):.1f}Mi (baseado em {time_range} de uso)"
+                ))
+        
+        # Análise de adequação dos limits
+        if current_limits > 0:
+            # Limit muito alto (uso P99 < 50% do limit)
+            if p99_usage < current_limits * 0.5:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="info",
+                    message=f"Memória limit muito alto: P99 {bytes_to_mib(p99_usage):.1f}Mi vs limit {bytes_to_mib(current_limits):.1f}Mi",
+                    recommendation=f"Considerar reduzir memória limit para ~{bytes_to_mib(p99_usage * 1.5):.1f}Mi (baseado em {time_range} de uso)"
+                ))
+            
+            # Limit muito baixo (uso máximo > 90% do limit)
+            elif max_usage > current_limits * 0.9:
+                validations.append(ResourceValidation(
+                    pod_name=pod_name,
+                    namespace=namespace,
+                    container_name=container_name,
+                    validation_type="historical_analysis",
+                    severity="warning",
+                    message=f"Memória limit pode ser insuficiente: uso máximo {bytes_to_mib(max_usage):.1f}Mi vs limit {bytes_to_mib(current_limits):.1f}Mi",
+                    recommendation=f"Considerar aumentar memória limit para ~{bytes_to_mib(max_usage * 1.2):.1f}Mi (baseado em {time_range} de uso)"
+                ))
+        
+        return validations
+    
+    async def _query_prometheus(self, query: str, start_time: datetime, end_time: datetime) -> List[Dict]:
+        """Executar query no Prometheus"""
+        try:
+            async with aiohttp.ClientSession() as session:
+                params = {
+                    'query': query,
+                    'start': start_time.timestamp(),
+                    'end': end_time.timestamp(),
+                    'step': '60s'  # 1 minuto de resolução
+                }
+                
+                async with session.get(
+                    f"{self.prometheus_url}/api/v1/query_range",
+                    params=params,
+                    timeout=aiohttp.ClientTimeout(total=30)
+                ) as response:
+                    if response.status == 200:
+                        data = await response.json()
+                        if data['status'] == 'success' and data['data']['result']:
+                            return data['data']['result'][0]['values']
+                    else:
+                        logger.warning(f"Prometheus query failed: {response.status}")
+                        return []
+        except Exception as e:
+            logger.error(f"Erro ao consultar Prometheus: {e}")
+            return []
+    
+    async def get_cluster_historical_summary(self, time_range: str = '24h') -> Dict[str, Any]:
+        """Obter resumo histórico do cluster"""
+        try:
+            # Query para CPU total do cluster
+            cpu_query = f'''
+            sum(rate(container_cpu_usage_seconds_total{{
+                container!="POD",
+                container!=""
+            }}[{time_range}]))
+            '''
+            
+            # Query para memória total do cluster
+            memory_query = f'''
+            sum(container_memory_working_set_bytes{{
+                container!="POD",
+                container!=""
+            }})
+            '''
+            
+            # Query para requests totais
+            cpu_requests_query = f'''
+            sum(kube_pod_container_resource_requests{{resource="cpu"}})
+            '''
+            
+            memory_requests_query = f'''
+            sum(kube_pod_container_resource_requests{{resource="memory"}})
+            '''
+            
+            # Executar queries
+            cpu_usage = await self._query_prometheus(cpu_query, 
+                datetime.now() - timedelta(seconds=self.time_ranges[time_range]), 
+                datetime.now())
+            memory_usage = await self._query_prometheus(memory_query, 
+                datetime.now() - timedelta(seconds=self.time_ranges[time_range]), 
+                datetime.now())
+            cpu_requests = await self._query_prometheus(cpu_requests_query, 
+                datetime.now() - timedelta(seconds=self.time_ranges[time_range]), 
+                datetime.now())
+            memory_requests = await self._query_prometheus(memory_requests_query, 
+                datetime.now() - timedelta(seconds=self.time_ranges[time_range]), 
+                datetime.now())
+            
+            return {
+                'time_range': time_range,
+                'cpu_usage': float(cpu_usage[0][1]) if cpu_usage else 0,
+                'memory_usage': float(memory_usage[0][1]) if memory_usage else 0,
+                'cpu_requests': float(cpu_requests[0][1]) if cpu_requests else 0,
+                'memory_requests': float(memory_requests[0][1]) if memory_requests else 0,
+                'cpu_utilization': (float(cpu_usage[0][1]) / float(cpu_requests[0][1]) * 100) if cpu_usage and cpu_requests and cpu_requests[0][1] != '0' else 0,
+                'memory_utilization': (float(memory_usage[0][1]) / float(memory_requests[0][1]) * 100) if memory_usage and memory_requests and memory_requests[0][1] != '0' else 0
+            }
+            
+        except Exception as e:
+            logger.error(f"Erro ao obter resumo histórico: {e}")
+            return {}