trustformers-debug 0.1.1

//! Large Language Model (LLM) Specific Debugging
//!
//! This module provides specialized debugging capabilities for large language models,
//! focusing on safety, alignment, factuality, toxicity detection, and performance
//! characteristics specific to modern LLMs.

use anyhow::Result;
// use scirs2_core::ndarray::*; // SciRS2 Integration Policy - was: use ndarray::{Array, ArrayD, IxDyn};
use serde::{Deserialize, Serialize};
use std::collections::{HashMap, HashSet};
use std::time::{Duration, Instant};

/// Main LLM debugging framework
#[derive(Debug)]
pub struct LLMDebugger {
    config: LLMDebugConfig,
    safety_analyzer: SafetyAnalyzer,
    factuality_checker: FactualityChecker,
    alignment_monitor: AlignmentMonitor,
    hallucination_detector: HallucinationDetector,
    bias_detector: BiasDetector,
    performance_profiler: LLMPerformanceProfiler,
    conversation_analyzer: ConversationAnalyzer,
}

/// Configuration for LLM debugging
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct LLMDebugConfig {
    /// Enable safety analysis (toxicity, harmful content)
    pub enable_safety_analysis: bool,
    /// Enable factuality checking
    pub enable_factuality_checking: bool,
    /// Enable alignment monitoring
    pub enable_alignment_monitoring: bool,
    /// Enable hallucination detection
    pub enable_hallucination_detection: bool,
    /// Enable bias detection
    pub enable_bias_detection: bool,
    /// Enable performance profiling for LLM-specific metrics
    pub enable_llm_performance_profiling: bool,
    /// Enable conversation flow analysis
    pub enable_conversation_analysis: bool,
    /// Threshold for safety score (0.0 to 1.0)
    pub safety_threshold: f32,
    /// Threshold for factuality score (0.0 to 1.0)
    pub factuality_threshold: f32,
    /// Maximum conversation length to analyze
    pub max_conversation_length: usize,
    /// Sampling rate for expensive analyses
    pub analysis_sampling_rate: f32,
}

impl Default for LLMDebugConfig {
    fn default() -> Self {
        Self {
            enable_safety_analysis: true,
            enable_factuality_checking: true,
            enable_alignment_monitoring: true,
            enable_hallucination_detection: true,
            enable_bias_detection: true,
            enable_llm_performance_profiling: true,
            enable_conversation_analysis: true,
            safety_threshold: 0.8,
            factuality_threshold: 0.7,
            max_conversation_length: 100,
            analysis_sampling_rate: 1.0,
        }
    }
}

/// Safety analyzer for detecting harmful, toxic, or inappropriate content
#[derive(Debug)]
#[allow(dead_code)]
pub struct SafetyAnalyzer {
    #[allow(dead_code)]
    toxic_patterns: HashSet<String>,
    harm_categories: Vec<HarmCategory>,
    safety_metrics: SafetyMetrics,
}

/// Categories of potential harm in LLM outputs
#[derive(Debug, Clone, PartialEq, Eq, Hash, Serialize, Deserialize)]
pub enum HarmCategory {
    Toxicity,       // Toxic, offensive, or inappropriate language
    Violence,       // Violence or threats
    SelfHarm,       // Self-harm or suicide-related content
    Harassment,     // Harassment or bullying
    HateSpeech,     // Hate speech or discrimination
    Sexual,         // Sexual or adult content
    Privacy,        // Privacy violations or doxxing
    Misinformation, // Misinformation or conspiracy theories
    Manipulation,   // Social manipulation or deception
    Illegal,        // Illegal activities or advice
}

/// Safety metrics for tracking harmful content
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct SafetyMetrics {
    pub overall_safety_score: f32,
    pub harm_category_scores: HashMap<HarmCategory, f32>,
    pub flagged_responses: usize,
    pub total_responses_analyzed: usize,
    pub average_response_safety: f32,
    pub safety_trend: SafetyTrend,
}

/// Trend in safety scores over time
#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum SafetyTrend {
    Improving,
    Stable,
    Degrading,
    Volatile,
}

/// Factuality checker for verifying the accuracy of LLM outputs
#[derive(Debug)]
pub struct FactualityChecker {
    #[allow(dead_code)]
    fact_databases: Vec<String>,
    uncertainty_indicators: HashSet<String>,
    factuality_metrics: FactualityMetrics,
}

/// Metrics for tracking factual accuracy
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct FactualityMetrics {
    pub overall_factuality_score: f32,
    pub verified_facts: usize,
    pub unverified_claims: usize,
    pub conflicting_information: usize,
    pub uncertainty_expressions: usize,
    pub knowledge_gaps: Vec<String>,
    pub confidence_distribution: Vec<f32>,
}

/// Alignment monitor for ensuring LLM outputs align with intended behavior
#[allow(dead_code)]
#[derive(Debug)]
pub struct AlignmentMonitor {
    #[allow(dead_code)]
    alignment_objectives: Vec<AlignmentObjective>,
    alignment_metrics: AlignmentMetrics,
    value_alignment_score: f32,
}

/// Types of alignment objectives for LLMs
#[derive(Debug, Clone, PartialEq, Eq, Hash, Serialize, Deserialize)]
pub enum AlignmentObjective {
    Helpfulness,    // Be helpful and informative
    Harmlessness,   // Avoid causing harm
    Honesty,        // Be truthful and transparent
    Fairness,       // Treat all users fairly
    Privacy,        // Respect privacy and confidentiality
    Transparency,   // Be clear about limitations
    Consistency,    // Maintain consistent behavior
    Responsibility, // Take appropriate responsibility for outputs
}

/// Metrics for alignment monitoring
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct AlignmentMetrics {
    pub objective_scores: HashMap<AlignmentObjective, f32>,
    pub overall_alignment_score: f32,
    pub alignment_violations: usize,
    pub value_consistency_score: f32,
    pub behavioral_drift: f32,
    pub alignment_trend: AlignmentTrend,
}

/// Trend in alignment scores over time
#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum AlignmentTrend {
    Improving,
    Stable,
    Degrading,
    Inconsistent,
}

#[allow(dead_code)]
/// Hallucination detector for identifying false or fabricated information
#[derive(Debug)]
pub struct HallucinationDetector {
    #[allow(dead_code)]
    confidence_thresholds: HashMap<String, f32>,
    consistency_checker: ConsistencyChecker,
    hallucination_metrics: HallucinationMetrics,
}

/// Metrics for hallucination detection
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct HallucinationMetrics {
    pub hallucination_rate: f32,
    pub confidence_accuracy_correlation: f32,
    pub factual_consistency_score: f32,
    pub internal_consistency_score: f32,
    pub source_attribution_accuracy: f32,
    pub detected_fabrications: usize,
    pub uncertain_responses: usize,
}

/// Consistency checker for internal consistency in responses
#[derive(Debug)]
pub struct ConsistencyChecker {
    previous_responses: Vec<String>,
    #[allow(dead_code)]
    consistency_cache: HashMap<String, f32>,
}
#[allow(dead_code)]

/// Bias detector for identifying various forms of bias in LLM outputs
#[derive(Debug)]
pub struct BiasDetector {
    #[allow(dead_code)]
    bias_categories: Vec<BiasCategory>,
    demographic_groups: Vec<String>,
    bias_metrics: BiasMetrics,
}

/// Types of bias to detect in LLM outputs
#[derive(Debug, Clone, PartialEq, Eq, Hash, Serialize, Deserialize)]
pub enum BiasCategory {
    Gender,        // Gender-based bias
    Race,          // Racial or ethnic bias
    Religion,      // Religious bias
    Age,           // Age-based bias
    SocioEconomic, // Socioeconomic bias
    Geographic,    // Geographic or cultural bias
    Political,     // Political bias
    Linguistic,    // Language or accent bias
    Ability,       // Disability or ability bias
    Appearance,    // Physical appearance bias
}

/// Metrics for bias detection
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct BiasMetrics {
    pub overall_bias_score: f32,
    pub bias_category_scores: HashMap<BiasCategory, f32>,
    pub demographic_fairness: HashMap<String, f32>,
    pub representation_bias: f32,
    pub stereotype_propagation: f32,
    pub bias_amplification: f32,
    pub fairness_violations: usize,
}

/// Performance profiler specific to LLM characteristics
#[derive(Debug)]
pub struct LLMPerformanceProfiler {
    generation_metrics: GenerationMetrics,
    efficiency_metrics: EfficiencyMetrics,
    quality_metrics: QualityMetrics,
    #[allow(dead_code)]
    scalability_metrics: ScalabilityMetrics,
}

/// Metrics for text generation performance
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct GenerationMetrics {
    pub tokens_per_second: f32,
    pub average_response_length: f32,
    pub generation_latency_p50: f32,
    pub generation_latency_p95: f32,
    pub generation_latency_p99: f32,
    pub first_token_latency: f32,
    pub completion_rate: f32,
    pub timeout_rate: f32,
}

/// Metrics for computational efficiency
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct EfficiencyMetrics {
    pub memory_efficiency: f32,
    pub compute_utilization: f32,
    pub energy_consumption: f32,
    pub carbon_footprint_estimate: f32,
    pub cost_per_token: f32,
    pub batch_processing_efficiency: f32,
    pub cache_hit_rate: f32,
}

/// Metrics for output quality
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct QualityMetrics {
    pub coherence_score: f32,
    pub relevance_score: f32,
    pub fluency_score: f32,
    pub informativeness_score: f32,
    pub creativity_score: f32,
    pub factual_accuracy: f32,
    pub readability_score: f32,
    pub engagement_score: f32,
}

/// Metrics for scalability analysis
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct ScalabilityMetrics {
    pub concurrent_user_capacity: usize,
    pub throughput_scaling: f32,
    pub memory_scaling: f32,
    pub latency_degradation: f32,
    pub bottleneck_analysis: Vec<String>,
    pub resource_utilization_efficiency: f32,
}

/// Conversation analyzer for multi-turn dialog analysis
#[derive(Debug)]
pub struct ConversationAnalyzer {
    conversation_history: Vec<ConversationTurn>,
    dialog_metrics: DialogMetrics,
    context_tracking: ContextTracker,
}

/// Single turn in a conversation
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct ConversationTurn {
    pub turn_id: usize,
    pub user_input: String,
    pub model_response: String,
    pub timestamp: chrono::DateTime<chrono::Utc>,
    pub context_length: usize,
    pub response_time: Duration,
}

/// Metrics for dialog analysis
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct DialogMetrics {
    pub conversation_coherence: f32,
    pub context_maintenance: f32,
    pub topic_consistency: f32,
    pub response_appropriateness: f32,
    pub conversation_engagement: f32,
    pub turn_taking_naturalness: f32,
    pub memory_utilization: f32,
    pub dialog_success_rate: f32,
}

/// Context tracking for conversation continuity
#[derive(Debug)]
#[allow(dead_code)]
pub struct ContextTracker {
    #[allow(dead_code)]
    active_topics: HashSet<String>,
    entity_mentions: HashMap<String, usize>,
    context_window: Vec<String>,
    attention_weights: Vec<f32>,
}

impl LLMDebugger {
    /// Create a new LLM debugger
    pub fn new(config: LLMDebugConfig) -> Self {
        Self {
            config: config.clone(),
            safety_analyzer: SafetyAnalyzer::new(&config),
            factuality_checker: FactualityChecker::new(&config),
            alignment_monitor: AlignmentMonitor::new(&config),
            hallucination_detector: HallucinationDetector::new(&config),
            bias_detector: BiasDetector::new(&config),
            performance_profiler: LLMPerformanceProfiler::new(),
            conversation_analyzer: ConversationAnalyzer::new(&config),
        }
    }

    /// Comprehensive LLM analysis of a model response
    pub async fn analyze_response(
        &mut self,
        user_input: &str,
        model_response: &str,
        context: Option<&[String]>,
        generation_metrics: Option<GenerationMetrics>,
    ) -> Result<LLMAnalysisReport> {
        let start_time = Instant::now();

        // Safety analysis
        let safety_analysis = if self.config.enable_safety_analysis {
            Some(self.safety_analyzer.analyze_safety(model_response).await?)
        } else {
            None
        };

        // Factuality checking
        let factuality_analysis = if self.config.enable_factuality_checking {
            Some(self.factuality_checker.check_factuality(model_response, context).await?)
        } else {
            None
        };

        // Alignment monitoring
        let alignment_analysis = if self.config.enable_alignment_monitoring {
            Some(self.alignment_monitor.check_alignment(user_input, model_response).await?)
        } else {
            None
        };

        // Hallucination detection
        let hallucination_analysis = if self.config.enable_hallucination_detection {
            Some(
                self.hallucination_detector
                    .detect_hallucinations(model_response, context)
                    .await?,
            )
        } else {
            None
        };

        // Bias detection
        let bias_analysis = if self.config.enable_bias_detection {
            Some(self.bias_detector.detect_bias(model_response).await?)
        } else {
            None
        };

        // Performance profiling
        let performance_analysis = if self.config.enable_llm_performance_profiling {
            Some(
                self.performance_profiler
                    .profile_response(model_response, generation_metrics)
                    .await?,
            )
        } else {
            None
        };

        // Conversation analysis (if part of a dialog)
        let conversation_analysis = if self.config.enable_conversation_analysis {
            let turn = ConversationTurn {
                turn_id: self.conversation_analyzer.conversation_history.len(),
                user_input: user_input.to_string(),
                model_response: model_response.to_string(),
                timestamp: chrono::Utc::now(),
                context_length: context.map(|c| c.len()).unwrap_or(0),
                response_time: start_time.elapsed(),
            };
            Some(self.conversation_analyzer.analyze_turn(&turn).await?)
        } else {
            None
        };

        let analysis_duration = start_time.elapsed();

        Ok(LLMAnalysisReport {
            input: user_input.to_string(),
            response: model_response.to_string(),
            safety_analysis: safety_analysis.clone(),
            factuality_analysis: factuality_analysis.clone(),
            alignment_analysis: alignment_analysis.clone(),
            hallucination_analysis,
            bias_analysis,
            performance_analysis,
            conversation_analysis,
            overall_score: self.compute_overall_score(
                &safety_analysis,
                &factuality_analysis,
                &alignment_analysis,
            ),
            recommendations: self.generate_recommendations(
                &safety_analysis,
                &factuality_analysis,
                &alignment_analysis,
            ),
            analysis_duration,
            timestamp: chrono::Utc::now(),
        })
    }

    /// Batch analysis of multiple responses
    pub async fn analyze_batch(
        &mut self,
        interactions: &[(String, String)], // (input, response) pairs
    ) -> Result<BatchLLMAnalysisReport> {
        let mut individual_reports = Vec::new();
        let mut batch_metrics = BatchMetrics::default();

        for (input, response) in interactions {
            let report = self.analyze_response(input, response, None, None).await?;
            batch_metrics.update_from_report(&report);
            individual_reports.push(report);
        }

        batch_metrics.finalize(interactions.len());

        Ok(BatchLLMAnalysisReport {
            individual_reports,
            batch_metrics,
            batch_size: interactions.len(),
            analysis_timestamp: chrono::Utc::now(),
        })
    }

    /// Generate comprehensive LLM health report
    pub async fn generate_health_report(&mut self) -> Result<LLMHealthReport> {
        Ok(LLMHealthReport {
            overall_health_score: self.compute_overall_health(),
            safety_health: self.safety_analyzer.get_health_summary(),
            factuality_health: self.factuality_checker.get_health_summary(),
            alignment_health: self.alignment_monitor.get_health_summary(),
            bias_health: self.bias_detector.get_health_summary(),
            performance_health: self.performance_profiler.get_health_summary(),
            conversation_health: self.conversation_analyzer.get_health_summary(),
            critical_issues: self.identify_critical_issues(),
            recommendations: self.generate_health_recommendations(),
            report_timestamp: chrono::Utc::now(),
        })
    }

    /// Compute overall score from analysis components
    fn compute_overall_score(
        &self,
        safety: &Option<SafetyAnalysisResult>,
        factuality: &Option<FactualityAnalysisResult>,
        alignment: &Option<AlignmentAnalysisResult>,
    ) -> f32 {
        let mut total_score = 0.0;
        let mut weight_sum = 0.0;

        if let Some(s) = safety {
            total_score += s.safety_score * 0.3;
            weight_sum += 0.3;
        }

        if let Some(f) = factuality {
            total_score += f.factuality_score * 0.3;
            weight_sum += 0.3;
        }

        if let Some(a) = alignment {
            total_score += a.alignment_score * 0.4;
            weight_sum += 0.4;
        }

        if weight_sum > 0.0 {
            total_score / weight_sum
        } else {
            0.0
        }
    }

    /// Generate actionable recommendations
    fn generate_recommendations(
        &self,
        safety: &Option<SafetyAnalysisResult>,
        factuality: &Option<FactualityAnalysisResult>,
        alignment: &Option<AlignmentAnalysisResult>,
    ) -> Vec<String> {
        let mut recommendations = Vec::new();

        if let Some(s) = safety {
            if s.safety_score < self.config.safety_threshold {
                recommendations
                    .push("Consider additional safety filtering or fine-tuning".to_string());
            }
        }

        if let Some(f) = factuality {
            if f.factuality_score < self.config.factuality_threshold {
                recommendations
                    .push("Verify factual claims and consider knowledge base updates".to_string());
            }
        }

        if let Some(a) = alignment {
            if a.alignment_score < 0.7 {
                recommendations.push(
                    "Review alignment objectives and consider additional RLHF training".to_string(),
                );
            }
        }

        recommendations
    }

    /// Compute overall health score
    fn compute_overall_health(&self) -> f32 {
        // Simplified implementation - would aggregate across all analyzers
        (self.safety_analyzer.safety_metrics.overall_safety_score
            + self.factuality_checker.factuality_metrics.overall_factuality_score
            + self.alignment_monitor.alignment_metrics.overall_alignment_score)
            / 3.0
    }

    /// Identify critical issues requiring immediate attention
    fn identify_critical_issues(&self) -> Vec<CriticalIssue> {
        let mut issues = Vec::new();

        // Check safety issues
        if self.safety_analyzer.safety_metrics.overall_safety_score < 0.5 {
            issues.push(CriticalIssue {
                category: IssueCategory::Safety,
                severity: IssueSeverity::Critical,
                description: "Low overall safety score detected".to_string(),
                recommended_action: "Immediate safety review and filtering required".to_string(),
            });
        }

        // Check alignment issues
        if self.alignment_monitor.alignment_metrics.overall_alignment_score < 0.6 {
            issues.push(CriticalIssue {
                category: IssueCategory::Alignment,
                severity: IssueSeverity::High,
                description: "Alignment drift detected".to_string(),
                recommended_action: "Review training data and consider alignment fine-tuning"
                    .to_string(),
            });
        }

        issues
    }

    /// Generate health improvement recommendations
    fn generate_health_recommendations(&self) -> Vec<String> {
        let mut recommendations = Vec::new();

        // Add safety recommendations
        if self.safety_analyzer.safety_metrics.overall_safety_score < 0.8 {
            recommendations.push("Implement additional safety training data".to_string());
            recommendations.push("Consider constitutional AI techniques".to_string());
        }

        // Add performance recommendations
        if self.performance_profiler.generation_metrics.tokens_per_second < 50.0 {
            recommendations.push("Optimize inference pipeline for better throughput".to_string());
            recommendations.push("Consider model quantization or distillation".to_string());
        }

        recommendations
    }
}

// Analysis result structures
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct LLMAnalysisReport {
    pub input: String,
    pub response: String,
    pub safety_analysis: Option<SafetyAnalysisResult>,
    pub factuality_analysis: Option<FactualityAnalysisResult>,
    pub alignment_analysis: Option<AlignmentAnalysisResult>,
    pub hallucination_analysis: Option<HallucinationAnalysisResult>,
    pub bias_analysis: Option<BiasAnalysisResult>,
    pub performance_analysis: Option<PerformanceAnalysisResult>,
    pub conversation_analysis: Option<ConversationAnalysisResult>,
    pub overall_score: f32,
    pub recommendations: Vec<String>,
    pub analysis_duration: Duration,
    pub timestamp: chrono::DateTime<chrono::Utc>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct BatchLLMAnalysisReport {
    pub individual_reports: Vec<LLMAnalysisReport>,
    pub batch_metrics: BatchMetrics,
    pub batch_size: usize,
    pub analysis_timestamp: chrono::DateTime<chrono::Utc>,
}

#[derive(Debug, Clone, Default, Serialize, Deserialize)]
pub struct BatchMetrics {
    pub average_overall_score: f32,
    pub average_safety_score: f32,
    pub average_factuality_score: f32,
    pub average_alignment_score: f32,
    pub flagged_responses_count: usize,
    pub critical_issues_count: usize,
    pub performance_summary: Option<PerformanceAnalysisResult>,
}

impl BatchMetrics {
    pub fn update_from_report(&mut self, _report: &LLMAnalysisReport) {
        // Implementation would accumulate metrics from individual reports
    }

    pub fn finalize(&mut self, _batch_size: usize) {
        // Implementation would compute final averages
    }
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct LLMHealthReport {
    pub overall_health_score: f32,
    pub safety_health: HealthSummary,
    pub factuality_health: HealthSummary,
    pub alignment_health: HealthSummary,
    pub bias_health: HealthSummary,
    pub performance_health: HealthSummary,
    pub conversation_health: HealthSummary,
    pub critical_issues: Vec<CriticalIssue>,
    pub recommendations: Vec<String>,
    pub report_timestamp: chrono::DateTime<chrono::Utc>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct HealthSummary {
    pub score: f32,
    pub status: HealthStatus,
    pub trend: String,
    pub key_metrics: HashMap<String, f32>,
    pub issues: Vec<String>,
}

#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum HealthStatus {
    Excellent,
    Good,
    Fair,
    Poor,
    Critical,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct CriticalIssue {
    pub category: IssueCategory,
    pub severity: IssueSeverity,
    pub description: String,
    pub recommended_action: String,
}

#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum IssueCategory {
    Safety,
    Factuality,
    Alignment,
    Bias,
    Performance,
    Conversation,
}

#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum IssueSeverity {
    Low,
    Medium,
    High,
    Critical,
}

// Individual analysis result types
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct SafetyAnalysisResult {
    pub safety_score: f32,
    pub detected_harms: Vec<HarmCategory>,
    pub risk_level: RiskLevel,
    pub flagged_content: Vec<String>,
    pub confidence: f32,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct FactualityAnalysisResult {
    pub factuality_score: f32,
    pub verified_claims: usize,
    pub unverified_claims: usize,
    pub confidence_scores: Vec<f32>,
    pub knowledge_gaps: Vec<String>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct AlignmentAnalysisResult {
    pub alignment_score: f32,
    pub objective_scores: HashMap<AlignmentObjective, f32>,
    pub violations: Vec<String>,
    pub consistency_score: f32,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct HallucinationAnalysisResult {
    pub hallucination_probability: f32,
    pub confidence_accuracy: f32,
    pub internal_consistency: f32,
    pub detected_fabrications: Vec<String>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct BiasAnalysisResult {
    pub overall_bias_score: f32,
    pub bias_categories: HashMap<BiasCategory, f32>,
    pub detected_biases: Vec<String>,
    pub fairness_violations: Vec<String>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct PerformanceAnalysisResult {
    pub generation_metrics: GenerationMetrics,
    pub efficiency_metrics: EfficiencyMetrics,
    pub quality_metrics: QualityMetrics,
    pub bottlenecks: Vec<String>,
}

#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct ConversationAnalysisResult {
    pub dialog_metrics: DialogMetrics,
    pub context_consistency: f32,
    pub turn_quality: f32,
    pub engagement_score: f32,
}

#[derive(Debug, Clone, PartialEq, Eq, Serialize, Deserialize)]
pub enum RiskLevel {
    Low,
    Medium,
    High,
    Critical,
}

// Implementation stubs for analyzer components
impl SafetyAnalyzer {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            toxic_patterns: HashSet::new(),
            harm_categories: vec![
                HarmCategory::Toxicity,
                HarmCategory::Violence,
                HarmCategory::SelfHarm,
                HarmCategory::Harassment,
                HarmCategory::HateSpeech,
            ],
            safety_metrics: SafetyMetrics {
                overall_safety_score: 1.0,
                harm_category_scores: HashMap::new(),
                flagged_responses: 0,
                total_responses_analyzed: 0,
                average_response_safety: 1.0,
                safety_trend: SafetyTrend::Stable,
            },
        }
    }

    pub async fn analyze_safety(&mut self, response: &str) -> Result<SafetyAnalysisResult> {
        // Simplified implementation - would use actual safety models
        let safety_score = self.compute_safety_score(response);
        let detected_harms = self.detect_harmful_content(response);
        let risk_level = self.assess_risk_level(safety_score);

        self.safety_metrics.total_responses_analyzed += 1;
        if safety_score < 0.8 {
            self.safety_metrics.flagged_responses += 1;
        }

        Ok(SafetyAnalysisResult {
            safety_score,
            detected_harms,
            risk_level,
            flagged_content: vec![], // Would be populated with actual flagged content
            confidence: 0.85,
        })
    }

    fn compute_safety_score(&self, response: &str) -> f32 {
        // Simplified scoring - real implementation would use trained safety models
        let harmful_keywords = ["violence", "harm", "toxic", "hate"];
        let found_harmful = harmful_keywords
            .iter()
            .any(|&keyword| response.to_lowercase().contains(keyword));

        if found_harmful {
            0.3
        } else {
            0.95
        }
    }

    fn detect_harmful_content(&self, response: &str) -> Vec<HarmCategory> {
        // Simplified detection - real implementation would use specialized classifiers
        let mut detected = Vec::new();

        if response.to_lowercase().contains("violence") {
            detected.push(HarmCategory::Violence);
        }
        if response.to_lowercase().contains("toxic") {
            detected.push(HarmCategory::Toxicity);
        }

        detected
    }

    fn assess_risk_level(&self, safety_score: f32) -> RiskLevel {
        if safety_score >= 0.9 {
            RiskLevel::Low
        } else if safety_score >= 0.7 {
            RiskLevel::Medium
        } else if safety_score >= 0.5 {
            RiskLevel::High
        } else {
            RiskLevel::Critical
        }
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: self.safety_metrics.overall_safety_score,
            status: if self.safety_metrics.overall_safety_score >= 0.9 {
                HealthStatus::Excellent
            } else if self.safety_metrics.overall_safety_score >= 0.7 {
                HealthStatus::Good
            } else {
                HealthStatus::Poor
            },
            trend: format!("{:?}", self.safety_metrics.safety_trend),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl FactualityChecker {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            fact_databases: vec!["wikipedia".to_string(), "wikidata".to_string()],
            uncertainty_indicators: ["might", "possibly", "unclear", "uncertain"]
                .iter()
                .map(|s| s.to_string())
                .collect(),
            factuality_metrics: FactualityMetrics {
                overall_factuality_score: 0.8,
                verified_facts: 0,
                unverified_claims: 0,
                conflicting_information: 0,
                uncertainty_expressions: 0,
                knowledge_gaps: vec![],
                confidence_distribution: vec![],
            },
        }
    }

    pub async fn check_factuality(
        &mut self,
        response: &str,
        _context: Option<&[String]>,
    ) -> Result<FactualityAnalysisResult> {
        // Simplified implementation - would use actual fact-checking models
        let factuality_score = self.compute_factuality_score(response);
        let verified_claims = self.count_verified_claims(response);
        let unverified_claims = self.count_unverified_claims(response);

        Ok(FactualityAnalysisResult {
            factuality_score,
            verified_claims,
            unverified_claims,
            confidence_scores: vec![0.8, 0.7, 0.9], // Mock scores
            knowledge_gaps: vec![],                 // Would be populated with actual gaps
        })
    }

    fn compute_factuality_score(&self, response: &str) -> f32 {
        // Simplified scoring - real implementation would verify against knowledge bases
        if response.contains("fact") {
            0.9
        } else {
            0.7
        }
    }

    fn count_verified_claims(&self, response: &str) -> usize {
        // Simplified counting - would extract and verify actual claims
        response.split('.').filter(|s| s.len() > 10).count()
    }

    fn count_unverified_claims(&self, response: &str) -> usize {
        // Simplified counting - would identify unverifiable claims
        self.uncertainty_indicators
            .iter()
            .map(|indicator| response.matches(indicator).count())
            .sum()
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: self.factuality_metrics.overall_factuality_score,
            status: HealthStatus::Good,
            trend: "Stable".to_string(),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl AlignmentMonitor {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            alignment_objectives: vec![
                AlignmentObjective::Helpfulness,
                AlignmentObjective::Harmlessness,
                AlignmentObjective::Honesty,
                AlignmentObjective::Fairness,
            ],
            alignment_metrics: AlignmentMetrics {
                objective_scores: HashMap::new(),
                overall_alignment_score: 0.85,
                alignment_violations: 0,
                value_consistency_score: 0.9,
                behavioral_drift: 0.1,
                alignment_trend: AlignmentTrend::Stable,
            },
            value_alignment_score: 0.85,
        }
    }

    pub async fn check_alignment(
        &mut self,
        input: &str,
        response: &str,
    ) -> Result<AlignmentAnalysisResult> {
        let alignment_score = self.compute_alignment_score(input, response);
        let objective_scores = self.assess_objectives(input, response);

        Ok(AlignmentAnalysisResult {
            alignment_score,
            objective_scores,
            violations: vec![], // Would be populated with actual violations
            consistency_score: 0.9,
        })
    }

    fn compute_alignment_score(&self, _input: &str, _response: &str) -> f32 {
        // Simplified alignment scoring
        0.85
    }

    fn assess_objectives(&self, _input: &str, _response: &str) -> HashMap<AlignmentObjective, f32> {
        let mut scores = HashMap::new();
        scores.insert(AlignmentObjective::Helpfulness, 0.9);
        scores.insert(AlignmentObjective::Harmlessness, 0.95);
        scores.insert(AlignmentObjective::Honesty, 0.8);
        scores.insert(AlignmentObjective::Fairness, 0.85);
        scores
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: self.alignment_metrics.overall_alignment_score,
            status: HealthStatus::Good,
            trend: "Stable".to_string(),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl HallucinationDetector {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            confidence_thresholds: HashMap::new(),
            consistency_checker: ConsistencyChecker {
                previous_responses: Vec::new(),
                consistency_cache: HashMap::new(),
            },
            hallucination_metrics: HallucinationMetrics {
                hallucination_rate: 0.1,
                confidence_accuracy_correlation: 0.7,
                factual_consistency_score: 0.8,
                internal_consistency_score: 0.85,
                source_attribution_accuracy: 0.9,
                detected_fabrications: 0,
                uncertain_responses: 0,
            },
        }
    }

    pub async fn detect_hallucinations(
        &mut self,
        response: &str,
        _context: Option<&[String]>,
    ) -> Result<HallucinationAnalysisResult> {
        let hallucination_probability = self.compute_hallucination_probability(response);
        let confidence_accuracy = self.assess_confidence_accuracy(response);
        let internal_consistency = self.consistency_checker.check_consistency(response);

        Ok(HallucinationAnalysisResult {
            hallucination_probability,
            confidence_accuracy,
            internal_consistency,
            detected_fabrications: vec![], // Would be populated with actual fabrications
        })
    }

    fn compute_hallucination_probability(&self, response: &str) -> f32 {
        // Simplified probability computation
        if response.contains("I'm not sure") {
            0.2
        } else {
            0.1
        }
    }

    fn assess_confidence_accuracy(&self, _response: &str) -> f32 {
        // Simplified confidence assessment
        0.7
    }
}

impl ConsistencyChecker {
    pub fn check_consistency(&mut self, response: &str) -> f32 {
        self.previous_responses.push(response.to_string());
        // Simplified consistency checking
        0.85
    }
}

impl BiasDetector {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            bias_categories: vec![
                BiasCategory::Gender,
                BiasCategory::Race,
                BiasCategory::Religion,
                BiasCategory::Age,
            ],
            demographic_groups: vec![
                "male".to_string(),
                "female".to_string(),
                "young".to_string(),
                "elderly".to_string(),
            ],
            bias_metrics: BiasMetrics {
                overall_bias_score: 0.1, // Lower is better for bias
                bias_category_scores: HashMap::new(),
                demographic_fairness: HashMap::new(),
                representation_bias: 0.1,
                stereotype_propagation: 0.05,
                bias_amplification: 0.08,
                fairness_violations: 0,
            },
        }
    }

    pub async fn detect_bias(&mut self, response: &str) -> Result<BiasAnalysisResult> {
        let overall_bias_score = self.compute_overall_bias_score(response);
        let bias_categories = self.analyze_bias_categories(response);

        Ok(BiasAnalysisResult {
            overall_bias_score,
            bias_categories,
            detected_biases: vec![], // Would be populated with actual biases
            fairness_violations: vec![], // Would be populated with violations
        })
    }

    fn compute_overall_bias_score(&self, _response: &str) -> f32 {
        // Simplified bias scoring
        0.1
    }

    fn analyze_bias_categories(&self, _response: &str) -> HashMap<BiasCategory, f32> {
        let mut scores = HashMap::new();
        scores.insert(BiasCategory::Gender, 0.1);
        scores.insert(BiasCategory::Race, 0.05);
        scores.insert(BiasCategory::Religion, 0.08);
        scores
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: 1.0 - self.bias_metrics.overall_bias_score, // Invert since lower bias is better
            status: HealthStatus::Good,
            trend: "Stable".to_string(),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl Default for LLMPerformanceProfiler {
    fn default() -> Self {
        Self::new()
    }
}

impl LLMPerformanceProfiler {
    pub fn new() -> Self {
        Self {
            generation_metrics: GenerationMetrics {
                tokens_per_second: 100.0,
                average_response_length: 150.0,
                generation_latency_p50: 200.0,
                generation_latency_p95: 500.0,
                generation_latency_p99: 1000.0,
                first_token_latency: 50.0,
                completion_rate: 0.98,
                timeout_rate: 0.02,
            },
            efficiency_metrics: EfficiencyMetrics {
                memory_efficiency: 0.85,
                compute_utilization: 0.75,
                energy_consumption: 0.5,        // kWh per 1000 tokens
                carbon_footprint_estimate: 0.1, // kg CO2 per 1000 tokens
                cost_per_token: 0.001,          // USD per token
                batch_processing_efficiency: 0.9,
                cache_hit_rate: 0.7,
            },
            quality_metrics: QualityMetrics {
                coherence_score: 0.9,
                relevance_score: 0.85,
                fluency_score: 0.95,
                informativeness_score: 0.8,
                creativity_score: 0.7,
                factual_accuracy: 0.85,
                readability_score: 0.9,
                engagement_score: 0.8,
            },
            scalability_metrics: ScalabilityMetrics {
                concurrent_user_capacity: 1000,
                throughput_scaling: 0.8,
                memory_scaling: 0.7,
                latency_degradation: 0.1,
                bottleneck_analysis: vec!["Memory bandwidth".to_string()],
                resource_utilization_efficiency: 0.8,
            },
        }
    }

    pub async fn profile_response(
        &mut self,
        _response: &str,
        generation_metrics: Option<GenerationMetrics>,
    ) -> Result<PerformanceAnalysisResult> {
        let gen_metrics = generation_metrics.unwrap_or_else(|| self.generation_metrics.clone());

        Ok(PerformanceAnalysisResult {
            generation_metrics: gen_metrics,
            efficiency_metrics: self.efficiency_metrics.clone(),
            quality_metrics: self.quality_metrics.clone(),
            bottlenecks: vec![], // Would be populated with identified bottlenecks
        })
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: (self.generation_metrics.tokens_per_second / 200.0).min(1.0),
            status: HealthStatus::Good,
            trend: "Stable".to_string(),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl ConversationAnalyzer {
    pub fn new(_config: &LLMDebugConfig) -> Self {
        Self {
            conversation_history: Vec::new(),
            dialog_metrics: DialogMetrics {
                conversation_coherence: 0.9,
                context_maintenance: 0.85,
                topic_consistency: 0.8,
                response_appropriateness: 0.9,
                conversation_engagement: 0.75,
                turn_taking_naturalness: 0.8,
                memory_utilization: 0.7,
                dialog_success_rate: 0.85,
            },
            context_tracking: ContextTracker {
                active_topics: HashSet::new(),
                entity_mentions: HashMap::new(),
                context_window: Vec::new(),
                attention_weights: Vec::new(),
            },
        }
    }

    pub async fn analyze_turn(
        &mut self,
        turn: &ConversationTurn,
    ) -> Result<ConversationAnalysisResult> {
        self.conversation_history.push(turn.clone());
        self.context_tracking.update_from_turn(turn);

        Ok(ConversationAnalysisResult {
            dialog_metrics: self.dialog_metrics.clone(),
            context_consistency: self.compute_context_consistency(),
            turn_quality: self.assess_turn_quality(turn),
            engagement_score: self.compute_engagement_score(),
        })
    }

    fn compute_context_consistency(&self) -> f32 {
        // Simplified context consistency computation
        0.85
    }

    fn assess_turn_quality(&self, _turn: &ConversationTurn) -> f32 {
        // Simplified turn quality assessment
        0.9
    }

    fn compute_engagement_score(&self) -> f32 {
        // Simplified engagement scoring
        0.8
    }

    pub fn get_health_summary(&self) -> HealthSummary {
        HealthSummary {
            score: self.dialog_metrics.conversation_coherence,
            status: HealthStatus::Good,
            trend: "Stable".to_string(),
            key_metrics: HashMap::new(),
            issues: vec![],
        }
    }
}

impl ContextTracker {
    pub fn update_from_turn(&mut self, turn: &ConversationTurn) {
        // Update context tracking based on the turn
        self.context_window.push(turn.model_response.clone());
        if self.context_window.len() > 10 {
            self.context_window.remove(0);
        }
    }
}

/// Convenience macros for LLM debugging
#[macro_export]
macro_rules! debug_llm_response {
    ($debugger:expr, $input:expr, $response:expr) => {
        $debugger.analyze_response($input, $response, None, None).await
    };
}

#[macro_export]
macro_rules! debug_llm_batch {
    ($debugger:expr, $interactions:expr) => {
        $debugger.analyze_batch($interactions).await
    };
}

/// Create a new LLM debugger with default configuration
pub fn llm_debugger() -> LLMDebugger {
    LLMDebugger::new(LLMDebugConfig::default())
}

/// Create a new LLM debugger with custom configuration
pub fn llm_debugger_with_config(config: LLMDebugConfig) -> LLMDebugger {
    LLMDebugger::new(config)
}

/// Create a safety-focused LLM debugger configuration
pub fn safety_focused_config() -> LLMDebugConfig {
    LLMDebugConfig {
        enable_safety_analysis: true,
        enable_factuality_checking: true,
        enable_alignment_monitoring: true,
        enable_hallucination_detection: true,
        enable_bias_detection: true,
        enable_llm_performance_profiling: false,
        enable_conversation_analysis: false,
        safety_threshold: 0.9,
        factuality_threshold: 0.8,
        max_conversation_length: 50,
        analysis_sampling_rate: 1.0,
    }
}

/// Create a performance-focused LLM debugger configuration
pub fn performance_focused_config() -> LLMDebugConfig {
    LLMDebugConfig {
        enable_safety_analysis: false,
        enable_factuality_checking: false,
        enable_alignment_monitoring: false,
        enable_hallucination_detection: false,
        enable_bias_detection: false,
        enable_llm_performance_profiling: true,
        enable_conversation_analysis: true,
        safety_threshold: 0.7,
        factuality_threshold: 0.6,
        max_conversation_length: 200,
        analysis_sampling_rate: 0.1,
    }
}

/// Tests for LLM debugging functionality
#[cfg(test)]
mod tests {
    use super::*;

    #[tokio::test]
    async fn test_llm_debugger_creation() {
        let debugger = llm_debugger();
        assert!(debugger.config.enable_safety_analysis);
    }

    #[tokio::test]
    async fn test_safety_analysis() {
        let mut debugger = llm_debugger();
        let result = debugger
            .analyze_response(
                "How are you?",
                "I'm doing well, thank you for asking!",
                None,
                None,
            )
            .await;

        assert!(result.is_ok());
        let report = result.expect("operation failed in test");
        assert!(report.safety_analysis.is_some());
        assert!(report.overall_score > 0.0);
    }

    #[tokio::test]
    async fn test_batch_analysis() {
        let mut debugger = llm_debugger();
        let interactions = vec![
            ("Hello".to_string(), "Hi there!".to_string()),
            ("How are you?".to_string(), "I'm good!".to_string()),
        ];

        let result = debugger.analyze_batch(&interactions).await;
        assert!(result.is_ok());

        let batch_report = result.expect("operation failed in test");
        assert_eq!(batch_report.batch_size, 2);
        assert_eq!(batch_report.individual_reports.len(), 2);
    }

    #[tokio::test]
    async fn test_health_report_generation() {
        let mut debugger = llm_debugger();
        let health_report = debugger.generate_health_report().await;

        assert!(health_report.is_ok());
        let report = health_report.expect("operation failed in test");
        assert!(report.overall_health_score > 0.0);
    }

    #[tokio::test]
    async fn test_safety_focused_config() {
        let config = safety_focused_config();
        assert!(config.enable_safety_analysis);
        assert!(config.enable_bias_detection);
        assert!(!config.enable_llm_performance_profiling);
        assert_eq!(config.safety_threshold, 0.9);
    }

    #[tokio::test]
    async fn test_performance_focused_config() {
        let config = performance_focused_config();
        assert!(!config.enable_safety_analysis);
        assert!(config.enable_llm_performance_profiling);
        assert!(config.enable_conversation_analysis);
        assert_eq!(config.analysis_sampling_rate, 0.1);
    }

    #[test]
    fn test_default_llm_debug_config() {
        let config = LLMDebugConfig::default();
        assert!(config.enable_safety_analysis);
        assert!(config.enable_factuality_checking);
        assert!(config.enable_alignment_monitoring);
        assert!(config.enable_hallucination_detection);
        assert!(config.enable_bias_detection);
        assert!(config.enable_llm_performance_profiling);
        assert!(config.enable_conversation_analysis);
        assert!((config.safety_threshold - 0.8).abs() < 1e-9);
        assert!((config.factuality_threshold - 0.7).abs() < 1e-9);
        assert_eq!(config.max_conversation_length, 100);
        assert!((config.analysis_sampling_rate - 1.0).abs() < 1e-9);
    }

    #[test]
    fn test_llm_performance_profiler_new() {
        let profiler = LLMPerformanceProfiler::new();
        assert!(profiler.generation_metrics.tokens_per_second > 0.0);
        assert!(profiler.efficiency_metrics.memory_efficiency > 0.0);
        assert!(profiler.quality_metrics.coherence_score > 0.0);
        assert!(profiler.scalability_metrics.concurrent_user_capacity > 0);
    }

    #[test]
    fn test_llm_performance_profiler_default() {
        let profiler = LLMPerformanceProfiler::default();
        assert!((profiler.generation_metrics.tokens_per_second - 100.0).abs() < 1e-9);
    }

    #[test]
    fn test_llm_performance_profiler_health_summary() {
        let profiler = LLMPerformanceProfiler::new();
        let summary = profiler.get_health_summary();
        assert!(summary.score > 0.0 && summary.score <= 1.0);
        assert!(matches!(summary.status, HealthStatus::Good));
    }

    #[test]
    fn test_generation_metrics_values() {
        let profiler = LLMPerformanceProfiler::new();
        let gm = &profiler.generation_metrics;
        assert!(gm.average_response_length > 0.0);
        assert!(gm.generation_latency_p50 < gm.generation_latency_p95);
        assert!(gm.generation_latency_p95 < gm.generation_latency_p99);
        assert!(gm.completion_rate > 0.0 && gm.completion_rate <= 1.0);
        assert!(gm.timeout_rate >= 0.0 && gm.timeout_rate < 1.0);
    }

    #[test]
    fn test_efficiency_metrics_values() {
        let profiler = LLMPerformanceProfiler::new();
        let em = &profiler.efficiency_metrics;
        assert!(em.memory_efficiency > 0.0 && em.memory_efficiency <= 1.0);
        assert!(em.compute_utilization > 0.0 && em.compute_utilization <= 1.0);
        assert!(em.cache_hit_rate > 0.0 && em.cache_hit_rate <= 1.0);
        assert!(em.cost_per_token > 0.0);
    }

    #[test]
    fn test_quality_metrics_values() {
        let profiler = LLMPerformanceProfiler::new();
        let qm = &profiler.quality_metrics;
        assert!(qm.coherence_score > 0.0 && qm.coherence_score <= 1.0);
        assert!(qm.relevance_score > 0.0 && qm.relevance_score <= 1.0);
        assert!(qm.fluency_score > 0.0 && qm.fluency_score <= 1.0);
        assert!(qm.factual_accuracy > 0.0 && qm.factual_accuracy <= 1.0);
    }

    #[test]
    fn test_conversation_analyzer_new() {
        let config = LLMDebugConfig::default();
        let analyzer = ConversationAnalyzer::new(&config);
        assert!(analyzer.conversation_history.is_empty());
        assert!(analyzer.dialog_metrics.conversation_coherence > 0.0);
    }

    #[test]
    fn test_conversation_analyzer_health_summary() {
        let config = LLMDebugConfig::default();
        let analyzer = ConversationAnalyzer::new(&config);
        let summary = analyzer.get_health_summary();
        assert!(summary.score > 0.0);
    }

    #[test]
    fn test_context_tracker_update() {
        let mut tracker = ContextTracker {
            active_topics: HashSet::new(),
            entity_mentions: HashMap::new(),
            context_window: Vec::new(),
            attention_weights: Vec::new(),
        };
        let turn = ConversationTurn {
            user_input: "Hello".to_string(),
            model_response: "Hi there!".to_string(),
            timestamp: chrono::Utc::now(),
            turn_id: 0,
            context_length: 10,
            response_time: Duration::from_millis(100),
        };
        tracker.update_from_turn(&turn);
        assert_eq!(tracker.context_window.len(), 1);
        assert_eq!(tracker.context_window[0], "Hi there!");
    }

    #[test]
    fn test_context_tracker_window_limit() {
        let mut tracker = ContextTracker {
            active_topics: HashSet::new(),
            entity_mentions: HashMap::new(),
            context_window: Vec::new(),
            attention_weights: Vec::new(),
        };
        for i in 0..15 {
            let turn = ConversationTurn {
                user_input: format!("q{}", i),
                model_response: format!("a{}", i),
                timestamp: chrono::Utc::now(),
                turn_id: 0,
                context_length: 10,
                response_time: Duration::from_millis(100),
            };
            tracker.update_from_turn(&turn);
        }
        assert_eq!(tracker.context_window.len(), 10);
    }

    #[test]
    fn test_llm_debugger_factory_fn() {
        let debugger = llm_debugger();
        assert!(debugger.config.enable_safety_analysis);
    }

    #[test]
    fn test_llm_debugger_with_config_factory() {
        let config = LLMDebugConfig {
            enable_safety_analysis: false,
            ..LLMDebugConfig::default()
        };
        let debugger = llm_debugger_with_config(config);
        assert!(!debugger.config.enable_safety_analysis);
    }

    #[test]
    fn test_safety_focused_config_values() {
        let config = safety_focused_config();
        assert!(config.enable_hallucination_detection);
        assert!(!config.enable_conversation_analysis);
        assert_eq!(config.max_conversation_length, 50);
    }

    #[test]
    fn test_performance_focused_config_values() {
        let config = performance_focused_config();
        assert!(!config.enable_hallucination_detection);
        assert!(!config.enable_bias_detection);
        assert_eq!(config.max_conversation_length, 200);
    }

    #[test]
    fn test_scalability_metrics() {
        let profiler = LLMPerformanceProfiler::new();
        let sm = &profiler.scalability_metrics;
        assert!(sm.concurrent_user_capacity > 0);
        assert!(sm.throughput_scaling > 0.0 && sm.throughput_scaling <= 1.0);
        assert!(!sm.bottleneck_analysis.is_empty());
    }
}