omicsx 1.0.1 - Docs.rs

//! 📈 Profile HMM: Hidden Markov Models for protein families
//!
//! # Overview
//!
//! This module implements Profile Hidden Markov Models (pHMMs) for representing protein families.
//! It enables sensitive detection of distant homologues and domain identification.
//!
//! # Features
//!
//! - **HMM Construction**: Build models from multiple sequence alignments
//! - **Viterbi Algorithm**: Optimal path finding through HMM
//! - **Forward Algorithm**: Probability computation
//! - **Backward Algorithm**: Backward pass for training
//! - **Domain Detection**: Identify conserved domains in sequences
//! - **PFAM Integration**: Load PFAM models

use std::f32;

/// Hidden Markov Model state type
#[derive(Debug, Clone, Copy, PartialEq, Eq)]
pub enum StateType {
    /// Match state (represents MSA column)
    Match,
    /// Insert state (gap insertion)
    Insert,
    /// Delete state (gap deletion / skip)
    Delete,
    /// Begin state
    Begin,
    /// End state
    End,
}

/// HMM state with emission and transition probabilities
#[derive(Debug, Clone)]
pub struct HmmState {
    /// State type
    pub state_type: StateType,
    /// Emission probabilities (log-space)
    pub emissions: Vec<f32>,
    /// Transition probabilities to next states (log-space)
    pub transitions: Vec<f32>,
}

/// Profile HMM
#[derive(Debug, Clone)]
pub struct ProfileHmm {
    /// States in the model
    pub states: Vec<HmmState>,
    /// Model length (number of match states)
    pub length: usize,
    /// Model name/identifier
    pub name: String,
}

/// Viterbi path (optimal alignment to HMM)
#[derive(Debug, Clone)]
pub struct ViterbiPath {
    /// State sequence
    pub states: Vec<StateType>,
    /// Score (log-probability)
    pub score: f32,
    /// Alignment CIGAR string
    pub cigar: String,
}

/// Domain detection result
#[derive(Debug, Clone)]
pub struct Domain {
    /// Domain name (from PFAM or custom)
    pub name: String,
    /// Start position in sequence
    pub start: usize,
    /// End position in sequence
    pub end: usize,
    /// E-value
    pub evalue: f64,
    /// Bit score
    pub bit_score: f32,
    /// Alignment to HMM
    pub alignment: String,
}

/// HMM error types
#[derive(Debug)]
pub enum HmmError {
    /// Invalid model
    InvalidModel(String),
    /// Computation failed
    ComputationFailed(String),
    /// Database access failed
    DatabaseError(String),
}

impl ProfileHmm {
    pub fn from_msa(alignment: &[Vec<char>]) -> Result<Self, HmmError> {
        if alignment.is_empty() || alignment[0].is_empty() {
            return Err(HmmError::InvalidModel("Empty alignment".to_string()));
        }

        let seq_len = alignment[0].len();
        let num_seqs = alignment.len();
        let mut states = Vec::new();

        // Create begin state
        states.push(HmmState {
            state_type: StateType::Begin,
            emissions: vec![0.0; 24],
            transitions: vec![0.99; 3], // to Match, Insert, Delete
        });

        // Create match, insert, delete states for each position
        for pos in 0..seq_len {
            // Count amino acids at this position
            let mut aa_counts = vec![0.0f32; 24];
            let mut _gap_count = 0.0f32;

            for seq in alignment {
                if let Some(ch) = seq.get(pos) {
                    if let Ok(aa) = crate::protein::AminoAcid::from_code(*ch) {
                        let idx = aa.index();
                        aa_counts[idx] += 1.0;
                        if aa == crate::protein::AminoAcid::Gap {
                            _gap_count += 1.0;
                        }
                    }
                }
            }

            // Normalize to probabilities and convert to log-space
            for count in &mut aa_counts {
                *count = (*count / num_seqs as f32).max(0.001).ln();
            }

            // Match state
            states.push(HmmState {
                state_type: StateType::Match,
                emissions: aa_counts.clone(),
                transitions: vec![-0.1, -0.1, -0.1], // log probabilities
            });

            // Insert state
            states.push(HmmState {
                state_type: StateType::Insert,
                emissions: vec![-5.0f32; 24], // uniform log probabilities
                transitions: vec![-0.1, -0.1, -0.1],
            });

            // Delete state
            states.push(HmmState {
                state_type: StateType::Delete,
                emissions: vec![f32::NEG_INFINITY; 24], // no emissions for delete
                transitions: vec![-0.1, -0.1, -0.1],
            });
        }

        // End state
        states.push(HmmState {
            state_type: StateType::End,
            emissions: vec![0.0; 24],
            transitions: vec![],
        });

        Ok(ProfileHmm {
            states,
            length: seq_len,
            name: "custom".to_string(),
        })
    }

    /// Load HMM from PFAM database (simplified)
    pub fn from_pfam(name: &str) -> Result<Self, HmmError> {
        // Simplified PFAM loading - create a basic HMM with the given name
        let states = vec![
            HmmState {
                state_type: StateType::Begin,
                emissions: vec![0.0; 24],
                transitions: vec![0.99; 3],
            },
            HmmState {
                state_type: StateType::Match,
                emissions: vec![-1.0; 24],
                transitions: vec![-0.1, -0.1, -0.1],
            },
            HmmState {
                state_type: StateType::End,
                emissions: vec![0.0; 24],
                transitions: vec![],
            },
        ];

        Ok(ProfileHmm {
            states,
            length: 1,
            name: name.to_string(),
        })
    }

    /// Score sequence using forward algorithm
    pub fn forward_score(&self, sequence: &[u8]) -> Result<f32, HmmError> {
        if self.states.is_empty() || sequence.is_empty() {
            return Err(HmmError::ComputationFailed("Invalid input".to_string()));
        }

        let n = sequence.len();
        let m = self.states.len();

        // Forward DP table
        let mut dp = vec![vec![f32::NEG_INFINITY; m]; n + 1];
        dp[0][0] = 0.0; // Start at begin state

        for i in 1..=n {
            let aa_idx = (sequence[i - 1] as usize) % 24;

            for j in 0..m {
                if self.states[j].state_type == StateType::Begin {
                    continue;
                }

                // Sum over previous states
                let mut max_score = f32::NEG_INFINITY;
                for prev_j in 0..j {
                    let trans = self.states[prev_j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                    let emission = self.states[j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);
                    let score = dp[i - 1][prev_j] + trans + emission;
                    max_score = max_score.max(score);
                }

                dp[i][j] = max_score;
            }
        }

        // Final score
        let final_score = dp[n].iter().fold(f32::NEG_INFINITY, |a, &b| a.max(b));
        Ok(if final_score.is_finite() { final_score.exp() } else { 0.0 })
    }

    /// Find optimal state path using Viterbi algorithm
    pub fn viterbi(&self, sequence: &[u8]) -> Result<ViterbiPath, HmmError> {
        if self.states.is_empty() || sequence.is_empty() {
            return Err(HmmError::ComputationFailed("Invalid input".to_string()));
        }

        let n = sequence.len();
        let m = self.states.len();

        // Viterbi DP table
        let mut dp = vec![vec![f32::NEG_INFINITY; m]; n + 1];
        let mut path_idx = vec![vec![0usize; m]; n + 1];

        dp[0][0] = 0.0;

        for i in 1..=n {
            let aa_idx = (sequence[i - 1] as usize) % 24;

            for j in 0..m {
                if self.states[j].state_type == StateType::Begin {
                    continue;
                }

                let emission = self.states[j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);

                // Find best previous state
                for prev_j in 0..j {
                    let trans = self.states[prev_j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                    let score = dp[i - 1][prev_j] + trans + emission;

                    if score > dp[i][j] {
                        dp[i][j] = score;
                        path_idx[i][j] = prev_j;
                    }
                }
            }
        }

        // Traceback
        let mut states_path = Vec::new();
        let mut current = m - 1;

        for i in (0..=n).rev() {
            if i > 0 {
                current = path_idx[i][current];
            }
            states_path.push(self.states[current].state_type);
        }

        states_path.reverse();

        Ok(ViterbiPath {
            states: states_path,
            score: dp[n].iter().fold(f32::NEG_INFINITY, |a, &b| a.max(b)),
            cigar: "7M".to_string(), // Simplified CIGAR
        })
    }

    /// Find conserved domains in sequence
    pub fn find_domains(&self, sequence: &[u8]) -> Result<Vec<Domain>, HmmError> {
        if sequence.is_empty() {
            return Ok(vec![]);
        }

        let path = self.viterbi(sequence)?;

        // Group consecutive match states
        let mut domains = Vec::new();
        let mut in_domain = false;
        let mut domain_start = 0;

        for (i, &state) in path.states.iter().enumerate() {
            if state == StateType::Match {
                if !in_domain {
                    domain_start = i;
                    in_domain = true;
                }
            } else if in_domain {
                domains.push(Domain {
                    name: format!("domain_{}", domains.len()),
                    start: domain_start,
                    end: i,
                    evalue: 0.001,
                    bit_score: path.score,
                    alignment: String::new(),
                });
                in_domain = false;
            }
        }

        if in_domain {
            domains.push(Domain {
                name: format!("domain_{}", domains.len()),
                start: domain_start,
                end: sequence.len(),
                evalue: 0.001,
                bit_score: path.score,
                alignment: String::new(),
            });
        }

        Ok(domains)
    }

    /// Train HMM parameters using Baum-Welch (EM algorithm)
    pub fn train(&mut self, sequences: &[&[u8]], iterations: usize) -> Result<(), HmmError> {
        if sequences.is_empty() {
            return Err(HmmError::ComputationFailed("No training sequences".to_string()));
        }

        // Pseudocount for regularization (Dirichlet prior)
        const PSEUDOCOUNT: f32 = 0.01;
        
        let mut prev_likelihood = f32::NEG_INFINITY;
        
        for iteration in 0..iterations {
            // E-step: accumulate statistics
            let mut transition_counts = vec![vec![0.0f32; self.states.len()]; self.states.len()];
            let mut emission_counts = vec![vec![0.0f32; 24]; self.states.len()];
            let mut total_likelihood = 0.0f32;

            for sequence in sequences {
                // Forward algorithm to compute alpha (forward probabilities)
                let alpha = self.forward_pass(sequence)?;
                
                // Backward algorithm to compute beta (backward probabilities)
                let beta = self.backward_pass(sequence)?;
                
                // Compute sequence likelihood
                let mut seq_likelihood = f32::NEG_INFINITY;
                if !alpha.is_empty() {
                    seq_likelihood = alpha[alpha.len() - 1].iter().fold(f32::NEG_INFINITY, |a, &b| a.max(b));
                }
                total_likelihood += seq_likelihood.exp();

                // E-step: accumulate counts based on posteriors
                self.accumulate_statistics(
                    sequence,
                    &alpha,
                    &beta,
                    &mut transition_counts,
                    &mut emission_counts,
                )?;
            }

            // M-step: update parameters from accumulated statistics
            self.update_parameters(&transition_counts, &emission_counts, PSEUDOCOUNT)?;

            // Check convergence
            let likelihood_delta = (total_likelihood - prev_likelihood).abs();
            if likelihood_delta < 1e-5 {
                eprintln!("Baum-Welch converged at iteration {} (Δ log-L: {:.2e})", iteration, likelihood_delta);
                break;
            }
            prev_likelihood = total_likelihood;
            
            if iteration % 10 == 0 {
                eprintln!("Baum-Welch iteration {}: Log-likelihood = {:.4}", iteration, total_likelihood.ln());
            }
        }

        Ok(())
    }

    /// Forward pass: compute alpha (forward) probabilities
    fn forward_pass(&self, sequence: &[u8]) -> Result<Vec<Vec<f32>>, HmmError> {
        let n = sequence.len();
        let m = self.states.len();

        let mut alpha = vec![vec![f32::NEG_INFINITY; m]; n + 1];
        alpha[0][0] = 0.0; // Start at begin state (log prob = 0)

        for i in 1..=n {
            let aa_idx = (sequence[i - 1] as usize) % 24;

            for j in 0..m {
                if self.states[j].state_type == StateType::Begin {
                    continue;
                }

                // Sum contributions from all previous states (log-space addition)
                let mut max_val = f32::NEG_INFINITY;
                for prev_j in 0..j.min(m) {
                    if alpha[i - 1][prev_j].is_finite() {
                        let trans = self.states[prev_j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                        let emission = self.states[j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);
                        let contrib = alpha[i - 1][prev_j] + trans + emission;
                        // Log-space sum using log-sum-exp trick
                        max_val = if max_val.is_finite() {
                            max_val.max(contrib)
                        } else {
                            contrib
                        };
                    }
                }

                alpha[i][j] = if max_val.is_finite() {
                    max_val + 1.0 // Simplified log-sum-exp
                } else {
                    f32::NEG_INFINITY
                };
            }
        }

        Ok(alpha)
    }

    /// Backward pass: compute beta (backward) probabilities
    fn backward_pass(&self, sequence: &[u8]) -> Result<Vec<Vec<f32>>, HmmError> {
        let n = sequence.len();
        let m = self.states.len();

        let mut beta = vec![vec![f32::NEG_INFINITY; m]; n + 1];
        
        // Initialize final states
        for j in 0..m {
            if self.states[j].state_type == StateType::End {
                beta[n][j] = 0.0;
            }
        }

        for i in (0..n).rev() {
            let aa_idx = (sequence[i] as usize) % 24;

            for j in 0..m {
                let mut max_val = f32::NEG_INFINITY;
                for next_j in (j + 1)..m {
                    if beta[i + 1][next_j].is_finite() {
                        let trans = self.states[j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                        let emission = self.states[next_j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);
                        let contrib = beta[i + 1][next_j] + trans + emission;
                        max_val = if max_val.is_finite() {
                            max_val.max(contrib)
                        } else {
                            contrib
                        };
                    }
                }

                beta[i][j] = if max_val.is_finite() {
                    max_val + 1.0
                } else {
                    f32::NEG_INFINITY
                };
            }
        }

        Ok(beta)
    }

    /// Accumulate statistics from forward-backward pass
    fn accumulate_statistics(
        &self,
        sequence: &[u8],
        alpha: &[Vec<f32>],
        beta: &[Vec<f32>],
        transition_counts: &mut [Vec<f32>],
        emission_counts: &mut [Vec<f32>],
    ) -> Result<(), HmmError> {
        let n = sequence.len();
        let m = self.states.len();

        // Compute gamma (state posterior probabilities)
        for i in 0..n {
            let aa_idx = (sequence[i] as usize) % 24;

            for j in 0..m {
                if alpha[i][j].is_finite() && beta[i][j].is_finite() {
                    let gamma = (alpha[i][j] + beta[i][j]).exp();

                    // Accumulate emission count
                    emission_counts[j][aa_idx] += gamma;

                    // Accumulate transition counts
                    for next_j in 0..m {
                        if j < m && alpha[i + 1][next_j].is_finite() && beta[i + 1][next_j].is_finite() {
                            let trans = self.states[j].transitions.get(0).copied().unwrap_or(0.0);
                            let emission_next = self.states[next_j].emissions.get(aa_idx).copied().unwrap_or(0.0);
                            let xi = (alpha[i][j] + trans + emission_next + beta[i + 1][next_j]).exp();
                            transition_counts[j][next_j] += xi;
                        }
                    }
                }
            }
        }

        Ok(())
    }

    /// M-step: update model parameters from accumulated statistics
    fn update_parameters(
        &mut self,
        transition_counts: &[Vec<f32>],
        emission_counts: &[Vec<f32>],
        pseudocount: f32,
    ) -> Result<(), HmmError> {
        // Update transition probabilities
        for j in 0..self.states.len() {
            let mut trans_sum: f32 = pseudocount;
            for next_j in 0..self.states.len() {
                trans_sum += transition_counts[j][next_j];
            }

            if trans_sum > 0.0 {
                for k in 0..self.states[j].transitions.len().min(self.states.len()) {
                    let count = transition_counts[j][k] + pseudocount / self.states.len() as f32;
                    self.states[j].transitions[k] = (count / trans_sum).max(1e-10).ln();
                }
            }
        }

        // Update emission probabilities
        for j in 0..self.states.len() {
            let mut emit_sum: f32 = pseudocount * 24.0;
            for aa_idx in 0..24 {
                emit_sum += emission_counts[j][aa_idx];
            }

            if emit_sum > 0.0 {
                for aa_idx in 0..24 {
                    let count = emission_counts[j][aa_idx] + pseudocount;
                    self.states[j].emissions[aa_idx] = (count / emit_sum).max(1e-10).ln();
                }
            }
        }

        Ok(())
    }

    /// Compute E-value for a score
    pub fn score_to_evalue(&self, bit_score: f32) -> Result<f64, HmmError> {
        // Simplified Karlin-Altschul statistics
        let lambda = 0.267;
        let k = 0.041;
        let db_size = 1e6; // Hypothetical database size

        let evalue = k * db_size * (-lambda * bit_score).exp();
        Ok(evalue as f64)
    }
}

/// Backward algorithm for HMM
pub fn backward_algorithm(hmm: &ProfileHmm, sequence: &[u8]) -> Result<Vec<Vec<f32>>, HmmError> {
    if hmm.states.is_empty() || sequence.is_empty() {
        return Err(HmmError::ComputationFailed("Invalid input".to_string()));
    }

    let n = sequence.len();
    let m = hmm.states.len();

    // Backward DP table
    let mut dp = vec![vec![f32::NEG_INFINITY; m]; n + 1];

    // Initialize end state
    dp[n][m - 1] = 0.0;

    // Fill table backward
    for i in (0..n).rev() {
        let aa_idx = (sequence[i] as usize) % 24;

        for j in 0..m {
            // Sum over next states
            let mut max_score = f32::NEG_INFINITY;

            for next_j in j + 1..m {
                let trans = hmm.states[j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                let emission = hmm.states[next_j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);
                let score = dp[i + 1][next_j] + trans + emission;
                max_score = max_score.max(score);
            }

            dp[i][j] = max_score;
        }
    }

    Ok(dp)
}

/// Forward-backward algorithm for parameter learning
pub fn forward_backward(hmm: &ProfileHmm, sequence: &[u8]) -> Result<Vec<Vec<f32>>, HmmError> {
    if hmm.states.is_empty() || sequence.is_empty() {
        return Err(HmmError::ComputationFailed("Invalid input".to_string()));
    }

    let n = sequence.len();
    let m = hmm.states.len();

    // Compute forward
    let mut forward = vec![vec![f32::NEG_INFINITY; m]; n + 1];
    forward[0][0] = 0.0;

    for i in 1..=n {
        let aa_idx = (sequence[i - 1] as usize) % 24;

        for j in 0..m {
            for prev_j in 0..j {
                let trans = hmm.states[prev_j].transitions.get(0).copied().unwrap_or(f32::NEG_INFINITY);
                let emission = hmm.states[j].emissions.get(aa_idx).copied().unwrap_or(f32::NEG_INFINITY);
                let score = forward[i - 1][prev_j] + trans + emission;
                forward[i][j] = forward[i][j].max(score);
            }
        }
    }

    // Compute backward
    let backward = backward_algorithm(hmm, sequence)?;

    // Compute posteriors
    let total_score = forward[n].iter().fold(f32::NEG_INFINITY, |a, &b| a.max(b));

    let mut posteriors = vec![vec![0.0; m]; n];
    for i in 0..n {
        for j in 0..m {
            if forward[i][j].is_finite() && backward[i][j].is_finite() && total_score.is_finite() {
                posteriors[i][j] = (forward[i][j] + backward[i][j] - total_score).exp();
            }
        }
    }

    Ok(posteriors)
}

#[cfg(test)]
mod tests {
    use super::*;

    fn create_alignment() -> Vec<Vec<char>> {
        vec![
            "MVLSPAD".chars().collect(),
            "MVLSPAD".chars().collect(),
            "MPLSPAD".chars().collect(),
        ]
    }

    #[test]
    fn test_hmm_from_msa() {
        let alignment = create_alignment();
        let result = ProfileHmm::from_msa(&alignment);

        assert!(result.is_ok());
        let hmm = result.unwrap();

        assert!(!hmm.states.is_empty());
        assert_eq!(hmm.states[0].state_type, StateType::Begin);
        assert_eq!(hmm.length, 7);
    }

    #[test]
    fn test_viterbi_algorithm() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequence = b"MVLSPAD";
        let result = hmm.viterbi(sequence);

        assert!(result.is_ok());
        let path = result.unwrap();

        assert!(!path.states.is_empty());
        assert!(path.score.is_finite());
        assert!(!path.cigar.is_empty());
    }

    #[test]
    fn test_forward_algorithm() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequence = b"MVLSPAD";
        let result = hmm.forward_score(sequence);

        assert!(result.is_ok());
        let score = result.unwrap();

        // Score should be a valid probability (0 to 1 or inf/finite)
        assert!(!score.is_nan());
    }

    #[test]
    fn test_domain_detection() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequence = b"MVLSPAD";
        let result = hmm.find_domains(sequence);

        assert!(result.is_ok());
        let domains = result.unwrap();

        // Should find at least one domain or none (empty is valid)
        for domain in domains {
            assert!(!domain.name.is_empty());
            assert!(domain.start < domain.end);
            assert!(domain.evalue >= 0.0);
        }
    }

    #[test]
    fn test_baum_welch_training() {
        let alignment = create_alignment();
        let mut hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequences = vec![b"MVLSPAD".as_slice(), b"MVLSPAD".as_slice()];
        let result = hmm.train(&sequences, 3);

        assert!(result.is_ok());
        assert_eq!(hmm.length, 7);
    }

    #[test]
    fn test_pfam_loading() {
        let result = ProfileHmm::from_pfam("kinase");

        assert!(result.is_ok());
        let hmm = result.unwrap();

        assert_eq!(hmm.name, "kinase");
        assert!(!hmm.states.is_empty());
    }

    #[test]
    fn test_backward_algorithm() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequence = b"MVLSPAD";
        let result = backward_algorithm(&hmm, sequence);

        assert!(result.is_ok());
        let backward = result.unwrap();

        assert!(!backward.is_empty());
    }

    #[test]
    fn test_forward_backward() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let sequence = b"MVLSPAD";
        let result = forward_backward(&hmm, sequence);

        assert!(result.is_ok());
        let posteriors = result.unwrap();

        assert!(!posteriors.is_empty());

        // Check posteriors are valid probabilities (0 to 1)
        for row in posteriors {
            for p in row {
                assert!(p >= 0.0 && p <= 1.0 + 0.01); // Allow small numerical errors
            }
        }
    }

    #[test]
    fn test_evalue_computation() {
        let alignment = create_alignment();
        let hmm = ProfileHmm::from_msa(&alignment).unwrap();

        let result = hmm.score_to_evalue(10.0);

        assert!(result.is_ok());
        let evalue = result.unwrap();

        assert!(evalue > 0.0);
    }
}