vecstore 1.0.0 - Docs.rs

//! Vector clustering algorithms
//!
//! This module provides clustering algorithms for grouping similar vectors:
//! - K-means: Partitioning into K clusters based on centroids
//! - DBSCAN: Density-based clustering with automatic cluster detection
//! - Hierarchical: Agglomerative clustering with dendrogram support
//!
//! # Features
//!
//! - Multiple distance metrics (Euclidean, Cosine, Manhattan)
//! - Automatic cluster number detection (for DBSCAN)
//! - Cluster quality metrics (silhouette score, inertia)
//! - Outlier detection
//! - Visualization support
//!
//! # Example
//!
//! ```rust
//! use vecstore::clustering::{KMeansClustering, ClusteringConfig};
//!
//! let vectors = vec![
//!     vec![1.0, 2.0],
//!     vec![1.5, 1.8],
//!     vec![5.0, 8.0],
//!     vec![8.0, 8.0],
//! ];
//!
//! let config = ClusteringConfig {
//!     k: 2,
//!     max_iterations: 100,
//!     tolerance: 0.001,
//! };
//!
//! let kmeans = KMeansClustering::new(config);
//! let result = kmeans.fit(&vectors)?;
//!
//! for (i, label) in result.labels.iter().enumerate() {
//!     println!("Vector {} belongs to cluster {}", i, label);
//! }
//! ```

use crate::error::{Result, VecStoreError};
use crate::simd::euclidean_distance_simd;
use serde::{Deserialize, Serialize};
use std::collections::{HashMap, HashSet};

// Helper function for euclidean distance
fn euclidean_distance(a: &[f32], b: &[f32]) -> f32 {
    euclidean_distance_simd(a, b)
}

/// Clustering configuration
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct ClusteringConfig {
    /// Number of clusters
    pub k: usize,
    /// Maximum iterations
    pub max_iterations: usize,
    /// Convergence tolerance
    pub tolerance: f32,
}

impl Default for ClusteringConfig {
    fn default() -> Self {
        Self {
            k: 3,
            max_iterations: 100,
            tolerance: 0.001,
        }
    }
}

/// DBSCAN configuration
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct DBSCANConfig {
    /// Epsilon (neighborhood radius)
    pub eps: f32,
    /// Minimum points to form a cluster
    pub min_points: usize,
}

impl Default for DBSCANConfig {
    fn default() -> Self {
        Self {
            eps: 0.5,
            min_points: 5,
        }
    }
}

/// Hierarchical clustering configuration
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct HierarchicalConfig {
    /// Number of clusters to form
    pub n_clusters: usize,
    /// Linkage method
    pub linkage: LinkageMethod,
}

/// Linkage method for hierarchical clustering
#[derive(Debug, Clone, Copy, Serialize, Deserialize, PartialEq)]
pub enum LinkageMethod {
    /// Single linkage (minimum distance)
    Single,
    /// Complete linkage (maximum distance)
    Complete,
    /// Average linkage
    Average,
}

impl Default for HierarchicalConfig {
    fn default() -> Self {
        Self {
            n_clusters: 3,
            linkage: LinkageMethod::Average,
        }
    }
}

/// Clustering result
#[derive(Debug, Clone, Serialize, Deserialize)]
pub struct ClusteringResult {
    /// Cluster labels for each vector (-1 for noise in DBSCAN)
    pub labels: Vec<i32>,
    /// Cluster centroids (for K-means)
    pub centroids: Option<Vec<Vec<f32>>>,
    /// Inertia (sum of squared distances to centroids)
    pub inertia: f32,
    /// Number of iterations (for K-means)
    pub iterations: usize,
    /// Silhouette score (cluster quality metric)
    pub silhouette_score: Option<f32>,
}

/// K-means clustering
pub struct KMeansClustering {
    config: ClusteringConfig,
}

impl KMeansClustering {
    /// Create new K-means clusterer
    pub fn new(config: ClusteringConfig) -> Self {
        Self { config }
    }

    /// Fit the model and return clustering result
    pub fn fit(&self, vectors: &[Vec<f32>]) -> Result<ClusteringResult> {
        if vectors.is_empty() {
            return Err(VecStoreError::Other(
                "Cannot cluster empty vector set".to_string(),
            ));
        }

        if vectors.len() < self.config.k {
            return Err(VecStoreError::Other(format!(
                "Number of vectors ({}) must be >= k ({})",
                vectors.len(),
                self.config.k
            )));
        }

        let dim = vectors[0].len();

        // Initialize centroids using k-means++
        let mut centroids = self.initialize_centroids_plus_plus(vectors);

        let mut labels = vec![0; vectors.len()];
        let mut iterations = 0;

        for iter in 0..self.config.max_iterations {
            iterations = iter + 1;

            // Assign points to nearest centroid
            let mut changed = false;
            for (i, vector) in vectors.iter().enumerate() {
                let nearest = self.find_nearest_centroid(vector, &centroids);
                if labels[i] != nearest {
                    labels[i] = nearest;
                    changed = true;
                }
            }

            if !changed {
                break; // Converged
            }

            // Update centroids
            let old_centroids = centroids.clone();
            centroids = self.update_centroids(vectors, &labels, dim)?;

            // Check convergence
            let max_shift = centroids
                .iter()
                .zip(old_centroids.iter())
                .map(|(new, old)| euclidean_distance(new, old))
                .fold(0.0_f32, f32::max);

            if max_shift < self.config.tolerance {
                break; // Converged
            }
        }

        // Calculate inertia
        let inertia = self.calculate_inertia(vectors, &labels, &centroids);

        // Calculate silhouette score
        let silhouette_score = if vectors.len() > 1 {
            Some(self.calculate_silhouette_score(vectors, &labels))
        } else {
            None
        };

        Ok(ClusteringResult {
            labels: labels.iter().map(|&l| l as i32).collect(),
            centroids: Some(centroids),
            inertia,
            iterations,
            silhouette_score,
        })
    }

    /// Initialize centroids using k-means++ algorithm
    fn initialize_centroids_plus_plus(&self, vectors: &[Vec<f32>]) -> Vec<Vec<f32>> {
        let mut centroids = Vec::with_capacity(self.config.k);
        let mut rng = rand::thread_rng();
        use rand::seq::SliceRandom;

        // Choose first centroid randomly
        centroids.push(vectors.choose(&mut rng).unwrap().clone());

        // Choose remaining centroids
        for _ in 1..self.config.k {
            let distances: Vec<f32> = vectors
                .iter()
                .map(|v| {
                    centroids
                        .iter()
                        .map(|c| euclidean_distance(v, c))
                        .fold(f32::INFINITY, f32::min)
                        .powi(2)
                })
                .collect();

            let total: f32 = distances.iter().sum();
            let mut threshold = rand::random::<f32>() * total;

            for (i, &dist) in distances.iter().enumerate() {
                threshold -= dist;
                if threshold <= 0.0 {
                    centroids.push(vectors[i].clone());
                    break;
                }
            }
        }

        centroids
    }

    /// Find nearest centroid for a vector
    fn find_nearest_centroid(&self, vector: &[f32], centroids: &[Vec<f32>]) -> usize {
        centroids
            .iter()
            .enumerate()
            .map(|(i, c)| (i, euclidean_distance(vector, c)))
            .min_by(|a, b| a.1.partial_cmp(&b.1).unwrap())
            .unwrap()
            .0
    }

    /// Update centroids based on current assignment
    fn update_centroids(
        &self,
        vectors: &[Vec<f32>],
        labels: &[usize],
        dim: usize,
    ) -> Result<Vec<Vec<f32>>> {
        let mut centroids = vec![vec![0.0; dim]; self.config.k];
        let mut counts = vec![0; self.config.k];

        for (vector, &label) in vectors.iter().zip(labels.iter()) {
            for (i, &val) in vector.iter().enumerate() {
                centroids[label][i] += val;
            }
            counts[label] += 1;
        }

        // Average
        for (centroid, &count) in centroids.iter_mut().zip(counts.iter()) {
            if count > 0 {
                for val in centroid.iter_mut() {
                    *val /= count as f32;
                }
            }
        }

        Ok(centroids)
    }

    /// Calculate inertia (within-cluster sum of squares)
    fn calculate_inertia(
        &self,
        vectors: &[Vec<f32>],
        labels: &[usize],
        centroids: &[Vec<f32>],
    ) -> f32 {
        vectors
            .iter()
            .zip(labels.iter())
            .map(|(v, &l)| euclidean_distance(v, &centroids[l]).powi(2))
            .sum()
    }

    /// Calculate silhouette score
    fn calculate_silhouette_score(&self, vectors: &[Vec<f32>], labels: &[usize]) -> f32 {
        let n = vectors.len();
        let mut scores = vec![0.0; n];

        for i in 0..n {
            let own_cluster = labels[i];

            // Calculate a(i): average distance to points in same cluster
            let same_cluster: Vec<usize> = labels
                .iter()
                .enumerate()
                .filter(|(_, &l)| l == own_cluster)
                .map(|(idx, _)| idx)
                .collect();

            let a = if same_cluster.len() > 1 {
                same_cluster
                    .iter()
                    .filter(|&&idx| idx != i)
                    .map(|&idx| euclidean_distance(&vectors[i], &vectors[idx]))
                    .sum::<f32>()
                    / (same_cluster.len() - 1) as f32
            } else {
                0.0
            };

            // Calculate b(i): min average distance to points in other clusters
            let mut min_b = f32::INFINITY;
            for cluster in 0..self.config.k {
                if cluster == own_cluster {
                    continue;
                }

                let other_cluster: Vec<usize> = labels
                    .iter()
                    .enumerate()
                    .filter(|(_, &l)| l == cluster)
                    .map(|(idx, _)| idx)
                    .collect();

                if !other_cluster.is_empty() {
                    let b = other_cluster
                        .iter()
                        .map(|&idx| euclidean_distance(&vectors[i], &vectors[idx]))
                        .sum::<f32>()
                        / other_cluster.len() as f32;

                    min_b = min_b.min(b);
                }
            }

            scores[i] = if a < min_b {
                1.0 - a / min_b
            } else if a > min_b {
                min_b / a - 1.0
            } else {
                0.0
            };
        }

        scores.iter().sum::<f32>() / n as f32
    }
}

/// DBSCAN clustering (Density-Based Spatial Clustering of Applications with Noise)
pub struct DBSCANClustering {
    config: DBSCANConfig,
}

impl DBSCANClustering {
    /// Create new DBSCAN clusterer
    pub fn new(config: DBSCANConfig) -> Self {
        Self { config }
    }

    /// Fit the model and return clustering result
    pub fn fit(&self, vectors: &[Vec<f32>]) -> Result<ClusteringResult> {
        if vectors.is_empty() {
            return Err(VecStoreError::Other(
                "Cannot cluster empty vector set".to_string(),
            ));
        }

        let n = vectors.len();
        let mut labels = vec![-1; n]; // -1 = unvisited
        let mut cluster_id = 0;

        for i in 0..n {
            if labels[i] != -1 {
                continue; // Already visited
            }

            let neighbors = self.region_query(vectors, i);

            if neighbors.len() < self.config.min_points {
                labels[i] = -1; // Mark as noise
                continue;
            }

            // Start new cluster
            self.expand_cluster(vectors, i, neighbors, cluster_id, &mut labels);
            cluster_id += 1;
        }

        // Calculate inertia (for noise points, use distance to nearest cluster)
        let inertia = 0.0; // DBSCAN doesn't have centroids, so inertia is not meaningful

        Ok(ClusteringResult {
            labels,
            centroids: None,
            inertia,
            iterations: 1, // DBSCAN doesn't iterate
            silhouette_score: None,
        })
    }

    /// Find neighbors within eps radius
    fn region_query(&self, vectors: &[Vec<f32>], point_idx: usize) -> Vec<usize> {
        vectors
            .iter()
            .enumerate()
            .filter(|(i, v)| {
                *i != point_idx && euclidean_distance(&vectors[point_idx], v) <= self.config.eps
            })
            .map(|(i, _)| i)
            .collect()
    }

    /// Expand cluster from seed point
    fn expand_cluster(
        &self,
        vectors: &[Vec<f32>],
        seed_idx: usize,
        mut neighbors: Vec<usize>,
        cluster_id: i32,
        labels: &mut [i32],
    ) {
        labels[seed_idx] = cluster_id;

        let mut i = 0;
        while i < neighbors.len() {
            let neighbor_idx = neighbors[i];

            if labels[neighbor_idx] == -1 {
                // Was noise, add to cluster
                labels[neighbor_idx] = cluster_id;
            }

            if labels[neighbor_idx] != -1 && labels[neighbor_idx] != cluster_id {
                i += 1;
                continue; // Already in another cluster
            }

            labels[neighbor_idx] = cluster_id;

            let neighbor_neighbors = self.region_query(vectors, neighbor_idx);

            if neighbor_neighbors.len() >= self.config.min_points {
                // Add new neighbors to explore
                for &nn in &neighbor_neighbors {
                    if !neighbors.contains(&nn) {
                        neighbors.push(nn);
                    }
                }
            }

            i += 1;
        }
    }
}

/// Hierarchical clustering
pub struct HierarchicalClustering {
    config: HierarchicalConfig,
}

impl HierarchicalClustering {
    /// Create new hierarchical clusterer
    pub fn new(config: HierarchicalConfig) -> Self {
        Self { config }
    }

    /// Fit the model and return clustering result
    pub fn fit(&self, vectors: &[Vec<f32>]) -> Result<ClusteringResult> {
        if vectors.is_empty() {
            return Err(VecStoreError::Other(
                "Cannot cluster empty vector set".to_string(),
            ));
        }

        if vectors.len() < self.config.n_clusters {
            return Err(VecStoreError::Other(format!(
                "Number of vectors ({}) must be >= n_clusters ({})",
                vectors.len(),
                self.config.n_clusters
            )));
        }

        let n = vectors.len();

        // Initialize: each point is its own cluster
        let mut clusters: Vec<Vec<usize>> = (0..n).map(|i| vec![i]).collect();

        // Build distance matrix
        let mut distances = self.build_distance_matrix(vectors);

        // Agglomerative clustering
        while clusters.len() > self.config.n_clusters {
            // Find closest pair of clusters
            let (i, j) = self.find_closest_clusters(&clusters, &distances);

            // Merge clusters i and j
            let merged = self.merge_clusters(&mut clusters, i, j);

            // Update distances
            self.update_distances(&clusters, &merged, &mut distances, vectors);
        }

        // Convert cluster assignments to labels
        let mut labels = vec![0; n];
        for (cluster_id, cluster) in clusters.iter().enumerate() {
            for &point_idx in cluster {
                labels[point_idx] = cluster_id as i32;
            }
        }

        Ok(ClusteringResult {
            labels,
            centroids: None,
            inertia: 0.0,
            iterations: n - self.config.n_clusters,
            silhouette_score: None,
        })
    }

    /// Build initial distance matrix
    fn build_distance_matrix(&self, vectors: &[Vec<f32>]) -> Vec<Vec<f32>> {
        let n = vectors.len();
        let mut distances = vec![vec![0.0; n]; n];

        for i in 0..n {
            for j in (i + 1)..n {
                let dist = euclidean_distance(&vectors[i], &vectors[j]);
                distances[i][j] = dist;
                distances[j][i] = dist;
            }
        }

        distances
    }

    /// Find closest pair of clusters
    fn find_closest_clusters(
        &self,
        clusters: &[Vec<usize>],
        distances: &[Vec<f32>],
    ) -> (usize, usize) {
        let mut min_dist = f32::INFINITY;
        let mut best_pair = (0, 0);

        for i in 0..clusters.len() {
            for j in (i + 1)..clusters.len() {
                let dist = self.cluster_distance(&clusters[i], &clusters[j], distances);
                if dist < min_dist {
                    min_dist = dist;
                    best_pair = (i, j);
                }
            }
        }

        best_pair
    }

    /// Calculate distance between two clusters based on linkage method
    fn cluster_distance(
        &self,
        cluster1: &[usize],
        cluster2: &[usize],
        distances: &[Vec<f32>],
    ) -> f32 {
        match self.config.linkage {
            LinkageMethod::Single => {
                // Minimum distance
                cluster1
                    .iter()
                    .flat_map(|&i| cluster2.iter().map(move |&j| distances[i][j]))
                    .fold(f32::INFINITY, f32::min)
            }
            LinkageMethod::Complete => {
                // Maximum distance
                cluster1
                    .iter()
                    .flat_map(|&i| cluster2.iter().map(move |&j| distances[i][j]))
                    .fold(0.0, f32::max)
            }
            LinkageMethod::Average => {
                // Average distance
                let sum: f32 = cluster1
                    .iter()
                    .flat_map(|&i| cluster2.iter().map(move |&j| distances[i][j]))
                    .sum();
                sum / (cluster1.len() * cluster2.len()) as f32
            }
        }
    }

    /// Merge two clusters
    fn merge_clusters(&self, clusters: &mut Vec<Vec<usize>>, i: usize, j: usize) -> Vec<usize> {
        let (smaller, larger) = if i < j { (i, j) } else { (j, i) };

        let mut merged = clusters.remove(larger);
        merged.extend(clusters.remove(smaller));

        clusters.push(merged.clone());
        merged
    }

    /// Update distance matrix after merge (placeholder - simplified)
    fn update_distances(
        &self,
        _clusters: &[Vec<usize>],
        _merged: &[usize],
        _distances: &mut [Vec<f32>],
        _vectors: &[Vec<f32>],
    ) {
        // In a full implementation, we would update the distance matrix
        // For now, we recalculate on demand in cluster_distance
    }
}

#[cfg(test)]
mod tests {
    use super::*;

    #[test]
    fn test_kmeans_simple() -> Result<()> {
        let vectors = vec![
            vec![1.0, 2.0],
            vec![1.5, 1.8],
            vec![5.0, 8.0],
            vec![8.0, 8.0],
            vec![1.0, 0.6],
            vec![9.0, 11.0],
        ];

        let config = ClusteringConfig {
            k: 2,
            max_iterations: 100,
            tolerance: 0.001,
        };

        let kmeans = KMeansClustering::new(config);
        let result = kmeans.fit(&vectors)?;

        assert_eq!(result.labels.len(), 6);
        assert_eq!(result.centroids.as_ref().unwrap().len(), 2);

        // Check that similar vectors are in the same cluster
        assert_eq!(result.labels[0], result.labels[1]);
        assert_eq!(result.labels[2], result.labels[3]);

        Ok(())
    }

    #[test]
    fn test_dbscan() -> Result<()> {
        let vectors = vec![
            vec![1.0, 2.0],
            vec![1.5, 1.8],
            vec![5.0, 8.0],
            vec![8.0, 8.0],
            vec![1.0, 0.6],
            vec![9.0, 11.0],
        ];

        let config = DBSCANConfig {
            eps: 2.0,
            min_points: 2,
        };

        let dbscan = DBSCANClustering::new(config);
        let result = dbscan.fit(&vectors)?;

        assert_eq!(result.labels.len(), 6);

        Ok(())
    }

    #[test]
    fn test_hierarchical() -> Result<()> {
        let vectors = vec![
            vec![1.0, 2.0],
            vec![1.5, 1.8],
            vec![5.0, 8.0],
            vec![8.0, 8.0],
        ];

        let config = HierarchicalConfig {
            n_clusters: 2,
            linkage: LinkageMethod::Average,
        };

        let hierarchical = HierarchicalClustering::new(config);
        let result = hierarchical.fit(&vectors)?;

        assert_eq!(result.labels.len(), 4);

        // Check we have exactly 2 clusters
        let unique_labels: HashSet<_> = result.labels.iter().collect();
        assert_eq!(unique_labels.len(), 2);

        Ok(())
    }

    #[test]
    fn test_silhouette_score() -> Result<()> {
        let vectors = vec![
            vec![1.0, 1.0],
            vec![1.5, 1.5],
            vec![10.0, 10.0],
            vec![10.5, 10.5],
        ];

        let config = ClusteringConfig {
            k: 2,
            max_iterations: 100,
            tolerance: 0.001,
        };

        let kmeans = KMeansClustering::new(config);
        let result = kmeans.fit(&vectors)?;

        // Silhouette score should be high for well-separated clusters
        assert!(result.silhouette_score.unwrap() > 0.5);

        Ok(())
    }
}