Skip to main content

Module data_split

Module data_split

Expand description

Data splitting utilities for machine learning workflows

This module provides tools for splitting datasets into training, validation, and test sets using various strategies:

train_test_split - Simple random train/test split
stratified_train_test_split - Stratified split preserving class proportions
KFold - K-fold cross-validation
StratifiedKFold - Stratified K-fold cross-validation
LeaveOneOut - Leave-one-out cross-validation
TimeSeriesSplit - Time series cross-validation (expanding or sliding window)
GroupKFold - Group K-fold (keeps groups intact)
ShuffleSplit - Repeated random train/test splits

Structs§

GroupKFold: Group K-fold cross-validation.
KFold: K-fold cross-validation splitter.
LeaveOneOut: Leave-one-out cross-validation.
ShuffleSplit: Repeated random train/test splits.
StratifiedKFold: Stratified K-fold cross-validation.
TimeSeriesSplit: Time series cross-validation splitter.

Enums§

TimeSeriesMode: Time series split mode.

Functions§

stratified_train_test_split: Stratified train/test split that preserves the proportion of each class.
train_test_split: Split data indices into training and test sets.

Type Aliases§

SplitIndices: Indices for a single split (train indices, test indices).