Module reasoning

reasonkit::evaluation

Module reasoning

Expand description

§Reasoning Quality Metrics

Core metrics for evaluating AI THINKING improvement with ReasonKit.

This is the HEART of ReasonKit evaluation - measuring whether ThinkTool protocols actually improve AI reasoning.

Structs§

BedRockMetrics: BedRock-specific metrics
BenchmarkResult: Result from running a benchmark
BrutalHonestyMetrics: BrutalHonesty-specific metrics
CalibrationMetrics: Calibration metrics (confidence vs accuracy)
ConsistencyMetrics: Self-consistency metrics
GigaThinkMetrics: GigaThink-specific metrics
LaserLogicMetrics: LaserLogic-specific metrics
ProofGuardMetrics: ProofGuard-specific metrics
QuestionResult: Result for a single question
ReasoningMetrics: Aggregated reasoning metrics
ThinkToolMetrics: Generic ThinkTool effectiveness metrics

Enums§

Profile: ReasonKit profiles (ThinkTool chains)
ThinkTool: Individual ThinkTools

Functions§

calculate_thinktool_delta: Calculate improvement delta for a ThinkTool
is_significant: Statistical significance test (simplified)