Change is Hard: A Closer Look at Subpopulation Shift

Available Algorithms (~20 algorithms)

Empirical Risk Minimization (ERM)
Invariant Risk Minimization (IRM)
Group Distributionally Robust Optimization (GroupDRO)
Conditional Value-at-Risk Distributionally Robust Optimization (CVaRDRO)
Mixup (Mixup)
Just Train Twice (JTT)
Learning from Failure (LfF)
Learning Invariant Predictors with Selective Augmentation (LISA)
Deep Feature Reweighting (DFR)
Maximum Mean Discrepancy (MMD)
Deep Correlation Alignment (CORAL)
Data Re-Sampling (ReSample)
Cost-Sensitive Re-Weighting (ReWeight)
Square-Root Re-Weighting (SqrtReWeight)
Focal Loss (Focal)
Class-Balanced Loss (CBLoss)
Label-Distribution-Aware Margin Loss (LDAM)
Balanced Softmax (BSoftmax)
Classifier Re-Training (CRT)

Model Architectures & Pretraining Methods

ResNet-50 on ImageNet-1K using supervised pretraining (resnet_sup_in1k)
ResNet-50 on ImageNet-21K using supervised pretraining (resnet_sup_in21k)
ResNet-50 on ImageNet-1K using SimCLR (resnet_simclr_in1k)
ResNet-50 on ImageNet-1K using Barlow Twins (resnet_barlow_in1k)
ResNet-50 on ImageNet-1K using DINO (resnet_dino_in1k)
ViT-B on ImageNet-1K using supervised pretraining (vit_sup_in1k)
ViT-B on ImageNet-21K using supervised pretraining (vit_sup_in21k)
ViT-B from OpenAI CLIP (vit_clip_oai)
ViT-B pretrained using CLIP on LAION-2B (vit_clip_laion)
ViT-B on SWAG using weakly supervised pretraining (vit_sup_swag)
ViT-B on ImageNet-1K using DINO (vit_dino_in1k)
BERT-base-uncased (bert-base-uncased)
GPT-2 (gpt2)
RoBERTa-base-uncased (xlm-roberta-base)
SciBERT (allenai/scibert_scivocab_uncased)
DistilBERT-uncased (distilbert-base-uncased

Available Datasets (13 datasets)

ColoredMNIST (Arjovsky et al., 2019)
Waterbirds (Wah et al., 2011)
CelebA (Liu et al., 2015)
MetaShift (Liang and Zou, 2022)
CivilComments (Borkan et al., 2019) from the WILDS benchmark
MultiNLI (Williams et al., 2017)
MIMIC-CXR (Johnson et al., 2019)
CheXpert (Irvin et al., 2019)
CXRMultisite (Puli et al., 2021)
MIMICNotes (Johnson et al., 2016)
NICO++ (Zhang et al., 2022)
ImageNetBG (Xiao et al., 2020)
Living17 (Santurkar et al., 2020) from the BREEDS benchmark

Subpopulation Shift Scenarios

We characterize four basic types of subpopulation shift using our framework, and categorize each dataset into its most dominant shift type.

Spurious Correlations (SC): certain a is spuriously correlated with y in training but not in testing.
Attribute Imbalance (AI): certain attributes are sampled with a much smaller probability than others in p_train, but not in p_test.
Class Imbalance (CI): certain (minority) classes are underrepresented in p_train, but not in p_test.
Attribute Generalization (AG): certain attributes can be totally missing in p_train, but present in p_test.

Evaluation Metrics

We include a variety of metrics aiming for a thorough evaluation from different aspects:

Average Accuracy & Worst Accuracy
Average Precision & Worst Precision
Average F1-score & Worst F1-score
Adjusted Accuracy
Balanced Accuracy
AUROC & AUPRC
Expected Calibration Error (ECE)

Model Selection Criteria

We highlight the impact of whether attribute is known in (1) training set and (2) validation set.

We show a few important selection criteria:

OracleWorstAcc: Picks the best test-set worst-group accuracy (oracle)
ValWorstAccAttributeYes: Picks the best val-set worst-group accuracy (attributes known in validation)
ValWorstAccAttributeNo: Picks the best val-set worst-class accuracy (attributes unknown in validation; group degenerates to class)

Change is Hard: A Closer Look at Subpopulation Shift

Yuzhe Yang^* Haoran Zhang^* Dina Katabi Marzyeh Ghassemi

Abstract

Paper

Talk

Code, Data, and Models

SubpopBench Contents

Available Algorithms (~20 algorithms)

Model Architectures & Pretraining Methods

Available Datasets (13 datasets)

Subpopulation Shift Scenarios

Evaluation Metrics

Model Selection Criteria

Highlights

Press

Citation

Change is Hard: A Closer Look at Subpopulation Shift

Yuzhe Yang* Haoran Zhang* Dina Katabi Marzyeh Ghassemi

Abstract

Paper

Talk

Code, Data, and Models

SubpopBench Contents

Available Algorithms (~20 algorithms)

Model Architectures & Pretraining Methods

Available Datasets (13 datasets)

Subpopulation Shift Scenarios

Evaluation Metrics

Model Selection Criteria

Highlights

Press

Citation

Yuzhe Yang^* Haoran Zhang^* Dina Katabi Marzyeh Ghassemi