SapiensID: Foundation for Human Recognition

Minchul Kim; Dingqiang Ye; Yiyang Su; Feng Liu; Xiaoming Liu

doi:10.48550/arxiv.2504.04708

Back

Preprint

SapiensID: Foundation for Human Recognition

Minchul Kim, Dingqiang Ye, Yiyang Su, Feng Liu and Xiaoming Liu

06 Apr 2025

DOI: https://doi.org/10.48550/arxiv.2504.04708

Files and links (1)

url

https://arxiv.org/pdf/2504.04708View

Open

Abstract

Computer Science - Computer Vision and Pattern Recognition

Existing human recognition systems often rely on separate, specialized models for face and body analysis, limiting their effectiveness in real-world scenarios where pose, visibility, and context vary widely. This paper introduces SapiensID, a unified model that bridges this gap, achieving robust performance across diverse settings. SapiensID introduces (i) Retina Patch (RP), a dynamic patch generation scheme that adapts to subject scale and ensures consistent tokenization of regions of interest, (ii) a masked recognition model (MRM) that learns from variable token length, and (iii) Semantic Attention Head (SAH), an module that learns pose-invariant representations by pooling features around key body parts. To facilitate training, we introduce WebBody4M, a large-scale dataset capturing diverse poses and scale variations. Extensive experiments demonstrate that SapiensID achieves state-of-the-art results on various body ReID benchmarks, outperforming specialized models in both short-term and long-term scenarios while remaining competitive with dedicated face recognition systems. Furthermore, SapiensID establishes a strong baseline for the newly introduced challenge of Cross Pose-Scale ReID, demonstrating its ability to generalize to complex, real-world conditions.

Metrics

11 Record Views

Details

Title: SapiensID: Foundation for Human Recognition
Creators: Minchul Kim - Michigan State University
Dingqiang Ye
Yiyang Su - Michigan State University
Feng Liu - Drexel University, Computer Science
Xiaoming Liu - Michigan State University
Resource Type: Preprint
Language: English
Academic Unit: Computer Science
Other Identifier: 991022048715404721

SapiensID: Foundation for Human Recognition

Files and links (1)

Abstract

Metrics

Details

Drexel University Social media