Homepage	Research	Subgroup

Publications

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang

Tech Report / Code / HF

R-BenchV: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs

Meng-Hao Guo, Xuanyu Chu, Qianrui Yang, Zhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-min Hu

Tech Report / Code / Leaderboard

R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation

Meng-Hao Guo, Jiajun Xu, Yi Zhang, Jiaxi Song, Haoyang Peng, Yi-Xuan Deng, Xinzhi Dong, Kiyohiro Nakayama, Zhengyang Geng, Chen Wang, Bolin Ni, Yongming Rao, Houwen Peng, Han Hu, Gordon Wetzstein, Shi-min Hu

ICML 2025 / Paper / Code / Leaderboard

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye

ACL 2025 / Paper / Code

ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws

Ruihang Li, Yixuan Wei, Miaosen Zhang, Nenghai Yu, Han Hu, Houwen Peng

EMNLP 2024 / Paper / Code

Xwin-LM: Strong and Scalable Alignment Practice for LLMs

Bolin Ni, Jingcheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu

Tech Report / Code

Common 7B Language Models Already Possess Strong Math Capabilities

Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng

Tech Report / Code

FP8-LM: Training FP8 Large Language Models

Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Han Hu, Peng Cheng

Tech Report / Code

ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

Yasheng Sun, Yifan Yang, Houwen Peng*, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike

NeurIPS 2023 / Paper

TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

Kan Wu, Houwen Peng*, Zhenghong Zhou, Bin Xiao, Mengchen Liu, Lu Yuan, Hong Xuan, Zhenghong Zhou, Xi Chen, Xinggang Wang, Hongyang Chao, Han Hu

ICCV 2023 / Paper / Code

Attentive Mask CLIP

Yifan Yang, Weiquan Huang, Yixuan Wei, Houwen Peng*, Xinyang Jiang, Huiqiang Jiang, Fangyun Wei, Yin Wang, Han Hu Lili Qiu Yuqing Yang

ICCV 2023 / Paper / Code

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking

Ben Kang, Xin Chen, Dong Wang, Houwen Peng*, Huchuan Lu

ICCV 2023 / Paper / Code

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

Xinyu Liu, Houwen Peng*, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan

CVPR 2023 / Paper / Code

SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

Xin Chen, Houwen Peng*, Dong Wang, Huchuan Lu, Han Hu

CVPR 2023 / Paper / Code

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Yixuan Wei, Yue Cao, Zheng Zhang, Houwen Peng, Zhuliang Yao, Zhenda Xie, Han Hu, Baining Guo

CVPR 2023 / Paper

PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies

Guocheng Qian, Yuchen Li, Houwen Peng*, Jinjie Mai, Hasan Abed Al Kader Hammoud, Mohamed Elhoseiny, Mohamed Elhoseiny, Bernard Ghanem*

NeurIPS 2022 / Paper / Code

Expanding Language-Image Pretrained Models for General Video Recognition

Bolin Ni, Houwen Peng*, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling

ECCV 2022 Oral Presentation / Paper / Code / 🤗 Hugging Face

TinyViT: Fast Pretraining Distillation for Small Vision Transformers

Kan Wu, Jinnian Zhang, Houwen Peng*, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan

ECCV 2022 / Paper / Code

MiniViT: Compressing Vision Transformers with Weight Multiplexing

Jinnian Zhang, Houwen Peng*, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan

CVPR 2022 / Paper / Code

Cyclic Differentiable Architecture Search

Hongyuan Yu, Houwen Peng*, Yan Huang, Hao Du, Jianlong Fu, Liang Wang, Haibin Ling

TPAMI 2022 / Paper / Code

Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with Natural Language

Songyang Zhang, Houwen Peng*, Jianlong Fu, Yijuan Lu, Jiebo Luo

TPAMI 2021 / Paper / Code

Rank #1 in HACS Temporal Action Localization Challenge

AutoFormerV2: Searching the Search Space of Vision Transformer

Minghao Chen, Kan Wu, Bolin Ni, Houwen Peng*, Bei Liu, Jianlong Fu, Hongyang Chao, Haibin Ling

NeurIPS 2021 / Paper / Code

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training

Hongwei Xue, Yupan Huang, Bei Liu, Houwen Peng, Jianlong Fu, Houqiang Li, Jiebo Luo

NeurIPS 2021 / Paper

Learning to Track Objects from Unlabled Videos

Jilai Zheng, Chao Ma, Houwen Peng, Xiaokang Yang

ICCV 2021 / Paper / Code

Rethinking and Improving Relative Position Encoding for Vision Transformer

Kan Wu, Houwen Peng*, Minghao Chen, Jianlong Fu, Hongyang Chao

ICCV 2021 / Paper / Code

AutoFormer: Searching Transformers for Visual Recognition

Minghao Chen, Houwen Peng*, Jianlong Fu, Haibin Ling

ICCV 2021 / Paper / Code

Learning Spatio-Temporal Transformer for Visual Tracking

Bin Yan, Houwen Peng*, Jianlong Fu, Dong Wang, Huchuan Lu

ICCV 2021 / Paper / Code

Rank #1 in VOT-2021 Challenge RGB-D Track

LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search

Bin Yan^†, Houwen Peng^†, Kan Wu^†, Dong Wang, Jianlong Fu, Huchuan Lu

CVPR 2021 / Paper / Code

One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking

Minghao Chen, Jianlong Fu, Haibin Ling

CVPR 2021 / Paper / Code

Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search

Houwen Peng, Hao Du, Hongyuan Yu, Qi Li, Jing Liao, Jianlong Fu

NeurIPS 2020 / Paper / Code

Ocean: Object-aware Anchor-free Tracking

Zhipeng Zhang, Houwen Peng*, Jianlong Fu, Bing Li, Weiming Hu

ECCV 2020 / Paper / Code

Rank #2 in VOT-2020 Challenge Short-term and Real-Time Tracks

A Transductive Approach for Semi-Supervised Video Object Segmentation

Yizhuo Zhang^†, Zhirong Wu^†, Houwen Peng, Stephen Lin

CVPR 2020 / Paper / Code

Learning 2D Temporal Localization Networks for Moment Localization with Natural Language

Songyang Zhang, Houwen Peng*, Jianlong Fu, Jiebo Luo

AAAI 2020 / Paper / Code

Rank #1 in HACS Temporal Action Localization Challenge

Deeper and Wider Siamese Networks for Real-time Visual Tracking

Zhipeng Zhang, Houwen Peng*

CVPR 2019 Oral Presentation / Paper / Code

Rank #1 in VOT-2019 Challenge RGB-D Track

AI Coach: Deep Human Pose Estimation and Analysis for Personalized Athletic Training Assistance

Jianbo Wang, Kai Qiu, Houwen Peng Jianlong Fu, Jianke Zhu,

ACM Multimedia 2019 / Paper

Multi-view Multi-instance Learning based on Joint Sparse Representation and Multi-view Dictionary Learning

Bing Li, Weihua Xiong, Houwen Peng, Weiming Hu, Stephen J. Maybank

TPAMI 2017 / Paper

Illumination Estimation based on Bilayer Sparse Coding

Bing Li, Weihua Xiong, Weiming Hu, Houwen Peng

CVPR 2013 / Paper

Salient Object Detection via Structured Matrix Decomposition

Houwen Peng, Haibin Ling, Bing Li, Weihua Xiong, Weiming Hu, Stephen J. Maybank

TPAMI 2017 Featured Paper / Paper / Code / Project Webpage (Updated)

Predicting Image Memorability by Multi-view Adaptive Regression

Houwen Peng, Kai Li, Bing Li, Haibin Ling, Weihua Xiong, Weiming Hu

ACM Multimedia 2015 / Paper

RGBD Salient Object Detection: A Benchmark and Algorithms

Houwen Peng, Bing Li, Weihua Xiong, Weiming Hu, Rongrong Ji

ECCV 2014 / Paper / Code / Project Webpage

Salient Object Detection via Low-rank and Structured Sparse Matrix Decomposition

Houwen Peng, Bing Li, Rongrong Ji, Weiming Hu, Weihua Xiong

AAAI 2013 Oral Presentation / Paper / Code / Project Webpage (Updated)

Awards and Honors

1st Place Winner of Visual Object Tracking (VOT) Challenge 2021 - RGBD Track
1st Place Winner of HACS Temporal Action Localization Challenge 2019
1st Place Winner of Visual Object Tracking (VOT) Challenge 2019 - RGBD Track
2rd and 3th Place Winners of Visual Object Tracking (VOT) Challenge 2019 - Long-term and RGBT Tracks
Qualcomm Innovation Award
Rokid AI Fellowship
National Scholarship

Activities

Area Chair / Senior PC for

ACM International Conference on Multimedia (MM), 2021, 2022, 2023

AAAI Conference on Artificial Intelligence (AAAI), 2022.

Reviewer / Program Committee for

International Conference on Learning Representations (ICLR), 2021, 2022
International Conference on Machine Learning (ICML), 2021, 2022
AAAI Conference on Artificial Intelligence (AAAI), 2019, 2020, 2021, 2022
Advances in Neural Information Processing Systems (NIPS), 2020, 2021, 2022, 2023
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 2019, 2020, 2021, 2022, 2023
IEEE International Conference on Computer Vision (ICCV), 2017, 2019, 2021, 2023
European Conference on Computer Vision (ECCV), 2018, 2020, 2022
Winter Conference on Applications of Computer Vision, 2021, 2022
IEEE International Conference on Robotics and Automation (ICRA), 2013, 2015, 2020
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI )
IEEE Transactions on Image Processing (TIP)
IEEE Transactions on Multimedia (TMM)
IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
Pattern Recognition (PR)