Publications

E3M: Zero-Shot Spatio-Temporal Video Grounding with Expectation-Maximization Multimodal Modulation,
Peijun Bao, Zihao Shao, Wenhan Yang, Boon Poh Ng, Alex Kot,
ECCV 2024 (oral) [pdf], [bib], [code]

Omnipotent Distillation with LLMs for Weakly-Supervised Natural Language Video Localization: When Divergence Meets Consistency,
Peijun Bao, Zihao Shao, Wenhan Yang, Boon Poh Ng, Meng Hwa Er, Alex Kot,
AAAI 2024 [pdf], [bib]

Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding,
Peijun Bao, Yong Xia, Wenhan Yang, Boon Poh Ng, Meng Hwa Er, Alex Kot,
AAAI 2024 [pdf], [bib]

Cross-Modal Label Contrastive Learning for Unsupervised Audio-Visual Event Localization,
Peijun Bao, Wenhan Yang, Boon Poh Ng, Meng Hwa Er, Alex Kot,
AAAI 2023 (oral) [pdf], [bib]

Dense Events Grounding in Video,
Peijun Bao, Qian Zheng, Yadong Mu,
AAAI 2021 (oral) [pdf], [bib], [code]

Learning Sample Importance for Cross-Scenario Video Temporal Grounding,
Peijun Bao, Yadong Mu,
ICMR 2022 (oral) [pdf], [bib]

Learning 3-D Human Pose Estimation from Catadioptric Videos,
Chenchen Liu, Yongzhi Li, Kangqi Ma, Duo Zhang, Peijun Bao, Yadong Mu,
IJCAI 2021 [pdf]