Haojian Huang (黃浩健) | Embodied AI Researcher

About

Haojian Huang is currently an Embodied AI Algorithm Researcher at Knowin, focusing on Embodied AI and Agentic Systems, dedicated to building more interactive and reliable agent-based solutions. He graduated from The University of Hong Kong, and has published at top-tier venues such as ICML, NeurIPS, and AAAI. His vision is to bring robots into every household, making physical AI accessible to everyone.

黄浩健，现任诺因智能（Knowin）具身智能算法研究员，研究方向包括具身智能、智能体系统与视频推理，致力于构建更具交互性和可靠性的智能体解决方案。毕业于香港大学，研究成果发表于 ICML、NeurIPS、AAAI 等多个人工智能顶级会议。他的理想是让机器人走进千家万户，让每个人都能享受物理 AI 带来的智能生活。

News

2026.02ICME 2026

One paper accepted to ICME 2026.

2025.12AAAI 2026

Two papers accepted to AAAI 2026.

2025.09NeurIPS 2025

One paper accepted to NeurIPS 2025.

2025.07ACM MM 2025

Two papers accepted to ACM MM 2025.

2025.05ACL 2025 Findings

One paper accepted to ACL 2025 Findings.

2025.01ICML 2025

One paper accepted to ICML 2025.

2024.12AAAI 2025

One paper accepted to AAAI 2025.

2024.07ACM MM 2024

Two papers accepted to ACM MM 2024.

2024.06KBS 2024

One paper accepted to Knowledge-Based Systems.

Open to Collaboration

We believe robots will enter every home. Join us to make it happen.

Research Collaboration · Internship · Mentorship

Build embodied AI that can actually enter daily life.

We welcome students from all universities and degree levels — undergraduates, master's students, and independent builders who care about research quality. If you are curious, self-driven, and serious about intelligent systems, you are a strong fit.

我们欢迎所有学校、所有学历的同学加入。无论你是本科生、硕士生，还是正在独立做项目的研究者，只要你对具身智能充满热情、愿意把问题做深做实，都欢迎联系我交流合作。优秀的合作者将有机会获得推荐至香港科技大学、香港中文大学攻读全额奖学金博士的机会。

All universities Undergrad to Master Remote or on-site Research-first mentorship

What We Offer

Hands-on research on Embodied AI, Agentic Systems, and Video Reasoning
Publish at top AI venues (ICML, NeurIPS, ICLR, CVPR, AAAI, ACL) and top robotics venues (RSS, CoRL, ICRA, IROS)
Flexible modes: remote projects, summer internships, and long-term mentorship
Recommendation for fully-funded Ph.D. at HKUST and CUHK

How to Reach Me

Send a brief intro, your interests, and any useful paper, code, or project links. The QR code stays hidden until requested so the page remains clean.

Email Me

Best for first contact: a short self-introduction plus one or two representative links.

Selected Publications

Full list on Google Scholar. † Corresponding author.

Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval

Haojian Huang, Kaijing Ma, Jin Chen, Haodong Chen, Zhiwen Wu, Xianghao Zang, Han Fang, Chao Ban, Hao Sun, Mulin Chen, Xuelong Li

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

Pukun Zhao, Longxiang Wang, Miaowei Wang, Chen Chen, Fanqing Zhou, Haojian Huang^†

STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO

Pukun Zhao, Longxiang Wang, Chen Chen, Peicheng Wang, Fanqing Zhou, Runze Li, Haojian Huang^†

Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Haojian Huang, Haodong Chen, Shiwu Wu, Minghe Luo, Junfeng Fu, Xiangyang Du, Hui Zhang, Hongyuan Fei

Code

Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation

Haodong Chen, Haojian Huang, Qinghao Chen, Hao Yang, Shih-Neng Lim

Project

FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning

Haodong Chen, Haojian Huang, Xing Xing Yin, Dian Shao

Text-Visual Semantic Constrained AI-Generated Image Quality Assessment

Qizhi Li, Qiuying Yan, Haojian Huang, Pengwei Wu, Hui Zhang, Yue Zhang

DependEval: Benchmarking LLMs for Repository Dependency Understanding

Junjia Du, Yadi Liu, Hongcheng Guo, Jiawei Wang, Haojian Huang, Yunyi Ni, Zhoujun Li

Code

VideoGen-of-Thought: Step-by-step Generating Multi-shot Video with Minimal Manual Intervention

Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuemeng Ma, Yongkang Liu, Wenqi Shu, et al.

Code Project

Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification

Haojian Huang, Chuanyu Qin, Zhe Liu, Kaijing Ma, Jin Chen, Han Fang, Chao Ban, Hao Sun, Zhongjiang He

Code

Structure-Aware Prototype Guided Trusted Multi-View Classification

Haojian Huang, Jiaxin Shi, Zhe Liu, Haodong Chen, Han Fang, Hao Sun, Zhongjiang He

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning

Haojian Huang, Xiaozhen Qiao, Zhuo Chen, Haodong Chen, Bingyu Li, Zhe Sun, Mulin Chen, Xuelong Li

Code Paper

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs

Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao

Project

Adaptive Weighted Multi-View Evidential Clustering with Feature Preference

Zhe Liu, Haojian Huang, Sukumar Letchmunan, Muhammet Deveci

Code

Uncertainty-Guided Self-Questioning and Answering for Video-Language Alignment

Jin Chen, Kaijing Ma, Haojian Huang, Han Fang, Hao Sun, Mahdi Hosseinzadeh, Zhe Liu

Paper

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

Guoyong Hu, Yuxuan Xin, Wenyu Lyu, Haojian Huang, Chang Sun, Zhihong Zhu, et al.

Paper

Evidential Deep Partial Multi-View Classification With Discount Fusion

Haojian Huang, Zhe Liu, Sukumar Letchmunan, Muhammet Deveci, Mingwei Lin, Weizhong Wang

Paper

GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting

Haodong Chen, Yongle Huang, Haojian Huang, Xiangsheng Ge, Dian Shao

Code Project

Contact

Email

haojianhuang927@gmail.com

Address

Department of Computer Science
Chow Yei Ching Building
The University of Hong Kong
Pokfulam Road, Hong Kong

Phone

(+852) 5957 4603

WeChat

About

Research Interests

News

Open to Collaboration

Build embodied AI that can actually enter daily life.

What We Offer

How to Reach Me

Selected Publications

Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO

Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation

FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning

Text-Visual Semantic Constrained AI-Generated Image Quality Assessment

DependEval: Benchmarking LLMs for Repository Dependency Understanding

VideoGen-of-Thought: Step-by-step Generating Multi-shot Video with Minimal Manual Intervention

Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification

Structure-Aware Prototype Guided Trusted Multi-View Classification

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs

Adaptive Weighted Multi-View Evidential Clustering with Feature Preference

Uncertainty-Guided Self-Questioning and Answering for Video-Language Alignment

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

Evidential Deep Partial Multi-View Classification With Discount Fusion

GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting

Contact

Email

Address

Phone