dxlab (박은일 교수 연구실), AAAI 2026 1편, WACV 2026 1편 게재 승인
2025-11-17
dxlab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 인공지능 분야 우수학회인 AAAI 2026에 1편, WACV 2026에 1편 게재 승인(Accept)되었습니다. 해당 논문은 26년 1월(싱가포르)와 3월(애리조나)에서 발표될 예정입니다. 1) (AAAI 2026) “MASP: Multi-Aspect Guided Emotion Reasoning with Soft Prompt Tuning in Vision-Language Models” 논문은 이상은 졸업생(인공지능융합학과, 現 ETRI 연구원), 이유빈 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model (VLM) 기반 감정 인식이 이미지의 단일 표현이나 제한된 단서에 의존해 세밀한 감정 판단에 어려움을 겪는 문제를 해결하기 위해, 인간의 감정 판단 과정에서 활용되는 여러 시각 단서를 구조적으로 통합하는 MASP를 제안합니다. MASP는 얼굴 표정, 장면, 객체, 색채, 밝기, 행동의 여섯 가지 감정 단서를 독립적으로 인코딩하는 Multi-Aspect Module을 학습하고, 이를 전체 이미지 특징과 결합하여 보다 풍부한 시각 표현을 구성합니다. 기존 연구가 제한된 관점만 활용한 것과 달리, MASP는 여섯 가지 단서를 모두 분리×통합해 더 정교한 감정 해석을 지원합니다. 이후 Soft Prompt Tuning을 통해 언어 모델에 감정 인식에 특화된 추론 구조를 유도함으로써, 기존 대비 높은 정확도와 안정적인 성능을 달성합니다. Soft Prompt는 프롬프트 표현 변화에 대한 강건성을 높여 실제 환경에서도 안정적인 추론을 가능하게 합니다. MASP는 유사 감정 구분이나 소수 클래스 분류와 같은 까다로운 상황에서도 강인한 성능을 보이며, 멀티모달 감정 이해가 필요한 인간-에이전트 상호작용 등 실제 응용 분야에서 높은 활용 가능성을 보여줍니다. 2) (WACV 2026) “Alignment and Distillation: A Robust Framework for Multimodal Domain Generalizable Human Action Recognition” 논문은 지현빈 석사과정생(실감미디어공학과), 이주엽 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Human Action Recognition(HAR) 모델이 단일 모달리티나 정적인 융합 방식에 머물러 실제 환경의 도메인 변화에 취약하다는 문제를 해결하기 위해, 멀티모달 단서를 시간적으로 정렬 및 통합하는 Multimodal Alignment and Distillation for Domain Generalization(MAD-DG) 프레임워크를 제안합니다. 이를 위해 MAD-DG는 두 가지 핵심 요소를 중심으로 보다 안정적인 행동 표현을 학습합니다. 먼저, Segment-Label Aligned Contrastive Learning(SLA-CL)은 RGB, Optical Flow, Audio 간의 비동기적 기록 문제를 Temporal Binding Window 기반으로 보정해 모달리티 간 의미적 대응을 정밀하게 맞춥니다. 이를 통해 센서 지연이나 녹화 불일치로 발생하는 잡음을 줄이고 행동의 핵심 패턴을 강조합니다. 이어서 Online Self-Distillation Temporal Module(OSDTM)은 행동이 시간적으로 여러 단계로 전개된다는 점에 착안해 다양한 길이의 segment tuple을 구성하고, soft attention으로 중요한 조합을 선택합니다. Teacher–student 방식의 self-distillation을 통해 도메인 변화에도 흔들리지 않는 시간적 표현을 형성합니다. MAD-DG는 이러한 모달리티 정렬과 다중 스케일 temporal reasoning을 결합해, 기존 모델이 어려워하던 멀티소스 도메인 일반화나 콘텍스트 제거 환경(Mimetics)에서도 높은 성능을 달성합니다. 특히 Optical Flow 정보를 적극적으로 활용해 실제 행동 중심의 표현을 구성하며, 복잡한 행동 이해나 인간–에이전트 협력 시스템 등 다양한 실사용 환경에서 높은 활용 가능성을 보여줍니다.