TeMTG: Text-Enhanced Multi-Hop Temporal Graph Modeling for Audio-Visual Video Parsing

Yaru Chen, Peiliang Zhang, Fei Li, Faegheh Sardari, Ruohao Guo, Zhenbo Li, Wenwu Wang

ICMR (CCF B), 2025.

Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation

Jinxing Zhou, Zhihui Li, Yongqiang Yu, Yanghao Zhou, Ruohao Guo, Guangyao Li, Yuxin Mao, Mingfei Han, Xiaojun Chang, Meng Wang

ArXiv, 2025.

[Paper]

Multi-modal Prompt Alignment with Fine-grained LLM Knowledge for Unsupervised Domain Adaptation

Bowei Xing, Xianghua Ying, Ruibin Wang, Ruohao Guo

IJCV (CCF A, IF=9.3, TOP), 2025.

[Paper]

OLinear: A Linear Model for Time Series Forecasting in Orthogonally Transformed Domain

Wenzhen Yue, Yong Liu, Haoxuan Li, Hao Wang, Xianghua Ying, Ruohao Guo, Bowei Xing, Ji Shi

ArXiv, 2025.

[Paper] [Code]

SalienTR: A Closer Look at Multi-Modal Transformer for RGB-T Salient Object Detection

Ruohao Guo, Wenzhen Yue, Liao Qu, Yanyu Qi, Dantong Niu, Xianghua Ying

Expert Systems with Applications (IF=7.5, TOP), 2025.

[Paper]

Audio-Visual Instance Segmentation

Ruohao Guo, Xianghua Ying*, Yaru Chen, Dantong Niu, Guangyao Li, Liao Qu, Yanyu Qi, Jinxing Zhou, Bowei Xing, Wenzhen Yue, Ji Shi, Qixun Wang, Peiliang Zhang, Buwen Liang

CVPR (CCF A), 2025.

[Paper] [Project] [Code]

Towards Open-Vocabulary Audio-Visual Event Localization

Jinxing Zhou, Dan Guo, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang*

CVPR (CCF A), 2025.

[Paper] [Code]

FreEformer: Frequency Enhanced Transformer for Multivariate Time Series Forecasting

Wenzhen Yue, Yong Liu, Xianghua Ying*, Bowei Xing, Ruohao Guo, Ji Shi

IJCAI (CCF A), 2025.

[Paper]

Normal-NeRF: Ambiguity-Robust Normal Estimation for Highly Reflective Scenes

Ji Shi, Xianghua Ying*, Ruohao Guo, Bowei Xing, Wenzhen Yue

AAAI (CCF A), 2025.

[Paper] [Code]

Open-Vocabulary Audio-Visual Semantic Segmentation

Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying*

ACM MM (CCF A, Oral), 2024.

[Paper] [Code]

Instance-Level Panoramic Audio-Visual Saliency Detection and Ranking

Ruohao Guo, Dantong Niu, Liao Qu, Yanyu Qi, Ji Shi, Wenzhen Yue, Bowei Xing, Taiyan Chen, Xianghua Ying*

ACM MM (CCF A), 2024.

[Paper] [Code]

Hierarchical Unsupervised Relation Distillation for Source Free Domain Adaptation

Bowei Xing, Xianghua Ying*, Ruibin Wang, Ruohao Guo, Ji Shi, Wenzhen Yue

ECCV (CCF B), 2025.

[Paper]

Sub-Adjacent Transformer: Improving Time Series Anomaly Detection with Reconstruction Error from Sub-Adjacent Neighborhoods

Wenzhen Yue, Xianghua Ying*, Ruohao Guo, DongDong Chen, Ji Shi, Bowei Xing, Yuqing Zhu, Taiyan Chen

IJCAI (CCF A), 2024.

[Paper]

VPDETR: End-to-End Vanishing Point DEtection TRansformers

Taiyan Chen, Xianghua Ying*, Jinfa Yang, Ruibin Wang, Ruohao Guo, Bowei Xing, Ji Shi

AAAI (CCF A), 2024.

[Project] [Paper]

UniTR: A Unified TRansformer-based Framework for Co-object and Multi-modal Saliency Detection

Ruohao Guo, Xianghua Ying*, Yanyu Qi, Liao Qu

TMM (IF=8.4, TOP, CCF B), 2024.

[Paper] [Code]

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

Yaru Chen, Ruohao Guo, Xubo Liu, Peipei Wu, Guangyao Li, Zhenbo Li, Wenwu Wang*

ICASSP (CCF B), 2022.

[Paper]

Morié attack (ma): A new potential risk of screen photos

Dantong Niu, Ruohao Guo, Yisen Wang*

NeurIPS (CCF A), 2021.

[Paper] [Code]

Sotr: Segmenting objects with transformers

Ruohao Guo, Dantong Niu, Liao Qu, Zhenbo Li*

ICCV (CCF A), 2021.

[Paper] [Code]

Leafmask: Towards greater accuracy on leaf segmentation

Ruohao Guo, Liao Qu, Dantong Niu, Zhenbo Li*, Jun Yue

ICCV Workshop, 2021.

[Paper] [Code]

A high-precision detection method of hydroponic lettuce seedlings status based on improved Faster RCNN

Zhenbo Li*, Ye Li, Yongbo Yang, Ruohao Guo, Jinqi Yang, Jun Yue, Yizhe Wang

Computers and Electronics in Agriculture (IF=7.7, TOP), 2021.

[Paper]

A solanaceae disease recognition model based on SE-Inception

Zhenbo Li*, Yongbo Yang, Ye Li, Ruohao Guo, Jinqi Yang, Jun Yue

Computers and Electronics in Agriculture (IF=7.7, TOP). 2020.

[Paper]

A review of computer vision technologies for plant phenotyping

Zhenbo Li* (Adviser), Ruohao Guo, Meng Li, Yaru Chen, Guangyao Li

Computers and Electronics in Agriculture (IF=7.7, TOP), 2020.

[Paper]

Ruohao Guo

PhD Candidate

Peking University

Biography

News

Selected Publications

TeMTG: Text-Enhanced Multi-Hop Temporal Graph Modeling for Audio-Visual Video Parsing

Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation

Multi-modal Prompt Alignment with Fine-grained LLM Knowledge for Unsupervised Domain Adaptation

OLinear: A Linear Model for Time Series Forecasting in Orthogonally Transformed Domain

SalienTR: A Closer Look at Multi-Modal Transformer for RGB-T Salient Object Detection

Audio-Visual Instance Segmentation

Towards Open-Vocabulary Audio-Visual Event Localization

FreEformer: Frequency Enhanced Transformer for Multivariate Time Series Forecasting

Normal-NeRF: Ambiguity-Robust Normal Estimation for Highly Reflective Scenes

Open-Vocabulary Audio-Visual Semantic Segmentation

Instance-Level Panoramic Audio-Visual Saliency Detection and Ranking

Hierarchical Unsupervised Relation Distillation for Source Free Domain Adaptation

Sub-Adjacent Transformer: Improving Time Series Anomaly Detection with Reconstruction Error from Sub-Adjacent Neighborhoods

VPDETR: End-to-End Vanishing Point DEtection TRansformers

UniTR: A Unified TRansformer-based Framework for Co-object and Multi-modal Saliency Detection

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

Morié attack (ma): A new potential risk of screen photos

Sotr: Segmenting objects with transformers

Leafmask: Towards greater accuracy on leaf segmentation

A high-precision detection method of hydroponic lettuce seedlings status based on improved Faster RCNN

A solanaceae disease recognition model based on SE-Inception

A review of computer vision technologies for plant phenotyping

Service

Contact