Multimodal & Speech

Vision-language, multimodal models, speech recognition, text-to-speech, audio generation.

All papers

Min rating

Sort

BioX-Bridge: Model Bridging for Unsupervised Cross-Modal Knowledge Transfer across Biosignals

BioX-Bridge enables parameter-efficient cross-modal knowledge transfer across biosignals using lightweight prototype-based bridge networks between foundation models.

Avg rating: 6.00 (4–8) · Chenqi Li et al.

EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

PAPL aligns discrete diffusion training with planning-based inference via planned ELBO for improved text and protein generation.

Avg rating: 5.60 (4–8) · Xuan Ju et al.

Latent Fourier Transform

LatentFT provides frequency-domain controls for generative music via diffusion autoencoder with latent-space Fourier transform enabling timescale-based manipulation.

Avg rating: 5.00 (2–8) · Mason Long Wang et al.

Latent Speech-Text Transformer

Aggregates speech tokens into latent patches for efficient speech-text modeling with cross-modal alignment.

Avg rating: 6.00 (2–10) · Yen-Ju Lu et al.

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

MetaEmbed uses learnable meta tokens with matryoshka training to enable test-time scaling for multimodal retrieval balancing quality and efficiency.

Avg rating: 7.00 (6–8) · Zilin Xiao et al.

Multimodal Aligned Semantic Knowledge for Unpaired Image-text Matching

MASK aligns semantic knowledge between images and text using word embeddings as bridges to match out-of-distribution words in unpaired matching.

Avg rating: 6.67 (6–8) · Laiguo Yin et al.

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

ScaleCUA scales open-source computer use agents with cross-platform dataset and dual-loop data pipeline.

Avg rating: 6.80 (6–10) · Zhaoyang Liu et al.

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

UALM unified audio language model handles understanding, text-to-audio generation, and multimodal reasoning in single model with UALM-Reason for cross-modal generative reasoning.

Avg rating: 6.00 (2–8) · Jinchuan Tian et al.

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

Presents VibeVoice for zero-shot expressive long-form multi-speaker podcast generation using next-token diffusion.

Avg rating: 6.67 (2–8) · Zhiliang Peng et al.