Paul Primus, Florian Schmid, Gerhard Widmer: TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining. Zenodo 2025