Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon: VICTR: Visual Information Captured Text Representation for Text-to-Vision Multimodal Tasks. COLING 2020: 3107-3117