Publications

For a complete and up-to-date list, see my Google Scholar and DBLP profiles.

2026

Grounding Computer Use Agents on Human Demonstrations Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Sai Rajeswar, Spandana Gella ICLR 2026 [paper] [website] [code] [dataset]

DRBench: A Realistic Benchmark for Enterprise Deep Research Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Christopher Pal, Alexandre Drouin, Issam H. Laradji ICLR 2026 [paper] [dataset]

StarFlow: Generating Structured Workflow Outputs From Sketch Images Patrice Bechard, Chao Wang, Amirhossein Abaskohi, Juan Rodriguez, Christopher Pal, David Vazquez, Spandana Gella, Sai Rajeswar, Perouz Taslakian EACL 2026 [paper] [website]

2025

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding
Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, …, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar
NeurIPS 2025 [paper] [website]

BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning
Ahmed Masry, Abhay Puri, Masoud Hashemi, Juan A. Rodriguez, …, Perouz Taslakian, Sai Rajeswar, Spandana Gella
COLM 2025 [paper] [website]

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation
Rabiul Awal, Mahsa Massoud, Aarash Feizi, Zichao Li, Suyuchen Wang, Christopher Pal, Aishwarya Agrawal, David Vazquez, Siva Reddy, Juan A. Rodriguez, Perouz Taslakian, Spandana Gella, Sai Rajeswar
EMNLP 2025 [paper] [code]

FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering
Amirhossein Abaskohi, Spandana Gella, Giuseppe Carenini, Issam H. Laradji
EMNLP Findings 2025 [paper] [code]

COLMATE: Contrastive Late Interaction and Masked Text for Multimodal Document Retrieval
Ahmed Masry, Megh Thakkar, Patrice Bechard, Sathwik Tejaswi Madhusudhan, Rabiul Awal, Shambhavi Mishra, Akshay Kalkunte Suresh, Srivatsava Daruru, Enamul Hoque, Spandana Gella, Torsten Scholak, Sai Rajeswar
EMNLP 2025 (Industry Track)

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Juan A. Rodriguez, Montek Kalsi, Rabiul Awal, Nicolas Chapados, M. Tamer Özsu, Aishwarya Agrawal, David Vazquez, Christopher Pal, Perouz Taslakian, Spandana Gella, Sai Rajeswar
ICML 2025 [paper] [website] [code]

SafeArena: Evaluating the Safety of Autonomous Web Agents
Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
ICML 2025 [paper] [website] [code]

BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
Juan A. Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, …, Issam Laradji, Spandana Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar
ICLR 2025 [paper] [website] [code]

2023

Using In-Context Learning to Improve Dialogue Safety
Nicholas Meade, Spandana Gella, Devamanyu Hazarika, Prakhar Gupta, Di Jin, Siva Reddy, Yang Liu, Dilek Hakkani-Tur
EMNLP Findings 2023 [paper]

DialGuide: Aligning Dialogue Model Behavior with Developer Guidelines
Prakhar Gupta, Yang Liu, Di Jin, Behnam Hedayatnia, Spandana Gella, Sijia Liu, Patrick Lange, Julia Hirschberg, Dilek Hakkani-Tur
EMNLP Findings 2023 [paper]

Multimodal Embodied Plan Prediction Augmented with Synthetic Embodied Dialogue
Aishwarya Padmakumar, Mert Inan, Spandana Gella, Patrick L. Lange, Dilek Hakkani-Tur
EMNLP 2023 [paper]

“What do others think?”: Task-Oriented Conversational Modeling with Subjective Knowledge
Chao Zhao, Spandana Gella, Seokhwan Kim, Di Jin, Devamanyu Hazarika, Alexandros Papangelis, Behnam Hedayatnia, Mahdi Namazifar, Yang Liu, Dilek Hakkani-Tur
SIGdial 2023 [paper] [code]

2022

Dialog Acts for Task-Driven Embodied Agents
Spandana Gella, Aishwarya Padmakumar, Patrick Lange, Dilek Hakkani-Tur
SIGdial 2022 [paper] [code]

Analyzing the Limits of Self-Supervision in Handling Bias in Language
Lisa Bauer, Karthik Gopalakrishnan, Spandana Gella, Yang Liu, Mohit Bansal, Dilek Hakkani-Tur
EMNLP Findings 2022 [paper]

TEACh: Task-driven Embodied Agents that Chat
Aishwarya Padmakumar, Jesse Thomason, Ayush Shrivastava, Patrick Lange, Anjali Narayan-Chen, Spandana Gella, Robinson Piramuthu, Gokhan Tur, Dilek Hakkani-Tur
AAAI 2022 [paper] [code]

PG-Story: Taxonomy, Dataset, and Evaluation for Ensuring Child-Safe Content for Story Generation
Alicia Y. Tsai, Shereen Oraby, Anjali Narayan-Chen, Alessandra Cervone, Spandana Gella, Apurv Verma, Tagyoung Chung, Jing Huang, Nanyun Peng
NLP for Positive Impact Workshop @ EMNLP 2022 [paper]

2021

Mind the Context: The Impact of Contextualization in Neural Module Networks for Grounding Visual Referring Expressions
Arjun Akula, Spandana Gella, Keze Wang, Song-Chun Zhu, Siva Reddy
EMNLP 2021 [paper]

2020

An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models
Lifu Tu, Garima Lalwani, Spandana Gella, He He
TACL 2020 [paper]

Words Aren’t Enough, Their Order Matters: On the Robustness of Grounding Visual Referring Expressions
Arjun Akula, Spandana Gella, Yaser Al-Onaizan, Song-Chun Zhu, Siva Reddy
ACL 2020 [paper] [code]

Grounded Sequence-to-Sequence Transduction
Lucia Specia, Raman Arora, Loïc Barrault, Ozan Caglayan, Amanda Duarte, Desmond Elliott, Spandana Gella, Nils Holzenberger, Chiraag Lala, Sun Jae Lee, Jindřich Libovický, Pranava Madhyastha, Florian Metze, Karl Mulligan, Alissa Ostapenko, Shruti Palaskar, Ramon Sanabria, Josiah Wang
IEEE Journal of Selected Topics in Signal Processing 2020

2019

Multimodal Abstractive Summarization for Open-Domain Videos
Shruti Palaskar, Spandana Gella, Florian Metze
ACL 2019 [paper]

Cross-lingual Visual Verb Sense Disambiguation
Spandana Gella, Desmond Elliott, Frank Keller
NAACL 2019 [paper]

Disambiguating Visual Verbs
Spandana Gella, Frank Keller, Mirella Lapata
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2019

2018

A Dataset for Telling the Stories of Social Media Videos
Spandana Gella, Mike Lewis, Marcus Rohrbach
EMNLP 2018 [paper]

An Evaluation of Image-based Verb Prediction Models against Human Eye-tracking Data
Spandana Gella, Frank Keller
NAACL 2018 [paper]

2017

Image Pivoting for Learning Multilingual Multimodal Representations
Spandana Gella, Rico Sennrich, Frank Keller, Mirella Lapata
EMNLP 2017 [paper]

An Analysis of Action Recognition Datasets for Language and Vision Tasks
Spandana Gella, Frank Keller
ACL 2017 [paper]

2016

Unsupervised Visual Sense Disambiguation for Verbs using Multimodal Embeddings
Spandana Gella, Mirella Lapata, Frank Keller
NAACL 2016 [paper]

Viral Spread via Entertainment and Voice-Messaging Among Telephone Users in India
Agha Ali Raza, Rajat Kulshreshtha, Spandana Gella, Sean Blagsvedt, Maya Chandrasekaran, Bhiksha Raj, Roni Rosenfeld
ICTD 2016

2014

“ye word kis lang ka hai bhai?” Testing the Limits of Word level Language Identification
Spandana Gella, Kalika Bali, Monojit Choudhury
ICON 2014

POS Tagging of English-Hindi Code-Mixed Social Media Content
Yogarshi Vyas, Spandana Gella, Jatin Sharma, Kalika Bali, Monojit Choudhury
EMNLP 2014 [paper]

Learning Word Sense Distributions, Detecting Unattested Senses and Identifying Novel Senses Using Topic Models
Jey Han Lau, Paul Cook, Diana McCarthy, Spandana Gella, Timothy Baldwin
ACL 2014 [paper]

One Sense per Tweeter … and Other Lexical Semantic Tales of Twitter
Spandana Gella, Paul Cook, Timothy Baldwin
EACL 2014 [paper]

Mapping WordNet Domains, WordNet Topics and Wikipedia Categories to Generate Multilingual Domain Specific Resources
Spandana Gella, Carlo Strapparava, Vivi Nastase
LREC 2014 [paper]

2013

Unsupervised Word Usage Similarity in Social Media Texts
Spandana Gella, Paul Cook, Bo Han
*SEM 2013 [paper] 🏆 Best Short Paper Award