🧠 Visual Question Answering

This project implements a Visual Question Answering (VQA) pipeline using two model architectures:

🔹 LSTM + CNN
🔸 Attention

📁 Dataset

The dataset used for this project is the COCO-QA dataset.

🔧 Setup

1. Create a virtual environment

python -m venv vqa_env
source vqa_env/bin/activate

2. Install the required packages

pip install -r requirements.txt

3. Download the dataset

python data/cocoqa_preprocess.py

🧼 Preprocessing

1. Create Question Features

python data/preprocessing.py

2. Create Image Features

Run notebook: data/processing.ipynb on Kaggle/Colab to use GPU for faster processing.

🚀 Training

1. LSTM + Multimodal Fusion

python train_lstm.py --batch_size 16 --max_epochs 1000

2. Attention

python train_attention.py --batch_size 16 --max_epochs 1000

🧪 Evaluation

You can use notebook vqa_main.ipynb for end-to-end training and evaluation.

📄 References

[1] VQA: Visual Question Answering (Agrawal et al, 2016): https://arxiv.org/pdf/1505.00468v6.pdf
[2] Hierarchical Question-Image Co-Attention for Visual Question Answering (Lu et al, 2017): https://arxiv.org/pdf/1606.00061.pdf

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
data		data
datasets		datasets
eval		eval
images		images
models		models
notebook		notebook
utils		utils
.gitignore		.gitignore
README.md		README.md
config.py		config.py
requirements.txt		requirements.txt
train_coattention.py		train_coattention.py
train_lstm.py		train_lstm.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠 Visual Question Answering

📁 Dataset

🔧 Setup

1. Create a virtual environment

2. Install the required packages

3. Download the dataset

🧼 Preprocessing

1. Create Question Features

2. Create Image Features

🚀 Training

1. LSTM + Multimodal Fusion

2. Attention

🧪 Evaluation

📄 References

About

Uh oh!

Releases

Packages

Uh oh!

Languages

johnPa02/vqa_project

Folders and files

Latest commit

History

Repository files navigation

🧠 Visual Question Answering

📁 Dataset

🔧 Setup

1. Create a virtual environment

2. Install the required packages

3. Download the dataset

🧼 Preprocessing

1. Create Question Features

2. Create Image Features

🚀 Training

1. LSTM + Multimodal Fusion

2. Attention

🧪 Evaluation

📄 References

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages