An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos

This is the official implementation of the paper "An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos".

Citation

If you use this code, please cite the following:

@inproceedings{Zhao2020AnEV,
  title={An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos},
  author={Sicheng Zhao and Yunsheng Ma and Yang Gu and Jufeng Yang and Tengfei Xing and Pengfei Xu and Runbo Hu and Hua Chai and Kurt Keutzer},
  booktitle={AAAI},
  year={2020}
}

Requirements

PyTorch (ver. 0.4+ required)
FFmpeg
Python3

Preparation

VideoEmotion-8

Download the videos here.
Convert from mp4 to jpg files using /tools/video2jpg.py
Add n_frames information using /tools/n_frames.py
Generate annotation file in json format using /tools/ve8_json.py
Convert from mp4 to mp3 files using /tools/video2mp3.py

Running the code

Assume the strcture of data directories is the following:

~/
  VideoEmotion8--imgs
    .../ (directories of class names)
      .../ (directories of video names)
        .../ (jpg files)
  VideoEmotion8--mp3
    .../ (directories of class names)
      .../ (mp3 files)
  results
  ve8_01.json

Confirm all options in ~/opts.py.

python main.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
core		core
datasets		datasets
models		models
tools		tools
transforms		transforms
.gitignore		.gitignore
main.py		main.py
opts.py		opts.py
readme.md		readme.md
requirements.txt		requirements.txt
test.py		test.py
train.py		train.py
validation.py		validation.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

core

core

datasets

datasets

models

models

tools

tools

transforms

transforms

.gitignore

.gitignore

main.py

main.py

opts.py

opts.py

readme.md

readme.md

requirements.txt

requirements.txt

test.py

test.py

train.py

train.py

validation.py

validation.py

Repository files navigation

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos

Citation

Requirements

Preparation

VideoEmotion-8

Running the code

About

Releases

Packages

Languages

maysonma/VAANet

Folders and files

Latest commit

History

Repository files navigation

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos

Citation

Requirements

Preparation

VideoEmotion-8

Running the code

About

Resources

Stars

Watchers

Forks

Languages