experiments.conf

# Word embeddings.
glove_300d {
  path = data/glove.840B.300d.txt
  size = 300
}
glove_300d_filtered {
  path = data/glove.840B.300d.txt.filtered
  size = 300
}
glove_300d_2w {
  path = data/glove_50_300_2.txt
  size = 300
}
glove_300d_2w_filtered {
  path = data/glove_50_300_2.txt.filtered
  size = 300
}

# Main configuration.
best {
  # Computation limits.
  max_top_antecedents = 50
  max_training_sentences = 50
  top_span_ratio = 0.4

  # Model hyperparameters.
  filter_widths = [3, 4, 5]
  filter_size = 50
  char_embedding_size = 8
  char_vocab_path = "data/char_vocab.txt"
  context_embeddings = ${glove_300d_filtered}
  head_embeddings = ${glove_300d_2w_filtered}
  contextualization_size = 200
  contextualization_layers = 3
  ffnn_size = 150
  ffnn_depth = 2
  feature_size = 20
  max_span_width = 20
  use_metadata = true
  use_features = true
  model_heads = true
  coref_depth = 2
  lm_layers = 3
  lm_size = 1024

  num_cdd_pool = 30
  use_im = true
  im_emb_size = 512
  vis_weight = 0.4
  ffnn_size_im = 100
  ffnn_depth_im = 1

  # End-to-End + Visual baseline
  use_im_fc = false
  im_fc_feat_path = data/resnet152_feat.hdf5
  im_fc_feat_size = 2048
  im_layer = 0
  im_fc_emb_size = 512
  im_dropout_rate = 0

  # Learning hyperparameters.
  max_gradient_norm = 5.0
  lstm_dropout_rate = 0.4
  lexical_dropout_rate = 0.5
  dropout_rate = 0.2
  optimizer = adam
  learning_rate = 0.001
  decay_rate = 0.999
  decay_frequency = 100
  random_seed = 2019
  max_step = 50000

  # Other.
  train_path = data/train.vispro.1.1.jsonlines
  eval_path = data/val.vispro.1.1.jsonlines
  lm_path = data/elmo_cache.vispro.hdf5
  cdd_path = data/cdd_np.vispro.1.1.jsonlines
  lm_cdd_path = data/elmo_cache.vispro_cdd.hdf5
  im_obj_label_path = data/mscoco_label.jsonlines
  lm_obj_path = data/elmo_cache.vispro_mscoco.hdf5
  eval_frequency = 5000
  report_frequency = 100
  log_root = /home/yuxintong/pr4vd/Visual_PCR/logs
}

best_predict = ${best} {
  context_embeddings = ${glove_300d}
  head_embeddings = ${glove_300d_2w}
}

e2e_baseline = ${best} {
  use_im = false
}

e2e_visual_baseline = ${best} {
  use_im_fc = true
}