update OptimLib

kthohr · kthohr · commit a8a87dde13af · 2018-07-10T08:29:59.000-04:00
diff --git a/include/optim/misc/optim_options.hpp b/include/optim/misc/optim_options.hpp
@@ -27,7 +27,7 @@
 #endif
 
 #ifndef OPTIM_VERSION_MINOR
-    #define OPTIM_VERSION_MINOR 1
+    #define OPTIM_VERSION_MINOR 2
 #endif
 
 #ifndef OPTIM_VERSION_PATCH
@@ -78,6 +78,7 @@
 
 namespace optim
 {
+    static const double eps_dbl = std::numeric_limits<double>::epsilon();
     static const double inf = std::numeric_limits<double>::infinity();
     using uint_t = unsigned int;
 }
diff --git a/include/optim/misc/optim_structs.hpp b/include/optim/misc/optim_structs.hpp
@@ -29,12 +29,26 @@ struct gd_settings_t
 {
     // step size, or 'learning rate'
     double step_size = 0.1;
+
+    // decay
     bool step_decay = false;
+
     uint_t step_decay_periods = 10;
     double step_decay_val = 0.5;
 
     // momentum parameter
     double momentum_par = 0.9;
+
+    // Ada parameters
+    double norm_term = 10e-08;
+
+    double ada_rho = 0.9;
+
+    bool ada_max = false;
+
+    // Adam parameters
+    double adam_beta_1 = 0.9;
+    double adam_beta_2 = 0.999;
 };
 
 struct algo_settings_t
@@ -88,7 +102,7 @@ struct algo_settings_t
     arma::vec de_initial_ub; // this will default to  0.5
 
     // GD
-    int gd_method = 1;
+    int gd_method = 0;
     gd_settings_t gd_settings;
 
     // L-BFGS
diff --git a/include/optim/misc/transform_vals.hpp b/include/optim/misc/transform_vals.hpp
@@ -17,7 +17,7 @@
   ##   limitations under the License.
   ##
   ################################################################################*/
- 
+
 /*
  * transform values
  */
@@ -38,13 +38,13 @@ transform(const arma::vec& vals_inp, const arma::uvec& bounds_type, const arma::
                 vals_trans_out(i) = vals_inp(i);
                 break;
             case 2: // lower bound only
-                vals_trans_out(i) = std::log(vals_inp(i) - lower_bounds(i));
+                vals_trans_out(i) = std::log(vals_inp(i) - lower_bounds(i) + eps_dbl);
                 break;
             case 3: // upper bound only
-                vals_trans_out(i) = - std::log(upper_bounds(i) - vals_inp(i));
+                vals_trans_out(i) = - std::log(upper_bounds(i) - vals_inp(i) + eps_dbl);
                 break;
             case 4: // upper and lower bounds
-                vals_trans_out(i) = std::log(vals_inp(i) - lower_bounds(i)) - std::log(upper_bounds(i) - vals_inp(i));
+                vals_trans_out(i) = std::log(vals_inp(i) - lower_bounds(i) + eps_dbl) - std::log(upper_bounds(i) - vals_inp(i) + eps_dbl);
                 break;
         }
     }
@@ -70,26 +70,56 @@ inv_transform(const arma::vec& vals_trans_inp, const arma::uvec& bounds_type, co
                 vals_out(i) = vals_trans_inp(i);
                 break;
             case 2: // lower bound only
-                vals_out(i) = lower_bounds(i) + std::exp(vals_trans_inp(i));
+                if (!std::isfinite(vals_trans_inp(i)))
+                {
+                    vals_out(i) = lower_bounds(i) + eps_dbl;
+                }
+                else
+                {
+                    vals_out(i) = lower_bounds(i) + eps_dbl + std::exp(vals_trans_inp(i));
+                }
                 break;
             case 3: // upper bound only
-                vals_out(i) = upper_bounds(i) - std::exp(-vals_trans_inp(i));
+                if (!std::isfinite(vals_trans_inp(i)))
+                {
+                    vals_out(i) = upper_bounds(i) - eps_dbl;
+                }
+                else
+                {
+                    vals_out(i) = upper_bounds(i) - eps_dbl - std::exp(-vals_trans_inp(i));
+                }
                 break;
             case 4: // upper and lower bounds
-                if (!std::isfinite(vals_trans_inp(i))) {
-                    if (vals_trans_inp(i) < 0.0) {
-                        vals_out(i) = lower_bounds(i);
-                    } else {
-                        vals_out(i) = upper_bounds(i);
+                if (!std::isfinite(vals_trans_inp(i)))
+                {
+                    if (std::isnan(vals_trans_inp(i)))
+                    {
+                        vals_out(i) = (upper_bounds(i) - lower_bounds(i)) / 2.0;
+                    }
+                    else if (vals_trans_inp(i) < 0.0)
+                    {
+                        vals_out(i) = lower_bounds(i) + eps_dbl;
+                    }
+                    else
+                    {
+                        vals_out(i) = upper_bounds(i) - eps_dbl;
+                    }
+                }
+                else
+                {
+                    vals_out(i) = ( lower_bounds(i) + eps_dbl + (upper_bounds(i) - eps_dbl)*std::exp(vals_trans_inp(i)) ) \
+                                    / ( 1.0 + std::exp(vals_trans_inp(i)) );
+
+                    if (!std::isfinite(vals_out(i)))
+                    {
+                        vals_out(i) = upper_bounds(i) - eps_dbl;
                     }
-                } else {
-                    vals_out(i) = ( lower_bounds(i) + upper_bounds(i)*std::exp(vals_trans_inp(i)) ) / ( 1 + std::exp(vals_trans_inp(i)) );
                 }
                 break;
         }
     }
 
     //
-    
+
     return vals_out;
 }
diff --git a/include/optim/unconstrained/gd.hpp b/include/optim/unconstrained/gd.hpp
@@ -31,7 +31,140 @@ bool gd(arma::vec& init_out_vals, std::function<double (const arma::vec& vals_in
 bool gd(arma::vec& init_out_vals, std::function<double (const arma::vec& vals_inp, arma::vec* grad_out, void* opt_data)> opt_objfn, void* opt_data, algo_settings_t& settings);
 
 // internal update function
-arma::vec gd_update(const arma::vec& grad, const arma::vec& grad_p, const arma::vec& direc, 
-                    const uint_t iter, const uint_t gd_method_inp, gd_settings_t& gd_settings);
+
+inline
+arma::vec
+gd_update(const arma::vec& vals_inp, const arma::vec& grad, const arma::vec& grad_p, const arma::vec& direc,
+          std::function<double (const arma::vec& vals_inp, arma::vec* grad_out, void* opt_data)> box_objfn, void* opt_data,
+          const uint_t iter, const uint_t gd_method, gd_settings_t& gd_settings,
+          arma::vec& adam_vec_m, arma::vec& adam_vec_v)
+{
+    arma::vec direc_out; // direction
+
+    if (gd_settings.step_decay)
+    {
+        if (iter % gd_settings.step_decay_periods == 0)
+        {
+            gd_settings.step_size *= gd_settings.step_decay_val;
+        }
+    }
+
+    switch (gd_method)
+    {
+        case 0: // basic
+        {
+            direc_out = gd_settings.step_size * grad_p;
+            break;
+        }
+
+        case 1: // momentum
+        {
+            // direc_out = gd_settings.step_size * (gd_settings.momentum_par * direc + grad_p);
+            direc_out = gd_settings.momentum_par * direc + gd_settings.step_size * grad_p;
+            break;
+        }
+
+        case 2: // Nesterov accelerated gradient
+        {
+            arma::vec NAG_grad(vals_inp.n_elem);
+            box_objfn(vals_inp - gd_settings.momentum_par * direc, &NAG_grad, opt_data);
+
+            // direc_out = gd_settings.step_size * (gd_settings.momentum_par * direc + NAG_grad);
+            direc_out = gd_settings.momentum_par * direc + gd_settings.step_size * NAG_grad;
+            break;
+        }
+
+        case 3: // AdaGrad
+        {
+            adam_vec_v += arma::pow(grad_p,2);
+
+            direc_out = gd_settings.step_size * grad_p / (arma::sqrt(adam_vec_v) + gd_settings.norm_term);
+            break;
+        }
+
+        case 4: // RMSProp
+        {
+            adam_vec_v = gd_settings.ada_rho * adam_vec_v + (1.0 - gd_settings.ada_rho) * arma::pow(grad_p,2);
+
+            direc_out = gd_settings.step_size * grad_p / (arma::sqrt(adam_vec_v) + gd_settings.norm_term);
+            break;
+        }
+
+        case 5: // Adadelta
+        {
+            if (iter == 1) {
+                adam_vec_m += gd_settings.step_size;
+            }
+            adam_vec_v = gd_settings.ada_rho * adam_vec_v + (1.0 - gd_settings.ada_rho) * arma::pow(grad_p,2);
+
+            direc_out = grad_p % (arma::sqrt(adam_vec_m) + gd_settings.norm_term) / (arma::sqrt(adam_vec_v) + gd_settings.norm_term);
+
+            adam_vec_m = gd_settings.ada_rho * adam_vec_m + (1.0 - gd_settings.ada_rho) * arma::pow(direc_out,2);
+            break;
+        }
+
+        case 6: // Adam and AdaMax
+        {
+            adam_vec_m = gd_settings.adam_beta_1 * adam_vec_m + (1.0 - gd_settings.adam_beta_1) * grad_p;
+
+            if (gd_settings.ada_max)
+            {
+                adam_vec_v = arma::max(gd_settings.adam_beta_2 * adam_vec_v, arma::abs(grad_p));
+
+                double adam_step_size = gd_settings.step_size / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+
+                direc_out = adam_step_size * adam_vec_m / (adam_vec_v + gd_settings.norm_term);
+            }
+            else
+            {
+                double adam_step_size = gd_settings.step_size * std::sqrt(1.0 - std::pow(gd_settings.adam_beta_2,iter)) \
+                                     / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+
+                adam_vec_v = gd_settings.adam_beta_2 * adam_vec_v + (1.0 - gd_settings.adam_beta_2) * arma::pow(grad_p,2);
+
+                direc_out = adam_step_size * adam_vec_m / (arma::sqrt(adam_vec_v) + gd_settings.norm_term);
+            }
+
+            break;
+        }
+
+        case 7: // Nadam and NadaMax
+        {
+            adam_vec_m = gd_settings.adam_beta_1 * adam_vec_m + (1.0 - gd_settings.adam_beta_1) * grad_p;
+
+            if (gd_settings.ada_max)
+            {
+                adam_vec_v = arma::max(gd_settings.adam_beta_2 * adam_vec_v, arma::abs(grad_p));
+
+                arma::vec m_hat = adam_vec_m / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+                arma::vec grad_hat = grad_p / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+
+                direc_out = gd_settings.step_size * ( gd_settings.adam_beta_1 * m_hat + (1.0 - gd_settings.adam_beta_1) * grad_hat ) \
+                            / (adam_vec_v + gd_settings.norm_term);
+            }
+            else
+            {
+                adam_vec_v = gd_settings.adam_beta_2 * adam_vec_v + (1.0 - gd_settings.adam_beta_2) * arma::pow(grad_p,2);
+
+                arma::vec m_hat = adam_vec_m / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+                arma::vec v_hat = adam_vec_v / (1.0 - std::pow(gd_settings.adam_beta_2,iter));
+                arma::vec grad_hat = grad_p / (1.0 - std::pow(gd_settings.adam_beta_1,iter));
+
+                direc_out = gd_settings.step_size * ( gd_settings.adam_beta_1 * m_hat + (1.0 - gd_settings.adam_beta_1) * grad_hat ) \
+                            / (arma::sqrt(v_hat) + gd_settings.norm_term);
+            }
+
+            break;
+        }
+
+        default:
+        {
+            printf("error: unknown value for gd_method");
+            break;
+        }
+    }
+
+    return direc_out;
+}
 
 #endif
diff --git a/src/optim/unconstrained/bfgs.cpp b/src/optim/unconstrained/bfgs.cpp
@@ -73,9 +73,11 @@ optim::bfgs_int(arma::vec& init_out_vals, std::function<double (const arma::vec&
 
                 ret = opt_objfn(vals_inv_trans,&grad_obj,opt_data);
 
-                arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);
+                // arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);
+                arma::vec jacob_vec = arma::diagvec(jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds));
 
-                *grad_out = jacob_matrix * grad_obj; // no need for transpose as jacob_matrix is diagonal
+                // *grad_out = jacob_matrix * grad_obj; // no need for transpose as jacob_matrix is diagonal
+                *grad_out = jacob_vec % grad_obj;
             }
             else
             {
diff --git a/src/optim/unconstrained/cg.cpp b/src/optim/unconstrained/cg.cpp
@@ -65,30 +65,33 @@ optim::cg_int(arma::vec& init_out_vals, std::function<double (const arma::vec& v
     = [opt_objfn, vals_bound, bounds_type, lower_bounds, upper_bounds] (const arma::vec& vals_inp, arma::vec* grad_out, void* opt_data) \
     -> double 
     {
-        if (vals_bound) {
-
+        if (vals_bound)
+        {
             arma::vec vals_inv_trans = inv_transform(vals_inp, bounds_type, lower_bounds, upper_bounds);
-            
             double ret;
             
-            if (grad_out) {
+            if (grad_out)
+            {
                 arma::vec grad_obj = *grad_out;
 
                 ret = opt_objfn(vals_inv_trans,&grad_obj,opt_data);
 
-                arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);
+                // arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);
+                arma::vec jacob_vec = arma::diagvec(jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds));
 
-                // *grad_out = jacob_matrix.t() * grad_obj; // correct gradient for transformation
-                *grad_out = jacob_matrix * grad_obj; // no need for transpose as jacob_matrix is diagonal
-            } else {
+                // *grad_out = jacob_matrix * grad_obj; // no need for transpose as jacob_matrix is diagonal
+                *grad_out = jacob_vec % grad_obj;
+            }
+            else
+            {
                 ret = opt_objfn(vals_inv_trans,nullptr,opt_data);
             }
 
             return ret;
-        } else {
-            double ret = opt_objfn(vals_inp,grad_out,opt_data);
-
-            return ret;
+        }
+        else
+        {
+            return opt_objfn(vals_inp,grad_out,opt_data);
         }
     };
 
diff --git a/src/optim/unconstrained/de_prmm.cpp b/src/optim/unconstrained/de_prmm.cpp
@@ -82,11 +82,14 @@ optim::de_prmm_int(arma::vec& init_out_vals, std::function<double (const arma::v
     = [opt_objfn, vals_bound, bounds_type, lower_bounds, upper_bounds] (const arma::vec& vals_inp, arma::vec* grad_out, void* opt_data) \
     -> double 
     {
-        if (vals_bound) {
+        if (vals_bound)
+        {
             arma::vec vals_inv_trans = inv_transform(vals_inp, bounds_type, lower_bounds, upper_bounds);
             
             return opt_objfn(vals_inv_trans,nullptr,opt_data);
-        } else {
+        }
+        else
+        {
             return opt_objfn(vals_inp,nullptr,opt_data);
         }
     };
diff --git a/src/optim/unconstrained/gd.cpp b/src/optim/unconstrained/gd.cpp
diff --git a/src/optim/unconstrained/lbfgs.cpp b/src/optim/unconstrained/lbfgs.cpp
diff --git a/src/optim/unconstrained/nm.cpp b/src/optim/unconstrained/nm.cpp

Original file line number	Diff line number	Diff line change
`@@ -27,7 +27,7 @@`
`27`	`27`	`#endif`
`28`	`28`
`29`	`29`	`#ifndef OPTIM_VERSION_MINOR`
`30`		`- #define OPTIM_VERSION_MINOR 1`
	`30`	`+ #define OPTIM_VERSION_MINOR 2`
`31`	`31`	`#endif`
`32`	`32`
`33`	`33`	`#ifndef OPTIM_VERSION_PATCH`
`@@ -78,6 +78,7 @@`
`78`	`78`
`79`	`79`	`namespace optim`
`80`	`80`	`{`
	`81`	`+ static const double eps_dbl = std::numeric_limits<double>::epsilon();`
`81`	`82`	`static const double inf = std::numeric_limits<double>::infinity();`
`82`	`83`	`using uint_t = unsigned int;`
`83`	`84`	`}`
Original file line number	Diff line number	Diff line change
`@@ -73,9 +73,11 @@ optim::bfgs_int(arma::vec& init_out_vals, std::function<double (const arma::vec&`
`73`	`73`
`74`	`74`	`ret = opt_objfn(vals_inv_trans,&grad_obj,opt_data);`
`75`	`75`
`76`		`- arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);`
	`76`	`+ // arma::mat jacob_matrix = jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds);`
	`77`	`+ arma::vec jacob_vec = arma::diagvec(jacobian_adjust(vals_inp,bounds_type,lower_bounds,upper_bounds));`
`77`	`78`
`78`		`- grad_out = jacob_matrix grad_obj; // no need for transpose as jacob_matrix is diagonal`
	`79`	`+ // grad_out = jacob_matrix grad_obj; // no need for transpose as jacob_matrix is diagonal`
	`80`	`+ *grad_out = jacob_vec % grad_obj;`
`79`	`81`	`}`
`80`	`82`	`else`
`81`	`83`	`{`