From 9867fdad8a3c2794571055f80fc513f141489e6c Mon Sep 17 00:00:00 2001
From: joshkamm <joshkamm@umich.edu>
Date: Wed, 25 Feb 2026 16:24:59 -0500
Subject: [PATCH] Paul's Feb 2026 updates: expanded becke/gauss integrals,
 hessian, and cintwrapper

Major additions to becke.cpp and gauss.cpp with new integral routines,
expanded integrals.cpp functionality, hessian updates, and libcint
wrapper enhancements. Header files updated accordingly.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 env.set.local0                  |   10 +-
 include/becke.h                 |   19 +-
 include/cintprep.h              |   10 +-
 include/cintwrapper.h           |   17 +-
 include/elements.h              |    2 +-
 include/gauss.h                 |    1 +
 include/integrals.h             |    2 +-
 src/integrals/becke.cpp         | 1503 +++++++++++++++++++++++++++++--
 src/integrals/gauss.cpp         |  543 ++++++++++-
 src/integrals/hess.cpp          |   26 +-
 src/integrals/integrals.cpp     |  304 +++++--
 src/integrals/integrals_aux.cpp |    4 +-
 src/integrals/sphericald.cpp    |    2 +-
 src/integrals/symm.cpp          |    2 +-
 src/libcintw/cintprep.cpp       |    8 +-
 src/libcintw/cintwrapper.cpp    |  137 ++-
 16 files changed, 2348 insertions(+), 242 deletions(-)
diff --git a/env.set.local0 b/env.set.local0
index 29651d9..24ab402 100644
--- a/env.set.local0
+++ b/env.set.local0
@@ -1,6 +1,6 @@
 #!/bin/bash
 
-#! Note: Hardcoded paths are for use on the Zimmerman lab cluster, Athena, which runs Rocky Linux 8. 
+#! Note: Hardcoded paths are for use on the Zimmerman lab cluster, Athena, which runs Rocky Linux 8.
 #!       Other systems may require different paths.
 
 # NVHPC 20.7-21.9, and SDK 24.9-24.11  (and respective openmpi versions) have been found to successfully compile.
@@ -9,12 +9,14 @@ module load nvidia-sdk/25.5
 # Cmake 3.15 and above is required.
 module load cmake
 
-# Add libcint to PATH for GTO evaluation. 
+# Add libcint to PATH for GTO evaluation.
 #! Note: Libcint version 5.3.0 is required for SlaterGPU.
 
 #module load libcint
-export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/ndmeier/libraries/libcint/lib64
-export LIBCINT_PATH=/home/ndmeier/libraries/libcint
+#export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/ndmeier/libraries/libcint/lib64
+#export LIBCINT_PATH=/home/ndmeier/libraries/libcint
+export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/paulzim/libcint-master/
+export LIBCINT_PATH=/home/paulzim/libcint-master/
 
 
 #OpenBLAS is also required for libcint/libcintw operations. Some systems automatically source this, but you may need to explicitly point to it.
diff --git a/include/becke.h b/include/becke.h
index 5c72108..54d349a 100644
--- a/include/becke.h
+++ b/include/becke.h
@@ -38,10 +38,21 @@ void compute_rhod(int natoms, int* atno, double* coords, vector<vector<double> >
 void compute_rhod(int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, float* grid, double* rho, double* drho, int prl);
 void compute_rho(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, float* grid, double* rho, double* drho, int prl);
 void compute_rhodg(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* rho, double* drho, int prl);
+void compute_lap_hessg(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* lapl, double* hess, int prl);
 
-void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int gsa, double* grid, double* Pao, double* hessw, double* lapl, int htype, double* hessp, int prl);
-void compute_delt(int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* delt, int prl);
-void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, double* Paodt,
+
+//finite difference Hessian
+void get_hessian_fd_grid(const double dx, int gsa, double* grid, double* gridh);
+void eval_hessian_fd(double dx, int gsh, double* vals, double* fdvals, int gsa, double* hess);
+void eval_grad_hessian_fd(double dx, int gsh, double* vals, double* fdvals, int gsa, double* grad, double* hess);
+//finite difference gradient
+void get_fd_grid(const double dx, int gsa, double* grid, double* gridh);
+void eval_grad_fd(double dx, int gsh, double* fdvals, int gsa, double* valg);
+
+
+void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int gsa, double* grid, double* Pao, double* rhohess, double* hessw, double* lapl, int htype, double* hessp, int prl);
+void compute_delt(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* delt, int prl);
+void compute_B_field(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, double* Pao, double* Paodt,
                      int nrad, int nang, double* ang_g, double* ang_w, int gsa, double* grid, double* B, int prl);
 
 void compute_fxcd(int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool gga, bool tau, bool need_wt, double* Pao,
@@ -58,6 +69,8 @@ void compute_fxc (int natoms, int* atno, double* coords, vector<vector<double> >
 //                  float* grid, float* wt, float* vxc, float* vxcs, double* fxc, int prl);
 void compute_fxc (bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool need_wt, bool gga, double* Pao, int gsa,
                   float* grid, float* wt, double* vxc, double* vxcs, double* fxc, int prl);
+void compute_fxcd(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool need_wt, bool gga,
+                 double* Pao, int gs, double* grid, double* wt, double* vxc, double* vxcs, double* fxc, int prl);
 
 
 void compute_delta(int natoms, int* atno, double* coords, vector<vector<double> > &basis1, vector<vector<double> > &basis2, int No, double* jCA, bool gga, bool tau, float* rho, int gsa, float* grid, float* wt, double* diff, int prl);
diff --git a/include/cintprep.h b/include/cintprep.h
index ab947e3..710211b 100644
--- a/include/cintprep.h
+++ b/include/cintprep.h
@@ -37,7 +37,7 @@ class CINTPrep {
     int var_dim_ri;
     int nbas_ri;
     int nenv_ri;
-  
+
   public:
     CINTPrep(bool doing_ri = false);
     ~CINTPrep();
@@ -50,8 +50,8 @@ class CINTPrep {
     void set_atm(int *&atm_in);
     void set_bas(int *&bas_in);
     void set_env(double *&env_in);
-    void assign_coords(int natoms, int *atomlist, double *coords, bool in_bohr = true); 
-    void assign_coords(int natoms, int *atomlist, float *coords, bool in_bohr = true); 
+    void assign_coords(int natoms, int *atomlist, double *coords, bool in_bohr = true);
+    void assign_coords(int natoms, int *atomlist, float *coords, bool in_bohr = true);
 
     //RI funcs
     int get_var_dim_ri();
@@ -65,11 +65,11 @@ class CINTPrep {
 
     void copy_atoms(vector< int > &atoms_copy);
     void copy_coord(vector< double > &coord_copy);
- 
+
     unordered_map<short, short> anum_to_N;
 };
 
-// TODO 
+// TODO
 // 1. do ri stuff
 // 2. probably should have read_xyz/read_bas take in filenames
 //    and manage memory associated with atm/env
diff --git a/include/cintwrapper.h b/include/cintwrapper.h
index fa7a85c..ef600a7 100644
--- a/include/cintwrapper.h
+++ b/include/cintwrapper.h
@@ -30,7 +30,7 @@ extern "C" {
                           int *atm, int natm, int *bas, int nbas, double *env);
   int cint2e_sph(double *buf, int *shls,
                      int *atm, int natm, int *bas, int nbas, double *env, CINTOpt *no_opt);
-  
+
   // gradient integrals
   // < -ih∇ | Vnuc | -ih∇ >
   int cint1e_ipnucip_cart(double *buf, int *shls,
@@ -71,6 +71,14 @@ extern "C" {
 
   int CINTtot_cgto_spheric(const int *bas, const int nbas);
   FINT CINTcgto_spheric(const FINT n, const FINT *bas);
+
+ //was CACHE_SIZE_T
+  int64_t int1e_grids_sph(double *out, FINT *dims, FINT *shls,
+                               FINT *atm, FINT natm, FINT *bas, FINT nbas,
+                               double *env, CINTOpt *opt, double *cache);
+  int64_t int1e_grids_cart(double *out, FINT *dims, FINT *shls,
+                                FINT *atm, FINT natm, FINT *bas, FINT nbas,
+                                double *env, CINTOpt *opt, double *cache);
 }
 
 using namespace std;
@@ -92,6 +100,11 @@ class BT {
 
 int calc_di(int i, int *bas);
 
+//potential on a grid
+void get_vri(double** val, int gs, int N,
+                 int natm, int nbas, int nbas_ri, int nenv,
+                 int* atm, int* bas, double* env);
+
 void get_overlap(double * overlap, int N,
                  int natm, int nbas, int nenv,
                  int *atm, int* bas, double *env);
@@ -157,7 +170,7 @@ void contract_dVne(int natm, int N, int nbas, double *grad_term, double *Pao,
 void contract_d2c2e(int natm, int N, int nbas, int Naux, int nbas_ri,
                     double *grad_term, double *gRS,
                     int *atm, int *bas, double *env);
-void contract_d3c2e(int natm, int N, int nbas, int Naux, int nbas_ri, 
+void contract_d3c2e(int natm, int N, int nbas, int Naux, int nbas_ri,
                     double *grad_term, double *gQmunu,
                     int *atm, int *bas, double *env);
 #endif
diff --git a/include/elements.h b/include/elements.h
index cf02ecd..fc44ec1 100644
--- a/include/elements.h
+++ b/include/elements.h
@@ -50,7 +50,7 @@ const string elem_arr[118] = {
 };
 
 const map<char, int> angular_mom = {
-  {'S', 0}, {'P', 1}, {'D', 2}, {'F',3}, {'G',4}, {'H',5}, {'I',6}
+  {'S', 0}, {'P', 1}, {'D', 2}, {'F',3}, {'G',4}, {'H',5}, {'I',6}, {'J',7}
 };
 
 #endif //_ELEMENTS_H_
diff --git a/include/gauss.h b/include/gauss.h
index 21e3a87..42c0f59 100644
--- a/include/gauss.h
+++ b/include/gauss.h
@@ -15,6 +15,7 @@ void eval_ghd_ke(int gs, double* grid, double* val1, int n1, int l1, const doubl
 //void eval_pdke_gh(int gs, double* grid, double* val1, int n1, int l1, int m1, double norm1, double zeta1);
 void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float norm1, float zeta1);
 void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, double norm1, double zeta1);
+void eval_hess_ghd(int gs, double* grid, double* val, int n1, int l1, int m1, double norm1, double zeta1);
 int eval_gh_full(int gs, float* grid, float** val1, int i1, int natoms, int nbas, int nenv, int N, int* atm, int* bas, double* env);
 void wf_to_grid_gh_ke(int natoms, int* atno, double* coords, vector<vector<double> > basis, double* jCA, int gs, float* grid, float* wt, double* TL, int prl);
 void wf_to_grid_gh_ke_2(int natoms, int* atno, double* coords, vector<vector<double> > basis, int nbas, int nenv, int N, int* atm, int* bas, double* env,
diff --git a/include/integrals.h b/include/integrals.h
index d92ec36..ae15936 100644
--- a/include/integrals.h
+++ b/include/integrals.h
@@ -79,7 +79,7 @@ void compute_Enp_para(int ngpu, int natoms, int* atno, float* coords, vector<vec
 void compute_Enp_para(int ngpu, int natoms, int* atno, float* coords, vector<vector<double> > &basis, int nrad, int nang, double* ang_g0, double* ang_w0, float* En, float* pVp, int prl);
 
 //electric fields in x,y,z (centered at origin)
-void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int nang, double* ang_g, double* ang_w, double* S, double* E, int prl);
+void compute_Exyz(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, int nrad, int nang, double* ang_g, double* ang_w, double* S, double* E, int prl);
 
 void compute_ST(int natoms, int* atno, float* coords, vector<vector<double> > &basis, int nrad, int nang, double* ang_g0, double* ang_w0, double* S, double* T, int prl);
 void compute_ST(int natoms, int* atno, float* coords, vector<vector<double> > &basis, int nrad, int nang, double* ang_g0, double* ang_w0, float* S, float* T, int prl);
diff --git a/src/integrals/becke.cpp b/src/integrals/becke.cpp
index fc05cbb..39e3b0e 100644
--- a/src/integrals/becke.cpp
+++ b/src/integrals/becke.cpp
@@ -1376,6 +1376,477 @@ void compute_fxc(bool gbasis, int natoms, int* atno, double* coords, vector<vect
 #endif
 
 //borrowed from Slater version
+void compute_fxcd(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool need_wt, bool gga,
+                 double* Pao, int gs, double* grid, double* wt, double* vxc, double* vxcs, double* fxc, int prl)
+{
+ //need_wt==0 --> wt vxc
+ //need_wt==1 --> expects vxc to be wt'd already
+
+  if (gga && Pao==NULL)
+  {
+    printf("\n ERROR: gga functionals require Pao in compute_fxc \n");
+    exit(1);
+  }
+
+  int gs3 = 3*gs;
+  int gs6 = 6*gs;
+  int gs9 = 9*gs;
+
+  int N = basis.size();
+  int N2 = N*N;
+  int* n2i = new int[natoms];
+  int imaxN = get_imax_n2i(natoms,N,basis,n2i);
+
+  double* grid1 = new double[gs6];
+  double* grid2 = new double[gs6];
+
+  double* Paon = Pao;
+
+  int iN = imaxN;
+  double** val1 = new double*[iN];
+  double** val2 = new double*[iN];
+  for (int i=0;i<iN;i++)
+    val1[i] = new double[gs];
+  for (int i=0;i<iN;i++)
+    val2[i] = new double[gs];
+
+  double* grho = NULL;
+  double** val1p = NULL;
+  double** val2p = NULL;
+  if (gga)
+  {
+    grho = new double[gs3];
+
+    val1p = new double*[iN];
+    val2p = new double*[iN];
+    for (int i=0;i<iN;i++)
+      val1p[i] = new double[gs3];
+    for (int i=0;i<iN;i++)
+      val2p[i] = new double[gs3];
+  }
+
+  double* val0 = new double[gs];
+  double* val0g = new double[gs3];
+
+  #pragma acc enter data create(grid1[0:gs6],grid2[0:gs6],val0[0:gs])
+  #pragma acc enter data create(val1[0:iN][0:gs],val2[0:iN][0:gs])
+  if (gga)
+  {
+    #pragma acc enter data create(grho[0:gs3],val1p[0:iN][0:gs3],val2p[0:iN][0:gs3])
+    #pragma acc enter data create(val0g[0:gs3])
+  }
+
+  for (int j=0;j<N2;j++)
+    fxc[j] = 0.;
+
+  if (gga)
+  #pragma acc parallel loop present(grho[0:gs3])
+  for (int j=0;j<gs3;j++)
+    grho[j] = 0.;
+
+  const int ig = 10; //first index to exp in Gaussian basis
+
+  //first assemble grho
+  if (gga)
+  for (int m=0;m<natoms;m++)
+  {
+   //working on this block of the matrix
+    int s1 = 0; if (m>0) s1 = n2i[m-1]; int s2 = n2i[m];
+
+    float Z1 = (float)atno[m];
+    double A1 = coords[3*m+0]; double B1 = coords[3*m+1]; double C1 = coords[3*m+2];
+
+    copy_grid(gs,grid1,grid);
+    recenter_grid_zero(gs,grid1,-A1,-B1,-C1);
+
+    #pragma acc parallel loop collapse(2) present(val1[0:iN][0:gs])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gs;j++)
+      val1[i1][j] = 0.;
+
+    #pragma acc parallel loop collapse(2) present(val1p[0:iN][0:gs3])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gs3;j++)
+      val1p[i1][j] = 0.;
+
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+
+      vector<double> basis1 = basis[i1];
+      int l1 = basis1[1]; int m1 = basis1[2]; int ng = basis1[3];
+      int in = ig + ng; //index to find norm
+
+      double* valm = val1[ii1];
+      double* valmg = NULL; if (gga) valmg = val1p[ii1];
+      for (int j=0;j<ng;j++)
+      {
+       	double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+        eval_ghd(gs,grid1,val0,l1,m1,norm1,zeta1);
+
+       #pragma acc parallel loop present(val0[0:gs],valm[0:gs])
+        for (int k=0;k<gs;k++)
+          valm[k] += val0[k];
+
+    	if (gga)
+        {
+          eval_pd_gh(gs,grid1,val0g,l1+1,l1,m1,norm1,zeta1);
+
+         #pragma acc parallel loop present(val0g[0:gs3],valmg[0:gs3])
+          for (int k=0;k<gs3;k++)
+            valmg[k] += val0g[k];
+        }
+      }
+    }
+
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+      double* valn = val1[ii1];
+      double* valpn = val1p[ii1];
+
+      for (int i2=s1;i2<s2;i2++)
+      {
+        int ii2 = i2-s1;
+        double* valm = val1[ii2];
+        double* valpm = val1p[ii2];
+
+        double d1 = 4.*Paon[i1*N+i2];
+
+       #pragma acc parallel loop present(grho[0:gs3],valn[0:gs],valpn[0:gs3],valm[0:gs],valpm[0:gs3])
+        for (int j=0;j<gs;j++)
+        {
+          grho[3*j+0] += d1*(valn[j]*valpm[3*j+0]+valpn[3*j+0]*valm[j]);
+          grho[3*j+1] += d1*(valn[j]*valpm[3*j+1]+valpn[3*j+1]*valm[j]);
+          grho[3*j+2] += d1*(valn[j]*valpm[3*j+2]+valpn[3*j+2]*valm[j]);
+        }
+      }
+    }
+
+    for (int n=m+1;n<natoms;n++)
+    {
+      int s3 = 0; if (n>0) s3 = n2i[n-1]; int s4 = n2i[n];
+
+      float Z2 = (float)atno[m];
+      double A2 = coords[3*n+0]; double B2 = coords[3*n+1]; double C2 = coords[3*n+2];
+
+      #pragma acc parallel loop collapse(2) present(val2[0:iN][0:gs])
+      for (int i2=0;i2<s4-s3;i2++)
+      for (int j=0;j<gs;j++)
+        val2[i2][j] = 0.;
+
+      #pragma acc parallel loop collapse(2) present(val2p[0:iN][0:gs3])
+      for (int i2=0;i2<s4-s3;i2++)
+      for (int j=0;j<gs3;j++)
+        val2p[i2][j] = 0.;
+
+      copy_grid(gs,grid2,grid);
+      recenter_grid_zero(gs,grid2,-A2,-B2,-C2);
+
+      for (int i2=s3;i2<s4;i2++)
+      {
+       	int ii2 = i2-s3;
+
+        vector<double> basis2 = basis[i2];
+        int l2 = basis2[1]; int m2 = basis2[2]; int ng = basis2[3];
+        int in = ig + ng; //index to find norm
+
+        double* valn = val2[ii2];
+        double* valng = NULL; if (gga) valng = val2p[ii2];
+        for (int j=0;j<ng;j++)
+        {
+          double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+          eval_ghd(gs,grid2,val0,l2,m2,norm2,zeta2);
+
+         #pragma acc parallel loop present(val0[0:gs],valn[0:gs])
+          for (int k=0;k<gs;k++)
+            valn[k] += val0[k];
+
+          if (gga)
+          {
+            eval_pd_gh(gs,grid2,val0g,l2+1,l2,m2,norm2,zeta2);
+
+           #pragma acc parallel loop present(val0g[0:gs3],valng[0:gs3])
+            for (int k=0;k<gs3;k++)
+              valng[k] += val0g[k];
+          }
+        }
+      }
+
+      for (int i1=s1;i1<s2;i1++)
+      {
+        int ii1 = i1-s1;
+        double* valn = val1[ii1];
+        double* valpn = val1p[ii1];
+
+        for (int i2=s3;i2<s4;i2++)
+        {
+          int ii2 = i2-s3;
+          double* valm = val2[ii2];
+          double* valpm = val2p[ii2];
+
+          double d1 = 4.*Paon[i1*N+i2];
+
+         #pragma acc parallel loop present(grho[0:gs3],valn[0:gs],valpn[0:gs3],valm[0:gs],valpm[0:gs3])
+          for (int j=0;j<gs;j++)
+          {
+            grho[3*j+0] += d1*(valn[j]*valpm[3*j+0]+valpn[3*j+0]*valm[j]);
+            grho[3*j+1] += d1*(valn[j]*valpm[3*j+1]+valpn[3*j+1]*valm[j]);
+            grho[3*j+2] += d1*(valn[j]*valpm[3*j+2]+valpn[3*j+2]*valm[j]);
+          }
+        } //loop i2
+      } //loop i1
+
+    } //loop n
+  } //loop m
+
+  if (gga && prl>1 && gs<1000)
+  {
+    #pragma acc update self(grho[0:gs3])
+    printf(" grho: \n");
+    for (int j=0;j<gs;j++)
+      printf("   %8.5f %8.5f %8.5f \n",grho[3*j+0],grho[3*j+1],grho[3*j+2]);
+    printf("\n");
+  }
+
+ //building fxc terms
+  for (int m=0;m<natoms;m++)
+  {
+   //working on this block of the matrix
+    int s1 = 0; if (m>0) s1 = n2i[m-1]; int s2 = n2i[m];
+
+    float Z1 = (float)atno[m];
+    double A1 = coords[3*m+0]; double B1 = coords[3*m+1]; double C1 = coords[3*m+2];
+
+    copy_grid(gs,grid1,grid);
+    recenter_grid_zero(gs,grid1,-A1,-B1,-C1);
+
+    #pragma acc parallel loop collapse(2) present(val1[0:iN][0:gs])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gs;j++)
+      val1[i1][j] = 0.;
+
+    if (gga)
+    #pragma acc parallel loop collapse(2) present(val1p[0:iN][0:gs3])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gs3;j++)
+      val1p[i1][j] = 0.;
+
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+
+      vector<double> basis1 = basis[i1];
+      int l1 = basis1[1]; int m1 = basis1[2]; int ng = basis1[3];
+      int in = ig + ng; //index to find norm
+
+      //printf("  (1) basis %i has %2i terms \n",i1,ng);
+      double* valm = val1[ii1];
+      double* valmg = NULL; if (gga) valmg = val1p[ii1];
+      for (int j=0;j<ng;j++)
+      {
+       	double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+        //printf("   (1)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta1,norm1,l1,m1);
+        eval_ghd(gs,grid1,val0,l1,m1,norm1,zeta1);
+
+       #pragma acc parallel loop present(val0[0:gs],valm[0:gs])
+        for (int k=0;k<gs;k++)
+          valm[k] += val0[k];
+
+    	if (gga)
+        {
+          eval_pd_gh(gs,grid1,val0g,l1+1,l1,m1,norm1,zeta1);
+
+         #pragma acc parallel loop present(val0g[0:gs3],valmg[0:gs3])
+          for (int k=0;k<gs3;k++)
+            valmg[k] += val0g[k];
+        }
+      }
+    }
+
+   //single-atom elements over grid
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+      double* valn = val1[ii1];
+      double* valpn = NULL; if (gga) valpn = val1p[ii1];
+
+      for (int i2=s1;i2<s2;i2++)
+      {
+        int ii2 = i2-s1;
+        double* valm = val1[ii2];
+        double* valpm = NULL; if (gga) valpm = val1p[ii2];
+
+        double valt = 0.;
+        if (need_wt)
+        {
+          #pragma acc parallel loop present(vxc[0:gs],valm[0:gs],valn[0:gs],wt[0:gs]) reduction(+:valt)
+          for (int j=0;j<gs;j++)
+            valt += valn[j]*valm[j]*vxc[j]*wt[j];
+        }
+        else
+        {
+          #pragma acc parallel loop present(vxc[0:gs],valm[0:gs],valn[0:gs]) reduction(+:valt)
+          for (int j=0;j<gs;j++)
+            valt += valn[j]*valm[j]*vxc[j];
+        }
+
+        if (gga)
+        #pragma acc parallel loop present(grho[0:gs3],vxcs[0:gs],valm[0:gs],valpm[0:gs3],valn[0:gs],valpn[0:gs3]) reduction(+:valt)
+        for (int j=0;j<gs;j++)
+        {
+          double grx = grho[3*j+0]; double gry = grho[3*j+1]; double grz = grho[3*j+2];
+          double valx = valn[j]*valpm[3*j+0]+valpn[3*j+0]*valm[j];
+          double valy = valn[j]*valpm[3*j+1]+valpn[3*j+1]*valm[j];
+          double valz = valn[j]*valpm[3*j+2]+valpn[3*j+2]*valm[j];
+          valt += vxcs[j]*(valx*grx+valy*gry+valz*grz);
+        }
+
+        fxc[i1*N+i2] = 2.*valt;
+      }
+    }
+
+    for (int n=m+1;n<natoms;n++)
+    {
+      int s3 = 0; if (n>0) s3 = n2i[n-1]; int s4 = n2i[n];
+
+      float Z2 = (float)atno[m];
+      double A2 = coords[3*n+0]; double B2 = coords[3*n+1]; double C2 = coords[3*n+2];
+
+     #pragma acc parallel loop collapse(2) present(val2[0:iN][0:gs])
+      for (int i2=0;i2<s4-s3;i2++)
+      for (int j=0;j<gs;j++)
+        val2[i2][j] = 0.;
+
+      if (gga)
+     #pragma acc parallel loop collapse(2) present(val2p[0:iN][0:gs3])
+      for (int i2=0;i2<s4-s3;i2++)
+      for (int j=0;j<gs3;j++)
+        val2p[i2][j] = 0.;
+
+      copy_grid(gs,grid2,grid);
+      recenter_grid_zero(gs,grid2,-A2,-B2,-C2);
+
+      for (int i2=s3;i2<s4;i2++)
+      {
+       	int ii2 = i2-s3;
+
+        vector<double> basis2 = basis[i2];
+        int l2 = basis2[1]; int m2 = basis2[2]; int ng = basis2[3];
+        int in = ig + ng; //index to find norm
+
+        double* valn = val2[ii2];
+        double* valng = NULL; if (gga) valng = val2p[ii2];
+        for (int j=0;j<ng;j++)
+        {
+          double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+          eval_ghd(gs,grid2,val0,l2,m2,norm2,zeta2);
+
+         #pragma acc parallel loop present(val0[0:gs],valn[0:gs])
+          for (int k=0;k<gs;k++)
+            valn[k] += val0[k];
+
+          if (gga)
+          {
+            eval_pd_gh(gs,grid2,val0g,l2+1,l2,m2,norm2,zeta2);
+
+           #pragma acc parallel loop present(val0g[0:gs3],valng[0:gs3])
+            for (int k=0;k<gs3;k++)
+              valng[k] += val0g[k];
+          }
+        }
+      }
+
+     //two-atom elements over grid
+      for (int i1=s1;i1<s2;i1++)
+      {
+        int ii1 = i1-s1;
+        double* valn = val1[ii1];
+        double* valpn = NULL; if (gga) valpn = val1p[ii1];
+
+        for (int i2=s3;i2<s4;i2++)
+        {
+          int ii2 = i2-s3;
+          double* valm = val2[ii2];
+          double* valpm = NULL; if (gga) valpm = val2p[ii2];
+
+          double valt = 0.;
+          if (need_wt)
+          {
+           #pragma acc parallel loop present(vxc[0:gs],valm[0:gs],valn[0:gs],wt[0:gs]) reduction(+:valt)
+            for (int j=0;j<gs;j++)
+              valt += valn[j]*valm[j]*vxc[j]*wt[j];
+          }
+          else
+          {
+           #pragma acc parallel loop present(vxc[0:gs],valm[0:gs],valn[0:gs]) reduction(+:valt)
+            for (int j=0;j<gs;j++)
+              valt += valn[j]*valm[j]*vxc[j];
+          }
+
+          if (gga)
+         #pragma acc parallel loop present(grho[0:gs3],vxcs[0:gs],valm[0:gs],valpm[0:gs3],valn[0:gs],valpn[0:gs3]) reduction(+:valt)
+          for (int j=0;j<gs;j++)
+          {
+            double grx = grho[3*j+0]; double gry = grho[3*j+1]; double grz = grho[3*j+2];
+            double valx = valn[j]*valpm[3*j+0]+valpn[3*j+0]*valm[j];
+            double valy = valn[j]*valpm[3*j+1]+valpn[3*j+1]*valm[j];
+            double valz = valn[j]*valpm[3*j+2]+valpn[3*j+2]*valm[j];
+            valt += vxcs[j]*(valx*grx+valy*gry+valz*grz);
+          }
+
+          fxc[i1*N+i2] = fxc[i2*N+i1] = 2.*valt;
+
+        } //loop i2
+      } //loop i1
+
+    } //loop n over unique atoms
+  } //loop m over natoms
+
+  #pragma acc update device(fxc[0:N2])
+
+ //cleanup
+  #pragma acc exit data delete(grid1[0:gs6],grid2[0:gs6],val0[0:gs])
+  #pragma acc exit data delete(val1[0:iN][0:gs],val2[0:iN][0:gs])
+  if (gga)
+  {
+    #pragma acc exit data delete(grho[0:gs3],val1p[0:iN][0:gs3],val2p[0:iN][0:gs3])
+    #pragma acc exit data delete(val0g[0:gs3])
+  }
+
+  delete [] n2i;
+
+  delete [] grid1;
+  delete [] grid2;
+
+  for (int i=0;i<iN;i++)
+    delete [] val1[i];
+  for (int i=0;i<iN;i++)
+    delete [] val2[i];
+  delete [] val1;
+  delete [] val2;
+
+  delete [] val0;
+  delete [] val0g;
+
+  if (gga)
+  {
+    delete [] grho;
+    for (int i=0;i<iN;i++)
+      delete [] val1p[i];
+    for (int i=0;i<iN;i++)
+      delete [] val2p[i];
+    delete [] val1p;
+    delete [] val2p;
+  }
+
+  return;
+}
+
 void compute_fxc(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool need_wt, bool gga,
                  double* Pao, int gs, float* grid, float* wt, double* vxc, double* vxcs, double* fxc, int prl)
 {
@@ -1874,6 +2345,272 @@ void compute_fxc(bool gbasis, int natoms, int* atno, double* coords, vector<vect
   return;
 }
 
+void eval_grad_hessian_fd(double dx, int gsh, double* vals, double* fdvals, int gsa, double* grad, double* hess)
+{
+  int gsa3 = 3*gsa;
+  const double oh = 0.5/dx;
+
+ #pragma acc parallel loop present(fdvals[0:gsh],grad[0:gsa3])
+  for (int j=0;j<gsa;j++)
+  {
+    double xph = fdvals[j*18+0];
+    double yph = fdvals[j*18+1];
+    double zph = fdvals[j*18+2];
+    double xmh = fdvals[j*18+3];
+    double ymh = fdvals[j*18+4];
+    double zmh = fdvals[j*18+5];
+
+    double dx1 = (xph - xmh)*oh;
+    double dy1 = (yph - ymh)*oh;
+    double dz1 = (zph - zmh)*oh;
+
+    grad[3*j+0] = dx1;
+    grad[3*j+1] = dy1;
+    grad[3*j+2] = dz1;
+  }
+  return eval_hessian_fd(dx,gsh,vals,fdvals,gsa,hess);
+}
+
+void eval_hessian_fd(double dx, int gsh, double* vals, double* fdvals, int gsa, double* hess)
+{
+  int gshcheck = gsa*18;
+  if (gsh!=gshcheck) { printf("\n ERROR: mismatch in sizes for eval_hessian_fd \n"); exit(-1); }
+
+  int gsa9 = 9*gsa;
+  const double oh2 = 1./(dx*dx);
+  const double ofh2 = 0.25/(dx*dx);
+
+ #pragma acc parallel loop present(vals[0:gsa],fdvals[0:gsh],hess[0:gsa9])
+  for (int j=0;j<gsa;j++)
+  {
+    double v0    = vals[j];
+    double xph   = fdvals[j*18+0];
+    double yph   = fdvals[j*18+1];
+    double zph   = fdvals[j*18+2];
+    double xmh   = fdvals[j*18+3];
+    double ymh   = fdvals[j*18+4];
+    double zmh   = fdvals[j*18+5];
+    double xpyph = fdvals[j*18+6];
+    double xpymh = fdvals[j*18+7];
+    double xpzph = fdvals[j*18+8];
+    double xpzmh = fdvals[j*18+9];
+    double ypzph = fdvals[j*18+10];
+    double ypzmh = fdvals[j*18+11];
+    double xmyph = fdvals[j*18+12];
+    double xmymh = fdvals[j*18+13];
+    double xmzph = fdvals[j*18+14];
+    double xmzmh = fdvals[j*18+15];
+    double ymzph = fdvals[j*18+16];
+    double ymzmh = fdvals[j*18+17];
+
+    double dxx = xph+xmh-2.*v0;
+    double dyy = yph+ymh-2.*v0;
+    double dzz = zph+zmh-2.*v0;
+    /* double dxx = xph-xmh;
+    double dyy = yph-ymh;
+    double dzz = zph-zmh; */
+    double dxy = xpyph-xpymh - (xmyph-xmymh);
+    double dxz = xpzph-xpzmh - (xmzph-xmzmh);
+    double dyz = ypzph-ypzmh - (ymzph-ymzmh);
+
+    dxx *= oh2;
+    dxy *= ofh2;
+    dxz *= ofh2;
+    dyy *= oh2;
+    dyz *= ofh2;
+    dzz *= oh2;
+
+    hess[9*j+0] = dxx; hess[9*j+1] = dxy; hess[9*j+2] = dxz;
+    hess[9*j+3] = dxy; hess[9*j+4] = dyy; hess[9*j+5] = dyz;
+    hess[9*j+6] = dxz; hess[9*j+7] = dyz; hess[9*j+8] = dzz;
+  }
+
+  return;
+}
+
+void get_hessian_fd_grid(const double dx, int gsa, double* grid, double* gridh)
+{
+  int gsh = gsa*18; //18 elements of central FD
+  int gsh6 = 6*gsh;
+  int gsa6 = 6*gsa;
+
+ #pragma acc parallel loop present(grid[0:gsa6],gridh[0:gsh6])
+  for (int j=0;j<gsa;j++)
+  {
+    double x1 = grid[6*j+0];
+    double y1 = grid[6*j+1];
+    double z1 = grid[6*j+2];
+
+    double xph = x1 + dx;
+    double yph = y1 + dx;
+    double zph = z1 + dx;
+    double xmh = x1 - dx;
+    double ymh = y1 - dx;
+    double zmh = z1 - dx;
+
+    int j1 = 18*j;
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zph;
+    j1++;
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zmh;
+    j1++;
+
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zph;
+    j1++;
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zmh;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = zph;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = zmh;
+    j1++;
+
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zph;
+    j1++;
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zmh;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = zph;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = zmh;
+  }
+
+  return;
+}
+
+void eval_grad_fd(double dx, int gsh, double* fdvals, int gsa, double* valg)
+{
+  int gshcheck = gsa*6;
+  if (gshcheck!=gsh) { printf("\n ERROR: grid mismatch in eval_grad_fd \n"); return; }
+  int gsa3 = 3*gsa;
+  const double oh = 0.5/dx;
+
+ #pragma acc parallel loop present(fdvals[0:gsh],valg[0:gsa3])
+  for (int j=0;j<gsa;j++)
+  {
+    double xph  = fdvals[j*6+0];
+    double yph  = fdvals[j*6+1];
+    double zph  = fdvals[j*6+2];
+    double xmh  = fdvals[j*6+3];
+    double ymh  = fdvals[j*6+4];
+    double zmh  = fdvals[j*6+5];
+
+    double dx1 = (xph - xmh)*oh;
+    double dy1 = (yph - ymh)*oh;
+    double dz1 = (zph - zmh)*oh;
+
+    valg[3*j+0] = dx1;
+    valg[3*j+1] = dy1;
+    valg[3*j+2] = dz1;
+  }
+
+  return;
+}
+
+void get_fd_grid(const double dx, int gsa, double* grid, double* gridh)
+{
+  int gsa6 = 6*gsa;
+  int gsh = gsa*6; //elements of central FD
+  int gsh6 = 6*gsh;
+
+ #pragma acc parallel loop present(grid[0:gsa6],gridh[0:gsh6])
+  for (int j=0;j<gsa;j++)
+  {
+    double x1 = grid[6*j+0];
+    double y1 = grid[6*j+1];
+    double z1 = grid[6*j+2];
+
+    double xph = x1 + dx;
+    double yph = y1 + dx;
+    double zph = z1 + dx;
+    double xmh = x1 - dx;
+    double ymh = y1 - dx;
+    double zmh = z1 - dx;
+
+    int j1 = 6*j;
+   /* gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = z1;
+    j1++; */
+
+    gridh[6*j1+0] = xph;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = yph;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zph;
+    j1++;
+
+    gridh[6*j1+0] = xmh;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = ymh;
+    gridh[6*j1+2] = z1;
+    j1++;
+    gridh[6*j1+0] = x1;
+    gridh[6*j1+1] = y1;
+    gridh[6*j1+2] = zmh;
+  }
+
+  return;
+}
+
 //Gaussian basis
 void compute_rho(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, float* grid, double* rho, double* drho, int prl)
 {
@@ -2091,89 +2828,441 @@ void compute_rho(bool gbasis, int natoms, int* atno, double* coords, vector<vect
            #pragma acc parallel loop present(val0g[0:gsa3],valng[0:gsa3])
             for (int k=0;k<gsa3;k++)
               valng[k] += val0g[k];
-          }
-        }
-      }
+          }
+        }
+      }
+
+      //printf("\n val2[0]: \n");
+      //print_vec(gsa,grid2,val2[0]);
+
+     //two-atom Pao elements added to grid
+      for (int i1=s1;i1<s2;i1++)
+      {
+        float* valn = val1[i1-s1];
+        float* valng = NULL; if (need_grad) valng = val1g[i1-s1];
+
+        for (int i2=s3;i2<s4;i2++)
+        {
+          float* valm = val2[i2-s3];
+          float* valmg = NULL; if (need_grad) valmg = val2g[i2-s3];
+
+          float d12 = 2.f*Pao[i1*N+i2];
+          #pragma acc parallel loop present(rho[0:gsa],valn[0:gsa],valm[0:gsa])
+          for (int j=0;j<gsa;j++)
+            rho[j] += d12*valn[j]*valm[j];
+
+          if (need_grad)
+         #pragma acc parallel loop present(delt[0:gsa3],valm[0:gsa],valn[0:gsa],valmg[0:gsa3],valng[0:gsa3])
+          for (int j=0;j<gsa;j++)
+          {
+            delt[3*j+0] += d12*(valm[j]*valng[3*j+0] + valn[j]*valmg[3*j+0]);
+            delt[3*j+1] += d12*(valm[j]*valng[3*j+1] + valn[j]*valmg[3*j+1]);
+            delt[3*j+2] += d12*(valm[j]*valng[3*j+2] + valn[j]*valmg[3*j+2]);
+          }
+
+        }
+      }
+    } //loop n over second atom
+  }
+
+  #pragma acc parallel loop present(rho[0:gsa])
+  for (int j=0;j<gsa;j++)
+    rho[j] *= 2.;
+
+ //delrho dot delrho
+ //not sure why 4*
+  if (need_grad)
+  #pragma acc parallel loop present(drho[0:gsa],delt[0:gsa3])
+  for (int m=0;m<gsa;m++)
+    drho[m] = 4.*(delt[3*m+0]*delt[3*m+0]+delt[3*m+1]*delt[3*m+1]+delt[3*m+2]*delt[3*m+2]);
+
+  if (prl>2)
+  {
+    #pragma acc update self(rho[0:gsa])
+    printf("\n density: \n");
+    print_vec(gsa,grid,rho);
+  }
+
+  #pragma acc exit data delete(grid1[0:gsa6],grid2[0:gsa6])
+  #pragma acc exit data delete(val0[0:gsa],val1[0:iN][0:gsa],val2[0:iN][0:gsa])
+  if (need_grad)
+  {
+    #pragma acc exit data delete(delt[0:gsa3],val0g[0:gsa3],val1g[0:iN][0:gsa3],val2g[0:iN][0:gsa3])
+  }
+
+  delete [] grid1;
+  delete [] grid2;
+  delete [] n2i;
+
+  delete [] val0;
+  for (int i=0;i<iN;i++)
+    delete [] val1[i];
+  for (int i=0;i<iN;i++)
+    delete [] val2[i];
+  delete [] val1;
+  delete [] val2;
+  if (need_grad)
+  {
+    for (int i=0;i<iN;i++)
+      delete [] val1g[i];
+    for (int i=0;i<iN;i++)
+      delete [] val2g[i];
+    delete [] val1g;
+    delete [] val2g;
+  }
+  delete [] delt;
+
+  return;
+}
+
+//Laplacian and Hessian of the density
+void compute_lap_hessg(bool gbasis, int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* lapl, double* hess, int prl)
+{
+  if (!gbasis) { printf(" ERROR: compute_lap_hessg but not gbasis \n"); exit(-1); }
+
+  bool need_hess = 0;
+  if (hess!=NULL) need_hess = 1;
+  bool need_lapl = 0;
+  if (lapl!=NULL) need_lapl = 1;
+
+  if (!need_hess && !need_lapl)
+    return;
+
+  if (prl>1) printf("  compute hessg: Gaussian basis \n");
+
+  for (int j=0;j<basis.size();j++)
+  if (basis[j][1]>3)
+  {
+    printf("\n ERROR: compute_lap_hessg does not support l>3 \n");
+    exit(-1);
+  }
+
+ //fix this
+  bool lowmem = 0;
+  int nbatch = 1;
+  //if (gsa>1000000)
+  //  lowmem = 1;
+  if (lowmem && need_hess)
+  {
+    printf(" WARNING; low mem mode compute_lap_hessg for Hessian not available \n");
+    lowmem = 0;
+  }
+  if (lowmem)
+    printf("\n\n\n WARNING: lowmem mode not ready in compute_lap_hessg \n\n\n");
+
+  int gsa3 = 3*gsa;
+  int gsa6 = 6*gsa;
+ //dimensions of allocated arrays (for batching)
+  int gsaa = gsa;
+  int gsaa3 = gsa3;
+  int gsaa6 = gsa6;
+  if (lowmem)
+  {
+    nbatch = 4;
+    gsaa = gsa/nbatch;
+    gsaa3 = 3*gsaa;
+    gsaa6 = 6*gsaa;;
+
+    printf("  compute L: low memory mode. gsa: %7i gsaa: %7i \n",gsa,gsaa);
+  }
+
+  int N = basis.size();
+  int* n2i = new int[natoms];
+  int imaxN = get_imax_n2i(natoms,N,basis,n2i);
+
+  int iN = imaxN;
+  double** val1 = new double*[iN];
+  double** val2 = new double*[iN];
+  for (int i=0;i<iN;i++)
+    val1[i] = new double[gsaa];
+  for (int i=0;i<iN;i++)
+    val2[i] = new double[gsaa];
+  double** val1g = new double*[iN];
+  double** val2g = new double*[iN];
+  for (int i=0;i<iN;i++)
+    val1g[i] = new double[gsaa3];
+  for (int i=0;i<iN;i++)
+    val2g[i] = new double[gsaa3];
+  double** val1h = new double*[iN];
+  double** val2h = new double*[iN];
+  for (int i=0;i<iN;i++)
+    val1h[i] = new double[gsaa6];
+  for (int i=0;i<iN;i++)
+    val2h[i] = new double[gsaa6];
+
+  double* val0 = new double[gsaa];
+  double* val0g = new double[gsaa3];
+  double* val0h = new double[gsaa6];
+
+  double* grid1 = new double[gsaa6];
+  double* grid2 = new double[gsaa6];
+
+  #pragma acc enter data create(grid1[0:gsaa6],grid2[0:gsaa6])
+  #pragma acc enter data create(val0[0:gsaa],val0g[0:gsaa3],val0h[0:gsaa6])
+  #pragma acc enter data create(val1[0:iN][0:gsaa],val2[0:iN][0:gsaa],val1g[0:iN][0:gsaa3],val2g[0:iN][0:gsaa3],val1h[0:iN][0:gsaa6],val2h[0:iN][0:gsaa6])
+
+  if (!need_hess)
+  {
+    hess = new double[gsaa6];
+    #pragma acc enter data create(hess[0:gsaa6])
+  }
+
+  const int ig = 10; //first index to exp in Gaussian basis
+
+  for (int nb=0;nb<nbatch;nb++)
+  {
+    int goff = nb*gsaa;
+    int goff6 = 6*goff;
+    //printf("  lowmem: %i goff: %4i \n",(int)lowmem,goff);
+
+   #pragma acc parallel loop present(hess[0:gsaa6])
+    for (int j=0;j<gsaa6;j++)
+      hess[j] = 0.;
+
+    for (int m=0;m<natoms;m++)
+    {
+     //working on this block of the matrix
+      int s1 = 0; if (m>0) s1 = n2i[m-1]; int s2 = n2i[m];
+
+      double Z1 = (double)atno[m];
+      double A1 = coords[3*m+0]; double B1 = coords[3*m+1]; double C1 = coords[3*m+2];
+
+      if (lowmem)
+      {
+        #pragma acc parallel loop present(grid[0:gsa6],grid1[0:gsaa6])
+        for (int j=0;j<gsaa6;j++)
+          grid1[j] = grid[goff6+j];
+      }
+      else
+        copy_grid(gsa,grid1,grid);
+      recenter_grid_zero(gsaa,grid1,-A1,-B1,-C1);
+
+      #pragma acc parallel loop collapse(2) present(val1[0:iN][0:gsaa])
+      for (int i1=0;i1<s2-s1;i1++)
+      for (int j=0;j<gsaa;j++)
+        val1[i1][j] = 0.;
+
+      #pragma acc parallel loop collapse(2) present(val1g[0:iN][0:gsaa3])
+      for (int i1=0;i1<s2-s1;i1++)
+      for (int j=0;j<gsaa3;j++)
+        val1g[i1][j] = 0.;
+
+      #pragma acc parallel loop collapse(2) present(val1h[0:iN][0:gsaa6])
+      for (int i1=0;i1<s2-s1;i1++)
+      for (int j=0;j<gsaa6;j++)
+        val1h[i1][j] = 0.;
+
+      for (int i1=s1;i1<s2;i1++)
+      {
+        int ii1 = i1-s1;
+
+        vector<double> basis1 = basis[i1];
+        int l1 = basis1[1]; int m1 = basis1[2]; int ng = basis1[3];
+        int in = ig + ng; //index to find norm
+
+        //printf("  (1) basis %i has %2i terms \n",i1,ng);
+        double* valm = val1[ii1];
+        double* valmg = val1g[ii1];
+        double* valmh = val1h[ii1];
+
+        for (int j=0;j<ng;j++)
+        {
+          double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+          //printf("   (1)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta1,norm1,l1,m1);
+          eval_ghd(gsaa,grid1,val0,l1,m1,norm1,zeta1);
+
+         #pragma acc parallel loop present(val0[0:gsaa],valm[0:gsaa])
+          for (int k=0;k<gsaa;k++)
+            valm[k] += val0[k];
+
+          eval_pd_gh(gsaa,grid1,val0g,l1+1,l1,m1,norm1,zeta1);
+
+         #pragma acc parallel loop present(val0g[0:gsaa3],valmg[0:gsaa3])
+          for (int k=0;k<gsaa3;k++)
+            valmg[k] += val0g[k];
+
+          eval_hess_ghd(gsaa,grid1,val0h,l1+1,l1,m1,norm1,zeta1);
+
+         #pragma acc parallel loop present(val0h[0:gsaa6],valmh[0:gsaa6])
+          for (int k=0;k<gsaa6;k++)
+            valmh[k] += val0h[k];
+
+        } //Gaussian expansion
+      } //basis ftn i1
+
+     //compute all
+      for (int i1=s1;i1<s2;i1++)
+      {
+        double* valm = val1[i1-s1];
+        double* valmg = val1g[i1-s1];
+        double* valmh = val1h[i1-s1];
+
+        for (int i2=s1;i2<s2;i2++)
+        {
+          double* valn = val1[i2-s1];
+          double* valng = val1g[i2-s1];
+          double* valnh = val1h[i2-s1];
+
+          double d12 = Pao[i1*N+i2];
+         #pragma acc parallel loop present(hess[0:gsaa6],valn[0:gsaa],valm[0:gsaa],valng[0:gsaa3],valmg[0:gsaa3],valnh[0:gsaa6],valmh[0:gsaa6])
+          for (int j=0;j<gsaa;j++)
+          {
+           //xx, xy, xz, yy, yz, zz
+            hess[6*j+0] += d12*(valn[j]*valmh[6*j+0] + valnh[6*j+0]*valm[j] + valng[3*j+0]*valmg[3*j+0] + valmg[3*j+0]*valng[3*j+0]);
+            hess[6*j+1] += d12*(valn[j]*valmh[6*j+1] + valnh[6*j+1]*valm[j] + valng[3*j+0]*valmg[3*j+1] + valmg[3*j+0]*valng[3*j+1]);
+            hess[6*j+2] += d12*(valn[j]*valmh[6*j+2] + valnh[6*j+2]*valm[j] + valng[3*j+0]*valmg[3*j+2] + valmg[3*j+0]*valng[3*j+2]);
+            hess[6*j+3] += d12*(valn[j]*valmh[6*j+3] + valnh[6*j+3]*valm[j] + valng[3*j+1]*valmg[3*j+1] + valmg[3*j+1]*valng[3*j+1]);
+            hess[6*j+4] += d12*(valn[j]*valmh[6*j+4] + valnh[6*j+4]*valm[j] + valng[3*j+1]*valmg[3*j+2] + valmg[3*j+1]*valng[3*j+2]);
+            hess[6*j+5] += d12*(valn[j]*valmh[6*j+5] + valnh[6*j+5]*valm[j] + valng[3*j+2]*valmg[3*j+2] + valmg[3*j+2]*valng[3*j+2]);
+          }
+        }
+      }
+
+      for (int n=m+1;n<natoms;n++)
+      {
+        int s3 = 0; if (n>0) s3 = n2i[n-1]; int s4 = n2i[n];
+
+        double Z2 = (double)atno[m];
+        double A2 = coords[3*n+0]; double B2 = coords[3*n+1]; double C2 = coords[3*n+2];
+
+        #pragma acc parallel loop collapse(2) present(val2[0:iN][0:gsaa])
+        for (int i2=0;i2<s4-s3;i2++)
+        for (int j=0;j<gsaa;j++)
+          val2[i2][j] = 0.;
+
+        #pragma acc parallel loop collapse(2) present(val2g[0:iN][0:gsaa3])
+        for (int i2=0;i2<s4-s3;i2++)
+        for (int j=0;j<gsaa3;j++)
+          val2g[i2][j] = 0.;
+
+        #pragma acc parallel loop collapse(2) present(val2h[0:iN][0:gsaa6])
+        for (int i2=0;i2<s4-s3;i2++)
+        for (int j=0;j<gsaa6;j++)
+          val2h[i2][j] = 0.;
+
+        if (lowmem)
+        {
+          #pragma acc parallel loop present(grid[0:gsa6],grid1[0:gsaa6])
+          for (int j=0;j<gsaa6;j++)
+            grid2[j] = grid[goff6+j];
+        }
+        else
+          copy_grid(gsaa,grid2,grid);
+        recenter_grid_zero(gsaa,grid2,-A2,-B2,-C2);
+
+        for (int i2=s3;i2<s4;i2++)
+        {
+          int ii2 = i2-s3;
+
+          vector<double> basis2 = basis[i2];
+          int l2 = basis2[1]; int m2 = basis2[2]; int ng = basis2[3];
+          int in = ig + ng; //index to find norm
+
+          double* valn = val2[ii2];
+          double* valng = val2g[ii2];
+          double* valnh = val2h[ii2];
+
+          for (int j=0;j<ng;j++)
+          {
+            double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+            eval_ghd(gsaa,grid2,val0,l2,m2,norm2,zeta2);
+
+           #pragma acc parallel loop present(val0[0:gsaa],valn[0:gsaa])
+            for (int k=0;k<gsaa;k++)
+              valn[k] += val0[k];
+
+            eval_pd_gh(gsaa,grid2,val0g,l2+1,l2,m2,norm2,zeta2);
+
+           #pragma acc parallel loop present(val0g[0:gsaa3],valng[0:gsaa3])
+            for (int k=0;k<gsaa3;k++)
+              valng[k] += val0g[k];
 
-      //printf("\n val2[0]: \n");
-      //print_vec(gsa,grid2,val2[0]);
+            eval_hess_ghd(gsaa,grid2,val0h,l2+1,l2,m2,norm2,zeta2);
 
-     //two-atom Pao elements added to grid
-      for (int i1=s1;i1<s2;i1++)
-      {
-        float* valn = val1[i1-s1];
-        float* valng = NULL; if (need_grad) valng = val1g[i1-s1];
+           #pragma acc parallel loop present(val0h[0:gsaa6],valnh[0:gsaa6])
+            for (int k=0;k<gsaa6;k++)
+              valnh[k] += val0h[k];
 
-        for (int i2=s3;i2<s4;i2++)
-        {
-          float* valm = val2[i2-s3];
-          float* valmg = NULL; if (need_grad) valmg = val2g[i2-s3];
+          } //Gaussian expansion
+        } //basis ftn i1
 
-          float d12 = 2.f*Pao[i1*N+i2];
-          #pragma acc parallel loop present(rho[0:gsa],valn[0:gsa],valm[0:gsa])
-          for (int j=0;j<gsa;j++)
-            rho[j] += d12*valn[j]*valm[j];
+       //two-atom Pao elements added to grid
+        for (int i1=s1;i1<s2;i1++)
+        {
+          double* valn = val1[i1-s1];
+          double* valng = val1g[i1-s1];
+          double* valnh = val1h[i1-s1];
 
-          if (need_grad)
-         #pragma acc parallel loop present(delt[0:gsa3],valm[0:gsa],valn[0:gsa],valmg[0:gsa3],valng[0:gsa3])
-          for (int j=0;j<gsa;j++)
+          for (int i2=s3;i2<s4;i2++)
           {
-            delt[3*j+0] += d12*(valm[j]*valng[3*j+0] + valn[j]*valmg[3*j+0]);
-            delt[3*j+1] += d12*(valm[j]*valng[3*j+1] + valn[j]*valmg[3*j+1]);
-            delt[3*j+2] += d12*(valm[j]*valng[3*j+2] + valn[j]*valmg[3*j+2]);
-          }
+            double* valm = val2[i2-s3];
+            double* valmg = val2g[i2-s3];
+            double* valmh = val2h[i2-s3];
 
+            double d12 = 2.*Pao[i1*N+i2];
+           #pragma acc parallel loop present(hess[0:gsaa6],valn[0:gsaa],valm[0:gsaa],valng[0:gsaa3],valmg[0:gsaa3],valnh[0:gsaa6],valmh[0:gsaa6])
+            for (int j=0;j<gsaa;j++)
+            {
+             //xx, xy, xz, yy, yz, zz
+              hess[6*j+0] += d12*(valn[j]*valmh[6*j+0] + valnh[6*j+0]*valm[j] + valng[3*j+0]*valmg[3*j+0] + valmg[3*j+0]*valng[3*j+0]);
+              hess[6*j+1] += d12*(valn[j]*valmh[6*j+1] + valnh[6*j+1]*valm[j] + valng[3*j+0]*valmg[3*j+1] + valmg[3*j+0]*valng[3*j+1]);
+              hess[6*j+2] += d12*(valn[j]*valmh[6*j+2] + valnh[6*j+2]*valm[j] + valng[3*j+0]*valmg[3*j+2] + valmg[3*j+0]*valng[3*j+2]);
+              hess[6*j+3] += d12*(valn[j]*valmh[6*j+3] + valnh[6*j+3]*valm[j] + valng[3*j+1]*valmg[3*j+1] + valmg[3*j+1]*valng[3*j+1]);
+              hess[6*j+4] += d12*(valn[j]*valmh[6*j+4] + valnh[6*j+4]*valm[j] + valng[3*j+1]*valmg[3*j+2] + valmg[3*j+1]*valng[3*j+2]);
+              hess[6*j+5] += d12*(valn[j]*valmh[6*j+5] + valnh[6*j+5]*valm[j] + valng[3*j+2]*valmg[3*j+2] + valmg[3*j+2]*valng[3*j+2]);
+            }
+          }
         }
-      }
-    } //loop n over second atom
-  }
+      } //loop n over second atom
+    } //loop m over first atom
 
-  #pragma acc parallel loop present(rho[0:gsa])
-  for (int j=0;j<gsa;j++)
-    rho[j] *= 2.;
+    if (need_lapl)
+    #pragma acc parallel loop present(lapl[0:gsa],hess[0:gsaa6])
+    for (int j=0;j<gsaa;j++)
+      lapl[goff+j] = hess[6*j+0] + hess[6*j+3] + hess[6*j+5];
 
- //delrho dot delrho
- //not sure why 4*
-  if (need_grad)
-  #pragma acc parallel loop present(drho[0:gsa],delt[0:gsa3])
-  for (int m=0;m<gsa;m++)
-    drho[m] = 4.*(delt[3*m+0]*delt[3*m+0]+delt[3*m+1]*delt[3*m+1]+delt[3*m+2]*delt[3*m+2]);
+  } //outer loop over nbatches
 
-  if (prl>2)
+  if (!need_hess)
   {
-    #pragma acc update self(rho[0:gsa])
-    printf("\n density: \n");
-    print_vec(gsa,grid,rho);
+    #pragma acc exit data delete(hess[0:gsaa6])
+    delete [] hess;
   }
 
-  #pragma acc exit data delete(grid1[0:gsa6],grid2[0:gsa6])
-  #pragma acc exit data delete(val0[0:gsa],val1[0:iN][0:gsa],val2[0:iN][0:gsa])
-  if (need_grad)
-  {
-    #pragma acc exit data delete(delt[0:gsa3],val0g[0:gsa3],val1g[0:iN][0:gsa3],val2g[0:iN][0:gsa3])
-  }
+  #pragma acc exit data delete(grid1[0:gsaa6],grid2[0:gsaa6])
+  #pragma acc exit data delete(val0[0:gsaa],val0g[0:gsaa3],val0h[0:gsaa6])
+  #pragma acc exit data delete(val1[0:iN][0:gsaa],val2[0:iN][0:gsaa],val1g[0:iN][0:gsaa3],val2g[0:iN][0:gsaa3],val1h[0:iN][0:gsaa6],val2h[0:iN][0:gsaa6])
 
   delete [] grid1;
   delete [] grid2;
   delete [] n2i;
 
   delete [] val0;
+  delete [] val0g;
+  delete [] val0h;
+
   for (int i=0;i<iN;i++)
     delete [] val1[i];
   for (int i=0;i<iN;i++)
     delete [] val2[i];
   delete [] val1;
   delete [] val2;
-  if (need_grad)
-  {
-    for (int i=0;i<iN;i++)
-      delete [] val1g[i];
-    for (int i=0;i<iN;i++)
-      delete [] val2g[i];
-    delete [] val1g;
-    delete [] val2g;
-  }
-  delete [] delt;
+
+  for (int i=0;i<iN;i++)
+    delete [] val1g[i];
+  for (int i=0;i<iN;i++)
+    delete [] val2g[i];
+  delete [] val1g;
+  delete [] val2g;
+
+  for (int i=0;i<iN;i++)
+    delete [] val1h[i];
+  for (int i=0;i<iN;i++)
+    delete [] val2h[i];
+  delete [] val1h;
+  delete [] val2h;
 
   return;
 }
@@ -2362,8 +3451,6 @@ void compute_rhodg(bool gbasis, int natoms, int* atno, double* coords, vector<ve
       copy_grid(gsa,grid2,grid);
       recenter_grid_zero(gsa,grid2,-A2,-B2,-C2);
 
-      //#pragma acc update self(grid2[0:gsa6])
-
       for (int i2=s3;i2<s4;i2++)
       {
         int ii2 = i2-s3;
@@ -2474,6 +3561,7 @@ void compute_rhodg(bool gbasis, int natoms, int* atno, double* coords, vector<ve
     delete [] val1g;
     delete [] val2g;
   }
+  delete [] val0g;
   delete [] delt;
 
   return;
@@ -3172,15 +4260,28 @@ void compute_rhod(int natoms, int* atno, double* coords, vector<vector<double> >
 }
 
 //hessw, T, hessp, not already on gpu
-void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int gsa, double* grid, double* Pao, double* hessw, double* lapl, int htype, double* hessp, int prl)
+void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int gsa, double* grid, double* Pao, double* rhohess, double* hessw, double* lapl, int htype, double* hessp, int prl)
 {
+  bool get_hessw = 0;
+  bool get_lapl = 0;
   bool get_hessp = 0;
+  if (hessw!=NULL)
+    get_hessw = 1;
+  if (lapl!=NULL)
+    get_lapl = 1;
   if (hessp!=NULL)
   {
     printf("\n TESTING phi hessian in compute_lap_hess \n");
     get_hessp = 1;
   }
 
+  bool get_rhohess = 0;
+  if (rhohess!=NULL)
+  {
+    printf("\n TESTING Hessian(rho) in compute_lap_hess \n");
+    get_rhohess = 1;
+  }
+
   int gsa3 = 3*gsa;
   int gsa6 = 6*gsa;
   int gsa9 = 9*gsa;
@@ -3549,10 +4650,29 @@ void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<doubl
 
  //construct the quantities of interest from delt and hess
 
+  if (get_lapl)
  #pragma acc parallel loop present(lapl[0:gsa],hess[0:gsa6])
   for (int j=0;j<gsa;j++)
     lapl[j] = hess[6*j+0] + hess[6*j+3] + hess[6*j+5];
 
+  if (get_rhohess)
+ #pragma acc parallel loop present(rhohess[0:gsa9],hess[0:gsa6])
+  for (int j=0;j<gsa;j++)
+  {
+   //hess order: xx, xy, xz, yy, yz, zz
+   //rhohess is symmetric matrix
+    rhohess[9*j+0] = hess[6*j+0];
+    rhohess[9*j+1] = hess[6*j+1];
+    rhohess[9*j+2] = hess[6*j+2];
+    rhohess[9*j+3] = hess[6*j+1];
+    rhohess[9*j+4] = hess[6*j+3];
+    rhohess[9*j+5] = hess[6*j+4];
+    rhohess[9*j+6] = hess[6*j+2];
+    rhohess[9*j+7] = hess[6*j+4];
+    rhohess[9*j+8] = hess[6*j+5];
+  }
+
+  if (get_hessw)
  #pragma acc parallel loop present(hessw[0:gsa],delt[0:gsa3],hess[0:gsa6])
   for (int j=0;j<gsa;j++)
   {
@@ -3567,6 +4687,8 @@ void compute_lap_hess(int natoms, int* atno, double* coords, vector<vector<doubl
   const double evden = 1.e-15;
   const double rfix = 1.-evden;
   #pragma acc update self(hessorb[0:gsa9])
+
+  if (get_hessp)
   for (int j=0;j<gsa;j++)
   {
     double* hp1 = &hessorb[9*j];
@@ -3821,9 +4943,184 @@ void compute_delt_inner(int tid, int gsa, int natoms, double* coords, double Rc,
   return;
 }
 
+void compute_delt_inner_g(int tid, int gsa, int natoms, double* coords,
+                        int iN, int* n2i, vector<vector<double> >& basis,
+                        double* grid, double* grid1, double* grid2, double* Pao1n, double* Pao2n, double** val1, double** val2p, double* tmp, double* delt1, double* delt2)
+{
+  int N = basis.size();
+  int gsa3 = 3*gsa;
+  int gsa6 = 6*gsa;
+
+  bool have_delt2 = 0;
+  if (delt2!=NULL && Pao2n!=NULL)
+    have_delt2 = 1;
+
+ //skip low density matrix elements
+  const double dthresh = 1.e-10;
+
+ //shouldn't call this async
+  if (tid>-1) acc_wait_all();
+
+  const int ig = 10;
+
+  for (int m=0;m<natoms;m++)
+  {
+    int s1 = 0; if (m>0) s1 = n2i[m-1]; int s2 = n2i[m];
+
+    double A1 = coords[3*m+0]; double B1 = coords[3*m+1]; double C1 = coords[3*m+2];
+
+    copy_grid(gsa,grid1,grid);
+    recenter_grid_zero(gsa,grid1,-A1,-B1,-C1);
+
+    #pragma acc parallel loop collapse(2) present(val1[0:iN][0:gsa])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gsa;j++)
+      val1[i1][j] = 0.;
+
+    #pragma acc parallel loop collapse(2) present(val2p[0:iN][0:gsa3])
+    for (int i1=0;i1<s2-s1;i1++)
+    for (int j=0;j<gsa3;j++)
+      val2p[i1][j] = 0.;
+
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+      double* valm = val1[ii1];
+      double* valmg = val2p[ii1];
+
+      vector<double> basis1 = basis[i1];
+      int l1 = basis1[1]; int m1 = basis1[2]; int ng = basis1[3];
+      int in = ig + ng; //index to find norm
+
+      for (int j=0;j<ng;j++)
+      {
+        double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+        eval_ghd(gsa,grid1,tmp,l1,m1,norm1,zeta1);
+
+       #pragma acc parallel loop present(valm[0:gsa],tmp[0:gsa])
+        for (int k=0;k<gsa;k++)
+          valm[k] += tmp[k];
+
+        eval_pd_gh(gsa,grid1,tmp,l1+1,l1,m1,norm1,zeta1);
+
+       #pragma acc parallel loop present(valmg[0:gsa3],tmp[0:gsa3])
+        for (int k=0;k<gsa3;k++)
+          valmg[k] += tmp[k];
+      }
+    }
+
+   //single-atom Pao elements added to grid
+    for (int i1=s1;i1<s2;i1++)
+    {
+      int ii1 = i1-s1;
+      double* valn = val1[ii1];
+
+      for (int i2=s1;i2<s2;i2++)
+      {
+        int ii2 = i2-s1;
+        double d1 = Pao1n[i1*N+i2];
+        double d2 = 0.; if (have_delt2) d2 = Pao2n[i1*N+i2];
+        double* valpm = val2p[ii2];
+
+        if (fabs(d1)>dthresh)
+       #pragma acc parallel loop present(delt1[0:gsa3],valn[0:gsa],valpm[0:gsa3])
+        for (int j=0;j<gsa;j++)
+        {
+          delt1[3*j+0] += d1*valn[j]*valpm[3*j+0];
+          delt1[3*j+1] += d1*valn[j]*valpm[3*j+1];
+          delt1[3*j+2] += d1*valn[j]*valpm[3*j+2];
+        }
+
+        if (have_delt2 && fabs(d2)>dthresh)
+       #pragma acc parallel loop present(delt2[0:gsa3],valn[0:gsa],valpm[0:gsa3])
+        for (int j=0;j<gsa;j++)
+        {
+          delt2[3*j+0] += d2*valn[j]*valpm[3*j+0];
+          delt2[3*j+1] += d2*valn[j]*valpm[3*j+1];
+          delt2[3*j+2] += d2*valn[j]*valpm[3*j+2];
+        }
+      }
+    }
+
+    for (int n=0;n<natoms;n++)
+    if (m!=n)
+    {
+      int s3 = 0; if (n>0) s3 = n2i[n-1]; int s4 = n2i[n];
+      double A2 = coords[3*n+0]; double B2 = coords[3*n+1]; double C2 = coords[3*n+2];
+
+      #pragma acc parallel loop collapse(2) present(val2p[0:iN][0:gsa3])
+      for (int i2=0;i2<s4-s3;i2++)
+      for (int j=0;j<gsa3;j++)
+        val2p[i2][j] = 0.;
+
+      copy_grid(gsa,grid2,grid);
+      recenter_grid_zero(gsa,grid2,-A2,-B2,-C2);
+
+      for (int i2=s3;i2<s4;i2++)
+      {
+        int ii2 = i2-s3;
+        double* valmg = val2p[ii2];
+
+        vector<double> basis2 = basis[i2];
+        int l2 = basis2[1]; int m2 = basis2[2]; int ng = basis2[3];
+        int in = ig + ng; //index to find norm
+
+        for (int j=0;j<ng;j++)
+        {
+          double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+          eval_pd_gh(gsa,grid2,tmp,l2+1,l2,m2,norm2,zeta2);
+
+         #pragma acc parallel loop present(valmg[0:gsa3],tmp[0:gsa3])
+          for (int k=0;k<gsa3;k++)
+            valmg[k] += tmp[k];
+        }
+      }
+
+     //two-atom Pao elements added to grid
+      for (int i1=s1;i1<s2;i1++)
+      {
+        int ii1 = i1-s1;
+        double* valn = val1[ii1];
+
+        for (int i2=s3;i2<s4;i2++)
+        {
+          int ii2 = i2-s3;
+          double d1 = Pao1n[i1*N+i2];
+          double d2 = 0.; if (have_delt2) d2 = Pao2n[i1*N+i2];
+          double* valpm = val2p[ii2];
+
+          if (fabs(d1)>dthresh)
+          #pragma acc parallel loop present(delt1[0:gsa3],valn[0:gsa],valpm[0:gsa3])
+          for (int j=0;j<gsa;j++)
+          {
+            delt1[3*j+0] += d1*valn[j]*valpm[3*j+0];
+            delt1[3*j+1] += d1*valn[j]*valpm[3*j+1];
+            delt1[3*j+2] += d1*valn[j]*valpm[3*j+2];
+          }
+
+          if (have_delt2 && fabs(d2)>dthresh)
+          #pragma acc parallel loop present(delt2[0:gsa3],valn[0:gsa],valpm[0:gsa3])
+          for (int j=0;j<gsa;j++)
+          {
+            delt2[3*j+0] += d2*valn[j]*valpm[3*j+0];
+            delt2[3*j+1] += d2*valn[j]*valpm[3*j+1];
+            delt2[3*j+2] += d2*valn[j]*valpm[3*j+2];
+          }
+        }
+      }
+
+    } //loop n over unique atoms
+
+  } //loop m over natoms
+
+  return;
+}
+
 
 //del(r')D(r,r')
-void compute_delt(int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* delt, int prl)
+void compute_delt(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, double* Pao, int nrad, int gsa, double* grid, double* delt, int prl)
 {
   int gsa3 = 3*gsa;
   int gsa6 = 6*gsa;
@@ -3836,6 +5133,9 @@ void compute_delt(int natoms, int* atno, double* coords, vector<vector<double> >
 
   if (sgs_basis) { printf("\n ERROR: compute_rho for SGS basis does not support drho \n"); exit(-1); }
 
+  if (gbasis)
+    printf("  TESTING: compute_delt for gbasis \n");
+
   int N = basis.size();
   int N2 = N*N;
   int* n2i = new int[natoms];
@@ -3876,7 +5176,10 @@ void compute_delt(int natoms, int* atno, double* coords, vector<vector<double> >
     delt[m] = 0.;
 
  //real work here
-  compute_delt_inner(tid,gsa,natoms,coords,Rc,ss_basis,iN,n2i,basis,grid,grid1,grid2,Paon,NULL,val1,val2p,tmp,delt,NULL);
+  if (!gbasis)
+    compute_delt_inner(tid,gsa,natoms,coords,Rc,ss_basis,iN,n2i,basis,grid,grid1,grid2,Paon,NULL,val1,val2p,tmp,delt,NULL);
+  else
+    compute_delt_inner_g(tid,gsa,natoms,coords,iN,n2i,basis,grid,grid1,grid2,Paon,NULL,val1,val2p,tmp,delt,NULL);
 
  //cleanup
   #pragma acc exit data delete(grid1[0:gsa6],grid2[0:gsa6],tmp[0:gsa3])
@@ -3905,7 +5208,7 @@ void compute_delt(int natoms, int* atno, double* coords, vector<vector<double> >
 
 //nrad/nang are for secondary grid, gsa for primary grid
 //this function does not include the relativistic time contribution
-void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double> > &basis, double* Pao, double* Paodt,
+void compute_B_field(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, double* Pao, double* Paodt,
                      int nrad, int nang, double* ang_g, double* ang_w, int gsa, double* grid, double* B, int prl)
 {
  //grid should be on cpu
@@ -3962,10 +5265,10 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
   if (ss_basis)
     Rc = read_float("RC");
 
-  double* grida = new double[gsb6];
+  double* gridb = new double[gsb6];
   double* grid1 = new double[gsb6];
   double* grid2 = new double[gsb6];
-  double* wt1 = new double[gsb];
+  double* wtb = new double[gsb];
   double* delt1 = new double[gsb3];
   double* delt2 = NULL;
   if (get_paodt)
@@ -3980,36 +5283,37 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
   for (int i=0;i<iN;i++)
     val2p[i] = new double[gsb3];
 
-  #pragma acc enter data create(grida[0:gsb6],grid1[0:gsb6],grid2[0:gsb6],wt1[0:gsb],delt1[0:gsb3],tmp[0:gsb3])
+  #pragma acc enter data create(gridb[0:gsb6],grid1[0:gsb6],grid2[0:gsb6],wtb[0:gsb],delt1[0:gsb3],tmp[0:gsb3])
   #pragma acc enter data create(val1[0:iN][0:gsb],val2p[0:iN][0:gsb3])
   if (get_paodt)
   {
     #pragma acc enter data create(delt2[0:gsb3])
   }
 
-  #pragma acc parallel loop present(B[0:gsa3])
   for (int m=0;m<gsa3;m++)
     B[m] = 0.;
 
  //create inner grid
   double Z1 = 1.;
-  generate_central_grid_2d(-1,1,grida,wt1,Z1,nrad,nang,ang_g,ang_w);
+  generate_central_grid_2d(-1,1,gridb,wtb,Z1,nrad,nang,ang_g,ang_w);
 
   const double den = 1.e-8; //make sure small terms don't blow up
-  #pragma acc parallel loop present(grida[0:gsb6])
+  #pragma acc parallel loop present(gridb[0:gsb6])
   for (int m=0;m<gsb;m++)
   {
-    double r = grida[6*m+3];
+    double r = gridb[6*m+3];
     double r2 = r*r;
     double r3 = r2*r;
-    grida[6*m+3] = r +den;
-    grida[6*m+4] = r2+den;
-    grida[6*m+5] = r3+den;
+    gridb[6*m+3] = r +den;
+    gridb[6*m+4] = r2+den;
+    gridb[6*m+5] = r3+den;
   }
-  #pragma acc update self(grida[0:gsb6])
+  #pragma acc update self(gridb[0:gsb6])
 
   double fdt = 1./ALPHAFSC; //1/c
 
+  if (prl>1) printf("  compute_B_field. gsa/b: %4i %4i \n",gsa,gsb);
+
  //testing dJ/dt term
   for (int j=0;j<gsa;j++)
   {
@@ -4024,24 +5328,20 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
       delt2[m] = 0.;
 
    //get J for grid[j]
-    recenter_grid_zero(gsb,grida,-x1,-y1,-z1); //grida to point j
-    compute_delt_inner(tid,gsb,natoms,coords,Rc,ss_basis,iN,n2i,basis,grida,grid1,grid2,Pao1n,Pao2n,val1,val2p,tmp,delt1,delt2);
-    recenter_grid_zero(gsb,grida,x1,y1,z1);
-
-   #if 0
-    printf(" xyz: %8.5f %8.5f %8.5f \n",x1,y1,z1);
-    #pragma acc update self(delt[0:gsb3])
-    for (int m=0;m<gsb;m++)
-      printf("  xyz: %8.5f %8.5f %8.5f  J:  %10.6f  %10.6f  %10.6f \n",grida[6*m+0],grida[6*m+1],grida[6*m+2],delt[3*m+0],delt[3*m+1],delt[3*m+2]);
-   #endif
+    recenter_grid_zero(gsb,gridb,x1,y1,z1); //gridb to point j
+    if (!gbasis)
+      compute_delt_inner(tid,gsb,natoms,coords,Rc,ss_basis,iN,n2i,basis,gridb,grid1,grid2,Pao1n,Pao2n,val1,val2p,tmp,delt1,delt2);
+    else
+      compute_delt_inner_g(tid,gsb,natoms,coords,iN,n2i,basis,gridb,grid1,grid2,Pao1n,Pao2n,val1,val2p,tmp,delt1,delt2);
+    recenter_grid_zero(gsb,gridb,-x1,-y1,-z1);
 
     double vbx = 0.; double vby = 0.; double vbz = 0.;
-   #pragma acc parallel loop present(grida[0:gsb6],wt1[0:gsb],delt1[0:gsb3]) reduction(+:vbx,vby,vbz)
+   #pragma acc parallel loop present(gridb[0:gsb6],wtb[0:gsb],delt1[0:gsb3]) reduction(+:vbx,vby,vbz)
     for (int m=0;m<gsb;m++)
     {
-      double x2 = grida[6*m+0]; double y2 = grida[6*m+1]; double z2 = grida[6*m+2]; //grida relative to point j
-      double r3 = grida[6*m+5];
-      double wt2 = wt1[m];
+      double x2 = gridb[6*m+0]; double y2 = gridb[6*m+1]; double z2 = gridb[6*m+2]; //gridb relative to point j
+      double r3 = gridb[6*m+5];
+      double wt2 = wtb[m];
       double dx = delt1[3*m+0]; double dy = delt1[3*m+1]; double dz = delt1[3*m+2];
 
      //cross product
@@ -4051,12 +5351,12 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
     }
 
     if (get_paodt)
-   #pragma acc parallel loop present(grida[0:gsb6],wt1[0:gsb],delt2[0:gsb3]) reduction(+:vbx,vby,vbz)
+   #pragma acc parallel loop present(gridb[0:gsb6],wtb[0:gsb],delt2[0:gsb3]) reduction(+:vbx,vby,vbz)
     for (int m=0;m<gsb;m++)
     {
-      double x2 = grida[6*m+0]; double y2 = grida[6*m+1]; double z2 = grida[6*m+2]; //grida relative to point j
-      double r2 = grida[6*m+4];
-      double wt2 = wt1[m];
+      double x2 = gridb[6*m+0]; double y2 = gridb[6*m+1]; double z2 = gridb[6*m+2]; //gridb relative to point j
+      double r2 = gridb[6*m+4];
+      double wt2 = wtb[m];
       double dx = delt2[3*m+0]; double dy = delt2[3*m+1]; double dz = delt2[3*m+2];
 
      //cross product
@@ -4065,6 +5365,14 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
       vbz += fdt*(x2*dy-y2*dx)/r2*wt2;
     }
 
+   #if 0
+    printf(" xyz: %8.5f %8.5f %8.5f ",x1,y1,z1);
+    //#pragma acc update self(delt1[0:gsb3])
+    //for (int m=0;m<gsb;m++)
+    //  printf("  xyz: %8.5f %8.5f %8.5f  J:  %10.6f  %10.6f  %10.6f \n",gridb[6*m+0],gridb[6*m+1],gridb[6*m+2],delt1[3*m+0],delt1[3*m+1],delt1[3*m+2]);
+    printf("   %9.5f %9.5f %9.5f \n",vbx,vby,vbz);
+   #endif
+
    //missing mu0/4π
     B[3*j+0] = vbx;
     B[3*j+1] = vby;
@@ -4080,17 +5388,17 @@ void compute_B_field(int natoms, int* atno, double* coords, vector<vector<double
 
 
  //cleanup
-  #pragma acc exit data delete(grida[0:gsb6],grid1[0:gsb6],grid2[0:gsb6],wt1[0:gsb],delt1[0:gsb3],tmp[0:gsb3])
+  #pragma acc exit data delete(gridb[0:gsb6],grid1[0:gsb6],grid2[0:gsb6],wtb[0:gsb],delt1[0:gsb3],tmp[0:gsb3])
   #pragma acc exit data delete(val1[0:iN][0:gsb],val2p[0:iN][0:gsb3])
   if (get_paodt)
   {
     #pragma acc exit data delete(delt2[0:gsb3])
   }
 
-  delete [] grida;
+  delete [] gridb;
   delete [] grid1;
   delete [] grid2;
-  delete [] wt1;
+  delete [] wtb;
   delete [] delt1;
   if (get_paodt)
     delete [] delt2;
@@ -4378,7 +5686,7 @@ void density_in_basis2(int natoms, int* atno, double* coords, vector<vector<doub
   int N2 = basis2.size();
   int N22 = N2*N2;
 
-  for (int i=0;i<N22;i++) 
+  for (int i=0;i<N22;i++)
     Paom[i] = 0.;
 
   int* n2i2 = new int[natoms];
@@ -5159,7 +6467,8 @@ void compute_fxc(int natoms, int* atno, double* coords, vector<vector<double> >
 }
 
 //gs is full grid size --> change to gsa
-void compute_fxcd(int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool gga, bool tau, bool need_wt, double* Pao, double* vxc, double* vxcs, int nrad, int gs, double* grid, double* wt, double* fxc, int prl)
+void compute_fxcd(int natoms, int* atno, double* coords, vector<vector<double> > &basis, bool gga, bool tau,
+                  bool need_wt, double* Pao, double* vxc, double* vxcs, int nrad, int gs, double* grid, double* wt, double* fxc, int prl)
 {
  //need_wt==0 --> wt vxc
  //need_wt==1 --> expects vxc to be wt'd already
diff --git a/src/integrals/gauss.cpp b/src/integrals/gauss.cpp
index 80031d4..c2a2d6d 100644
--- a/src/integrals/gauss.cpp
+++ b/src/integrals/gauss.cpp
@@ -912,6 +912,490 @@ int eval_gh_full(int gs, float* grid, float** val1, int i1, int natoms, int nbas
   return shl_size;
 }
 
+void eval_hess_ghd(int gs, double* grid, double* val, int n1, int l1, int m1, double norm1, double zeta1)
+{
+  int gs6 = 6*gs;
+  int nlm = n1-l1-1;
+  double nlm2 = nlm*nlm;
+  double nlmo2 = nlm*0.5;
+  double ntm = 0.5*nlm-2.;
+  double zt2 = zeta1*zeta1;
+
+  if (l1==0)
+  {
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+1] = g1*rp*nnrr*x*y;
+      val[6*i+2] = g1*rp*nnrr*x*z;
+      val[6*i+3] = g1*rp*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*nnrr*y*z;
+      val[6*i+5] = g1*rp*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+    }
+  }
+
+  else if (l1==1)
+  {
+   //different labels compared to Slater basis
+    if (m1==-1) //x
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*x*(nlm2*x2+3*nlm*(y2+z2)+nlm*x2*(1-4*r2*zeta1)+2*r4*zeta1*(-3+2*x2*zeta1));
+      val[6*i+1] = g1*rp*y*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+2] = g1*rp*z*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+3] = g1*rp*x*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*nnrr*x*y*z;
+      val[6*i+5] = g1*rp*x*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+    }
+    else if (m1==0) //y
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*y*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+1] = g1*rp*x*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+2] = g1*rp*nnrr*x*y*z;
+      val[6*i+3] = g1*rp*y*(nlm2*y2+2*r4*zeta1*(-3+2*y2*zeta1)+nlm*(3*x2+y2+3*z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*z*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+5] = g1*rp*y*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+    }
+    else //z
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*z*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+1] = g1*rp*nnrr*x*y*z;
+      val[6*i+2] = g1*rp*x*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+      val[6*i+3] = g1*rp*z*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*y*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+      val[6*i+5] = g1*rp*z*(nlm2*z2+2*r4*zeta1*(-3+2*z2*zeta1)+nlm*(3*x2+3*y2+z2-4*r2*z2*zeta1));
+    }
+  }
+
+  else if (l1==2)
+  {
+   //xy yz, z2, xz, x2-y2
+    if (m1==-2) //xy
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*x*y*(nlm2*x2+3*nlm*(y2+z2)+nlm*x2*(1-4*r2*zeta1)+2*r4*zeta1*(-3+2*x2*zeta1));
+      val[6*i+1] = g1*rpo*((nlm2*x2*y2)/r4+(-1+2*x2*zeta1)*(-1+2*y2*zeta1)+(nlm*(x4+y4+x2*z2+y2*z2-4*r2*x2*y2*zeta1))/r4);
+      val[6*i+2] = g1*rp*y*z*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+3] = g1*rp*x*y*(nlm2*y2+2*r4*zeta1*(-3+2*y2*zeta1)+nlm*(3*x2+y2+3*z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*x*z*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+5] = g1*rp*x*y*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+    }
+    else if (m1==-1) //yz
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*y*z*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+1] = g1*rp*x*z*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+2] = g1*rp*x*y*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+      val[6*i+3] = g1*rp*y*z*(nlm2*y2+2*r4*zeta1*(-3+2*y2*zeta1)+nlm*(3*x2+y2+3*z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rpo*(nlm2*y2*z2/r4+(-1+2*y2*zeta1)*(-1+2*z2*zeta1)+(nlm*(x2*y2+y4+x2*z2+z4-4*r2*y2*z2*zeta1))/r4);
+      val[6*i+5] = g1*rp*y*z*(nlm2*z2+2*r4*zeta1*(-3+2*z2*zeta1)+nlm*(3*x2+3*y2+z2-4*r2*z2*zeta1));
+    }
+    else if (m1==0) //z2
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+      double x2py22 = pow(x2+y2,2.);
+
+      val[6*i+0] = g1*rpo*(-2+(nlm*(-((x2+y2)*((3+nlm)*x2+y2))+((-7+2*nlm)*x2+y2)*z2+2*z4))/r4+(2*((x2+y2)*((5+2*nlm)*x2+y2)-((-3+4*nlm)*x2+y2)*z2-2*z4)*zeta1)/r2-4*x2*(x2+y2-2*z2)*zt2);
+      val[6*i+1] = g1*rp*x*y*(-nlm*(2+nlm)*(x2+y2)+2*(-4+nlm)*nlm*z2+4*r2*((2+nlm)*(x2+y2)-2*(-1+nlm)*z2)*zeta1-4*r4*(x2+y2-2*z2)*zt2);
+      val[6*i+2] = g1*rp*x*z*(-((-4+nlm)*nlm*(x2+y2))+2*(-1+nlm)*nlm*z2+4*r2*((-1+nlm)*(x2+y2)-(1+2*nlm)*z2)*zeta1-4*r4*(x2+y2-2*z2)*zt2);
+      val[6*i+3] = g1*rpo*(-2+(nlm*(-((x2+y2)*(x2+(3+nlm)*y2))+(x2+(-7+2*nlm)*y2)*z2+2*z4))/r4+(2*((x2+y2)*(x2+(5+2*nlm)*y2)-(x2+(-3+4*nlm)*y2)*z2-2*z4)*zeta1)/r2-4*y2*(x2+y2-2*z2)*z2);
+      val[6*i+4] = g1*rp*y*z*(-((-4+nlm)*nlm*(x2+y2))+2*(-1+nlm)*nlm*z2+4*r2*((-1+nlm)*(x2+y2)-(1+2*nlm)*z2)*zeta1-4*r4*(x2+y2-2*z2)*zt2);
+      val[6*i+5] = g1*rpo*(4+(nlm*(-x2py22-(-11+nlm)*(x2+y2)*z2+2*(3+nlm)*z4))/r4+(2*(x2py22+(-9+2*nlm)*(x2+y2)*z2-2*(5+2*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-2*z2)*z2);
+    }
+    else if (m1==1) //xz
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double x4 = x2*x2;
+      double z4 = z2*z2;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rp*x*z*(nlm2*x2+3*nlm*(y2+z2)+nlm*x2*(1-4*r2*zeta1)+2*r4*zeta1*(-3+2*x2*zeta1));
+      val[6*i+1] = g1*rp*y*z*(nlm2*x2+2*r4*zeta1*(-1+2*x2*zeta1)+nlm*(y2+z2+x2*(-1-4*r2*zeta1)));
+      val[6*i+2] = g1*rpo*(nlm2*x2*z2/r4+(-1+2*x2*zeta1)*(-1+2*z2*zeta1)+(nlm*(x4+x2*y2+y2*z2+z4-4*r2*x2*z2*zeta1))/r4);
+      val[6*i+3] = g1*rp*x*z*(nlm2*y2+2*r4*zeta1*(-1+2*y2*zeta1)+nlm*(x2-y2+z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rp*x*y*(nlm2*z2+2*r4*zeta1*(-1+2*z2*zeta1)+nlm*(x2+y2-z2-4*r2*z2*zeta1));
+      val[6*i+5] = g1*rp*x*z*(nlm2*z2+2*r4*zeta1*(-3+2*z2*zeta1)+nlm*(3*x2+3*y2+z2-4*r2*z2*zeta1));
+    }
+    else if (m1==2) //x2-y2
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double r2 = r*r;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+      double nnrr = (nlm-2.)*nlm-4.*nlm*r2*zeta1+4.*r2*r2*zt2;
+
+      val[6*i+0] = g1*rpo*(2+(nlm2*x2*(x-y)*(x+y))/r4+2*zeta1*(y2+x2*(-5+2*(x-y)*(x+y)*zeta1))+(nlm*(-y2*(y2+z2)-4*x4*x2*zeta1+x4*(3-4*z2*zeta1)+x2*(5*z2+2*y2*(3+2*(y2+z2)*zeta1))))/r4);
+      val[6*i+1] = g1*rp*x*(x-y)*y*(x+y)*((-2+nlm)*nlm-4*nlm*r2*zeta1+4*r4*zt2);
+      val[6*i+2] = g1*rp*x*z*(nlm2*(x-y)*(x+y)+4*r4*zeta1*(-1+(x-y)*(x+y)*zeta1)+2*nlm*(2*y2+z2+2*r2*(-x+y)*(x+y)*zeta1));
+      val[6*i+3] = g1*rpo*(-2+(nlm2*(x-y)*y2*(x+y))/r4+(nlm*(x4-6*x2*y2-3*y4+x2*z2-5*y2*z2-4*r2*(x-y)*y2*(x+y)*zeta1))/r4+2*zeta1*(5*y2-2*y4*zeta1+x2*(-1+2*y2*zeta1)));
+      val[6*i+4] = -g1*rp*y*z*(nlm2*(-x2+y2)-4*r4*zeta1*(1+(x-y)*(x+y)*zeta1)+2*nlm*(2*x2+z2+2*r2*(x-y)*(x+y)*zeta1));
+      val[6*i+5] = g1*rpo*(x-y)*(x+y)*((nlm*(x2+y2+(-1+nlm)*z2))/r4-2*zeta1-(4*nlm*z2*zeta1)/r2+4*z2*z2);
+    }
+  } //d ftns
+
+  else if (l1==3)
+  {
+   //y(3x2-y2), xyz, y(5z2-r2), 5z3-3zr2, x(5z2-r2), (x2-y2)z, x(x2-3y2)
+    if (m1==-3) //y(3x2-y2)
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*y*(6+(nlm2*(3*x4-x2*y2))/r4+(nlm*(9*x4+16*x2*y2-y4+15*x2*z2-y2*z2-4*r2*x2*(3*x2-y2)*zeta1))/r4+2*zeta1*(y2+6*x4*zeta1-x2*(15+2*y2*zeta1)));
+      val[6*i+1] = g1*rpo*x*(6+(nlm2*(3*x2*y2-y4))/r4+6*x2*zeta1*(-1+2*y2*zeta1)-2*y2*zeta1*(3+2*y2*zeta1)+(nlm*(5*y4+3*(x4+(x2+y2)*z2)+4*r2*y2*(-3*x2+y2)*zeta1))/r4);
+      val[6*i+2] = g1*2*rpo*x*y*z*((nlmo2*(3*nlm*x2+8*y2-nlm*y2+6*z2))/r4-6*zeta1+(2*nlm*(-3*x2+y2)*zeta1)/r2+2*(3*x2-y2)*zt2);
+      val[6*i+3] = g1*rpo*y*(-6+(nlm2*(3*x2*y2-y4))/r4+(nlm*(9*x4-4*x2*y2-5*y4+9*x2*z2-7*y2*z2+4*r2*y2*(-3*x2+y2)*zeta1))/r4+2*zeta1*(7*y2-2*y4*zeta1+x2*(-9+6*y2*zeta1)));
+      val[6*i+4] = g1*rp*z*(nlm2*(3*x2*y2-y4)+nlm*(3*x4-6*x2*y2-y4+3*x2*z2-3*y2*z2+4*r2*y2*(-3*x2+y2)*zeta1)+2*r4*zeta1*(3*y2-2*y4*zeta1+x2*(-3+6*y2*zeta1)));
+      val[6*i+5] = g1*rpo*y*(3*x2-y2)*((nlm*(x2+y2+(-1+nlm)*z2))/r4-2*zeta1-(4*nlm*z2*zeta1)/r2+4*z2*zt2);
+   }
+    else if (m1==-2) //xyz
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rp*x*y*z*(nlm2*x2+3*nlm*(y2+z2)+nlm*x2*(1-4*r2*zeta1)+2*r4*zeta1*(-3+2*x2*zeta1));
+      val[6*i+1] = g1*rpo*z*((nlm2*x2*y2)/r4+(-1+2*x2*zeta1)*(-1+2*y2*zeta1)+(nlm*(x4+y4+x2*z2+y2*z2-4*r2*x2*y2*zeta1))/r4);
+      val[6*i+2] = g1*rpo*y*((nlm2*x2*z2)/r4+(-1+2*x2*zeta1)*(-1+2*z2*zeta1)+(nlm*(x4+x2*y2+y2*z2+z4-4*r2*x2*z2*zeta1))/r4);
+      val[6*i+3] = g1*rp*x*y*z*(nlm2*y2+2*r4*zeta1*(-3+2*y2*zeta1)+nlm*(3*x2+y2+3*z2-4*r2*y2*zeta1));
+      val[6*i+4] = g1*rpo*x*((nlm2*y2*z2)/r4+(-1+2*y2*zeta1)*(-1+2*z2*zeta1)+(nlm*(x2*y2+y4+x2*z2+z4-4*r2*y2*z2*zeta1))/r4);
+      val[6*i+5] = g1*rp*x*y*z*(nlm2*z2+2*r4*zeta1*(-3+2*z2*zeta1)+nlm*(3*x2+3*y2+z2-4*r2*z2*zeta1));
+    }
+    else if (m1==-1) //y(5z2-r2)
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double x2y22 = pow(x2+y2,2.);
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*y*(-2+(-nlm2*x2*(x2+y2-4*z2)-nlm*(3*x4+(y-2*z)*(y+2*z)*(y2+z2)+x2*(4*y2+9*z2))+4*nlm*r2*x2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(y2-4*z2+x2*(5-2*(x2+y2-4*z2)*zeta1)))/r4);
+      val[6*i+1] = g1*rpo*x*(-2+(-nlm2*y2*(x2+y2-4*z2)-nlm*(x4+3*y4+9*y2*z2-4*z4+x2*(4*y2-3*z2))+4*nlm*r2*y2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(x2+5*y2-4*z2-2*y2*(x2+y2-4*z2)*zeta1))/r4);
+      val[6*i+2] = g1*2*rpo*x*y*z*((3*nlm)/r2-((-2+nlm)*nlm*(x2+y2-4*z2))/(2*r4)-6*zeta1+(2*nlm*(x2+y2-4*z2)*zeta1)/r2-2*(x2+y2-4*z2)*zt2);
+      val[6*i+3] = g1*rpo*y*(-6-(4*nlm*y2)/r2-(3*nlm*(x2+y2-4*z2))/r2-((-2+nlm)*nlm*y2*(x2+y2-4*z2))/r4+8*y2*zeta1+6*(x2+y2-4*z2)*zeta1+(4*nlm*y2*(x2+y2-4*z2)*zeta1)/r2-4*y2*(x2+y2-4*z2)*zt2);
+      val[6*i+4] = g1*rpo*z*(8-(nlm2*y2*(x2+y2-4*z2))/r4+2*zeta1*(x2-5*y2-4*z2-2*y2*(x2+y2-4*z2)*zeta1)+(nlm*(-x4+6*x2*y2+7*y4+3*x2*z2+y2*z2+4*z4+4*r2*y2*(x2+y2-4*z2)*zeta1))/r4);
+      val[6*i+5] = g1*rpo*y*(8+(nlm*(-x2y22-(-21+nlm)*(x2+y2)*z2+4*(3+nlm)*z4))/r4+(2*(x2y22+(-19+2*nlm)*(x2+y2)*z2-4*(5+2*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-4*z2)*zt2);
+    }
+    else if (m1==0) //5z3-3zr2
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double x2y22 = pow(x2+y2,2.);
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*z*(-2+(-nlm2*x2*(x2+y2-4*z2)-nlm*(3*x4+(y-2*z)*(y+2*z)*(y2+z2)+x2*(4*y2+9*z2))+4*nlm*r2*x2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(y2-4*z2+x2*(5-2*(x2+y2-4*z2)*zeta1)))/r4);
+      val[6*i+1] = g1*rpo*x*y*z*(8*zeta1+(-nlm*(2+nlm)*(x2+y2)+4*(-3+nlm)*nlm*z2+4*nlm*r2*(x2+y2-4*z2)*zeta1-4*r4*(x2+y2-4*z2)*zt2)/r4);
+      val[6*i+2] = g1*rpo*x*(-2+(nlm*(-x2y22-(-11+nlm)*(x2+y2)*z2+2*(1+2*nlm)*z4))/r4+(2*(x2y22+(-9+2*nlm)*(x2+y2)*z2-2*(5+4*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-4*z2)*zt2);
+      val[6*i+3] = g1*rpo*z*(-2+(-nlm2*y2*(x2+y2-4*z2)-nlm*(x4+3*y4+9*y2*z2-4*z4+x2*(4*y2-3*z2))+4*nlm*r2*y2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(x2+5*y2-4*z2-2*y2*(x2+y2-4*z2)*zeta1))/r4);
+      val[6*i+4] = g1*rpo*y*(-2+(nlm*(-x2y22-(-11+nlm)*(x2+y2)*z2+2*(1+2*nlm)*z4))/r4+(2*(x2y22+(-9+2*nlm)*(x2+y2)*z2-2*(5+4*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-4*z2)*zt2);
+      val[6*i+5] = g1*rpo*z*(24+(nlm*(-3*x2y22-(-27+nlm)*(x2+y2)*z2+4*(5+nlm)*z4))/r4+(2*(3*x2y22+(-25+2*nlm)*(x2+y2)*z2-4*(7+2*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-4*z2)*zt2);
+    }
+    else if (m1==1) //x(5z2-r2)
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double x2y22 = pow(x2+y2,2.);
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*x*(-6-(nlm2*x2*(x2+y2-4*z2))/r4+6*(y2-4*z2)*zeta1+2*x2*zeta1*(7-2*(x2+y2-4*z2)*zeta1)+(nlm*(-5*x4-8*x2*y2-3*y4-3*x2*z2+9*y2*z2+12*z4+4*r2*x2*(x2+y2-4*z2)*zeta1))/r4);
+      val[6*i+1] = g1*rpo*y*(-2+(-nlm2*x2*(x2+y2-4*z2)-nlm*(3*x4+(y-2*z)*(y+2*z)*(y2+z2)+x2*(4*y2+9*z2))+4*nlm*r2*x2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(y2-4*z2+x2*(5-2*(x2+y2-4*z2)*zeta1)))/r4);
+      val[6*i+2] = g1*rpo*z*(8-(nlm2*x2*(x2+y2-4*z2))/r4+(nlm*(7*x4+6*x2*y2-y4+x2*z2+3*y2*z2+4*z4+4*r2*x2*(x2+y2-4*z2)*zeta1))/r4+2*zeta1*(y2-4*z2-x2*(5+2*(x2+y2-4*z2)*zeta1)));
+      val[6*i+3] = g1*rpo*x*(-2+(-nlm2*y2*(x2+y2-4*z2)-nlm*(x4+3*y4+9*y2*z2-4*z4+x2*(4*y2-3*z2))+4*nlm*r2*y2*(x2+y2-4*z2)*zeta1+2*r4*zeta1*(x2+5*y2-4*z2-2*y2*(x2+y2-4*z2)*zeta1))/r4);
+      val[6*i+4] = g1*2*rpo*x*y*z*((3*nlm)/r2-((-2+nlm)*nlm*(x2+y2-4*z2))/(2*r4)-6*zeta1+(2*nlm*(x2+y2-4*z2)*zeta1)/r2-2*(x2+y2-4*z2)*zt2);
+      val[6*i+5] = g1*rpo*x*(8+(nlm*(-x2y22-(-21+nlm)*(x2+y2)*z2+4*(3+nlm)*z4))/r4+(2*(x2y22+(-19+2*nlm)*(x2+y2)*z2-4*(5+2*nlm)*z4)*zeta1)/r2-4*z2*(x2+y2-4*z2)*zt2);
+    }
+    else if (m1==2) //(x2-y2)z
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*z*(2+(nlm2*x2*(x-y)*(x+y))/r4+2*zeta1*(y2+x2*(-5+2*(x-y)*(x+y)*zeta1))+(nlm*(-y2*(y2+z2)-4*x4*x2*zeta1+x4*(3-4*z2*zeta1)+x2*(5*z2+2*y2*(3+2*(y2+z2)*zeta1))))/r4);
+      val[6*i+1] = g1*rp*x*(x-y)*y*(x+y)*z*((-2+nlm)*nlm-4*nlm*r2*zeta1+4*r4*zt2);
+      val[6*i+2] = g1*rp*x*(nlm2*(x-y)*(x+y)*z2+2*r4*(1-x2*zeta1+y2*zeta1)*(1-2*z2*zeta1)+nlm*(x4-y4+x2*z2+3*y2*z2+2*z4-4*r2*(x-y)*(x+y)*z2*zeta1));
+      val[6*i+3] = g1*rpo*z*(-2+(nlm2*(x-y)*y2*(x+y))/r4+(nlm*(x4-6*x2*y2-3*y4+x2*z2-5*y2*z2-4*r2*(x-y)*y2*(x+y)*zeta1))/r4+2*zeta1*(5*y2-2*y4*zeta1+x2*(-1+2*y2*zeta1)));
+      val[6*i+4] = g1*rpo*y*((nlm2*(x-y)*(x+y)*z2)/r4+2*(1+(x-y)*(x+y)*zeta1)*(-1+2*z2*zeta1)+(nlm*(x4-y4-3*x2*z2-y2*z2-2*z4-4*r2*(x-y)*(x+y)*z2*zeta1))/r4);
+      val[6*i+5] = g1*rp*(x-y)*(x+y)*z*(nlm2*z2+2*r4*zeta1*(-3+2*z2*zeta1)+nlm*(3*x2+3*y2+z2-4*r2*z2*zeta1));
+   }
+    else if (m1==3) //x(x2-3y2)
+    #pragma acc parallel loop present(grid[0:gs6],val[0:gs6])
+    for (int i=0;i<gs;i++)
+    {
+      double x = grid[6*i+0];
+      double y = grid[6*i+1];
+      double z = grid[6*i+2];
+      double r = grid[6*i+3];
+      double x2 = x*x;
+      double y2 = y*y;
+      double z2 = z*z;
+      double x4 = x2*x2;
+      double y4 = y2*y2;
+      double z4 = z2*z2;
+      double r2 = r*r;
+      double r4 = r2*r2;
+
+      double g1 = exp(-zeta1*r2);
+      double rp = pow(r2,ntm);
+      double rpo = pow(r2,nlmo2);
+
+      val[6*i+0] = g1*rpo*x*(6+(nlm2*(x4-3*x2*y2))/r4+(nlm*(5*x4+4*x2*y2-9*y4+7*x2*z2-9*y2*z2-4*r2*x2*(x2-3*y2)*zeta1))/r4+2*zeta1*(9*y2+2*x4*zeta1-x2*(7+6*y2*zeta1)));
+      val[6*i+1] = g1*rpo*y*(-6+(nlm2*(x4-3*x2*y2))/r4+6*(x2+y2)*zeta1+4*x2*(x2-3*y2)*zt2+(nlm*(-5*x4-3*y4-3*(x2+y2)*z2-4*r2*x2*(x2-3*y2)*zeta1))/r4);
+      val[6*i+2] = g1*rp*z*(nlm2*(x4-3*x2*y2)+nlm*(x4+6*x2*y2-3*y4+3*x2*z2-3*y2*z2-4*r2*x2*(x2-3*y2)*zeta1)+2*r4*zeta1*(3*y2+2*x4*zeta1-3*x2*(1+2*y2*zeta1)));
+      val[6*i+3] = g1*rpo*x*(-6+(nlm2*y2*(x2-3*y2))/r4+6*y2*zeta1*(5-2*y2*zeta1)+2*x2*zeta1*(-1+2*y2*zeta1)+(nlm*(x4-16*x2*y2-9*y4+x2*z2-15*y2*z2-4*r2*y2*(x2-3*y2)*zeta1))/r4);
+      val[6*i+4] = g1*2*rpo*x*y*z*((nlmo2*((-8+nlm)*x2-3*nlm*y2-6*z2))/r4+6*zeta1-(2*nlm*(x2-3*y2)*zeta1)/r2+2*(x2-3*y2)*zt2);
+      val[6*i+5] = g1*rpo*x*(x2-3*y2)*((nlm*(x2+y2+(-1+nlm)*z2))/r4-2*zeta1-(4*nlm*z2*zeta1)/r2+4*z2*zt2);
+    }
+  }
+ /*
+  else if (l1==4)
+  {
+   //x*y * (x*x - y*y), y*z * (3.*x*x - y*y), x*y * (6.*z*z - x*x - y*y), y*z * (4.*z*z - 3.*x*x - 3.*y*y), (35.*z2*z2 - 30.*z2*r2 + 3.*r2*r2), x*z * (4.*z*z - 3.*x*x - 3.*y*y), (x2 - y2) * (6.*z*z - x2 - y2), x*z * (x*x - 3.*y*y), (x*x * (x*x - 3.*y*y) - y*y * (3.*x*x - y*y))
+   //need these elements?
+  }
+ */
+  else
+  {
+    printf(" ERROR: l>3 not available in eval_hess_ghd \n");
+  }
+
+  #pragma acc parallel loop present(val[0:gs6])
+  for (int i=0;i<gs6;i++)
+    val[i] *= norm1;
+
+  return;
+}
+
 void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, double norm1, double zeta1)
 {
   int gs3 = 3*gs;
@@ -946,7 +1430,9 @@ void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, doubl
   }
   else if (l1==1)
   {
-    if (m1==1) //x
+   //this label differs from the Slater basis,
+   // though the ordering is the same
+    if (m1==-1) //x
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
     for (int i=0;i<gs;i++)
     {
@@ -968,7 +1454,7 @@ void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, doubl
       val[3*i+1] = g1*rp*v0*x*y;
       val[3*i+2] = g1*rp*v0*x*z;
     }
-    else if (m1==-1) //y
+    else if (m1==0) //y
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
     for (int i=0;i<gs;i++)
     {
@@ -990,7 +1476,7 @@ void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, doubl
       val[3*i+1] = g1*rp*(x2+z2+y2*v1);
       val[3*i+2] = g1*rp*v0*y*z;
     }
-    else if (m1==0) //z
+    else //z
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
     for (int i=0;i<gs;i++)
     {
@@ -1083,7 +1569,7 @@ void eval_pd_gh(int gs, double* grid, double* val, int n1, int l1, int m1, doubl
 
       val[3*i+0] = g1*rp*(x2y2*v1 - 2.*v2*z2 - fz*z4)*x;
       val[3*i+1] = g1*rp*(x2y2*v1 - 2.*v2*z2 - fz*z4)*y;
-      val[3*i+2] = g1*rp*(x2y2*v3 + 2.*v4*z2 - fz*z4)*z;
+      val[3*i+2] = g1*rp*(x2y2*v3+2.*v4*z2 - fz*z4)*z;
     }
     else if (m1==1) //xz
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -1799,7 +2285,7 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float x2y2 = x2+y2;
       float y2z2 = y2+z2;
 
-      val[3*i+0] = g1*rp*(y2 + z2 + x2*(1. + nlm - tz*r2))*y*z;
+      val[3*i+0] = g1*rp*(y2 + z2 + x2*(1.f + nlm - tz*r2))*y*z;
       val[3*i+1] = g1*rp*(x2*(1.f - tz*y2) + z2 + y2*(1.f + nlm - tz*y2z2))*x*z;
       val[3*i+2] = g1*rp*(x2 + y2 + (1.f + nlm - tz*x2y2)*z2 - tz*z4)*x*y;
     }
@@ -1823,9 +2309,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float rp = powf(r2,ntm);
       float x2y2 = x2+y2;
 
-      val[3*i+0] = g1*rp*(x2y2*(-2.f - nlm + tz*x2y2) - 2.f*(1. - 2.f*nlm + hz*x2y2)*z2 - ez*z4)*x*y;
+      val[3*i+0] = g1*rp*(x2y2*(-2.f - nlm + tz*x2y2) - 2.f*(1.f - 2.f*nlm + hz*x2y2)*z2 - ez*z4)*x*y;
       val[3*i+1] = g1*rp*(x2y2*(-x2 - (3.f + nlm - tz*x2)*y2 + tz*y4) + (3.f*x2 + (1.f + 4.f*nlm - sz*x2)*y2 - sz*y4)*z2 +  4.f*(1.f - tz*y2)*z4);
-      val[3*i+2] = g1*rp*(x2y2*(8.f - nlm + tz*x2y2) + 2.f*(4. + 2.f*nlm - hz*x2y2)*z2 - ez*z4)*y*z;
+      val[3*i+2] = g1*rp*(x2y2*(8.f - nlm + tz*x2y2) + 2.f*(4.f + 2.f*nlm - hz*x2y2)*z2 - ez*z4)*y*z;
     }
     else if (m1==0) //(2z2-3x2-3y2)z
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -1871,9 +2357,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float rp = powf(r2,ntm);
       float x2y2 = x2+y2;
 
-      val[3*i+0] = g1*rp*(x2y2*(-y2 + x2*(-3.f - nlm + tz*x2y2)) + (3.f*y2 + x2*(1.f + 4.f*nlm - sz*x2y2))*z2 + 4.f*(1. - tz*x2)*z4);
-      val[3*i+1] = g1*rp*(x2y2*(-2.f - nlm + tz*x2y2) - 2.f*(1. - 2.f*nlm + hz*x2y2)*z2 - ez*z4)*x*y;
-      val[3*i+2] = g1*rp*(x2y2*(8.f - nlm + tz*x2y2) + 2.f*(4. + 2.f*nlm - hz*x2y2)*z2 - ez*z4)*x*z;
+      val[3*i+0] = g1*rp*(x2y2*(-y2 + x2*(-3.f - nlm + tz*x2y2)) + (3.f*y2 + x2*(1.f + 4.f*nlm - sz*x2y2))*z2 + 4.f*(1.f - tz*x2)*z4);
+      val[3*i+1] = g1*rp*(x2y2*(-2.f - nlm + tz*x2y2) - 2.f*(1.f - 2.f*nlm + hz*x2y2)*z2 - ez*z4)*x*y;
+      val[3*i+2] = g1*rp*(x2y2*(8.f - nlm + tz*x2y2) + 2.f*(4.f + 2.f*nlm - hz*x2y2)*z2 - ez*z4)*x*z;
     }
     else if (m1==2) //(x2-y2)z
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -2015,10 +2501,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-    //CPMZ need float in numbers
-      val[3*i+0] = g1*rp*x*y*z*(sz*x4 + sz*y4 + z2*(-6. + 4.*nlm - ez*z2) + y2*(-6. - 3.*nlm - tz*z2) + x2*(-6. - 3.*nlm + 12.f*zeta1*y2 - tz*z2));
-      val[3*i+1] = g1*rp*z*(sz*y4*y2 + x4*(-3. + sz*y2) + 4.*z4 + y2*z2*(-5. + 4.*nlm - ez*z2) + y4*(-9. - 3.*nlm - tz*z2) + x2*(12.f*zeta1*y4 + 1.*z2 + y2*(-12. - 3.*nlm - tz*z2)));
-      val[3*i+2] = g1*rp*y*(-3.*y4 + y2*(9. - 3.*nlm + sz*y2)*z2 + (12. + 4.*nlm - tz*y2)*z4 - ez*z4*z2 + x4*(-3. + sz*z2) + x2*(-6.*y2 + (9. - 3.*nlm + 12.f*zeta1*y2)*z2 - tz*z4));
+      val[3*i+0] = g1*rp*x*y*z*(sz*x4 + sz*y4 + z2*(-6.f + 4.f*nlm - ez*z2) + y2*(-6.f - 3.f*nlm - tz*z2) + x2*(-6.f - 3.f*nlm + 12.f*zeta1*y2 - tz*z2));
+      val[3*i+1] = g1*rp*z*(sz*y4*y2 + x4*(-3.f + sz*y2) + 4.f*z4 + y2*z2*(-5.f + 4.f*nlm - ez*z2) + y4*(-9.f - 3.f*nlm - tz*z2) + x2*(12.f*zeta1*y4 + z2 + y2*(-12.f - 3.f*nlm - tz*z2)));
+      val[3*i+2] = g1*rp*y*(-3.f*y4 + y2*(9.f - 3.f*nlm + sz*y2)*z2 + (12.f + 4.f*nlm - tz*y2)*z4 - ez*z4*z2 + x4*(-3.f + sz*z2) + x2*(-6.f*y2 + (9.f - 3.f*nlm + 12.f*zeta1*y2)*z2 - tz*z4));
     }
     else if (m1==0) //(35.*z2*z2 - 30.*z2*r2 + 3.*r2*r2)
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -2039,9 +2524,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-      val[3*i+0] = g1*rp*x*(-sz*x4*x2 - sz*y4*y2 + z4*(-48. + 8.*nlm - 16.*zeta1*z2) + y2*z2*(-36. - 24.*nlm + 32.f*zeta1*z2) + y4*(12. + 3.*nlm + 42.f*zeta1*z2) + x4*(12. + 3.*nlm - 18.*zeta1*y2 + 42.f*zeta1*z2) + x2*(-18.*zeta1*y4 + z2*(-36. - 24.*nlm + 32.f*zeta1*z2) +  y2*(24. + 6.*nlm + 84.*zeta1*z2)));
-      val[3*i+1] = g1*rp*y*(-sz*x4*x2 - sz*y4*y2 + z4*(-48. + 8.*nlm - 16.*zeta1*z2) + y2*z2*(-36. - 24.*nlm + 32.f*zeta1*z2) + y4*(12. + 3.*nlm + 42.f*zeta1*z2) + x4*(12. + 3.*nlm - 18.*zeta1*y2 + 42.f*zeta1*z2) + x2*(-18.*zeta1*y4 + z2*(-36. - 24.*nlm + 32.f*zeta1*z2) + y2*(24. + 6.*nlm + 84.*zeta1*z2)));
-      val[3*i+2] = g1*rp*z*(-sz*x4*x2 - sz*y4*y2 + z4*(32. + 8.*nlm - 16.*zeta1*z2) + y2*z2*(-16. - 24.*nlm + 32.f*zeta1*z2) + y4*(-48. + 3.*nlm + 42.f*zeta1*z2) + x4*(-48. + 3.*nlm - 18.*zeta1*y2 + 42.f*zeta1*z2) +  x2*(-18.*zeta1*y4 + z2*(-16. - 24.*nlm + 32.f*zeta1*z2) +  y2*(-96. + 6.*nlm + 84.*zeta1*z2)));
+      val[3*i+0] = g1*rp*x*(-sz*x4*x2 - sz*y4*y2 + z4*(-48.f + 8.f*nlm - 16.f*zeta1*z2) + y2*z2*(-36.f - 24.f*nlm + 32.f*zeta1*z2) + y4*(12.f + 3.f*nlm + 42.f*zeta1*z2) + x4*(12.f + 3.f*nlm - 18.f*zeta1*y2 + 42.f*zeta1*z2) + x2*(-18.f*zeta1*y4 + z2*(-36.f - 24.f*nlm + 32.f*zeta1*z2) +  y2*(24.f + 6.f*nlm + 84.f*zeta1*z2)));
+      val[3*i+1] = g1*rp*y*(-sz*x4*x2 - sz*y4*y2 + z4*(-48.f + 8.f*nlm - 16.f*zeta1*z2) + y2*z2*(-36.f - 24.f*nlm + 32.f*zeta1*z2) + y4*(12.f + 3.f*nlm + 42.f*zeta1*z2) + x4*(12.f + 3.f*nlm - 18.f*zeta1*y2 + 42.f*zeta1*z2) + x2*(-18.f*zeta1*y4 + z2*(-36.f - 24.f*nlm + 32.f*zeta1*z2) + y2*(24.f + 6.f*nlm + 84.f*zeta1*z2)));
+      val[3*i+2] = g1*rp*z*(-sz*x4*x2 - sz*y4*y2 + z4*(32.f + 8.f*nlm - 16.f*zeta1*z2) + y2*z2*(-16.f - 24.f*nlm + 32.f*zeta1*z2) + y4*(-48.f + 3.f*nlm + 42.f*zeta1*z2) + x4*(-48.f + 3.f*nlm - 18.f*zeta1*y2 + 42.f*zeta1*z2) +  x2*(-18.f*zeta1*y4 + z2*(-16.f - 24.f*nlm + 32.f*zeta1*z2) +  y2*(-96.f + 6.f*nlm + 84.f*zeta1*z2)));
     }
     else if (m1==1) //x*z * (4.*z*z - 3.*x*x - 3.*y*y)
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -2062,9 +2547,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-      val[3*i+0] = g1*rp*z*(sz*x4*x2 - 3.*y4 + y2*z2 + 4.*z4 + x4*(-9. - 3.*nlm + 12.f*zeta1*y2 - tz*z2) + x2*(sz*y4 + z2*(-5. + 4.*nlm - ez*z2) + y2*(-12. - 3.*nlm - tz*z2)));
-      val[3*i+1] = g1*rp*x*y*z*(sz*x4 + sz*y4 + z2*(-6. + 4.*nlm - ez*z2) + y2*(-6. - 3.*nlm - tz*z2) + x2*(-6. - 3.*nlm + 12.f*zeta1*y2 - tz*z2));
-      val[3*i+2] = g1*rp*x*(-3.*y4 + y2*(9. - 3.*nlm + sz*y2)*z2 + (12. + 4.*nlm - tz*y2)*z4 - ez*z4*z2 + x4*(-3. + sz*z2) + x2*(-6.*y2 + (9. - 3.*nlm + 12.f*zeta1*y2)*z2 - tz*z4));
+      val[3*i+0] = g1*rp*z*(sz*x4*x2 - 3.f*y4 + y2*z2 + 4.f*z4 + x4*(-9.f - 3.f*nlm + 12.f*zeta1*y2 - tz*z2) + x2*(sz*y4 + z2*(-5.f + 4.f*nlm - ez*z2) + y2*(-12.f - 3.f*nlm - tz*z2)));
+      val[3*i+1] = g1*rp*x*y*z*(sz*x4 + sz*y4 + z2*(-6.f + 4.f*nlm - ez*z2) + y2*(-6.f - 3.f*nlm - tz*z2) + x2*(-6.f - 3.*nlm + 12.f*zeta1*y2 - tz*z2));
+      val[3*i+2] = g1*rp*x*(-3.f*y4 + y2*(9.f - 3.f*nlm + sz*y2)*z2 + (12.f + 4.f*nlm - tz*y2)*z4 - ez*z4*z2 + x4*(-3.f + sz*z2) + x2*(-6.f*y2 + (9.f - 3.f*nlm + 12.f*zeta1*y2)*z2 - tz*z4));
       //val[3*i+0] = g1*rp*z*(sz*x4*x2 - 3.*y4 + y2*z2 + 4.*z4 + x4*(-9. - 3.*nlm + 12.f*zeta1*y2 - tz*z2) + x2*(sz*y4 + z2*(-5. + 4.*nlm - ez*z2) + y2*(-12. - 3.*nlm - tz*z2)));
       //val[3*i+1] = g1*rp*x*y*z*(sz*x4 + sz*y4 + z2*(-6. + 4.*nlm - ez*z2) + y2*(-6. - 3.*nlm - tz*z2) + x2*(-6. - 3.*nlm + 12.f*zeta1*y2 - tz*z2));
       //val[3*i+2] = g1*rp*x*(-3.*y4 + y2*(9. - 3.*nlm + sz*y2)*z2 + (12. + 4.*nlm - tz*y2)*z4 - ez*z4*z2 + x4*(-3. + sz*z2) + x2*(-6.*y2 + (9. - 3.*nlm + 12.f*zeta1*y2)*z2 - tz*z4));
@@ -2088,9 +2573,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-      val[3*i+0] = g1*rp*2.*x*(zeta1*x4*x2 + 0.5*nlm*y4 - zeta1*y4*y2 + y2*(6. - 3.*nlm + iz*y2)*z2 + (6. + sz*y2)*z4 + x4*(-2. - 0.5*nlm + zeta1*y2 - iz*z2)+ x2*(-2.*y2 - zeta1*y4 + z2*(4. + 3.*nlm - sz*z2)));
-      val[3*i+1] = g1*rp*2.*y*(2.*x2*y2 + 2.*y4 - 6.*x2*z2 - 4.*y2*z2 - 6.*z4 + nlm*(-0.5*x4 + 0.5*y4 + 3.*x2*z2 - 3.*y2*z2) + zeta1*(x4*x2 - y4*y2 + 5.*y4*z2 + 6.*y2*z4 + x4*(y2 - 5.*z2) + x2*(-1.*y4 - 6.*z4)));
-      val[3*i+2] = g1*rp*2.f*z*(zeta1*x4*x2 - zeta1*y4*y2 + x4*(6. - 0.5*nlm + zeta1*y2 - iz*z2) + y4*(-6. + 0.5*nlm + iz*z2) + y2*z2*(-6. - 3.*nlm + sz*z2) + x2*((6. + 3.*nlm)*z2 + zeta1*(-y4 - 6.*z4)));
+      val[3*i+0] = g1*rp*2.f*x*(zeta1*x4*x2 + 0.5f*nlm*y4 - zeta1*y4*y2 + y2*(6.f - 3.f*nlm + iz*y2)*z2 + (6.f + sz*y2)*z4 + x4*(-2.f - 0.5f*nlm + zeta1*y2 - iz*z2)+ x2*(-2.*y2 - zeta1*y4 + z2*(4.f + 3.*nlm - sz*z2)));
+      val[3*i+1] = g1*rp*2.f*y*(2.f*x2*y2 + 2.f*y4 - 6.f*x2*z2 - 4.f*y2*z2 - 6.f*z4 + nlm*(-0.5f*x4 + 0.5f*y4 + 3.f*x2*z2 - 3.f*y2*z2) + zeta1*(x4*x2 - y4*y2 + 5.f*y4*z2 + 6.f*y2*z4 + x4*(y2 - 5.f*z2) + x2*(-y4 - 6.f*z4)));
+      val[3*i+2] = g1*rp*2.f*z*(zeta1*x4*x2 - zeta1*y4*y2 + x4*(6.f - 0.5*nlm + zeta1*y2 - iz*z2) + y4*(-6.f + 0.5f*nlm + iz*z2) + y2*z2*(-6.f - 3.f*nlm + sz*z2) + x2*((6.f + 3.f*nlm)*z2 + zeta1*(-y4 - 6.f*z4)));
     }
     else if (m1==3) //x*z * (x*x - 3.*y*y)
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -2111,9 +2596,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-      val[3*i+0] = -g1*rp*2.f*z*(zeta1*x4*x2 + 1.5*y4 + 1.5*y2*z2 + x4*(-1.5 - 0.5*nlm - tz*y2 + zeta1*z2) + x2*(-1.5*z2 + y2*(1.5*nlm - hz*y2 - hz*z2)));
-      val[3*i+1] = -g1*rp*2.*x*y*z*(zeta1*x4 - hz*y4 + 3.*z2 + y2*(3. + 1.5*nlm - hz*z2) + x2*(3. - 0.5*nlm - tz*y2 + zeta1*z2));
-      val[3*i+2] = -g1*rp*2.*x*(x4*(-0.5 + zeta1*z2) + y2*(1.5*y2 + (1.5 + 1.5*nlm - hz*y2)*z2 - hz*z4) + x2*(y2 + (-0.5 - 0.5*nlm - tz*y2)*z2 + zeta1*z4));
+      val[3*i+0] = -g1*rp*2.f*z*(zeta1*x4*x2 + 1.5f*y4 + 1.5f*y2*z2 + x4*(-1.5f - 0.5f*nlm - tz*y2 + zeta1*z2) + x2*(-1.5f*z2 + y2*(1.5f*nlm - hz*y2 - hz*z2)));
+      val[3*i+1] = -g1*rp*2.f*x*y*z*(zeta1*x4 - hz*y4 + 3.f*z2 + y2*(3.f + 1.5f*nlm - hz*z2) + x2*(3.f - 0.5f*nlm - tz*y2 + zeta1*z2));
+      val[3*i+2] = -g1*rp*2.f*x*(x4*(-0.5f + zeta1*z2) + y2*(1.5f*y2 + (1.5f + 1.5f*nlm - hz*y2)*z2 - hz*z4) + x2*(y2 + (-0.5f - 0.5f*nlm - tz*y2)*z2 + zeta1*z4));
     }
     else if (m1==4) //(x*x * (x*x - 3.*y*y) - y*y * (3.*x*x - y*y))
     #pragma acc parallel loop present(grid[0:6*gs],val[0:gs3])
@@ -2134,9 +2619,9 @@ void eval_p_gh(int gs, float* grid, float* val, int n1, int l1, int m1, float no
       float g1 = expf(-zeta1*r2);
       float rp = powf(r2,ntm);
 
-      val[3*i+0] = -g1*rp*2.*x*(zeta1*x4*x2 + zeta1*y4*y2 + 6.*y2*z2 + y4*(6. - 0.5*nlm + zeta1*z2) + x4*(-2. - 0.5*nlm - iz*y2 + zeta1*z2) + x2*(-iz*y4 - 2.f*z2 + y2*(4. + 3.*nlm - sz*z2)));
-      val[3*i+1] = -g1*rp*2.*y*(zeta1*x4*x2 + zeta1*y4*y2 - 2.*y2*z2 + y4*(-2. - 0.5*nlm + zeta1*z2) + x4*(6. - 0.5*nlm - iz*y2 + zeta1*z2) + x2*(-iz*y4 + 6.*z2 + y2*(4. + 3.*nlm - sz*z2)));
-      val[3*i+2] = -g1*rp*2.f*z*(nlm*(-0.5*x4 + 3.*x2*y2 - 0.5*y4) + zeta1*(x4*x2 + x4*(-5.*y2 + z2) + y4*(y2 + z2) + x2*(-5.*y4 - 6.*y2*z2)));
+      val[3*i+0] = -g1*rp*2.f*x*(zeta1*x4*x2 + zeta1*y4*y2 + 6.f*y2*z2 + y4*(6.f - 0.5f*nlm + zeta1*z2) + x4*(-2.f - 0.5f*nlm - iz*y2 + zeta1*z2) + x2*(-iz*y4 - 2.f*z2 + y2*(4.f + 3.f*nlm - sz*z2)));
+      val[3*i+1] = -g1*rp*2.f*y*(zeta1*x4*x2 + zeta1*y4*y2 - 2.f*y2*z2 + y4*(-2.f - 0.5f*nlm + zeta1*z2) + x4*(6.f - 0.5f*nlm - iz*y2 + zeta1*z2) + x2*(-iz*y4 + 6.f*z2 + y2*(4.f + 3.f*nlm - sz*z2)));
+      val[3*i+2] = -g1*rp*2.f*z*(nlm*(-0.5f*x4 + 3.f*x2*y2 - 0.5f*y4) + zeta1*(x4*x2 + x4*(-5.f*y2 + z2) + y4*(y2 + z2) + x2*(-5.f*y4 - 6.f*y2*z2)));
     }
   }
   else if (l1>4)
diff --git a/src/integrals/hess.cpp b/src/integrals/hess.cpp
index fb05264..3e642c1 100644
--- a/src/integrals/hess.cpp
+++ b/src/integrals/hess.cpp
@@ -14,7 +14,7 @@ void get_h_1s(int gs, double* grid, double* val, double zeta)
 
     double x2 = x*x; double y2 = y*y; double z2 = z*z;
     double xy = x*y; double xz = x*z; double yz = y*z;
-    double zr = zeta*r; double ozr = 1.f+zr;
+    double zr = zeta*r; double ozr = 1.+zr;
 
    //xx, xy, xz, yy, yz, zz
     val[6*i]   *= (-y2-z2+x2*zr)*ezor;
@@ -41,15 +41,15 @@ void get_h_2s(int gs, double* grid, double* val, double zeta)
 
     double x2 = x*x; double y2 = y*y; double z2 = z*z;
     double xy = x*y; double xz = x*z; double yz = y*z;
-    double zr = zeta*r; double ozr = 1.f+zr;
+    double zr = zeta*r; double ozr = 1.+zr;
 
    //xx, xy, xz, yy, yz, zz
     val[6*i]   *= (y2+z2+zt2*x2*r2 - zr*(x2+r2))*ezor;
     val[6*i+1] *= xy*(-1.f-zr+zt2*r2)*ezor;
     val[6*i+2] *= xz*(-1.f-zr+zt2*r2)*ezor;
-    val[6*i+3] *= (z2+zt2*y2*(y2+z2)-zr*(2.f*y2+z2)+x2*(1.f+zt2*y2-zr))*ezor;
+    val[6*i+3] *= (z2+zt2*y2*(y2+z2)-zr*(2.*y2+z2)+x2*(1.+zt2*y2-zr))*ezor;
     val[6*i+4] *= yz*(-1.f-zr+zt2*r2)*ezor;
-    val[6*i+5] *= (y2+x2*(1.f+zt2*z2-zr) + zt2*z2*(y2+z2) - zr*(y2+2.f*z2))*ezor;
+    val[6*i+5] *= (y2+x2*(1.+zt2*z2-zr) + zt2*z2*(y2+z2) - zr*(y2+2.*z2))*ezor;
   }
   return;
 }
@@ -68,10 +68,10 @@ void get_h_2px(int gs, double* grid, double* val, double zeta)
 
     double x2 = x*x; double y2 = y*y; double z2 = z*z;
     double xy = x*y; double xz = x*z; double yz = y*z;
-    double zr = zeta*r; double ozr = 1.f+zr;
+    double zr = zeta*r; double ozr = 1.+zr;
 
    //xx, xy, xz, yy, yz, zz
-    val[6*i]   *= x*(-3.f*(y2+z2)+x2*(-2.f+zr))*ezor;
+    val[6*i]   *= x*(-3.*(y2+z2)+x2*(-2.+zr))*ezor;
     val[6*i+1] *= y*(-y2-z2+x2*zr)*ezor;
     val[6*i+2] *= z*(-y2-z2+x2*zr)*ezor;
     val[6*i+3] *= x*(-x2-z2 + y2*zr)*ezor;
@@ -95,13 +95,13 @@ void get_h_2py(int gs, double* grid, double* val, double zeta)
 
     double x2 = x*x; double y2 = y*y; double z2 = z*z;
     double xy = x*y; double xz = x*z; double yz = y*z;
-    double zr = zeta*r; double ozr = 1.f+zr;
+    double zr = zeta*r; double ozr = 1.+zr;
 
    //xx, xy, xz, yy, yz, zz
     val[6*i]   *= y*(-y2-z2+x2*zr)*ezor;
     val[6*i+1] *= x*(-x2-z2+y2*zr)*ezor;
     val[6*i+2] *= x*y*z*ozr*ezor;
-    val[6*i+3] *= y*(-3.f*x2-3.f*z2+y2*(-2.f+zr))*ezor;
+    val[6*i+3] *= y*(-3.*x2-3.*z2+y2*(-2.+zr))*ezor;
     val[6*i+4] *= z*(-x2-z2+y2*zr)*ezor;
     val[6*i+5] *= y*(-x2-y2+z2*zr)*ezor;
   }
@@ -122,7 +122,7 @@ void get_h_2pz(int gs, double* grid, double* val, double zeta)
 
     double x2 = x*x; double y2 = y*y; double z2 = z*z;
     double xy = x*y; double xz = x*z; double yz = y*z;
-    double zr = zeta*r; double ozr = 1.f+zr;
+    double zr = zeta*r; double ozr = 1.+zr;
 
    //xx, xy, xz, yy, yz, zz
     val[6*i]   *= z*(-y2-z2+x2*zr)*ezor;
@@ -130,7 +130,7 @@ void get_h_2pz(int gs, double* grid, double* val, double zeta)
     val[6*i+2] *= x*(-x2-y2+z2*zr)*ezor;
     val[6*i+3] *= z*(-x2-z2+y2*zr)*ezor;
     val[6*i+4] *= y*(-x2-y2+z2*zr)*ezor;
-    val[6*i+5] *= z*(-3.f*(x2+y2)+z2*(-2.f+zr))*ezor;
+    val[6*i+5] *= z*(-3.*(x2+y2)+z2*(-2.+zr))*ezor;
   }
   return;
 }
@@ -479,7 +479,7 @@ void eval_h(int gs, double* grid, double* val, int n1, int l1, int m1, double ze
   }
   else if (n1==3)
   {
-    printf("  WARNING: n=3 Hessian is being tested \n");
+    //printf("  WARNING: n=3 Hessian is being tested \n");
     if (l1==2)
     {
       if (m1==-2)
@@ -536,8 +536,8 @@ void eval_h(int gs, float* grid, float* val, int n1, int l1, int m1, float zeta1
   #pragma acc enter data create(gridd[0:gs6],vald[0:gs])
   eval_h(gs,gridd,vald,n1,l1,m1,zeta1);
 
-  #pragma acc parallel loop present(val[0:gs],vald[0:gs])
-  for (int j=0;j<gs;j++)
+  #pragma acc parallel loop present(val[0:gs6],vald[0:gs6])
+  for (int j=0;j<gs6;j++)
     val[j] = vald[j];
 
   #pragma acc exit data delete(vald[0:gs],gridd[0:gs6])
diff --git a/src/integrals/integrals.cpp b/src/integrals/integrals.cpp
index 6d0b255..757f92e 100644
--- a/src/integrals/integrals.cpp
+++ b/src/integrals/integrals.cpp
@@ -1,4 +1,5 @@
 #include "integrals.h"
+#include "gauss.h"
 
 #define TEST_SORT 0
 //symmetrize wrt atom swap
@@ -4236,10 +4237,67 @@ void compute_Enp(int natoms, int* atno, float* coords, vector<vector<double> > &
   return;
 }
 
+void reduce_Exyz(int i1, int i2, int N, int gs, double* val1m, double* val2m, double* grid1m, double A1, double B1, double C1, double* E)
+{
+  int gs6 = 6*gs;
+  int N2 = N*N;
+
+  double valx = 0.; double valy = 0.; double valz = 0.;
+  #pragma acc parallel loop present(val1m[0:gs],val2m[0:gs],grid1m[0:gs6]) reduction(+:valx,valy,valz)
+  for (int j=0;j<gs;j++)
+  {
+   //assumes common 0,0,0 origin
+    double x = grid1m[6*j+0]+A1;
+    double y = grid1m[6*j+1]+B1;
+    double z = grid1m[6*j+2]+C1;
+
+    valx += val1m[j]*val2m[j]*x;
+    valy += val1m[j]*val2m[j]*y;
+    valz += val1m[j]*val2m[j]*z;
+  }
+
+  #pragma acc serial present(E[0:3*N2])
+  {
+    E[i1*N+i2]      = E[i2*N+i1] = valx;
+    E[N2+i1*N+i2]   = E[N2+i2*N+i1] = valy;
+    E[2*N2+i1*N+i2] = E[2*N2+i2*N+i1] = valz;
+  }
+  return;
+}
+
+void reduce_Exyz_2(int i1, int i2, int N, int gs, double* val1m, double* val1n, double* val2m, double* val2n, double* grid1m, double* grid2n, double A1, double B1, double C1, double A2, double B2, double C2, double* E)
+{
+  int gs6 = 6*gs;
+  int N2 = N*N;
+
+  double valx = 0.; double valy = 0.; double valz = 0.;
+  #pragma acc parallel loop present(val1m[0:gs],val1n[0:gs],val2m[0:gs],val2n[0:gs],grid1m[0:gs6],grid2n[0:gs6]) reduction(+:valx,valy,valz)
+  for (int j=0;j<gs;j++)
+  {
+    double x1 = grid1m[6*j+0]+A1;
+    double y1 = grid1m[6*j+1]+B1;
+    double z1 = grid1m[6*j+2]+C1;
+    double x2 = grid2n[6*j+0]+A2;
+    double y2 = grid2n[6*j+1]+B2;
+    double z2 = grid2n[6*j+2]+C2;
+    valx += val1m[j]*val2m[j]*x1 + val1n[j]*val2n[j]*x2;
+    valy += val1m[j]*val2m[j]*y1 + val1n[j]*val2n[j]*y2;
+    valz += val1m[j]*val2m[j]*z1 + val1n[j]*val2n[j]*z2;
+  }
+
+  #pragma acc serial present(E[0:N2])
+  {
+    E[i1*N+i2]      = E[i2*N+i1] = valx;
+    E[N2+i1*N+i2]   = E[N2+i2*N+i1] = valy;
+    E[2*N2+i1*N+i2] = E[2*N2+i2*N+i1] = valz;
+  }
+  return;
+}
+
 //applied electric fields
 // x,y,z directions only
 // could expand this to include higher order terms
-void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> > &basis, int nrad, int nang, double* ang_g, double* ang_w, double* S, double* E, int prl)
+void compute_Exyz(int natoms, int* atno, double* coords, bool gbasis, vector<vector<double> > &basis, int nrad, int nang, double* ang_g, double* ang_w, double* S, double* E, int prl)
 {
   if (prl>1) printf(" beginning compute_E (double precision) \n");
 
@@ -4266,9 +4324,15 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
   double* val2m = new double[gs];
   double* val2n = new double[gs];
 
+  double* tmp = NULL;
+  if (gbasis)
+    tmp = new double[gs];
+
   int* n2i = new int[natoms];
   int imaxN = get_imax_n2i(natoms,N,basis,n2i);
-  //printf("  iN: %i \n",imaxN);
+  printf("  iN: %i \n",imaxN);
+
+  const int ig = 10;
 
  #if USE_ACC
   #pragma acc enter data copyin(ang_g[0:3*nang],ang_w[0:nang])
@@ -4278,6 +4342,10 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
   #pragma acc enter data create(grid1m[0:gs6],grid1n[0:gs6],wt1[0:gs])
   #pragma acc enter data create(grid2m[0:gs6],grid2n[0:gs6],wt2[0:gs])
   #pragma acc enter data create(val1m[0:gs],val1n[0:gs],val2m[0:gs],val2n[0:gs])
+  if (gbasis)
+  {
+    #pragma acc enter data create(tmp[0:gs])
+  }
  #endif
   acc_assign(3*N2,E,0.);
 
@@ -4301,8 +4369,60 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
    //working on this block of the matrix
     int s1 = 0; if (m>0) s1 = n2i[m-1]; int s2 = n2i[m];
 
+    double Z1 = atno[m];
     double A1 = coords[3*m+0]; double B1 = coords[3*m+1]; double C1 = coords[3*m+2];
 
+    if (gbasis)
+    {
+      generate_central_grid_2d(-1,1,grid1m,wt1,Z1,nrad,nang,ang_g,ang_w);
+
+      for (int i1=s1;i1<s2;i1++)
+      for (int i2=s1;i2<=i1;i2++)
+      {
+        vector<double> basis1 = basis[i1];
+        int n1 = basis1[0]; int l1 = basis1[1]; int m1 = basis1[2]; int ng1 = basis1[3];
+
+        vector<double> basis2 = basis[i2];
+        int n2 = basis2[0]; int l2 = basis2[1]; int m2 = basis2[2]; int ng2 = basis2[3];
+
+       #pragma acc parallel loop present(val1m[0:gs],val2m[0:gs])
+        for (int k=0;k<gs;k++)
+          val1m[k] = val2m[k] = 0.;
+
+        for (int j=0;j<ng1;j++)
+        {
+          int in = ig + ng1;
+          double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+          //printf("   (1)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta1,norm1,l1,m1);
+          eval_ghd(gs,grid1m,tmp,l1,m1,norm1,zeta1);
+         #pragma acc parallel loop present(tmp[0:gs],val1m[0:gs])
+          for (int k=0;k<gs;k++)
+            val1m[k] += tmp[k];
+        }
+
+        for (int j=0;j<ng2;j++)
+        {
+          int in = ig + ng2;
+          double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+          //printf("   (2)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta2,norm2,l2,m2);
+          eval_ghd(gs,grid1m,tmp,l2,m2,norm2,zeta2);
+         #pragma acc parallel loop present(tmp[0:gs],val2m[0:gs])
+          for (int k=0;k<gs;k++)
+            val2m[k] += tmp[k];
+        }
+
+        #pragma acc parallel loop present(val1m[0:gs],wt1[0:gs])
+        for (int j=0;j<gs;j++)
+          val1m[j] *= wt1[j];
+
+        reduce_Exyz(i1,i2,N,gs,val1m,val2m,grid1m,A1,B1,C1,E);
+
+      } //i1,i2 over gbasis
+    }
+
+    if (!gbasis)
     for (int i1=s1;i1<s2;i1++)
     for (int i2=s1;i2<=i1;i2++)
     {
@@ -4329,26 +4449,7 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
       eval_shd(ii1,gs,grid1m,val1m,n1,l1,m1,zeta1); //basis 1
       eval_shd(ii1,gs,grid1m,val2m,n2,l2,m2,zeta2); //basis 2
 
-      double valx = 0.; double valy = 0.; double valz = 0.;
-     #pragma acc parallel loop present(val1m[0:gs],val2m[0:gs],grid1m[0:gs6]) reduction(+:valx,valy,valz)
-      for (int j=0;j<gs;j++)
-      {
-       //assumes common 0,0,0 origin
-        double x = grid1m[6*j+0]+A1;
-        double y = grid1m[6*j+1]+B1;
-        double z = grid1m[6*j+2]+C1;
-
-        valx += val1m[j]*val2m[j]*x;
-        valy += val1m[j]*val2m[j]*y;
-        valz += val1m[j]*val2m[j]*z;
-      }
-
-     #pragma acc serial present(E[0:3*N2])
-      {
-        E[i1*N+i2]      = E[i2*N+i1] = valx;
-        E[N2+i1*N+i2]   = E[N2+i2*N+i1] = valy;
-        E[2*N2+i1*N+i2] = E[2*N2+i2*N+i1] = valz;
-      }
+      reduce_Exyz(i1,i2,N,gs,val1m,val2m,grid1m,A1,B1,C1,E);
 
     } //pairs of basis on single atoms
 
@@ -4365,6 +4466,88 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
       double A2 = coords[3*n+0]; double B2 = coords[3*n+1]; double C2 = coords[3*n+2];
       double A12 = A2-A1; double B12 = B2-B1; double C12 = C2-C1;
 
+      if (gbasis)
+      {
+       //new grid with zeta dependence
+        generate_central_grid_2d(-1,1,grid1m,wt1,Z1,nrad,nang,ang_g,ang_w);
+        generate_central_grid_2d(-1,1,grid2m,wt2,Z2,nrad,nang,ang_g,ang_w);
+
+       //grid1 at 0,0,0 now has r1 at 3, r2 at 4
+        add_r2_to_grid(gs,grid1m,A12,B12,C12);
+        recenter_grid(gs,grid2m,A12,B12,C12);
+
+       //optimize this
+        //becke_weight_2d(gs,grid1m,wt1,grid2m,wt2,zeta1,zeta2,A12,B12,C12);
+        becke_weight_2d(gs,grid1m,wt1,grid2m,wt2,Z1,Z2,A12,B12,C12);
+
+        copy_grid(gs,grid2n,grid2m);
+        recenter_grid(gs,grid2n,-A12,-B12,-C12);      //grid 2 centered on atom 1
+
+        copy_grid(gs,grid1n,grid1m);
+        recenter_grid_zero(gs,grid1n,-A12,-B12,-C12); //grid 1 centered on atom 2
+
+       //needs to happen after becke weighting
+        add_r1_to_grid(gs,grid2m,0.,0.,0.);
+
+        for (int i1=s1;i1<s2;i1++)
+        for (int i2=s1;i2<=i1;i2++)
+        {
+          vector<double> basis1 = basis[i1];
+          int n1 = basis1[0]; int l1 = basis1[1]; int m1 = basis1[2]; int ng1 = basis1[3];
+
+          vector<double> basis2 = basis[i2];
+          int n2 = basis2[0]; int l2 = basis2[1]; int m2 = basis2[2]; int ng2 = basis2[3];
+
+         #pragma acc parallel loop present(val1m[0:gs],val1n[0:gs],val2m[0:gs],val2n[0:gs])
+          for (int k=0;k<gs;k++)
+            val1m[k] = val1n[k] = val2m[k] = val2n[k] = 0.;
+
+          for (int j=0;j<ng1;j++)
+          {
+            int in = ig + ng1;
+            double zeta1 = basis1[ig+j]; double norm1 = basis1[in+j];
+
+            //printf("   (1)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta1,norm1,l1,m1);
+            eval_ghd(gs,grid1m,tmp,l1,m1,norm1,zeta1);
+           #pragma acc parallel loop present(tmp[0:gs],val1m[0:gs])
+            for (int k=0;k<gs;k++)
+              val1m[k] += tmp[k];
+
+            eval_ghd(gs,grid2m,tmp,l1,m1,norm1,zeta1);
+           #pragma acc parallel loop present(tmp[0:gs],val1n[0:gs])
+            for (int k=0;k<gs;k++)
+              val1n[k] += tmp[k];
+          }
+
+          for (int j=0;j<ng2;j++)
+          {
+            int in = ig + ng2;
+            double zeta2 = basis2[ig+j]; double norm2 = basis2[in+j];
+
+            //printf("   (1)  evaluating zeta/norm: %8.5f %8.5f  l/m: %i %i \n",zeta1,norm1,l1,m1);
+            eval_ghd(gs,grid1n,tmp,l2,m2,norm2,zeta2);
+           #pragma acc parallel loop present(tmp[0:gs],val2m[0:gs])
+            for (int k=0;k<gs;k++)
+              val2m[k] += tmp[k];
+
+            eval_ghd(gs,grid2n,tmp,l2,m2,norm2,zeta2);
+           #pragma acc parallel loop present(tmp[0:gs],val2n[0:gs])
+            for (int k=0;k<gs;k++)
+              val2n[k] += tmp[k];
+          }
+
+          #pragma acc parallel loop present(val1m[0:gs],val1n[0:gs],wt1[0:gs],wt2[0:gs])
+          for (int j=0;j<gs;j++)
+          {
+            val1m[j] *= wt1[j];
+            val1n[j] *= wt2[j];
+          }
+
+          reduce_Exyz_2(i1,i2,N,gs,val1m,val1n,val2m,val2n,grid1m,grid2n,A1,B1,C1,A2,B2,C2,E);
+        } //i1,i2 over gbasis
+      }
+
+      if (!gbasis)
       for (int i1=s1;i1<s2;i1++)
       for (int i2=s3;i2<s4;i2++)
       {
@@ -4413,55 +4596,44 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
         eval_shd(ii1,gs,grid1n,val2m,n2,l2,m2,zeta2); //basis 2 on center 1
         eval_shd(ii1,gs,grid2n,val2n,n2,l2,m2,zeta2); //basis 2 on center 2
 
-        double valx = 0.; double valy = 0.; double valz = 0.;
-       #pragma acc parallel loop present(val1m[0:gs],val1n[0:gs],val2m[0:gs],val2n[0:gs],grid1m[0:gs6],grid2n[0:gs6]) reduction(+:valx,valy,valz)
-        for (int j=0;j<gs;j++)
-        {
-          double x1 = grid1m[6*j+0]+A1;
-          double y1 = grid1m[6*j+1]+B1;
-          double z1 = grid1m[6*j+2]+C1;
-          double x2 = grid2n[6*j+0]+A2;
-          double y2 = grid2n[6*j+1]+B2;
-          double z2 = grid2n[6*j+2]+C2;
-          valx += val1m[j]*val2m[j]*x1 + val1n[j]*val2n[j]*x2;
-          valy += val1m[j]*val2m[j]*y1 + val1n[j]*val2n[j]*y2;
-          valz += val1m[j]*val2m[j]*z1 + val1n[j]*val2n[j]*z2;
-        }
+        reduce_Exyz_2(i1,i2,N,gs,val1m,val1n,val2m,val2n,grid1m,grid2n,A1,B1,C1,A2,B2,C2,E);
 
-       #pragma acc serial present(E[0:N2])
-        {
-          E[i1*N+i2]      = E[i2*N+i1] = valx;
-          E[N2+i1*N+i2]   = E[N2+i2*N+i1] = valy;
-          E[2*N2+i1*N+i2] = E[2*N2+i2*N+i1] = valz;
-        }
-      }
+      } //loop i1,i2
 
     } //loop n>m
 
   } //loop m over natoms
 
-  double* norm = new double[N];
-  for (int i=0;i<N;i++)
-    norm[i] = basis[i][4];
-  #pragma acc enter data copyin(norm[0:N])
-
- #pragma acc parallel loop independent present(E[0:3*N2],norm[0:N])
-  for (int i=0;i<N;i++)
- #pragma acc loop independent
-  for (int j=0;j<N;j++)
+  if (!gbasis)
   {
-    double n12 = norm[i]*norm[j];
-    E[i*N+j]      *= n12;
-    E[N2+i*N+j]   *= n12;
-    E[2*N2+i*N+j] *= n12;
+    double* norm = new double[N];
+    for (int i=0;i<N;i++)
+      norm[i] = basis[i][4];
+    #pragma acc enter data copyin(norm[0:N])
+
+   #pragma acc parallel loop independent present(E[0:3*N2],norm[0:N])
+    for (int i=0;i<N;i++)
+   #pragma acc loop independent
+    for (int j=0;j<N;j++)
+    {
+      double n12 = norm[i]*norm[j];
+      E[i*N+j]      *= n12;
+      E[N2+i*N+j]   *= n12;
+      E[2*N2+i*N+j] *= n12;
+    }
+
+    #pragma acc exit data delete(norm[0:N])
+    delete [] norm;
   }
 
-  printf("  atomic Exa: %8.5f %8.5f %8.5f \n",Exat,Eyat,Ezat);
+  if (prl>-1)
+    printf("  atomic Exa: %8.5f %8.5f %8.5f \n",Exat,Eyat,Ezat);
+
+  double Zfact = 1./Ztot;
+  Exat *= Zfact;
+  Eyat *= Zfact;
+  Ezat *= Zfact;
 
-   double Zfact = 1./Ztot;
-   Exat *= Zfact;
-   Eyat *= Zfact;
-   Ezat *= Zfact;
   #pragma acc parallel loop present(E[0:3*N2],S[0:N2])
   for (int j=0;j<N2;j++)
     E[j] += Exat*S[j];
@@ -4472,12 +4644,8 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
   for (int j=0;j<N2;j++)
     E[2*N2+j] += Ezat*S[j];
 
-  #pragma acc exit data delete(norm[0:N])
-  delete [] norm;
-
   //clean_small_values(N,E);
 
-
  #if USE_ACC
   #pragma acc exit data delete(ang_g[0:3*nang],ang_w[0:nang])
   #pragma acc update self(E[0:3*N2])
@@ -4501,6 +4669,10 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
   #pragma acc exit data delete(val1m[0:gs],val1n[0:gs],val2m[0:gs],val2n[0:gs])
   #pragma acc exit data delete(n2i[0:natoms])
   #pragma acc exit data delete(coords[0:3*natoms],atno[0:natoms])
+  if (gbasis)
+  {
+    #pragma acc exit data delete(tmp[0:gs])
+  }
 #endif
 
   delete [] n2i;
@@ -4515,6 +4687,8 @@ void compute_Exyz(int natoms, int* atno, double* coords, vector<vector<double> >
   delete [] grid2n;
   delete [] wt1;
   delete [] wt2;
+  if (gbasis)
+    delete [] tmp;
 
   return;
 }
diff --git a/src/integrals/integrals_aux.cpp b/src/integrals/integrals_aux.cpp
index 4a52e24..63320b9 100644
--- a/src/integrals/integrals_aux.cpp
+++ b/src/integrals/integrals_aux.cpp
@@ -1458,7 +1458,7 @@ int get_imax_n2i(int natoms, int N, vector<vector<double> >& basis, int* n2i)
     int wa2 = basis[i][9];
     if (wa2!=wa)
     {
-      int cmaxN = i-iprev; 
+      int cmaxN = i-iprev;
       if (cmaxN>imaxN) imaxN = cmaxN;
       n2i[wa] = i;
       wa = wa2;
@@ -1493,7 +1493,7 @@ int get_natoms_with_basis(int natoms, int* atno, vector<vector<double> >& basis)
     else
       natoms1 = n+1;
   }
-  
+
   return natoms1;
 }
 
diff --git a/src/integrals/sphericald.cpp b/src/integrals/sphericald.cpp
index 93b8ac7..df2553f 100644
--- a/src/integrals/sphericald.cpp
+++ b/src/integrals/sphericald.cpp
@@ -517,7 +517,7 @@ void get_3dz2d(int tid, int gs, double* grid, double* val, double zeta)
     val[i] *= (2.*z*z-x*x-y*y)*ezr;
 
    //ambiguous for which r to use
-    //val[i] *= 3.*z*z-r*r; 
+    //val[i] *= 3.*z*z-r*r;
   }
 }
 
diff --git a/src/integrals/symm.cpp b/src/integrals/symm.cpp
index 7be72b5..49e9dc7 100644
--- a/src/integrals/symm.cpp
+++ b/src/integrals/symm.cpp
@@ -113,7 +113,7 @@ void eval_c2v_mos(int natoms, int gsa, int iN, int N, float* norm, float* tm1, f
     short y_symm = 0;
     float vy1 = tm1[0]; float vy2 = tm1[1]; // +/- y on atom 1
     if (fabs(vy1)<thresh || fabs(vy2)<thresh)
-    { 
+    {
       //printf("    using alt vy \n");
       vy1 = tm1[4]; vy2 = tm1[5];
     }
diff --git a/src/libcintw/cintprep.cpp b/src/libcintw/cintprep.cpp
index db87890..d5c7f57 100644
--- a/src/libcintw/cintprep.cpp
+++ b/src/libcintw/cintprep.cpp
@@ -260,13 +260,13 @@ void CINTPrep::read_bas(string inpbas) {
 
   int i = 0;
   while (i < lines.size()) {
-    if (!all_of(lines[i].begin(), lines[i].end(), [](char c) {return isspace(c);}) 
+    if (!all_of(lines[i].begin(), lines[i].end(), [](char c) {return isspace(c);})
         && lines[i].c_str()[0] != '*') {
       iss.str(lines[i]);
       string atom_symbol;
       iss >> atom_symbol;
       if (iss.fail() || elem_2_int.count(atom_symbol) == 0) {
-        printf("ERROR reading basis set %s at line %d\n", 
+        printf("ERROR reading basis set %s at line %d\n",
               basfile.c_str(), i);
         exit(1);
       }
@@ -279,7 +279,7 @@ void CINTPrep::read_bas(string inpbas) {
         basis_t basis;
         basis.nuc = atom_num;
         while (i < lines.size()) {
-          if (!all_of(lines[i].begin(), lines[i].end(), [](char c) {return isspace(c);}) 
+          if (!all_of(lines[i].begin(), lines[i].end(), [](char c) {return isspace(c);})
               && lines[i].c_str()[0] != '*') {
             iss.str(lines[i]);
             string ang;
@@ -669,4 +669,6 @@ void CINTPrep::prep_env() {
     env[offset] = 0.;
     env[offset + 1] = 1.;
   } // if do_ri
+
+  return;
 }
diff --git a/src/libcintw/cintwrapper.cpp b/src/libcintw/cintwrapper.cpp
index e0586d7..db8ddd8 100644
--- a/src/libcintw/cintwrapper.cpp
+++ b/src/libcintw/cintwrapper.cpp
@@ -22,13 +22,6 @@
 
 using namespace std;
 
-//extern "C" void dgetri(int *N, double **A, int *lda, int *IPIV,
-//                       double *WORK, int *lwork, int *INFO);
-//extern "C" void dgetrf(int *M, int *N, double **A, int *lda, int *IPIV,
-//                       int *INFO);
-//extern "C" void dsyev(char *jobz, char *uplo, int *n, double *a, int *lda,
-//                      double *w, double * work, int *lwork, int* info);
-
 bool BT::DO_CART = true;
 
 int binom(int n, int k) {
@@ -43,6 +36,120 @@ int calc_di(int i, int *bas) {
   return idx_i;
 }
 
+void get_vri(double** val, int gs, int N,
+                 int natm, int nbas, int nbas_ri, int nenv,
+                 int* atm, int* bas, double* env)
+{
+  int idx_i = 0;
+  int di, dj;
+  int shls[4] = {0, 0, 0, gs};
+
+  int nbasx = nbas;
+  int b0 = 0;
+  int Nx = N;
+  if (nbas_ri>0)
+  {
+    b0 = nbas;
+    nbasx = nbas_ri;
+    Nx = nbas_ri;
+
+    printf("  using ri basis in get_vri \n");
+  }
+
+ //CPMZ something is off about the cache size estimate
+  int cache_size = int1e_grids_sph(NULL, NULL, shls, atm, natm, bas, nbas+nbas_ri, env, NULL, NULL);
+  //printf(" cache_size: %4i \n",cache_size);
+  cache_size += gs;
+  cache_size *= 10;
+  //double* cache = new double[cache_size]();
+
+ //CPMZ just let libcint allocate for itself
+  double* cache = NULL;
+
+  if (BT::DO_CART)
+  {
+    for (int i=0;i<nbasx;i++)
+    {
+      int i0 = b0 + i;
+      int idx_j = 0;
+      shls[0] = i0;
+      di = CINTcgto_cart(i0, bas);
+
+      for (int j=0;j<=i;j++)
+      {
+        int j0 = b0 + j;
+        dj = CINTcgto_cart(j0, bas);
+        shls[1] = j0;
+
+        double* buf = new double[di*dj*gs]();
+        int1e_grids_cart(buf, NULL, shls, atm, natm, bas, nbas, env, NULL, cache);
+
+        for (int j1=0;j1<dj;j1++)
+        for (int i1=0;i1<di;i1++)
+        {
+          int oi = i1 + idx_i;
+          int oj = j1 + idx_j;
+
+          int ind = oi*Nx+oj;
+          //double d12 = 0.5*(Pao[ind]+Pao[oj*Nx+oi]);
+
+          for (int k=0;k<gs;k++)
+            val[ind][k] = buf[(j1*di + i1)*gs + k];
+        }
+
+        delete [] buf;
+        idx_j += dj;
+      } // for j
+      idx_i += di;
+    } // for i
+
+  } // if BT::DO_CART
+  else
+  {
+    for (int i=0;i<nbasx;i++)
+    {
+      int i0 = b0+i;
+      int idx_j = 0;
+      shls[0] = i0;
+      di = CINTcgto_spheric(i0, bas);
+
+      for (int j=0;j<=i;j++)
+      {
+        int j0 = b0+j;
+        dj = CINTcgto_spheric(j0, bas);
+        shls[1] = j0;
+
+        //printf("  dij: %2i %2i  gs: %4i \n",di,dj,gs);
+        double* buf = new double[di*dj*gs]();
+        int1e_grids_sph(buf, NULL, shls, atm, natm, bas, nbas, env, NULL, cache);
+
+        for (int j1=0;j1<dj;j1++)
+        for (int i1=0;i1<di;i1++)
+        {
+          int oi = i1 + idx_i;
+          int oj = j1 + idx_j;
+
+          int ind = oi*Nx+oj;
+          //double d12 = 0.5*(Pao[ind]+Pao[oj*Nx+oi]);
+
+          for (int k=0;k<gs;k++)
+            val[ind][k] = buf[(j1*di + i1)*gs + k];
+        }
+
+        delete [] buf;
+        idx_j += dj;
+      } // for j
+
+      idx_i += di;
+    }// for i
+
+  } // else
+
+  //delete [] cache;
+
+  return;
+}
+
 void get_overlap(double * overlap, int N,
                  int natm, int nbas, int nenv,
                  int *atm, int* bas, double *env) {
@@ -339,7 +446,7 @@ void get_tcore(double *tcore, int N,
         shls[1] = j;
         double *buf = new double[di*dj];
         cint1e_kin_sph(buf,shls,atm,natm,bas,nbas,env);
-        
+
         for (int j1 = 0; j1 < dj; j1++) {
           for (int i1 = 0; i1 < di; i1++) {
             int oi = i1 + idx_i;
@@ -400,13 +507,13 @@ void gen_pvp(double *pvp, int N,
   else {
     idx_i = 0;
     for (int i = 0; i < nbas; i++) {
-      idx_j = 0; 
+      idx_j = 0;
       di = CINTcgto_spheric(i,bas);
-      shls[0] = i; 
+      shls[0] = i;
       for (int j = 0; j < nbas; j++) {
         dj = CINTcgto_spheric(j,bas);
-        shls[1] = j; 
-        #if 0  
+        shls[1] = j;
+        #if 0
         printf("di: %i dj: %i \n",di,dj);
         #endif
         double *buf = new double[di * dj * 9];
@@ -414,11 +521,11 @@ void gen_pvp(double *pvp, int N,
         #if 0
         printf("buf:\n");
         for (int g1 = 0; g1 < di*dj*9; g1++)
-        {    
+        {
           printf("%6.8f ",buf[g1]);
         }
         printf("\n");
-        #endif   
+        #endif
         for (int i1 = 0; i1 < di; i1++) {
           for (int j1 = 0; j1 < dj; j1++) {
             int oi = i1 + idx_i;
@@ -426,7 +533,7 @@ void gen_pvp(double *pvp, int N,
             tmp[oi * N + oj] = tmp[oj * N + oi] = -(buf[0*di*dj + j1*di + i1]+buf[4*di*dj + j1*di + i1]+buf[8*di*dj + j1*di + i1]);
           } //end i1
         } //end j1
-        delete [] buf; 
+        delete [] buf;
         idx_j += dj;
       } //end j
       idx_i += di;