ctf/spctr__2d__general_8cxx_source.html

 /*Copyright (c) 2011, Edgar Solomonik, all rights reserved.*/

 #include "spctr_2d_general.h"
 #include "../tensor/untyped_tensor.h"
 #include "../mapping/mapping.h"
 #include "../shared/util.h"
 #include <climits>

 namespace CTF_int {

   spctr_2d_general::~spctr_2d_general() {
     /*if (move_A) cdt_A->deactivate();
     if (move_B) cdt_B->deactivate();
     if (move_C) cdt_C->deactivate();*/
     if (rec_ctr != NULL)
       delete rec_ctr;
   }

   spctr_2d_general::spctr_2d_general(spctr * other) : spctr(other) {
     spctr_2d_general * o = (spctr_2d_general*)other;
     rec_ctr = o->rec_ctr->clone();
     edge_len      = o->edge_len;
     ctr_lda_A     = o->ctr_lda_A;
     ctr_sub_lda_A = o->ctr_sub_lda_A;
     cdt_A         = o->cdt_A;
     move_A        = o->move_A;
     ctr_lda_B     = o->ctr_lda_B;
     ctr_sub_lda_B = o->ctr_sub_lda_B;
     cdt_B         = o->cdt_B;
     move_B        = o->move_B;
     ctr_lda_C     = o->ctr_lda_C;
     ctr_sub_lda_C = o->ctr_sub_lda_C;
     cdt_C         = o->cdt_C;
     move_C        = o->move_C;

     dns_vrt_sz_A  = o->dns_vrt_sz_A;
     dns_vrt_sz_B  = o->dns_vrt_sz_B;
     dns_vrt_sz_C  = o->dns_vrt_sz_C;
 #if 0 //def OFFLOAD
     alloc_host_buf = o->alloc_host_buf;
 #endif
   }

   void spctr_2d_general::print() {
     printf("spctr_2d_general: edge_len = %d\n", edge_len);
     printf("move_A = %d, ctr_lda_A = %ld, ctr_sub_lda_A = %ld\n",
             move_A, ctr_lda_A, ctr_sub_lda_A);
     if (move_A) printf("cdt_A length = %d\n",cdt_A->np);
     printf("move_B = %d, ctr_lda_B = %ld, ctr_sub_lda_B = %ld\n",
             move_B, ctr_lda_B, ctr_sub_lda_B);
     if (move_B) printf("cdt_B length = %d\n",cdt_B->np);
     printf("move_C = %d, ctr_lda_C = %ld, ctr_sub_lda_C = %ld\n",
             move_C, ctr_lda_C, ctr_sub_lda_C);
     if (move_C) printf("cdt_C length = %d\n",cdt_C->np);
 #if 0 //def OFFLOAD
     if (alloc_host_buf)
       printf("alloc_host_buf is true\n");
     else
       printf("alloc_host_buf is false\n");
 #endif
     rec_ctr->print();
   }

   spctr * spctr_2d_general::clone() {
     return new spctr_2d_general(this);
   }

   void spctr_2d_general::find_bsizes(int64_t & b_A,
                                      int64_t & b_B,
                                      int64_t & b_C,
                                      int64_t & s_A,
                                      int64_t & s_B,
                                      int64_t & s_C,
                                      int64_t & aux_size){
     b_A = 0, b_B = 0, b_C = 0;
     s_A = ctr_sub_lda_A*ctr_lda_A;
     s_B = ctr_sub_lda_B*ctr_lda_B;
     s_C = ctr_lda_C*ctr_sub_lda_C;
     if (move_A){
       b_A = edge_len/cdt_A->np;
     }
     if (move_B){
       b_B = edge_len/cdt_B->np;
     }
     if (move_C){
       b_C = edge_len/cdt_C->np;
     }

     aux_size = MAX(move_A*sr_A->el_size*s_A, MAX(move_B*sr_B->el_size*s_B, move_C*sr_C->el_size*s_C));
   }

   double spctr_2d_general::est_time_fp(int nlyr, double nnz_frac_A, double nnz_frac_B, double nnz_frac_C) {
     int64_t b_A, b_B, b_C, s_A, s_B, s_C, aux_size;
     find_bsizes(b_A, b_B, b_C, s_A, s_B, s_C, aux_size);
     double est_bcast_time = 0.0;
     if (move_A){
       if (is_sparse_A)
         est_bcast_time += cdt_A->estimate_bcast_time(sr_A->pair_size()*s_A*nnz_frac_A*dns_vrt_sz_A);
       else
         est_bcast_time += cdt_A->estimate_bcast_time(sr_A->el_size*s_A*nnz_frac_A);
     }
     if (move_B){
       if (is_sparse_B)
         est_bcast_time += cdt_B->estimate_bcast_time(sr_B->pair_size()*s_B*nnz_frac_B*dns_vrt_sz_B);
       else
         est_bcast_time += cdt_B->estimate_bcast_time(sr_B->el_size*s_B*nnz_frac_B);
     }
     if (move_C){
       if (is_sparse_C)
         est_bcast_time += sr_C->estimate_csr_red_time(sr_C->pair_size()*s_C*nnz_frac_C*dns_vrt_sz_C, cdt_C);
       else
         est_bcast_time += cdt_C->estimate_red_time(sr_C->el_size*s_C*nnz_frac_C, sr_C->addmop());
     }
     return (est_bcast_time*(double)edge_len)/MIN(nlyr,edge_len);
   }

   double spctr_2d_general::est_time_rec(int nlyr, double nnz_frac_A, double nnz_frac_B, double nnz_frac_C) {
     return rec_ctr->est_time_rec(1, nnz_frac_A, nnz_frac_B, nnz_frac_C)*(double)edge_len/MIN(nlyr,edge_len) + est_time_fp(nlyr, nnz_frac_A, nnz_frac_B, nnz_frac_C);
   }

   int64_t spctr_2d_general::spmem_fp(double nnz_frac_A, double nnz_frac_B, double nnz_frac_C) {
     int64_t b_A, b_B, b_C, s_A, s_B, s_C, aux_size;
     find_bsizes(b_A, b_B, b_C, s_A, s_B, s_C, aux_size);
     int64_t mem_usage = 0;
     if (is_sparse_A) mem_usage += sr_A->pair_size()*s_A*nnz_frac_A;
     else mem_usage += sr_A->el_size*s_A;
     if (is_sparse_B) mem_usage += sr_B->pair_size()*s_B*nnz_frac_B;
     else mem_usage += sr_B->el_size*s_B;
     if (is_sparse_C) mem_usage += sr_C->pair_size()*s_C*nnz_frac_C;
     else mem_usage += sr_C->el_size*s_C;
     return mem_usage;
   }

   int64_t spctr_2d_general::spmem_rec(double nnz_frac_A, double nnz_frac_B, double nnz_frac_C) {
     return rec_ctr->spmem_rec(nnz_frac_A, nnz_frac_B, nnz_frac_C) + spmem_fp(nnz_frac_A, nnz_frac_B, nnz_frac_C);
   }

   char * bcast_step(int edge_len, char * A, bool is_sparse_A, bool move_A, algstrct const * sr_A, int64_t b_A, int64_t s_A, char * buf_A, CommData * cdt_A, int64_t ctr_sub_lda_A, int64_t ctr_lda_A, int nblk_A, int64_t const * size_blk_A, int & new_nblk_A, int64_t *& new_size_blk_A, int64_t * offsets_A, int ib){
     int ret;
     char * op_A = NULL;
     new_size_blk_A = (int64_t*)size_blk_A;
     if (move_A){
       new_nblk_A  = nblk_A/b_A;
       int owner_A = ib % cdt_A->np;
       if (cdt_A->rank == owner_A){
         if (b_A == 1){
           op_A = A;
         } else {
           if (is_sparse_A){
             int64_t * new_offsets_A;
             socopy(ctr_sub_lda_A, ctr_lda_A, ctr_sub_lda_A*b_A, ctr_sub_lda_A,
                    size_blk_A+(ib/cdt_A->np)*ctr_sub_lda_A,
                    new_size_blk_A, new_offsets_A);

             int64_t bc_size_A = 0;
             for (int z=0; z<new_nblk_A; z++) bc_size_A += new_size_blk_A[z];
             ret = CTF_int::mst_alloc_ptr(bc_size_A, (void**)&buf_A);
             ASSERT(ret==0);
             op_A = buf_A;
             spcopy(ctr_sub_lda_A, ctr_lda_A, ctr_sub_lda_A*b_A, ctr_sub_lda_A,
                    size_blk_A+(ib/cdt_A->np)*ctr_sub_lda_A,
                    offsets_A+(ib/cdt_A->np)*ctr_sub_lda_A,
                    A,
                    new_size_blk_A, new_offsets_A, op_A);
             cdealloc(new_offsets_A);
           } else {
             op_A = buf_A;
             sr_A->copy(ctr_sub_lda_A, ctr_lda_A,
                        A+sr_A->el_size*(ib/cdt_A->np)*ctr_sub_lda_A, ctr_sub_lda_A*b_A,
                        op_A, ctr_sub_lda_A);
           }
         }
       } else {
         if (is_sparse_A)
           CTF_int::alloc_ptr(sizeof(int64_t)*nblk_A/b_A, (void**)&new_size_blk_A);
         else
           op_A = buf_A;
       }
       if (is_sparse_A){
         cdt_A->bcast(new_size_blk_A, new_nblk_A, MPI_INT64_T, owner_A);
         int64_t bc_size_A = 0;
         for (int z=0; z<new_nblk_A; z++) bc_size_A += new_size_blk_A[z];

         if (cdt_A->rank != owner_A){
           ret = CTF_int::mst_alloc_ptr(bc_size_A, (void**)&buf_A);
           ASSERT(ret==0);
           op_A = buf_A;
         }
         cdt_A->bcast(op_A, bc_size_A, MPI_CHAR, owner_A);
         /*int rrank;
         MPI_Comm_rank(MPI_COMM_WORLD, &rrank);
         printf("rrank = %d new_nblk_A = %d rank = %d owner = %d new_nnz_A = %ld old_nnz_A = %ld\n",rrank,new_nblk_A,cdt_A->rank, owner_A, new_nnz_A, nnz_A);
         for (int rr=0; rr<new_nblk_A; rr++){
           printf("rrank = %d new_nblk_A = %d new_size_blk_A[%d] = %ld\n", rrank, new_nblk_A, rr, new_size_blk_A[rr]);
         }*/
       } else {
         cdt_A->bcast(op_A, s_A, sr_A->mdtype(), owner_A);
       }
     } else {
       if (ctr_sub_lda_A == 0)
         op_A = A;
       else {
         new_nblk_A = nblk_A/edge_len;
         if (ctr_lda_A == 1){
           if (is_sparse_A){
             op_A = A+offsets_A[ib*ctr_sub_lda_A];
             CTF_int::alloc_ptr(sizeof(int64_t)*new_nblk_A, (void**)&new_size_blk_A);
             memcpy(new_size_blk_A, size_blk_A+ib*ctr_sub_lda_A, sizeof(int64_t)*new_nblk_A);
 /*            int rrank;
             MPI_Comm_rank(MPI_COMM_WORLD, &rrank);
             printf("rrank = %d ib = %ld new_nblk_A = %d, new_nnz_A = %ld offset = %ld\n", rrank, ib, new_nblk_A, new_nnz_A, offsets_A[ib*ctr_sub_lda_A]);*/
           } else {
             op_A = A+sr_A->el_size*ib*ctr_sub_lda_A;
           }
         } else {
           if (is_sparse_A){
             int64_t * new_offsets_A;
             socopy(ctr_sub_lda_A, ctr_lda_A, ctr_sub_lda_A*edge_len, ctr_sub_lda_A,
                    size_blk_A+ib*ctr_sub_lda_A,
                    new_size_blk_A, new_offsets_A);
             int64_t bc_size_A = 0;
             for (int z=0; z<new_nblk_A; z++) bc_size_A += new_size_blk_A[z];

             ret = CTF_int::mst_alloc_ptr(bc_size_A, (void**)&buf_A);
             ASSERT(ret==0);
             op_A = buf_A;
             spcopy(ctr_sub_lda_A, ctr_lda_A, ctr_sub_lda_A*edge_len, ctr_sub_lda_A,
                    size_blk_A+ib*ctr_sub_lda_A, offsets_A+ib*ctr_sub_lda_A, A,
                    new_size_blk_A, new_offsets_A, op_A);
             cdealloc(new_offsets_A);
           } else {
             op_A = buf_A;
             sr_A->copy(ctr_sub_lda_A, ctr_lda_A,
                        A+sr_A->el_size*ib*ctr_sub_lda_A, ctr_sub_lda_A*edge_len,
                        buf_A, ctr_sub_lda_A);
           }
         }
       }
     }
     return op_A;
   }


   char * reduce_step_pre(int edge_len, char * C, bool is_sparse_C, bool move_C, algstrct const * sr_C, int64_t b_C, int64_t s_C, char * buf_C, CommData * cdt_C, int64_t ctr_sub_lda_C, int64_t ctr_lda_C, int nblk_C, int64_t const * size_blk_C, int & new_nblk_C, int64_t *& new_size_blk_C, int64_t * offsets_C, int ib, char const *& rec_beta){
     char * op_C;
     new_size_blk_C = (int64_t*)size_blk_C;
     if (move_C){
       op_C = buf_C;
       rec_beta = sr_C->addid();
       new_nblk_C = nblk_C/b_C;
       if (is_sparse_C){
         CTF_int::alloc_ptr(sizeof(int64_t)*new_nblk_C, (void**)&new_size_blk_C);
         memset(new_size_blk_C, 0, sizeof(int64_t)*new_nblk_C);
       }
     } else {
       if (ctr_sub_lda_C == 0){
         new_nblk_C = nblk_C;
         op_C = C;
       } else {
         new_nblk_C = nblk_C/edge_len;
         if (ctr_lda_C == 1){
           if (is_sparse_C){
             CTF_int::alloc_ptr(sizeof(int64_t)*new_nblk_C, (void**)&new_size_blk_C);
             memcpy(new_size_blk_C, size_blk_C+ib*ctr_sub_lda_C, sizeof(int64_t)*new_nblk_C);
             op_C = C+offsets_C[ib*ctr_sub_lda_C];
           } else {
             op_C = C+sr_C->el_size*ib*ctr_sub_lda_C;
           }
         } else {
           op_C = buf_C;
           rec_beta = sr_C->addid();
           CTF_int::alloc_ptr(sizeof(int64_t)*new_nblk_C, (void**)&new_size_blk_C);
           memset(new_size_blk_C, 0, sizeof(int64_t)*new_nblk_C);
         }
       }
     }
     return op_C;
   }


   void reduce_step_post(int edge_len, char * C, bool is_sparse_C, bool move_C, algstrct const * sr_C, int64_t b_C, int64_t s_C, char * buf_C, CommData * cdt_C, int64_t ctr_sub_lda_C, int64_t ctr_lda_C, int nblk_C, int64_t * size_blk_C, int & new_nblk_C, int64_t *& new_size_blk_C, int64_t * offsets_C, int ib, char const *& rec_beta, char const * beta, char *& up_C, char *& new_C, int n_new_C_grps, int & i_new_C_grp, char ** new_C_grps){
     if (move_C){
 #ifdef PROFILE
       TAU_FSTART(spctr_2d_general_barrier);
       MPI_Barrier(cdt_C->cm);
       TAU_FSTOP(spctr_2d_general_barrier);
 #endif
       int owner_C   = ib % cdt_C->np;
       if (is_sparse_C){
         int64_t csr_sz_acc = 0;
         int64_t new_csr_sz_acc = 0;
         char * new_Cs[new_nblk_C];
         for (int blk=0; blk<new_nblk_C; blk++){
           new_Cs[blk] = sr_C->csr_reduce(up_C+csr_sz_acc, owner_C, cdt_C->cm);

           csr_sz_acc += new_size_blk_C[blk];
           new_size_blk_C[blk] = cdt_C->rank == owner_C ? ((CSR_Matrix)(new_Cs[blk])).size() : 0;
           new_csr_sz_acc += new_size_blk_C[blk];
         }
         cdealloc(up_C);
         if (cdt_C->rank == owner_C){
           if (n_new_C_grps == 1){
             alloc_ptr(new_csr_sz_acc, (void**)&up_C);
             new_csr_sz_acc = 0;
             ASSERT(nblk_C == new_nblk_C);
             for (int blk=0; blk<nblk_C; blk++){
               memcpy(up_C+new_csr_sz_acc, new_Cs[blk], new_size_blk_C[blk]);
               cdealloc(new_Cs[blk]);
               new_csr_sz_acc += new_size_blk_C[blk];
             }
             if (new_C != C) cdealloc(new_C);
             new_C = up_C;
           } else {
             ASSERT(new_nblk_C == 1);
             for (int k=0; k<ctr_lda_C; k++){
               for (int j=0; j<ctr_sub_lda_C; j++){
                 size_blk_C[ctr_sub_lda_C*(k*n_new_C_grps+i_new_C_grp)+j] = new_size_blk_C[ctr_sub_lda_C*k+j];
               }
             }
             new_C_grps[i_new_C_grp] = new_Cs[0];
             i_new_C_grp++;
           }
         } else {
           up_C = NULL;
         }
       } else {
         if (cdt_C->rank == owner_C)
           cdt_C->red(MPI_IN_PLACE, up_C, s_C, sr_C->mdtype(), sr_C->addmop(), owner_C);
         else
           cdt_C->red(up_C, NULL, s_C, sr_C->mdtype(), sr_C->addmop(), owner_C);
         if (cdt_C->rank == owner_C){
           sr_C->copy(ctr_sub_lda_C, ctr_lda_C,
                      up_C, ctr_sub_lda_C, sr_C->mulid(),
                      C+sr_C->el_size*(ib/cdt_C->np)*ctr_sub_lda_C,
                      ctr_sub_lda_C*b_C, beta);
         }
       }
     } else {
       if (ctr_sub_lda_C != 0){
         if (is_sparse_C){
           new_C_grps[i_new_C_grp] = up_C;
           for (int k=0; k<ctr_lda_C; k++){
             for (int j=0; j<ctr_sub_lda_C; j++){
               size_blk_C[ctr_sub_lda_C*(k*n_new_C_grps+i_new_C_grp)+j] = new_size_blk_C[ctr_sub_lda_C*k+j];
             }
           }
           i_new_C_grp++;
         } else if (ctr_lda_C != 1){
           sr_C->copy(ctr_sub_lda_C, ctr_lda_C,
                      buf_C, ctr_sub_lda_C, sr_C->mulid(),
                      C+sr_C->el_size*ib*ctr_sub_lda_C,
                      ctr_sub_lda_C*edge_len, beta);
         }
       } else {
         rec_beta = sr_C->mulid();
         if (is_sparse_C){
           size_blk_C[0] = new_size_blk_C[0];
           if (new_C != C) cdealloc(new_C);
           new_C = up_C;
         }
       }
     }
   }

   void spctr_2d_general::run(char * A, int nblk_A, int64_t const * size_blk_A,
                              char * B, int nblk_B, int64_t const * size_blk_B,
                              char * C, int nblk_C, int64_t * size_blk_C,
                              char *& new_C){
     int ret, n_new_C_grps;
     int64_t ib;
     char * buf_A, * buf_B, * buf_C, * buf_aux, * up_C;
     char ** new_C_grps;
     char * op_A = NULL;
     char * op_B = NULL;
     char * op_C = NULL;
     int64_t b_A, b_B, b_C, s_A, s_B, s_C, aux_size;

     if (is_sparse_C){
       if (move_C){
         n_new_C_grps = edge_len/cdt_C->np;
       } else {
         //if (ctr_lda_C != 1 && ctr_sub_lda_C != 0)
         if (ctr_sub_lda_C != 0){
           n_new_C_grps = edge_len;
         } else {
           n_new_C_grps = 1;
         }
       }
     } else {
       n_new_C_grps = 1;
     }
     if (n_new_C_grps > 1)
       alloc_ptr(n_new_C_grps*sizeof(char*), (void**)&new_C_grps);
     int i_new_C_grp = 0;
     TAU_FSTART(spctr_2d_general);

     /* Must move at most two tensors */
     ASSERT(!(move_A && move_B && move_C));

     rec_ctr->beta         = this->beta;

     int iidx_lyr, inum_lyr;
     if (edge_len >= num_lyr && edge_len % num_lyr == 0){
       inum_lyr         = num_lyr;
       iidx_lyr         = idx_lyr;
       rec_ctr->num_lyr = 1;
       rec_ctr->idx_lyr = 0;
     } else if (edge_len < num_lyr && num_lyr % edge_len == 0){
       inum_lyr         = edge_len;
       iidx_lyr         = idx_lyr%edge_len;
       rec_ctr->num_lyr = num_lyr/edge_len;
       rec_ctr->idx_lyr = idx_lyr/edge_len;
     } else {
       rec_ctr->num_lyr = num_lyr;
       rec_ctr->idx_lyr = idx_lyr;
       inum_lyr         = 1;
       iidx_lyr         = 0;
     }


     find_bsizes(b_A, b_B, b_C, s_A, s_B, s_C, aux_size);

 #if 0 //def OFFLOAD
     if (alloc_host_buf){
       host_pinned_alloc((void**)&buf_A, s_A*sr_A->el_size);
       host_pinned_alloc((void**)&buf_B, s_B*sr_B->el_size);
       host_pinned_alloc((void**)&buf_C, s_C*sr_C->el_size);
     }
 #endif
     if (0){
     } else {
       if (!is_sparse_A){
         ret = CTF_int::mst_alloc_ptr(s_A*sr_A->el_size, (void**)&buf_A);
         ASSERT(ret==0);
       } else buf_A = NULL;
       if (!is_sparse_B){
         ret = CTF_int::mst_alloc_ptr(s_B*sr_B->el_size, (void**)&buf_B);
         ASSERT(ret==0);
       } else buf_B = NULL;
       if (!is_sparse_C){
         ret = CTF_int::mst_alloc_ptr(s_C*sr_C->el_size, (void**)&buf_C);
         ASSERT(ret==0);
       } else buf_C = NULL;
     }
     ret = CTF_int::mst_alloc_ptr(aux_size, (void**)&buf_aux);
     ASSERT(ret==0);

     int64_t * offsets_A;
     if (is_sparse_A){
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_A, (void**)&offsets_A);
       for (int i=0; i<nblk_A; i++){
         if (i==0) offsets_A[0] = 0;
         else offsets_A[i] = offsets_A[i-1]+size_blk_A[i-1];
       }
     }
     int64_t * offsets_B;
     if (is_sparse_B){
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_B, (void**)&offsets_B);
       for (int i=0; i<nblk_B; i++){
         if (i==0) offsets_B[0] = 0;
         else offsets_B[i] = offsets_B[i-1]+size_blk_B[i-1];
       }
     }
     int64_t * offsets_C;
     if (is_sparse_C){
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_C, (void**)&offsets_C);
       for (int i=0; i<nblk_C; i++){
         if (i==0) offsets_C[0] = 0;
         else offsets_C[i] = offsets_C[i-1]+size_blk_C[i-1];
       }
     }


     int64_t * new_size_blk_A;
     int new_nblk_A = nblk_A;
     int64_t * new_size_blk_B;
     int new_nblk_B = nblk_B;
     int64_t * new_size_blk_C;
     int new_nblk_C = nblk_C;

     new_C = C;
     up_C = NULL;

     for (ib=iidx_lyr; ib<edge_len; ib+=inum_lyr){
       op_A = bcast_step(edge_len, A, is_sparse_A, move_A, sr_A, b_A, s_A, buf_A, cdt_A, ctr_sub_lda_A, ctr_lda_A, nblk_A, size_blk_A, new_nblk_A, new_size_blk_A, offsets_A, ib);
       op_B = bcast_step(edge_len, B, is_sparse_B, move_B, sr_B, b_B, s_B, buf_B, cdt_B, ctr_sub_lda_B, ctr_lda_B, nblk_B, size_blk_B, new_nblk_B, new_size_blk_B, offsets_B, ib);
       op_C = reduce_step_pre(edge_len, new_C, is_sparse_C, move_C, sr_C, b_C, s_C, buf_C, cdt_C, ctr_sub_lda_C, ctr_lda_C, nblk_C, size_blk_C, new_nblk_C, new_size_blk_C, offsets_C, ib, rec_ctr->beta);


       TAU_FSTOP(spctr_2d_general);
       rec_ctr->run(op_A, new_nblk_A, new_size_blk_A,
                    op_B, new_nblk_B, new_size_blk_B,
                    op_C, new_nblk_C, new_size_blk_C,
                    up_C);

       TAU_FSTART(spctr_2d_general);
       /*for (int i=0; i<ctr_sub_lda_C*ctr_lda_C; i++){
         printf("[%d] P%d up_C[%d]  = %lf\n",ctr_lda_C,idx_lyr,i, ((double*)up_C)[i]);
       }*/
       if (is_sparse_A && ((move_A && (cdt_A->rank != (ib % cdt_A->np) || b_A != 1)) || (!move_A && ctr_sub_lda_A != 0 && ctr_lda_A != 1))){
         cdealloc(op_A);
       }
       if (is_sparse_B && ((move_B && (cdt_B->rank != (ib % cdt_B->np) || b_B != 1)) || (!move_B && ctr_sub_lda_B != 0 && ctr_lda_B != 1))){
         cdealloc(op_B);
       }
       reduce_step_post(edge_len, C, is_sparse_C, move_C, sr_C, b_C, s_C, buf_C, cdt_C, ctr_sub_lda_C, ctr_lda_C, nblk_C, size_blk_C, new_nblk_C, new_size_blk_C, offsets_C, ib, rec_ctr->beta, this->beta, up_C, new_C, n_new_C_grps, i_new_C_grp, new_C_grps);

       if (new_size_blk_A != size_blk_A)
         cdealloc(new_size_blk_A);
       if (new_size_blk_B != size_blk_B)
         cdealloc(new_size_blk_B);
       if (is_sparse_A && buf_A != NULL){
         cdealloc(buf_A);
         buf_A = NULL;
       }
       if (is_sparse_B && buf_B != NULL){
         cdealloc(buf_B);
         buf_B = NULL;
       }
       if (new_size_blk_C != size_blk_C)
         cdealloc(new_size_blk_C);
     }
 #if 0 //def OFFLOAD
     if (alloc_host_buf){
       host_pinned_free(buf_A);
       host_pinned_free(buf_B);
       host_pinned_free(buf_C);
     }
 #endif
     if (n_new_C_grps > 1){
       ASSERT(i_new_C_grp == n_new_C_grps);
       int64_t new_sz_C = 0;
       int64_t * new_offsets_C;
       int64_t * grp_offsets_C;
       int64_t * grp_sizes_C;
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_C, (void**)&new_offsets_C);
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_C/n_new_C_grps, (void**)&grp_offsets_C);
       CTF_int::alloc_ptr(sizeof(int64_t)*nblk_C/n_new_C_grps, (void**)&grp_sizes_C);
       for (int i=0; i<nblk_C; i++){
         new_offsets_C[i] = new_sz_C;
         new_sz_C += size_blk_C[i];
       }
       alloc_ptr(new_sz_C, (void**)&new_C);
       for (int i=0; i<n_new_C_grps; i++){
         int64_t last_grp_offset = 0;
         for (int j=0; j<ctr_sub_lda_C; j++){
           for (int k=0; k<ctr_lda_C; k++){
             grp_offsets_C[ctr_sub_lda_C*k+j] = last_grp_offset;
             grp_sizes_C[ctr_sub_lda_C*k+j] = size_blk_C[ctr_sub_lda_C*(i+n_new_C_grps*k)+j];
             last_grp_offset += grp_sizes_C[ctr_sub_lda_C*k+j];
           }
         }
 //        printf("copying %ld %ld elements from matrix of size %ld from offset %ld to offset %ld\n", size_blk_C[0], grp_sizes_C[0], ((CSR_Matrix)new_C_grps[i]).size(), grp_offsets_C[0], new_offsets_C[0]);
         spcopy(ctr_sub_lda_C, ctr_lda_C, ctr_sub_lda_C, ctr_sub_lda_C*n_new_C_grps,
                grp_sizes_C, grp_offsets_C, new_C_grps[i],
                size_blk_C+i*ctr_sub_lda_C, new_offsets_C+i*ctr_sub_lda_C, new_C);
         cdealloc(new_C_grps[i]);
       }
       cdealloc(new_offsets_C);
       cdealloc(grp_offsets_C);
       cdealloc(grp_sizes_C);
     }
     if (move_C && is_sparse_C && C != NULL){
       char * new_Cs[nblk_C];
       int64_t org_offset = 0;
       int64_t cmp_offset = 0;
       int64_t new_offset = 0;
       for (int i=0; i<nblk_C; i++){
         new_Cs[i] = sr_C->csr_add(C+org_offset, new_C+cmp_offset);
         new_offset += ((CSR_Matrix)new_Cs[i]).size();
         org_offset += ((CSR_Matrix)(C+org_offset)).size();
         cmp_offset += ((CSR_Matrix)(new_C+cmp_offset)).size();
       }
       if (new_C != C)
         cdealloc(new_C);
       new_C = (char*)alloc(new_offset);
       new_offset = 0;
       for (int i=0; i<nblk_C; i++){
         size_blk_C[i] = ((CSR_Matrix)new_Cs[i]).size();
         memcpy(new_C+new_offset, new_Cs[i], size_blk_C[i]);
         new_offset += size_blk_C[i];
         cdealloc(new_Cs[i]);
       }
     }
     if (0){
     } else {
       if (buf_A != NULL) CTF_int::cdealloc(buf_A);
       if (buf_B != NULL) CTF_int::cdealloc(buf_B);
       if (buf_C != NULL) CTF_int::cdealloc(buf_C);
       CTF_int::cdealloc(buf_aux);
     }
     if (is_sparse_A){
       cdealloc(offsets_A);
     }
     if (is_sparse_B){
       cdealloc(offsets_B);
     }
     if (is_sparse_C){
       cdealloc(offsets_C);
     } else {
       new_C = C;
     }
     TAU_FSTOP(spctr_2d_general);
   }
 }

CTF_int::algstrct::csr_add
virtual char * csr_add(char *cA, char *cB) const
adds CSR matrices A (stored in cA) and B (stored in cB) to create matric C (pointer to all_data retur...
Definition: algstrct.cxx:362

CTF_int::spctr::spmem_rec
virtual int64_t spmem_rec(double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the number of bytes need by each processor in this kernel and its recursive calls ...
Definition: spctr_tsr.h:45

CTF_int::spctr_2d_general::est_time_fp
double est_time_fp(int nlyr, double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the time this kernel will take including calls to rec_ctr
Definition: spctr_2d_general.cxx:92

CTF_int::spctr_2d_general::move_C
bool move_C
Definition: spctr_2d_general.h:69

CTF_int::spctr_2d_general::dns_vrt_sz_B
int64_t dns_vrt_sz_B
Definition: spctr_2d_general.h:61

CTF_int::algstrct::pair_size
virtual int pair_size() const
gets pair size el_size plus the key size
Definition: algstrct.h:46

CTF_int::spctr_2d_general::dns_vrt_sz_C
int64_t dns_vrt_sz_C
Definition: spctr_2d_general.h:62

CTF_int::CommData::red
void red(void *inbuf, void *outbuf, int64_t count, MPI_Datatype mdtype, MPI_Op op, int root)
reduce, same interface as MPI_Reduce, but excluding the comm
Definition: common.cxx:392

CTF_int::spctr_2d_general::ctr_sub_lda_B
int64_t ctr_sub_lda_B
Definition: spctr_2d_general.h:55

CTF_int::spctr::est_time_rec
virtual double est_time_rec(int nlyr, double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the execution time this kernel and its recursive calls are estimated to take ...
Definition: spctr_tsr.h:39

CTF_int::algstrct::copy
virtual void copy(char *a, char const *b) const
copies element b to element a
Definition: algstrct.cxx:538

CTF_int::host_pinned_alloc
void host_pinned_alloc(void **ptr, int64_t size)
allocate a pinned host buffer

CTF_int::CommData
Definition: common.h:127

ASSERT
#define ASSERT(...)
Definition: util.h:88

CTF_int::alloc
void * alloc(int64_t len)
alloc abstraction
Definition: memcontrol.cxx:365

CTF_int::spctr_2d_general::est_time_rec
double est_time_rec(int nlyr, double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the time this kernel will take including calls to rec_ctr
Definition: spctr_2d_general.cxx:117

CTF_int::CommData::np
int np
Definition: common.h:130

CTF_int::CommData::rank
int rank
Definition: common.h:131

CTF_int::spctr_2d_general::cdt_A
CommData * cdt_A
Definition: spctr_2d_general.h:71

CTF_int::spctr_2d_general::cdt_C
CommData * cdt_C
Definition: spctr_2d_general.h:73

CTF_int::spctr_2d_general::edge_len
int edge_len
Definition: spctr_2d_general.h:49

CTF_int::algstrct::addid
virtual char const * addid() const
MPI datatype for pairs.
Definition: algstrct.cxx:89

CTF_int::spctr::is_sparse_C
bool is_sparse_C
Definition: spctr_tsr.h:14

CTF_int::ctr::idx_lyr
int idx_lyr
Definition: ctr_comm.h:172

CTF_int::spctr_2d_general::ctr_lda_B
int64_t ctr_lda_B
Definition: spctr_2d_general.h:54

CTF_int::spctr::is_sparse_A
bool is_sparse_A
Definition: spctr_tsr.h:12

CTF_int::ctr::sr_B
algstrct const * sr_B
Definition: ctr_comm.h:168

CTF_int::CommData::estimate_red_time
double estimate_red_time(int64_t msg_sz, MPI_Op op)
Definition: common.cxx:308

CTF_int::algstrct::estimate_csr_red_time
double estimate_csr_red_time(int64_t msg_sz, CommData const *cdt) const
Definition: algstrct.cxx:508

CTF_int::bcast_step
char * bcast_step(int edge_len, char *A, bool is_sparse_A, bool move_A, algstrct const *sr_A, int64_t b_A, int64_t s_A, char *buf_A, CommData *cdt_A, int64_t ctr_sub_lda_A, int64_t ctr_lda_A, int nblk_A, int64_t const *size_blk_A, int &new_nblk_A, int64_t *&new_size_blk_A, int64_t *offsets_A, int ib)
Definition: spctr_2d_general.cxx:138

MAX
#define MAX(a, b)
Definition: util.h:180

CTF_int::spctr
Definition: spctr_tsr.h:10

CTF_int::mst_alloc_ptr
int mst_alloc_ptr(int64_t len, void **const ptr)
mst_alloc abstraction
Definition: memcontrol.cxx:269

CTF_int::ctr::sr_C
algstrct const * sr_C
Definition: ctr_comm.h:169

CTF_int::spctr_2d_general::spmem_fp
int64_t spmem_fp(double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the number of bytes of buffer space we need
Definition: spctr_2d_general.cxx:121

CTF_int::host_pinned_free
void host_pinned_free(void *ptr)
free a pinned host buffer

CTF_int::ctr::print
virtual void print()
Definition: ctr_comm.h:175

CTF_int::spctr_2d_general::spmem_rec
int64_t spmem_rec(double nnz_frac_A, double nnz_frac_B, double nnz_frac_C)
returns the number of bytes of buffer space we need recursively
Definition: spctr_2d_general.cxx:134

CTF_int::spctr::new_C
char * new_C
Definition: spctr_tsr.h:15

CTF_int::alloc_ptr
int alloc_ptr(int64_t len, void **const ptr)
alloc abstraction
Definition: memcontrol.cxx:320

CTF_int::ctr::sr_A
algstrct const * sr_A
Definition: ctr_comm.h:167

CTF_int::spctr_2d_general::rec_ctr
spctr * rec_ctr
Definition: spctr_2d_general.h:75

CTF_int::CSR_Matrix
abstraction for a serialized sparse matrix stored in column-sparse-row (CSR) layout ...
Definition: csr.h:22

CTF_int::algstrct::csr_reduce
virtual char * csr_reduce(char *cA, int root, MPI_Comm cm) const
reduces CSR matrices stored in cA on each processor in cm and returns result on processor root ...
Definition: algstrct.cxx:367

CTF_int::spctr_2d_general::run
void run(char *A, int nblk_A, int64_t const *size_blk_A, char *B, int nblk_B, int64_t const *size_blk_B, char *C, int nblk_C, int64_t *size_blk_C, char *&new_C)
Basically doing SUMMA, except assumes equal block size on each processor. Performs rank-b updates whe...
Definition: spctr_2d_general.cxx:365

CTF_int::CommData::estimate_bcast_time
double estimate_bcast_time(int64_t msg_sz)
Definition: common.cxx:295

CTF_int::spctr_2d_general::move_B
bool move_B
Definition: spctr_2d_general.h:68

CTF_int::spctr_2d_general::ctr_lda_A
int64_t ctr_lda_A
Definition: spctr_2d_general.h:51

CTF_int::algstrct::addmop
virtual MPI_Op addmop() const
MPI addition operation for reductions.
Definition: algstrct.cxx:73

TAU_FSTOP
#define TAU_FSTOP(ARG)
Definition: util.h:281

CTF_int::spctr_2d_general::cdt_B
CommData * cdt_B
Definition: spctr_2d_general.h:72

TAU_FSTART
#define TAU_FSTART(ARG)
Definition: util.h:280

CTF_int::CommData::bcast
void bcast(void *buf, int64_t count, MPI_Datatype mdtype, int root)
broadcast, same interface as MPI_Bcast, but excluding the comm
Definition: common.cxx:336

CTF_int::reduce_step_post
void reduce_step_post(int edge_len, char *C, bool is_sparse_C, bool move_C, algstrct const *sr_C, int64_t b_C, int64_t s_C, char *buf_C, CommData *cdt_C, int64_t ctr_sub_lda_C, int64_t ctr_lda_C, int nblk_C, int64_t *size_blk_C, int &new_nblk_C, int64_t *&new_size_blk_C, int64_t *offsets_C, int ib, char const *&rec_beta, char const *beta, char *&up_C, char *&new_C, int n_new_C_grps, int &i_new_C_grp, char **new_C_grps)
Definition: spctr_2d_general.cxx:281

CTF_int::CommData::cm
MPI_Comm cm
Definition: common.h:129

CTF_int::spctr_2d_general
Definition: spctr_2d_general.h:47

CTF_int::spctr_2d_general::move_A
bool move_A
Definition: spctr_2d_general.h:67

CTF_int::spctr_2d_general::spctr_2d_general
spctr_2d_general(spctr *other)
copies spctr object
Definition: spctr_2d_general.cxx:19

CTF_int::socopy
void socopy(int64_t m, int64_t n, int64_t lda_a, int64_t lda_b, int64_t const *sizes_a, int64_t *&sizes_b, int64_t *&offsets_b)
Definition: util.cxx:240

CTF_int::accumulatable::el_size
int el_size
size of each element of algstrct in bytes
Definition: algstrct.h:16

CTF_int::cdealloc
int cdealloc(void *ptr)
free abstraction
Definition: memcontrol.cxx:480

CTF_int::spctr_2d_general::clone
spctr * clone()
Definition: spctr_2d_general.cxx:64

CTF_int::algstrct
algstrct (algebraic structure) defines the elementwise operations computed in each tensor contraction...
Definition: algstrct.h:34

CTF_int::spctr::clone
virtual spctr * clone()
Definition: spctr_tsr.h:19

CTF_int::spctr_2d_general::find_bsizes
void find_bsizes(int64_t &b_A, int64_t &b_B, int64_t &b_C, int64_t &s_A, int64_t &s_B, int64_t &s_C, int64_t &aux_size)
determines buffer and block sizes needed for spctr_2d_general
Definition: spctr_2d_general.cxx:68

CTF_int::spctr_2d_general::ctr_sub_lda_A
int64_t ctr_sub_lda_A
Definition: spctr_2d_general.h:52

MIN
#define MIN(a, b)
Definition: util.h:176

CTF_int::reduce_step_pre
char * reduce_step_pre(int edge_len, char *C, bool is_sparse_C, bool move_C, algstrct const *sr_C, int64_t b_C, int64_t s_C, char *buf_C, CommData *cdt_C, int64_t ctr_sub_lda_C, int64_t ctr_lda_C, int nblk_C, int64_t const *size_blk_C, int &new_nblk_C, int64_t *&new_size_blk_C, int64_t *offsets_C, int ib, char const *&rec_beta)
Definition: spctr_2d_general.cxx:244

CTF_int::spctr_2d_general::print
void print()
print ctr object
Definition: spctr_2d_general.cxx:44

CTF_int::spctr_2d_general::ctr_sub_lda_C
int64_t ctr_sub_lda_C
Definition: spctr_2d_general.h:58

CTF_int
Definition: model_trainer.cxx:16

CTF_int::spctr_2d_general::~spctr_2d_general
~spctr_2d_general()
deallocs spctr_2d_general object
Definition: spctr_2d_general.cxx:11

CTF_int::algstrct::mulid
virtual char const * mulid() const
identity element for multiplication i.e. 1
Definition: algstrct.cxx:93

CTF_int::ctr::num_lyr
int num_lyr
Definition: ctr_comm.h:171

CTF_int::spctr::run
void run(char *A, char *B, char *C)
Definition: spctr_tsr.h:48

CTF_int::spctr_2d_general::dns_vrt_sz_A
int64_t dns_vrt_sz_A
Definition: spctr_2d_general.h:60

CTF_int::ctr::beta
char const * beta
Definition: ctr_comm.h:170

CTF_int::spctr_2d_general::ctr_lda_C
int64_t ctr_lda_C
Definition: spctr_2d_general.h:57

CTF_int::spctr::is_sparse_B
bool is_sparse_B
Definition: spctr_tsr.h:13

CTF_int::algstrct::mdtype
virtual MPI_Datatype mdtype() const
MPI datatype.
Definition: algstrct.cxx:80

CTF_int::spcopy
void spcopy(int64_t m, int64_t n, int64_t lda_a, int64_t lda_b, int64_t const *sizes_a, int64_t const *offsets_a, char const *a, int64_t const *sizes_b, int64_t const *offsets_b, char *b)
Definition: util.cxx:260

spctr_2d_general.h