* somma vettorizzata con 16 elementi per work-item senza distruggere la coalescenza
* vecsmooth vettorizzato e con l'uso di local memory
  (hint: ragionare su come usare la lmem in maniera efficiente)
* smoothing di una matrice (output: media dei pixel in sottomatrice 3x3 attorno a ciascun pixel)

* trasposizione con immagine e local work size fissato

* padding degli elementi di partenza per la riduzione (a multiplo a 4)
* riduzione con un solo passo se il numero di elementi è sufficientemente basso
* riduzione dei float: funziona ancora tutto? (init: 1, nels >= 32*1024*1024)

* rivedere ed eventualmente migliorare l'efficienza della scansione in local memory