必赢亚洲手机app下载


小说:异度空间的蝴蝶蚱蜢

【连载】我自何方(2)

必赢亚洲手机appSSE图像算法优化系列六:OpenCv关于灰度积分图的SSE代码学习与改善。

  最近一直沉迷于SSE方面的优化,实在找不交想上学之参考资料了,就拿个笔记本放在腿上译翻OpenCv的源代码,无意中看到了OpenCv中关于积分图的代码,仔细研习了同一胡,觉得OpenCv对SSE的灵活运用真的做的异常好,这里记录下自己本着该段代码的品尝并将那个思路扩展及另外通道数的图像。

     该中心代码位于:Opencv
3.0\opencv\sources\modules\imgproc\src\sumpixels.cpp文件中。

   
 我们贴出最感谢兴趣的一样组成部分代码以便分析:

    bool operator()(const uchar * src, size_t _srcstep,int * sum, size_t _sumstep,double * sqsum, size_t, int * tilted, size_t,Size size, int cn) const
    {
        if (sqsum || tilted || cn != 1 || !haveSSE2) return false;
        // the first iteration
        memset(sum, 0, (size.width + 1) * sizeof(int));
        __m128i v_zero = _mm_setzero_si128(), prev = v_zero;
        int j = 0;
        // the others
        for (int i = 0; i < size.height; ++i)
        {
            const uchar * src_row = src + _srcstep * i;
            int * prev_sum_row = (int *)((uchar *)sum + _sumstep * i) + 1;
            int * sum_row = (int *)((uchar *)sum + _sumstep * (i + 1)) + 1;
            sum_row[-1] = 0;
            prev = v_zero;
            j = 0;
            for ( ; j + 7 < size.width; j += 8)
            {
                __m128i vsuml = _mm_loadu_si128((const __m128i *)(prev_sum_row + j));
                __m128i vsumh = _mm_loadu_si128((const __m128i *)(prev_sum_row + j + 4));
                __m128i el8shr0 = _mm_loadl_epi64((const __m128i *)(src_row + j));
                __m128i el8shr1 = _mm_slli_si128(el8shr0, 1);
                __m128i el8shr2 = _mm_slli_si128(el8shr0, 2);
                __m128i el8shr3 = _mm_slli_si128(el8shr0, 3);
                vsuml = _mm_add_epi32(vsuml, prev);
                vsumh = _mm_add_epi32(vsumh, prev);
                __m128i el8shr12 = _mm_add_epi16(_mm_unpacklo_epi8(el8shr1, v_zero),
                                                 _mm_unpacklo_epi8(el8shr2, v_zero));
                __m128i el8shr03 = _mm_add_epi16(_mm_unpacklo_epi8(el8shr0, v_zero),
                                                 _mm_unpacklo_epi8(el8shr3, v_zero));
                __m128i el8 = _mm_add_epi16(el8shr12, el8shr03);
                __m128i el4h = _mm_add_epi16(_mm_unpackhi_epi16(el8, v_zero),
                                             _mm_unpacklo_epi16(el8, v_zero));
                vsuml = _mm_add_epi32(vsuml, _mm_unpacklo_epi16(el8, v_zero));
                vsumh = _mm_add_epi32(vsumh, el4h);
                _mm_storeu_si128((__m128i *)(sum_row + j), vsuml);
                _mm_storeu_si128((__m128i *)(sum_row + j + 4), vsumh);
                prev = _mm_add_epi32(prev, _mm_shuffle_epi32(el4h, _MM_SHUFFLE(3, 3, 3, 3)));
            }
            for (int v = sum_row[j - 1] - prev_sum_row[j - 1]; j < size.width; ++j)
                sum_row[j] = (v += src_row[j]) + prev_sum_row[j];
        }

   
 为了求证重新便宜,这里贴起我开的便C语言的代码和再次优化后底SSE代码。

     普通C语言:

 void GetGrayIntegralImage(unsigned char *Src, int *Integral, int Width, int Height, int Stride)
 {
      memset(Integral, 0, (Width + 1) * sizeof(int));                    //    第一行都为0
      for (int Y = 0; Y < Height; Y++)
      {
          unsigned char *LinePS = Src + Y * Stride;
          int *LinePL = Integral + Y * (Width + 1) + 1;                 //    上一行位置            
          int *LinePD = Integral + (Y + 1) * (Width + 1) + 1;           //    当前位置,注意每行的第一列的值都为0
          LinePD[-1] = 0;                                               //    第一列的值为0
          for (int X = 0, Sum = 0; X < Width; X++)
          {
             Sum += LinePS[X];                                          //    行方向累加
             LinePD[X] = LinePL[X] + Sum;                               //    更新积分图
          }
     }
}

       优化后的SSE算法:

void GetGrayIntegralImage(unsigned char *Src, int *Integral, int Width, int Height, int Stride)
{
    memset(Integral, 0, (Width + 1) * sizeof(int));            //    第一行都为0
    int BlockSize = 8, Block = Width / BlockSize;
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePS = Src + Y * Stride;
        int *LinePL = Integral + Y * (Width + 1) + 1;                //    上一行位置            
        int *LinePD = Integral + (Y + 1) * (Width + 1) + 1;          //    当前位置,注意每行的第一列的值都为0
        LinePD[-1] = 0;
        __m128i PreV = _mm_setzero_si128();
        __m128i Zero = _mm_setzero_si128();
        for (int X = 0; X < Block * BlockSize; X += BlockSize)
        {
            __m128i Src_Shift0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(LinePS + X)), Zero);        //    A7 A6 A5 A4 A3 A2 A1 A0
            __m128i Src_Shift1 = _mm_slli_si128(Src_Shift0, 2);                                            //    A6 A5 A4 A3 A2 A1 A0 0     
            __m128i Src_Shift2 = _mm_slli_si128(Src_Shift1, 2);    //    移位改成基于Shift0,速度慢,Why?    //    A5 A4 A3 A2 A1 A0 0  0
            __m128i Src_Shift3 = _mm_slli_si128(Src_Shift2, 2);                                            //    A4 A3 A2 A1 A0 0  0  0
            __m128i Shift_Add12 = _mm_add_epi16(Src_Shift1, Src_Shift2);                                   //    A6+A5 A5+A4 A4+A3 A3+A2 A2+A1 A1+A0 A0+0  0+0
            __m128i Shift_Add03 = _mm_add_epi16(Src_Shift0, Src_Shift3);                                   //    A7+A4 A6+A3 A5+A2 A4+A1 A3+A0 A2+0  A1+0  A0+0    
            __m128i Low = _mm_add_epi16(Shift_Add12, Shift_Add03);                                         //    A7+A6+A5+A4 A6+A5+A4+A3 A5+A4+A3+A2 A4+A3+A2+A1 A3+A2+A1+A0 A2+A1+A0+0 A1+A0+0+0 A0+0+0+0
            __m128i High = _mm_add_epi32(_mm_unpackhi_epi16(Low, Zero), _mm_unpacklo_epi16(Low, Zero));    //    A7+A6+A5+A4+A3+A2+A1+A0  A6+A5+A4+A3+A2+A1+A0  A5+A4+A3+A2+A1+A0  A4+A3+A2+A1+A0
            __m128i SumL = _mm_loadu_si128((__m128i *)(LinePL + X + 0));
            __m128i SumH = _mm_loadu_si128((__m128i *)(LinePL + X + 4));
            SumL = _mm_add_epi32(SumL, PreV);
            SumL = _mm_add_epi32(SumL, _mm_unpacklo_epi16(Low, Zero));
            SumH = _mm_add_epi32(SumH, PreV);
            SumH = _mm_add_epi32(SumH, High);
            PreV = _mm_add_epi32(PreV, _mm_shuffle_epi32(High, _MM_SHUFFLE(3, 3, 3, 3)));
            _mm_storeu_si128((__m128i *)(LinePD + X + 0), SumL);
            _mm_storeu_si128((__m128i *)(LinePD + X + 4), SumH);
        }
        for (int X = Block * BlockSize, V = LinePD[X - 1] - LinePL[X - 1]; X < Width; X++)
        {
            V += LinePS[X];
            LinePD[X] = V + LinePL[X];
        }
   }

  我们先来解释下就段代码的SSE优化过程吧。

   
 首先,用_mm_loadl_epi64一次性加载8单字节数据及XMM寄存器中,其中寄存器的高8各项位0,此时寄存器的数据为:

      高位            0  0  0  0  0  0  0
 0 A7 A6 A5 A4 A3 A2 A1 A0        低位   (8位)

   
 因为涉及到加法,并且极可怜也8个字节数据的加法,因此转换到16各项数据类型,使用_mm_unpacklo_epi8结合zero即可实现。

     此时XMM寄存器内容变为:

           Src_Shift0    A7 A6 A5 A4 A3 A2 A1 A0    (16位)

     此后时有发生3破走分别收获:

            Src_Shift1    A6 A5 A4 A3 A2 A1 A0 0       (16位)
            Src_Shift2    A5 A4 A3 A2 A1 A0 0  0     (16位)
            Src_Shift3    A4 A3 A2 A1 A0 0  0  0         (16位)

  通过_mm_add_epi16分别对4组16位数据进行8次相加:

            Shift_Add12   A6+A5 A5+A4 A4+A3 A3+A2 A2+A1 A1+A0 A0+0  0+0   (16位)
            Shift_Add03   A7+A4 A6+A3 A5+A2 A4+A1 A3+A0 A2+0  A1+0  A0+0   (16位)  

  再对他们进行相加:

        Low            A7+A6+A5+A4 A6+A5+A4+A3 A5+A4+A3+A2 A4+A3+A2+A1 A3+A2+A1+A0 A2+A1+A0+0 A1+A0+0+0 A0+0+0+0

   
 注意到没有4各之16各数都是连相加的数据了,只要以他们更换为32号即得一直动用。

     而通过 __m128i High =
_mm_add_epi32(_mm_unpackhi_epi16(Low, Zero),
_mm_unpacklo_epi16(Low, Zero)); 这无异句子则足以将前面的高4员连续相加的价拼接起来得到:

       High                
 A7+A6+A5+A4+A3+A2+A1+A0  A6+A5+A4+A3+A2+A1+A0  A5+A4+A3+A2+A1+A0
 A4+A3+A2+A1+A0

  后面的操作则顺理成章了。

     
 注意到自基本的更动在于原始代码中之el8shr12同el8shr03的乘除中之_mm_unpacklo_epi8于清除了,而以el8shr0一致句被追加了一个_mm_unpacklo_epi8,因此丢掉了3不行是函数,很显著这样做是无会见转移计算结果的。

     
 另外源代码中之局部_mm_add_epi16被我用_mm_add_epi32代表了,这必赢亚洲手机app主要是以用_mm_add_epi32意思更明白,而且由于高位数据为0,他们的实践结果未会见产生其它区别。

   还有少数每当测试时意识,如果Src_Shift2,Src_Shift3的位移是依据Src_Shift0,即利用如下代码:

__m128i Src_Shift2 = _mm_slli_si128(Src_Shift0, 4);    
__m128i Src_Shift3 = _mm_slli_si128(Src_Shift0, 6);

  
速度会发比较明显的狂跌,难道说走的位数多少以及CPU的耗时有关?

     
以上是灰度模式的算法,在自家之笔记本电脑上,SSE优化后的语虽然长了成千上万,但是实施效率大概能升官30%,不过在有PC上,普通的C和SSE优化后可从不啥速度分别了,这为未理解是为何了。

     
如果是指向24各项还是32各项图像,基本的优化思想是同的,不过出更多的底细要自己在意。

     
24各类还是32各项图像在其余机器配置上,速度都能起30%底提升的。

     
还是觉得这种算法用文字很不便发挥清楚,用代码再长自己的空中整合或再次能够理解吧。

 

必赢亚洲手机app 1

 

         

 

相关文章

No Comments, Be The First!
近期评论
    文章归档
    功能
    网站地图xml地图