使用SSE最快地实现指数函数

2019-12-18 原文

我正在寻找在SSE元素上运算的指数函数的近似值.即 – __m128 exp(__ m128 x).

我有一个快速但实际上准确度非常低的实现：

static inline __m128 FastExpSse(__m128 x)
{
    __m128 a = _mm_set1_ps(12102203.2f); // (1 << 23) / ln(2)
    __m128i b = _mm_set1_epi32(127 * (1 << 23) - 486411);
    __m128  m87 = _mm_set1_ps(-87);
    // fast exponential function,x should be in [-87,87]
    __m128 mask = _mm_cmpge_ps(x,m87);

    __m128i tmp = _mm_add_epi32(_mm_cvtps_epi32(_mm_mul_ps(a,x)),b);
    return _mm_and_ps(_mm_castsi128_ps(tmp),mask);
}

任何人都可以以更快的速度(或更快)获得更高精度的实现吗？

如果我用C风格写的话,我会很高兴的.

谢谢.

解决方法

下面的C代码是我在 previous answer中用于类似问题的算法的SSE内在函数的转换.

基本思想是将标准指数函数的计算转换为2的幂的计算：expf(x)= exp2f(x / logf(2.0f))= exp2f(x * 1.44269504).我们将t = x * 1.44269504分成整数i和分数f,使得t = if和0 <= f <= 1.我们现在可以用多项式近似计算2f,然后通过添加将结果缩放2i i到单精度浮点结果的指数字段. SSE实现存在的一个问题是我们想要计算i = floorf(t),但是没有快速计算floor()函数的方法.但是,我们观察到正数,floor(x)== trunc(x),而对于负数,floor(x)== trunc(x) – 1,除非x是负整数.但是,由于核近似可以处理f值为1.0f,因此使用负参数的近似值是无害的. SSE提供了将单精度浮点操作数转换为具有截断的整数的指令,因此该解决方案是有效的. Peter Cordes指出SSE4.1支持快速楼层功能_mm_floor_ps(),因此使用SSE4.1的变体也如下所示.当启用SSE 4.1代码生成时,并非所有工具链都会自动预定义宏__SSE4_1__,但gcc会这样做.

编译器资源管理器(Godbolt)显示gcc 7.2将下面的代码编译为sixteen instructions,用于普通SSE,twelve instructions用于SSE 4.1.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <math.h>
#include <emmintrin.h>
#ifdef __SSE4_1__
#include <smmintrin.h>
#endif

/* max. rel. error = 1.72863156e-3 on [-87.33654,88.72283] */
__m128 fast_exp_sse (__m128 x)
{
    __m128 t,f,e,p,r;
    __m128i i,j;
    __m128 l2e = _mm_set1_ps (1.442695041f);  /* log2(e) */
    __m128 c0  = _mm_set1_ps (0.3371894346f);
    __m128 c1  = _mm_set1_ps (0.657636276f);
    __m128 c2  = _mm_set1_ps (1.00172476f);

    /* exp(x) = 2^i * 2^f; i = floor (log2(e) * x),0 <= f <= 1 */   
    t = _mm_mul_ps (x,l2e);             /* t = log2(e) * x */
#ifdef __SSE4_1__
    e = _mm_floor_ps (t);                /* floor(t) */
    i = _mm_cvtps_epi32 (e);             /* (int)floor(t) */
#else /* __SSE4_1__*/
    i = _mm_cvttps_epi32 (t);            /* i = (int)t */
    j = _mm_srli_epi32 (_mm_castps_si128 (x),31); /* signbit(t) */
    i = _mm_sub_epi32 (i,j);            /* (int)t - signbit(t) */
    e = _mm_cvtepi32_ps (i);             /* floor(t) ~= (int)t - signbit(t) */
#endif /* __SSE4_1__*/
    f = _mm_sub_ps (t,e);               /* f = t - floor(t) */
    p = c0;                              /* c0 */
    p = _mm_mul_ps (p,f);               /* c0 * f */
    p = _mm_add_ps (p,c1);              /* c0 * f + c1 */
    p = _mm_mul_ps (p,f);               /* (c0 * f + c1) * f */
    p = _mm_add_ps (p,c2);              /* p = (c0 * f + c1) * f + c2 ~= 2^f */
    j = _mm_slli_epi32 (i,23);          /* i << 23 */
    r = _mm_castsi128_ps (_mm_add_epi32 (j,_mm_castps_si128 (p))); /* r = p * 2^i*/
    return r;
}

int main (void)
{
    union {
        float f[4];
        unsigned int i[4];
    } arg,res;
    double relerr,maxrelerr = 0.0;
    int i,j;
    __m128 x,y;

    float start[2] = {-0.0f,0.0f};
    float finish[2] = {-87.33654f,88.72283f};

    for (i = 0; i < 2; i++) {

        arg.f[0] = start[i];
        arg.i[1] = arg.i[0] + 1;
        arg.i[2] = arg.i[0] + 2;
        arg.i[3] = arg.i[0] + 3;
        do {
            memcpy (&x,&arg,sizeof(x));
            y = fast_exp_sse (x);
            memcpy (&res,&y,sizeof(y));
            for (j = 0; j < 4; j++) {
                double ref = exp ((double)arg.f[j]);
                relerr = fabs ((res.f[j] - ref) / ref);
                if (relerr > maxrelerr) {
                    printf ("arg=% 15.8e  res=%15.8e  ref=%15.8e  err=%15.8e\n",arg.f[j],res.f[j],ref,relerr);
                    maxrelerr = relerr;
                }
            }   
            arg.i[0] += 4;
            arg.i[1] += 4;
            arg.i[2] += 4;
            arg.i[3] += 4;
        } while (fabsf (arg.f[3]) < fabsf (finish[i]));
    }
    printf ("maximum relative errror = %15.8e\n",maxrelerr);
    return EXIT_SUCCESS;
}

fast_sse_exp()的另一种设计使用众所周知的技术添加“魔法”转换常量1.5 * 223来强制舍入,从而以舍入到最接近的模式提取调整后的参数x / log(2)的整数部分.正确的位位置,然后再次减去相同的数字.这要求在添加期间有效的SSE舍入模式是“舍入到最接近或甚至”,这是默认值. wim在评论中指出,当使用积极优化时,某些编译器可能会优化转换常量cvt的加法和减法,从而干扰此代码序列的功能,因此建议检查生成的机器代码.用于计算2f的近似间隔现在以零为中心,因为-0.5 <= f <= 0.5,需要不同的核近似.

/* max. rel. error <= 1.72860465e-3 on [-87.33654,j;

    const __m128 l2e = _mm_set1_ps (1.442695041f); /* log2(e) */
    const __m128 cvt = _mm_set1_ps (12582912.0f);  /* 1.5 * (1 << 23) */
    const __m128 c0 =  _mm_set1_ps (0.238428936f);
    const __m128 c1 =  _mm_set1_ps (0.703448006f);
    const __m128 c2 =  _mm_set1_ps (1.000443142f);

    /* exp(x) = 2^i * 2^f; i = rint (log2(e) * x),-0.5 <= f <= 0.5 */
    t = _mm_mul_ps (x,l2e);             /* t = log2(e) * x */
    r = _mm_sub_ps (_mm_add_ps (t,cvt),cvt); /* r = rint (t) */
    f = _mm_sub_ps (t,r);               /* f = t - rint (t) */
    i = _mm_cvtps_epi32 (t);             /* i = (int)t */
    p = c0;                              /* c0 */
    p = _mm_mul_ps (p,c2);              /* p = (c0 * f + c1) * f + c2 ~= exp2(f) */
    j = _mm_slli_epi32 (i,_mm_castps_si128 (p))); /* r = p * 2^i*/
    return r;
}

问题中代码的算法似乎取自Nicol N. Schraudolph的工作,它巧妙地利用了IEEE-754二进制浮点格式的半对数性质：

N. N. Schraudolph. “指数函数的快速,紧凑近似.” Neural computation,11(4),1999年5月,pp.853-862.

删除参数钳位代码后,它只减少到三个SSE指令. “神奇”校正常数486411对于最小化整个输入域上的最大相对误差不是最佳的.基于简单的二进制搜索,值298765似乎更优越,将fastExpSse()的最大相对误差降低到3.56e-2,而fast_exp_sse()的最大相对误差为1.73e-3.

/* max. rel. error = 3.55959567e-2 on [-87.33654,88.72283] */
__m128 FastExpSse (__m128 x)
{
    __m128 a = _mm_set1_ps (12102203.0f); /* (1 << 23) / log(2) */
    __m128i b = _mm_set1_epi32 (127 * (1 << 23) - 298765);
    __m128i t = _mm_add_epi32 (_mm_cvtps_epi32 (_mm_mul_ps (a,b);
    return _mm_castsi128_ps (t);
}

Schraudolph算法基本上对[0,1]中的f使用线性逼近2f~ = 1.0 f,并且通过添加二次项可以提高其精度. Schraudolph方法的聪明部分是计算2i * 2f而没有明确地将整数部分i = floor(x * 1.44269504)与分数分开.我认为无法将该技巧扩展到二次近似,但是当然可以将Schraudolph的floor()计算与上面使用的二次近似相结合：

/* max. rel. error <= 1.72886892e-3 on [-87.33654,88.72283] */
__m128 fast_exp_sse (__m128 x)
{
    __m128 f,r;
    __m128i t,j;
    const __m128 a = _mm_set1_ps (12102203.0f); /* (1 << 23) / log(2) */
    const __m128i m = _mm_set1_epi32 (0xff800000); /* mask for integer bits */
    const __m128 ttm23 = _mm_set1_ps (1.1920929e-7f); /* exp2(-23) */
    const __m128 c0 = _mm_set1_ps (0.3371894346f);
    const __m128 c1 = _mm_set1_ps (0.657636276f);
    const __m128 c2 = _mm_set1_ps (1.00172476f);

    t = _mm_cvtps_epi32 (_mm_mul_ps (a,x));
    j = _mm_and_si128 (t,m);            /* j = (int)(floor (x/log(2))) << 23 */
    t = _mm_sub_epi32 (t,j);
    f = _mm_mul_ps (ttm23,_mm_cvtepi32_ps (t)); /* f = (x/log(2)) - floor (x/log(2)) */
    p = c0;                              /* c0 */
    p = _mm_mul_ps (p,c2);              /* p = (c0 * f + c1) * f + c2 ~= 2^f */
    r = _mm_castsi128_ps (_mm_add_epi32 (j,_mm_castps_si128 (p))); /* r = p * 2^i*/
    return r;
}

使用SSE最快地实现指数函数的更多相关文章

Html5 Canvas实现图片标记、缩放、移动和保存历史状态功能（附转换公式）

这篇文章主要介绍了Html5 Canvas实现图片标记、缩放、移动和保存历史状态功能（附转换公式）,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 为什么重复创建和删除SKShapeNode和SKNode导致内存泄漏？

使用Xcode附带的spritekit模板,我修改场景如下：该应用程序似乎继续使用更多内存,直到它挂起或崩溃.使用泄漏和分配工具,我发现了以下内容：泄漏：分配：从图像中可以看出,存在大量使用内存的Malloc调用.我不直接调用Malloc–似乎这些调用是由SpriteKit完成的.同样,存在许多内存泄漏,这似乎也是由于SKShapeNode,SKNode或其他SpriteKit对象造成的.我如何解决或解决此内存(泄漏)问题？
ios – 类中的extern NSString * const.

嗨,我有这个头文件：执行：当我在.pch文件中导入头文件时,我可以在任何地方访问常量.但我试着了解发生了什么.我从不为此对象分配init,因此它们不能是实例常量.所以常量必须是“类对象常量对吗？但我认为类对象不能包含数据.谁能解释一下？解决方法那些外部变量是app级全局变量.它们没有作用于类,它们不限于类的实例.Objective-C不支持实例或类级别全局变量.如果需要类级别常量,则需要定义类方法
Swift中的floor()函数

floor函数返回的是不大于param的最大整数，看例子：
Swift 3.0与C语言指针类型的桥接

关于Swift与C语言指针类型的对应表可参考Apple官方的《UsingSwiftwithCocoaandObjective-C》文档。首先是Swift与C桥接的头文件内容：上述函数原型声明中，为了简化指针类型的讨论，我们都将它们声明为_Nonnull属性。
从Swift字符串转换为const char *

我正在尝试将constchar*传递给从Swift中的Swift字符串转换而来的旧C库.这是我正在调用的C函数：如何将Swift字符串转换为此constchar类型？
cocoa – 什么是CGSUpdateManager,为什么抱怨？

当我升级到ElCapitan时,我开始看到同样的问题.我最终将它追溯到我的代码库中的某个深层,之前没有引起任何问题……我有一个流浪的电话：这之前一直是个问题…确保平衡这些调用…特别是在早期返回的函数中！
详细解析let和const命令

这篇文章主要介绍了详细解析let和const命令，let和const是es6中新增的命令，一般let用来声明变量而const则用来声明常量，更多相关内容感兴趣的小伙伴可以参考一下
php中static和const关键字用法分析

这篇文章主要介绍了php中static和const关键字用法,结合实例形式分析了static和const关键字的功能、使用方法与相关注意事项,需要的朋友可以参考下
详解IOS宏与常量的使用（define，const)

这篇文章主要介绍了详解IOS宏define与常量const的使用方法，适合IOS程序员参考，一起来学习下。

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一