酷应用

C++ 性能优化之性能刺客

百家作者：程序员的那些事 2020-11-08 20:43:56

（给程序员的那些事加星标）

互斥锁的竞争，字符串的低效拷贝，算法的高复杂度等问题，通常我们都知晓它们的存在，关键点只在于我们要不要去花时间优化它们。但今天要说的主角，可不是那么容易被发现，人们常常形容它是性能刺客，它就是“伪共享”。

在讲伪共享之前，先带大家再复习一遍计算机缓存Cache和Cache Line。

Cache和Cache Line

我们都知道，在计算机存储体系中，离CPU越近的的存储器，存储性能越高，价格越贵，所以容量就越小。离CPU最近的是寄存器，然后是高速缓存，再是内存，再是磁盘。

Cache，中译名高速缓冲存储器，其作用是为了更好的利用局部性原理，减少CPU访问主存的次数。其实就是CPU会把经常要访问的数据和它附近的数据拷贝到Cache中，如果CPU下次取这些数据的时候就可以直接读Cache里的数据，而不是内存中的数据，这样访问的速度就快了很多。

Cache Line可以简单的理解为Cache中的最小缓存单位。内存和高速缓存之间或者高速缓存与高速缓存之间的数据移动最小单位就是Cache Line。目前主流CPU Cache的Cache Line大小都是 64Bytes。

查看 cache line 大小：

cat/sys/devices/system/cpu/cpu1/cache/index0/coherency_line_size

CacheMiss：当运算器需要从存储器中提取数据时，它首先在最高级的cache中寻找然后在次高级的cache中寻找。如果在cache中找到，则称为命中hit；反之，则称为不命中miss。所以在代码中，遇到两重循环的情况，一般是把遍历元素多的循环放里面，防止cache 频繁更新，导致大量cache miss。

伪共享

? ? ? ?

接下来，进入正题，假设一个场景，有4个独立线程，分别访问一个int数组，数组有4个元素，第一个线程对第一个元素做++操作，第二个线程对第二元素做++操作，第三个第四个以此类推。这样操作不存在多线程问题，各自线程操作各自的变量，也不需要加锁了，看起来不会有什么性能问题了，代码如下：

void func(int* Num){   for(int i = 0; i < 100000; i++)       (*Num)++;}int main(){   int    ArrayTest[4];   uint64_t start,end;   thread t1,t2,t3,t4;   start = GetTimeStamp();   t1 = thread(func,& ArrayTest[0]);   t2 = thread(func,& ArrayTest[1]);   t3 = thread(func,& ArrayTest[2]);   t4 = thread(func,& ArrayTest[3]);   t1.join();   t2.join();   t3.join();   t4.join();   end = GetTimeStamp();   printf("Use no align time %lu us\n",end-start);}

结合我们前面讲到的，cache line是内存到高速缓存的最小移动单位。不同线程的数据应该尽量放到不同的Cache Line，避免多线程修改同一行Cache，导致Cache需要在多核之间进行同步，降低性能。

以上程序的打印结果是：

Use no align time 1931 us

接下来，我们按照“不同线程的数据应该尽量放到不同的Cache Line”这个理论，改一下代码：

#define CACHE_LINE_SIZE 64struct STest{   alignas(CACHE_LINE_SIZE) int a;};void func(STest* test){   for(int i = 0; i < 100000; i++)      test->a++;}int main(){   uint64_t start,end;   thread t1,t2,t3,t4;       STestArrayTest[4];   t1 = thread(func,& ArrayTest[0]);   t2 = thread(func,& ArrayTest[1]);   t3 = thread(func,& ArrayTest[2]);   t4 = thread(func,& ArrayTest[3]);   t1.join();   t2.join();   t3.join();   t4.join();   end = GetTimeStamp();   printf("Use align time %lu us\n",end-start);}