怎样才能带好一条流水线开局一条鲲妄鸦-趣分享

怎样才能带好一条流水线？

先说说硬件的流水线首先要明确一个概念，GPU的流水线不是串行的，打个比方，下面一段OpenGL代码，

CPU执行1的时候，并不会要求1所表示的指令塞入到GPU，让GPU执行完后CPU才开始执行2。硬件的设计上，CPU和GPU是通过一个所谓的push buffer连接的，push buffer可以看成一个fifo的queue，CPU把指令塞入push buffer，GPU从push buffer中读取。回到上面那段代码，CPU执行代码1的时候，就是把它塞入到push buffer就返回了，它并不管GPU是不是执行完成，接着执行代码2，以此类推。然后在GPU内部也有好几个模块，简化下大致有FE，frontend是GPU的前段，负责从push buffer中读数据，之后是PD，就是assember，随后是vertex shader之类之类的。GPU硬件是时钟驱动的(clock domain)。举例说，第一时钟周期，当FE读取一个命令，并把命令传达给流水线上的下一个模块PD，在第二个时钟周期，PD才能把这个命令消化执行。以此类推，所以每个时刻基本上硬件流水线上的每个模块都是在工作着，虽然工作在不同的数据上。这就回答了题主的问题一，流水线不会空。如果要实现一个软件流水线，严格意义上讲也要基于时钟周期，每一个模块之间要用FIFO相连，每一个模块可以是一个独立的线程。这样可以保证最大的并行。最后说一下，图元不是1个1个往下走的，一个个往下走会有一个很大的问题，就是所有的cache命中率，这个是另外一个大题目，以后再说。图元是一批批往下送的。拿下面一块代码来说GPU的FE是一次把1200个三角形往流水线上塞得，PD会做一些优化，把1200个三角形分成几个批次，提到cache命中率，之后流水线上的大多数模块都是在一个时钟周期内处理多个三角形，而不是一个。华丽丽的分割线=============================FAQ：1、意思就是说硬件图形管线是完全基于硬件并行于主程序的？实现软件渲染器也应该模拟这种并行性才能发挥流水线最大效率？我之前看了一些软件渲染器的实现，似乎都没有这一茬，好像流水线都是CPU串行的，所以会产生这样的疑问。取决于你的软件模拟器是想实现功能，还是想模拟硬件，如果是一个模拟器着重于功能，可以抛弃这种clock domain的硬件设计和push buffer等fifo；如果一个模拟器需要通过软件模拟硬件，就需要这么去做，这也是GPU硬件公司里面设计硬件的内容，就先拿软件，一般是C++，写一个模拟器，模拟出新功能，然后衡量性能的提升。2、按照你的说法，如果流水线渲染完一批数据要16ms，要保证流水线永远不空，主程序的写入数据周期是不是要小于16ms？这样的话，如果流水线的执行速度远大于主程序写入速度，岂不是依然要拖慢渲染效率？而且主程序和渲染结果将会不同步？所以说图形程序有CPU bound和GPU bound的说法。如果CPU的写入速度慢，GPU在空等，那么就是CPU bound，反之就是GPU bound。程序优化的目标就是大家都满载，不要空等。这个应用程序优化的范畴。3. GLBufferData怎么执行的呢，是内部拷贝一份，放入队列；还是等队列那边从内存取完数据再返回glBufferData是一个blocking call，CPU会等待GPU完全把数据从CPU搬到GPU后才返回执行下一条命令。具体的工作机制，请参看俺的SIGGRAPH Asia 2015 course，Modern OpenGL Programming。http://lihw.github.io/pub/opengl.pdf