谷歌AI造芯新突破!6小时设计AI芯片,质量超最先进算法
在实践中,上述智能体从空芯片开始依次布局组件,直到完成网表为止,直到智能体波长(与功率和性能相关)的负加权总和和拥塞为负值时才收到奖励。为了指导智能体选择首先布局哪些组件,按大小递减的顺序对组件进行排序,首先布局较大的组件,可减少以后没有可行布局的机会。 训练该监督模型需创建一个包含10000个芯片布局的数据集,其中输入是与给定布局相关的状态,而标签是布局的奖励(即线长和拥塞)。研究人员通过首先选择五个不同的芯片网表来构建这个数据集,并用AI算法为每个网表创建2000个不同的布局位置。 在实验中,合著者报告说,当他们在更多芯片上训练框架时,他们能够加快训练过程并更快地产生高质量的结果。 三、6小时生成芯片布局,支持迁移学习在实验评估阶段,研究人员着重评估几个问题:新方法是否使领域转移和从经验中学习成为可能?训练前的策略对结果的质量有什么影响?与最先进的基线相比,生成布局的质量如何? 1、预训练策略优于从零训练策略 下图对比了使用预训练策略和从零开始训练策略所产生的设计质量,包括zero-shot以及在2小时和12小时内对预训练策略网络的具体设计细节进行调整的结果。 ▲领域适应结果 从图中可以看出,预训练策略网络始终优于从零开始训练的策略网络,证明了从离线训练数据中学习的有效性。 策略网络从零训练需要更长时间收敛,甚至24小时后的收敛效果还不如收敛12小时的微调策略网络,说明权重和专家设计经验有助于在更短时间内实现更高质量的新设计。 上图显示了从零开始训练与从Ariane RISC-V CPU预训练策略网络训练的收敛图。预训练策略网络在微调过程开始时布局代价较低,且能收敛到更低代价,比从零开始训练的策略网络快30多小时。 2、更大数据集能产生更好布局效果 训练数据集从内部TPU块创建,由各种块组成,包括内存子系统、计算单元和控制逻辑。当将训练集从2个块增加到5个块,最后增加到20个块时,zero-shot策略网络和微调策略网络在相同的时间内均能产生更好的结果。 ▲布局代价与微调时间及数据集大小的关系 研究人员在三个不同的训练数据集上对策略网络进行预训练,其中小数据集是中等数据集的子集,中等数据集是大数据集的子集,然后在相同的测试块上对预训练策略网络进行调整,并在不同的训练期间报告代价。 随着数据集大小的增加,生成的布局质量和测试块的收敛时间都有所提高。下图显示了在每个数据集上训练的策略的评估曲线,对于小的训练数据集,策略网络在测试数据集上快速地超拟合训练数据和性能;对于最大的数据集,策略网络需要更长的时间来拟合,且在这个更大的数据集上,预训练的策略网络在测试数据上能更快产生更好的结果。 ▲不同大小数据集的收敛情况(每个点显示了训练策略生成的布局代价) 这表明,如果将策略网络提供更多不同的芯片块时,可能需要更长的时间来进行预训练,策略网络变得不易过度拟合,并且更擅长为新的未知块找到优化的布局位置。 3、可视化芯片布局对比 下图显示了开源处理器Ariane RISC-V CPU的布局结果。 左边是zero-shot策略网络的结果,右边是微调策略网络的结果。 ▲可视化布局 zero-shot的结果是在推理期间于一个以前未见过的芯片上产生的。zero-shot策略网络将标准单元置于画布的中心,周围环绕着宏,已经非常接近于最佳布局。微调后,宏的位置变得更有规律,中心的标准细胞区域变得更不受干扰。 ▲随着训练进行,开源处理器Ariane的布局(左边是从头开始训练策略,右边是针对该芯片的预训练策略,每个矩形代表一个单独的宏位置。) 下图左边是人工布局的结果,右边是谷歌新方法的布局结果。白色区域为宏位置,绿色区域为标准单元位置,新方法在标准单元周围创建环状的宏布局,从而减少总线长。 4、不到6小时完成芯片布局设计 在本节中,研究人员将其新方法与模拟退火(Simulated Annealing)、RePlAce和人工布局方法进行比较。 谷歌的新方法,在最大的数据集(20个TPU块)上使用预训练策略,然后在块1到5表示的5个目标不可见块上对其进行微调。相比模拟退火算法需要18个小时来收敛,而谷歌端到端的学习方法耗时不超过6个小时。 研究人员进行多次模拟退火实验,结果显示,模拟退火算法很难产生高质量的芯片布局,较谷歌新方法平均线长增加14.4%,拥塞率增加24.1%。 (编辑:555手机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |