龙空技术网

为什么我们需要开源的系统芯片?

CSDN 257

前言:

此时兄弟们对“pythonphy”大概比较重视,我们都想要剖析一些“pythonphy”的相关资讯。那么小编也在网摘上搜集了一些对于“pythonphy””的相关内容,希望各位老铁们能喜欢,兄弟们一起来学习一下吧!

作者 | bunnie

译者 | 弯月,责编 | 杨碧玉

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

以下为译文:

现代的小型电子产品往往基于某个高度集成的芯片构建,这种芯片称为“系统芯片”(System on aChip,缩写:SoC)。最早的家用计算机主板大约包含一百多个芯片,然而当80286 PC/AT兼容机成为主流后,在摩尔定律的推动下,主板上的芯片减少到了寥寥几个,而且这个行业永远不会走回头路。现在,典型的SoC可以集成一个CPU核心组件,以及数十个外围设备,包括模拟、RF和电源等功能。我们甚至还有“系统级封装”解决方案,可将SoC、RAM,有时甚至将FLASH芯片封装到一个塑封中。

现代SoC极其复杂。现代SoC完整的“用户手册”往往长达几千页,而bug列表也有几百页。我在“用户手册”上加了引号,因为即使是最开放、文档最齐全的SoC(例如NXP的i.MX系列),也必须签署严格的保密协议,才能阅读各种第三方知识产权功能模块对应的数千页文档,例如视频解码、图形加速以及安全等。除了需要保密协议的文档之外,通常还有数千页未发布的、针对那些不再使用的芯片区域的文档,例如原本设计中包含但最终未能成功的外围设备,内部调试工具以及预引导工具等。许多不再使用的功能,甚至连设计芯片的团队都不知道!

不再使用的芯片区域是一件大事,因为构建芯片可不像搭乐高积木那般简单,它更像是雕刻家刻在大理石快上的雕塑,因此添加电路的难度远远高于关闭电路。增加一条电路仅制作新的掩膜就大约需要花费100万美元,同时还会导致项目延迟70天(大约10万人时的额外工作)。而在正确计划的情况下,关闭一条电路非常简单,只需要修改代码,或者针对某个掩模层进行轻微改动,只需要花费大约1万美元以及几天的延迟(假设晶圆尚处于中期阶段,很容易进行这样的改动)。

因此,刚开始的时候,系统芯片的掩模组常常拥有很多额外的功能、备用逻辑和调试功能,然后逐步剔除(弃用)部分功能,直到最后系统芯片成型。正如米开朗基罗曾经说:“每一块大理石中都隐藏着一个雕像,而雕塑家的任务就是发现它。”而我们可以说:“每个系统芯片的掩模组中都隐藏着一个数据手册,而验证团队的任务就是发现它。”有时,最后的修补发生在启动时刻,利用一些在CPU执行任何指令之前就执行的代码来关闭错误的功能或者打补丁。这样做的结果就是,即使是文档最完善的系统芯片中,被标记为不再使用的晶体管数量也不可忽视,尽管理论上这些晶体管不会被用户看到。

从安全角度来看,系统芯片中的这种“暗物质”的存在令人担忧。不必担心ROM的启动或CPU微代码的问题,内建自测试(Built in Self Test,即BIST)基础设施具有执行代码注入所需的一切,你只需将它设置为正确的模式。此外,系统芯片集成商都会从寥寥几个IP供应商那里购买DDR、PCI和USB等功能块。这意味着,成千上万的设备都加载了相同的弃用逻辑单元,甚至不同品牌和竞争产品之间也一样。所以,系统芯片中存在无法修补,甚至可能破坏生态系统的危险!

为了规避这种风险,Precursor使用FPGA来实现系统芯片。FPGA允许使用者重新编程,从而极大地降低了设计错误带来的成本。我们不必再像大理石雕刻那样做减法,而是可以像乐高积木那样来搭建。当然,这种灵活性需要付出一定的代价:FPGA的价格比同等功能的系统芯片高50倍,而绝对频率则慢5-10倍。但是,这样能保证Precursor中没有暗物质,因为描述系统芯片的每一行代码都可以查看。这也意味着,如果Precursor的系统芯片中发现逻辑错误,则可以通过更新对其进行修补。这大大降低了迭代系统芯片的成本,从经济的角度来看它也可以向开源靠拢。理想情况下,Precursor的系统芯片设计将在未来几年内成熟并接受彻底的审查,以低风险的方式朝着打造固定芯片的方向发展,从而降低生产成本并提高性能,同时保持高标准的透明度。

LiteX:Precursor系统芯片背后的框架

Precursor的系统芯片使用LiteX构建。LiteX是由Florent Kermarrec创建的框架,使用Migen/MiSoC FHDL定义系统芯片,该框架本身是用Python 3.6+编写的。LiteX的核心是一组“处理程序”,它们能够自动根据总线标准和宽度进行适配。这样,设计人员可以很容易地在Wishbone、AXI和CSR等总线互联标准下混合使用不同的控制器和外设。只需几行代码就可以将一个额外的USB调试控制器连接到一个复杂的系统芯片中,而且整个总线仲裁和适配器的架构能够自行做出响应。

Precursor系统芯片简介

上图是于2020年10月发表的Precursor芯片系统的示意图。请随时关注图中的日期,因为基于FPGA的系统芯片会不断发生变化。一般,我们都不用太在意这般漂亮的手绘示意图,因为通常这些图片在完成的那一天就已经过时了。而我们的CI系统会在每次代码推送时,动态生成“程序员手册”。对于Rust程序员,我们的svd2utra工具可将LiteX生成的SVD文件自动转换为Rust API的crate。使用基于FPGA的开源系统芯片,自动化CI不仅是最佳实践,而且是至关重要的部分,因为有时子模块依赖项中一个很小但很重要的补丁会不断影响你的设计。

核心区域

“核心区域”(Core Complex)目前由一个RISC-V核心构成,它由Charles Papon的VexRiscV实现。我们将其配置为支持“RV32IMAC”指令子集,给它添加了一个MMU,还强化了缓存。VexRiscV将缓存大小限制为4kB,但可以通过增大缓存关联来提高有效容量。通过给核心添加一个双向I-cache和一个四向D-cache,我们将性能提升了大约10%。我们还准备了一个32kB的启动ROM,目前包含三条指令,但以后可以扩展,可以对从外部内存加载的代码进行签名检查。还有一个128kB的板载SRAM,用于紧密耦合或高安全性的操作。CPU核心被适配到一个由LiteX实现的Wishbone总线多用控制器上,以后可以进一步利用独立的CSR桥适配到CSR总线上,只需要将CSR桥配置为自动在4kB页面边界上进行空间并行,从而与MMU单独建立映射。还有一个IRQ控制器负责管理来自芯片周围外设的中断。

核心区域还包含一组负责执行下面功能的CSR,大部分为样板代码:

“Reboot”可以为重置向量指定一个新位置

“Ctrl”可以发送软重置

“Timer 0”是LiteX提供的默认定时器。这是一个高解析度的32位定时器,时钟频率与CPU核心频率相同。

“CRG”是负责控制FPGA时钟生成器的接口。目前我们还没有考虑太多,但最终它将在电源管理和延长电池寿命方面发挥重要作用。

“Git Info”是一个静态寄存器,提供用于构建Precursor芯片的git代码库的信息。

“BtSeed”是一个64位数,经过随机初始化后可以为布局布线过程提供一个熵。如果最终用户要求为其设备设计独有的FPGA网表,那么通过BtSeed,无需改动代码就可以实现(否则所有构建都是完全相同的)。

“Litex ID”是一个可供人阅读的文本字符串,用于标识系统芯片设计。

“TickTimer”是一个低分辨率的64位定时器,时钟增量为1毫秒。它作为Xous OS的时钟源使用。

调试块

核心区域旁边是一个调试块。调试块拥有一个全速的USB MAC/PHY,负责为Wishbone包打开隧道,从CPU的角度来看,它是另一个Wishbone控制器。我们使用给它来驱动CPU上的调试接口。这样即使CPU停机,也可以通过USB用GDB连接到Precursor上。甚至可以构建一个不带RISC-V CPU的Precursor,然后通过USB来为Wishbone包打开隧道,进行调试和驱动开发。调试块还包含一个名为“Messible”的小型CSR外设,这是一个包含64个元素的8位宽FIFO,可以在调试时作为邮箱或草稿使用。

内存映射和CSR I/O

RISC-VCPU的内存空间通过Wishbone总线映射到多种外设和内存块上。在传统的系统芯片设计师看来,Wishbone有点像AXI,只不过是开源的。Wishbone支持许多很棒的特性,如多master、流水线和块传输等。Wishbone总线空间的一部分还映射到了一个名为“配置和状态寄存器”(Configurationand Status Register,CSR)的总线上。

虽然Wishbone是高性能总线,但它需要更多的接口逻辑,而且只在外设带宽匹配总线带宽时才能发挥最佳性能。CSR有区域效应,从硬件和软件API两方面都可以适应任意寄存器位宽,但性能较低。因此,CSR最适合用作低速到中速的输入输出任务(例如命名配置和状态寄存器),这些任务中Wishbone非常适合映射到内存上的I/O,这样可以提高带宽并改善延迟,足以补偿区域效应带来的额外开销。

在设计过程中,绝大多数外设的第一步都是映射到CSR空间,然后升级成内存映射实现,从而达到性能要求。因此,Precursor上的绝大部分外设都是仅支持CSR的设备,这并非偶然。下面是每个CSR外设的简单介绍。需要提醒一点,你可以查看我们的参考手册以获取更详细的信息。

“COM SPI”是连接到嵌入控制器(EmbeddedController,EC)系统芯片上 的SPI总线。这是一个20MHz的SPI外设,传输带宽为固定的16位。该块的目标为升级成内存映射I/O块。

“I2C”是一个I2C总线控制器。目前,只有实时时钟(RTC)芯片和一个音频编码解码芯片连接到了这个I2C总线上。

“BtEvents”是一个负责各种外部实时终端的catch-all类型的块。目前它负责处理来自EC和RTC芯片的中断。

“KeyScan”是键盘控制器。它负责扫描9x10的键盘矩阵来发现击键,使用一个慢速的32kHz外部时钟源。将键盘扫描器与系统核心时钟解耦合,系统就可以在等待键盘输入时进入更低功耗状态,从而将Precursor在两次充电之间的使用时间延长数天。

“BtPower”是一组GPIO,专用于电源管理。它可以将音频和离散的TRNG打开或关闭,覆盖EC的电源控制指令,为USB type C端口激活boost模式(以支持DFP“宿主”操作),还可以采用自毁机制。

“JTAG”是一组GPIO,连接到FPGA的JTAG引脚。这些与我们的eFuseAPI驱动结合使用,可以在7 Series FPGA上自行提供AES比特流加密。

“XADC”是7 SeriesXADC块的接口。它是一个12位的多通道ADC。主要用于自我监测系统电压。在最终的产品版本中,至少有一个通道的ADC可以用于GPIO内部头的配置项,这样用户可以很容易地将模拟传感器集成到Precursor中。

“UART”是一个简单的115200、8合一串口,连接到控制台I/O的调试头。

“BtGpio”是一个数字I/O块,用于在GPIO内部头上驱动引脚。注意由于FPGA的实现限制,在不更新比特流的情况下无法在数字GPIO和模拟GPIO功能之间切换。

除了CSR的I/O之外,还有一些I/O设备也映射到了内存,以实现高性能:

“External SRAM”是一个32位宽的一部接口,映射了16MB的外部SRAM。这些SRAM由电池供电,所以在系统芯片断电时也可以保持状态。这样做的目的是通过减少睡眠和唤醒的额外开销来优化电力消耗。但是,这也意味着自毁过程必须先清除SRAM中的敏感数据,才能启动清除系统芯片的过程,因为自毁电路也是由SRAM的备用电源负责供电的。外部SRAM块还有一个CSR接口,负责从SRAM中读取配置模式。

“Audio”是一个连接到外部音频编码解码的I2S接口。它包含一个用于配置I2S接口的CSR块,还包含一对256x16的、映射到内存的采样FIFO。

“SPI OPI”是一个类似于SPI的高速接口,连接到外部闪存存储,并映射了12个8MB的非易失性存储器上。OPI中的“O”代表八位,这是一个8位总线,频率为DDR的100MHz。它还包含一个与读取器,可以存储相当于数个缓存线的代码,可以优化顺序代码执行的情况。该总线的高性能非常重要,因为它主要被CPU用来运行代码。它还包含一个CSR接口,用于控制诸如块擦除、页面编程等操作。

“MemLCD”是LCD的帧缓冲。Sharp Memory LCD包含自己的内部内存,因此即使宿主断电,也能够维持图像。因此,MemLCD帧缓冲就是LCD自身的缓冲。它负责管理LCD中的哪些线需要重画,在CSR上有请求发生时,它只会刷新那些需要重画的线。这样可以提高LCD的感知刷新率。如果重画整个屏幕,那么刷新率只有10Hz;但屏幕上的静态内容越多,刷新率也就越高。

加密区域

前面描述的所有功能仅占用了FPGA大约20%的逻辑,而Precursor的FPGA的主要逻辑位于加密区域。

上图展示了在Precursor系统芯片设计中各个功能的相对尺寸。一些块(如半冗余SHA-512和SHA-2加速器)的存在,仅仅是因为FPGA中能够容纳这些功能,而不是因为有需求。幸运的是,删除SHA-2块很简单,只需要注释掉4行代码,能节约大约2800个SLICE LUT,相当于大约9%的设备资源。LiteX和svd2rust脚本会负责其余的一切!

下面是加密区域中各个块的简要说明:

“Engine25519”是算术加速器,用于加速2^255-19质数域中的操作。它是一个微指令的256位算术引擎,计算带有正规化的256位乘法仅需要大约1微秒,比在RISC-V CPU上运行同等操作大约快30倍。它需要消耗大量的资源,但依然非常重要,因为Betrusted安全通信应用程序建立在Double-Ratchet算法上,该算法非常依赖这种运算。要理解Engine25519,最好从CI文档开始阅读。该块非常大,稍后我们会单独写一篇文章来解释它的功能。

“SHA-512”和“SHA-2”是硬件加速的SHA散列块。它们来自Google的OpenTitanSystemVerilog源代码。SHA-2块直接来自OpenTitan,几乎包括了OpenTitan的所有代码,因为它非常容易集成。SHA-512块是我们自己对SHA-2块的改进。由于历史原因,目前的Precursor中同时包含了两个快,尽管绝大部分应用程序仅需要其中一种。

“AES”是一个AES加速器,也直接来自Google的OpenTitan项目。它可以支持AES 128、192和256,还支持ECB、CBC和CTR模式下的加密和解密。

“KeyROM”是一个256x32的ROM,使用FPGA中的固定位置LUT实现。由于ROM的位置是固定的,我们可以使用PrjXray来确定FPGA比特流中KeyROM比特的位置。这样就可以在FPGA比特流中直接编辑KeyROM,从而将信任从低层的eFuse AES key传递到Precursor系统芯片中的高层功能中。我们会在其他文章中进一步讨论一些最近发现的FGPA eFuse AES key的重要脆弱性。

“TRNG”是芯片内的、基于环形振荡器的真随机数生成器。它使用多个小环来收集足够多的熵,然后合并成一个大环,用于最终的测量。Precursor TRNG的构建和验证也会另文介绍。

“ICAPE2”是在FPGA构造(fabric)中对未使用的内部调试端口的显式绑定(tie-down)。ICAPE2是Xilinx采用的方法,FPGA可以通过它进行内省,并访问内部配置状态。我们显式地将其绑定,这样其他功能就无法使用它。此外,由于ICAP2位于比特流中众所周知的位置,实际上可以写一个工具,在编译后对比特流进行检查,以验证ICAP2块确实被禁用了。

分块的思路

原文:

本文为 CSDN 翻译,转载请注明来源出处。

点分享

标签: #pythonphy