[经验] 迎猴年干货!SSD坏块管理 (转)

白丁   2016-2-4 22:35 楼主
转自:http://mp.weixin.qq.com/s?__biz=MzAwMDM4NTUyNw==&mid=402653589&idx=1&sn=733296d86b91d5f1111ea26e8f2c8200&3rd=MzA3MDU4NTYzMw==&scene=6#rd

坏块来源
  • 出厂坏块 (Factory bad block):Flash从工厂出来,就或多或少的有一些坏块。一般来说,出厂坏块率为2%-10%,再坏的话,出厂的时候就被淘汰了。
  • 增长坏块 (Grown bad block):随着Flash的使用,一些初期好块也会变成坏块。变坏的原因,主要是擦写磨损导致的。

坏块识别
Flash厂商在Flash出厂时,会对出厂坏块做特殊标记。一般来说,刚出厂的Flash都被擦除,里面的数据是全0xFF。但是对坏块来说,Flash厂商会打上不同的标记。拿Toshiba某型号Flash来说,它是这样标记出厂坏块的:
640.png
它会在出厂坏块的第一个Page和最后一个Page的数据区第一个Byte和Spare区第一个Byte写上一个非0xFF的值。
用户在使用Flash的时候,首先应该按照Flash文档,扫描所有的Block,把坏块剔除出来,建立一张坏块表。还是拿上面Flash来说,Toshiba建议按照下面的流程来建立坏块表:
641.png
还有些Flash厂商,它会把坏块信息存储在Flash内部某个地方(掉电不丢失),用户在建立坏块表的时候,没有必要扫描所有的Block来识别坏块,只需读取Flash的那个特定区域。比如Micron,它的Flash内部有个叫OTP(One Time Programming)的东西,出厂坏块信息可以存在里面。
对增长坏块而言,它的出现会通过读写擦等操作反映出来。比如读到UECC (Uncorrectable Error Correction Code, 数据没有办法通过ECC纠错恢复),比如擦除失败,比如写失败,这都是一个坏块出现的反映。用户应该把这些坏块加入坏块表,不再使用。

坏块管理策略
一般有两种策略对付坏块,一是略过(Skip)策略,而是替换(Replace)策略。
  • 略过策略:用户根据建立的坏块表,在写Flash的时候,一旦遇到坏块,跨过它,写下一个Block。
642.png
SSD的存储空间是Flash阵列,一般有几个并行通道,每个通道上连接了若干个Flash。以上图为例,该SSD有四个通道,每个通道上挂了一个Flash(只有一个Die)。
SSD的固件 (Firmware) 向四个Die依次写入。假设Die1上有个Block B是坏块,若FW采取坏块略过策略,则写完Block A时,接下来便会跨过Block B写到Die 2 的Block C上面去。
替换策略:与略过策略不同,当某个Die上发现坏块,它会被该Die上的某个好块替换。用户在写数据的时候,不是跨过这个Die,而是写到替换块上面去。采用此策略,除正常用户使用的Block,还需额外保留一部分好的Block,用于替换用户空间的坏块。整个Die上Block就划分为两个区域:用户区域和预留区域:
643.png
还是以上面的情况为例:
644.png
  • 用户写入数据时,当碰到坏块B,它不会略过Die 1不写,而是写入到Block B 的替换者 Block B’上面去。
    采用替换策略,SSD固件内部需维护一张映射表:坏块到替换块的映射,比如上图的B->B’。

两种坏块管理策略,没有谁优谁劣,取决于SSD的软硬件架构。在此提这两种策略,只是给设计者一个 参考。但需要提到的是,替换机制策略有一个致命点,那就是如果某个Die坏了(所有Block不可用,或者可用的很少),那么,整个SSD就废了!因为在那个Die上,找不到好块来替换坏块,用户数据无处可写!

替换策略有短板效应,你也许会说,既然这样,那就采用略过策略吧。但是,对某些SSD控制器来说,它只支持替换策略,比如Sandforce 2000系列的Controller。还是那句话,哪种策略适合你SSD的软件硬件架构,就用哪种吧。


training

回复评论

暂无评论,赶紧抢沙发吧
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 京公网安备 11010802033920号
    写回复