PS:要转载请注明出处,本人版权所有。
PS: 这个只是基于《我自己》的理解,
如果和你的原则及想法相冲突,请谅解,勿喷。
环境说明
无
前言
在linux下面,常见的linux fs就是ext系列,linux里面的vfs也和这个ext fs息息相关。本文主要详解一下ext4 fs的实现原理,并且,从文件操作的角度来看,ext4 fs是怎么实现这一系列工作的。
一些基本知识
常见的硬盘有两种类别:
-
传统硬盘(HDD,Hard Disk Drive)
-
固态硬盘(SSD,Solid State Drive)
其实稍微对硬盘有一点了解的人都知道,这两者硬盘的结构和原理是完全不一样的(具体可看很多网上的相关资料)。
对于HDD来说,其是有磁头、盘片、马达等构成,盘片概念中又可以得到扇区、柱面的概念。根据这些物理的技术事实,引出了CHS(柱面数(Cylinders)、磁头数(Headers)、扇区数(Sectors))寻址方式。后面经过发展,又有了LBA(Logic Block Address)寻址方式(具体可看很多网上的相关资料))。
格式化
这里的格式化有两种:
-
低级格式化
-
高级格式化
对于低级格式化来说,一般是硬盘厂家格式化好的,对磁盘的一些基本参数进行设置。
对于高级格式化来说,这就是我们用户普遍开始接触使用硬盘的第一步,我们后续解释ext的文件系统,也是基本是高级格式化来完成的。
扇区介绍
对于上层用户来说, 描述一个磁盘的相关属性使用扇区来描述,一个扇区一般是512字节,磁盘总容量是扇区数*512字节。
什么是文件系统?
文件系统是指通过什么样的结构来组织数据的存储方式。具体来说,就是怎么对某一个文件进行定位和操作。一个基本的fs例子可以参考以前我写的关于FAT文件系统的组织方式(《FAT32 文件系统详解》 https://blog.csdn.net/u011728480/article/details/58049184)。
EXT4文件系统的组织方式
ext4 fs的简介与宏观结构
ext4 fs的基本存储单位是block,一个block可能由多个扇区组成,对于ext4来说,其有以下的一些基本属性:
-
一个block的大小可能是:1k-64k,并且其扇区的个数必须是2的指数,其大小是由mkfs来确定的。
-
多个block可以组成一个更大的单位,叫做block group。
-
一般情况下,一个文件系统可以最多有232个block。如果ext4文件系统启用了64位的特性,那么其最多可以有264个block。
从上面可以知道ext4 fs可以描述的磁盘容量大小和我们创建文件系统时的参数有关,有兴趣可以去看参考小节的文档。
ext4 fs的宏观结构如下:
block group 0 | block group 1 | … … | block group n-1 | block group n |
---|
对于block group 0 来说:
Group 0 Padding | ext4 Super Block | Group Descriptors | Reserved GDT Blocks | Data Block Bitmap | inode Bitmap | inode Table | Data Blocks |
---|---|---|---|---|---|---|---|
1024 bytes | 1 block | many blocks | many blocks | 1 block | 1 block | many blocks | many more blocks |
对于block group n(n != 0) 来说:
ext4 Super Block(可选) | Group Descriptors(可选) | Reserved GDT Blocks(可选) | Data Block Bitmap | inode Bitmap | inode Table | Data Blocks |
---|---|---|---|---|---|---|
1 block | many blocks | many blocks | 1 block | 1 block | many blocks | many more blocks |
从上面的三个表格可以知道,ext4fs是由多个block group构成,其中block group0有一个1k的填充部分,这部分主要是兼容以前老旧的引导分区使用。其他block group并没有这1k的填充部分。
下面我们分别详解block group中的具体每个部分是什么内容,以block_size是4k为例。
ext4 Super Block
我们先来看看fs/ext4/ext4.h里面定义的内容:
/*
* Structure of the super block
*/
struct ext4_super_block {
__le32 s_inodes_count; /* Inodes count */
__le32 s_blocks_count_lo; /* Blocks count */
... ...
__le32 s_log_block_size; /* Block size */
... ...
__le32 s_blocks_per_group; /* # Blocks per group */
... ...
}
从这个定义可以看出,ext4_super_block 包含了很多ext4 fs的meta信息,例如:inode个数,blocks个数,block大小,每个组里面的block大小。我们可以使用dumpfs命令来查看superblock的信息,如下:
注意看,对于block group n(n != 0)来说,ext4 Super Block、Group Descriptors等重要的结构是可选的,这里就涉及到ext的另外一个概念,通过备份这些重要的数据结构在不同的block group中,当block group 0数据损坏时,可以从其他分区尝试恢复。
Group Descriptors
组描述符是一个数据结构,其数据是第二个block开始,其定义如下:
/*
* Structure of a blocks group descriptor
*/
struct ext4_group_desc
{
__le32 bg_block_bitmap_lo; /* Blocks bitmap block */
__le32 bg_inode_bitmap_lo; /* Inodes bitmap block */
__le32 bg_inode_table_lo; /* Inodes table block */
__le16 bg_free_blocks_count_lo;/* Free blocks count */
__le16 bg_free_inodes_count_lo;/* Free inodes count */
__le16 bg_used_dirs_count_lo; /* Directories count */
__le16 bg_flags; /* EXT4_BG_flags (INODE_UNINIT, etc) */
__le32 bg_exclude_bitmap_lo; /* Exclude bitmap for snapshots */
__le16 bg_block_bitmap_csum_lo;/* crc32c(s_uuid+grp_num+bbitmap) LE */
__le16 bg_inode_bitmap_csum_lo;/* crc32c(s_uuid+grp_num+ibitmap) LE */
__le16 bg_itable_unused_lo; /* Unused inodes count */
__le16 bg_checksum; /* crc16(sb_uuid+group+desc) */
__le32 bg_block_bitmap_hi; /* Blocks bitmap block MSB */
__le32 bg_inode_bitmap_hi; /* Inodes bitmap block MSB */
__le32 bg_inode_table_hi; /* Inodes table block MSB */
__le16 bg_free_blocks_count_hi;/* Free blocks count MSB */
__le16 bg_free_inodes_count_hi;/* Free inodes count MSB */
__le16 bg_used_dirs_count_hi; /* Directories count MSB */
__le16 bg_itable_unused_hi; /* Unused inodes count MSB */
__le32 bg_exclude_bitmap_hi; /* Exclude bitmap block MSB */
__le16 bg_block_bitmap_csum_hi;/* crc32c(s_uuid+grp_num+bbitmap) BE */
__le16 bg_inode_bitmap_csum_hi;/* crc32c(s_uuid+grp_num+ibitmap) BE */
__u32 bg_reserved;
};
其实从这里可以看到,根据组描述符,我们可以知道后面三个重要的区块(Data Block Bitmap/inode Bitmap/inode Table)的block号,也就定位到这3个重要的区块了。
但是这里有一个问题是需要我们处理的,就是组描述符是一个数组,它描述了多个block group,那么我们怎么知道有多少个组描述呢?那就是直接用superblock里面的s_blocks_count_lo/s_blocks_per_group就得到了有多个group descriptor。
同理,我们可以使用dumpfs命令来查看group descriptor 0的信息(block group 0),如下:
注意,上面的Reserved GDT Blocks是用做以后扩充group descriptor使用的(也就是扩充extfs容量)。
Data Block Bitmap
data block bitmap主要就是使用bitmap描述data block的使用情况。其起始位置是group descriptor中的bg_block_bitmap_lo来确定的。
以block_size是4k为例,那么我们能够通过bitmap来描述的block个数为:4 * 1024 * 8 = 32768,通过上面的知识可以看到,恰好对应一个block group的大小。
inode Bitmap
inode bitmap和data block bitmap类似,用于描述inode的使用情况。其起始位置是group descriptor中的bg_inode_bitmap_lo来确定的。后面我们会关联到这个地方的知识点。
以block_size是4k为例,同上,我们最多只能有32768个inode。
这里提到的inode概念可以先不管,你可以把一个inode当做一个文件的抽象概念来处理。inode这个概念在linux vfs和ext4 fs都会使用到,而且是相互关联的。
inode Table
inode Table 是由一个个ext4_inode组成的数组。ext4_inode定义如下:
/*
* Structure of an inode on the disk
*/
struct ext4_inode {
__le16 i_mode; /* File mode */
__le16 i_uid; /* Low 16 bits of Owner Uid */
... ...
__le32 i_blocks_lo; /* Blocks count */
... ...
__le32 i_block[EXT4_N_BLOCKS];/* Pointers to blocks */
... ...
}
从上面可以简单知道,这里有一个文件的属性、大小、数据block的指针等等。ext4_inode可以描述一个文件的基本信息,这个结构将会在本系列文章中的vfs里面介绍。linux提供了stat命令来获取这个结构的信息,例如下图:
从图中可知,我们可以知道inode的序号、inode包含的blocks的个数,以及文件其他属性等等。
此外根据其数据结构可以知道,ext4_inode的文件大小上限由EXT4_N_BLOCKS=15个block决定,从理论上来说,如果大于这个尺寸的ext采取的是通过类似间接寻址的方式。对于ext4 fs来说,对这个间接寻址做了详细介绍,下面我们对这种间接寻址做一点简单说明(以block_size=4k为例):
-
ext4_inode.i_block数组中的0~11数据块,直接填写到这个数组。到这里,我们支持的最大文件大小为12 * block_size。
-
当文件大小大于12 * block_size时,那么启用一级映射,ext4_inode.i_block数组的第12个指向的数据块是一个索引数据块,其包含了真实文件数据的block的索引。对于block_size=4k来说,那么可以间接映射block_size/sizeof(__le32)=1024个block。到这里,我们支持的最大文件大小为(12 + block_size/4) * block_size。
-
当文件大小大于(12 + block_size/4) * block_size,启用二级映射,ext4_inode.i_block数组的第13个指向的数据块是一级映射数据块,后面规则和一级映射一致。到这里,我们支持的最大文件大小为(12 + block_size/4 + (block_size/4)^2 ) * block_size。
-
当文件大小大于(12 + block_size/4 + (block_size/4)^2 ) * block_size,启用三级映射,ext4_inode.i_block数组的第14个指向的数据块是二级映射数据块,后面规则和二级映射一致。到这里,我们支持的最大文件大小为(12 + block_size/4 + (block_size/4)^2 + (block_size/4)^3) * block_size。
其实从上面来看,如果我们存储和访问一个大文件,由于机制的原因,效率是非常底下的,因此ext4 fs里面有一个flex_bg特性,可以用更高效的extent tree数据结构来描述大文件。本文不对这个做介绍。
此外,ext4 fs预留了一些特殊inode的编号,他们如下图表格:
inode Number | Purpose |
---|---|
0 | Doesn’t exist; there is no inode 0. |
1 | List of defective blocks. |
2 | Root directory. |
3 | User quota. |
4 | Group quota. |
5 | Boot loader. |
6 | Undelete directory. |
7 | Reserved group descriptors inode. (“resize inode”) |
8 | Journal inode. |
这里面对我们来说,最有用的就是inode=2的inode节点,它是代表这个文件系统的根目录。这个根目录在vfs挂载文件系统的时候,有重要作用。
对于多个block group来说,其每个inode Table大小是一定的,这个在super block里面就定义了,例如上文图中“Inodes per group:8192”代表每个block group有8192个inode。当我们mkfs.ext4时,inode的数量是固定了,我们可以修改这个参数来适应一些特殊情况,例如:inode满了,但是磁盘空间没有占满,这个是属于优化项了,这里不做讨论。如下图,df -i可以查看fs的inode使用信息,df -h是fs的磁盘容量信息:
从图中的根目录分区来看,他们的inode占用和容量占用完全不一致,如图来说,可能是容量用完了,但是inode没有用完,可是有另外一种情况,那就是容量没有用完,inode用完了,一般出现在存放很多小文件的ext4fs。
这里还有一个重要的信息,我们知道有多个block group,且每个block group一定有Data Block Bitmap、inode Bitmap、inode Table。其中有一个很重要的概念就是每个block group的inode Table里面的inode序号是连续的。
Data Blocks
data blocks就是文件的真实数据块,由ext4_inode来指定。
目录
就上面我们描述的内容来看,我们可以通过一个inode来描述一个文件了,但是还有一类我们常见的类型:目录,却没有提到。
其实对于文件系统来说,目录也是文件,也是通过inode来描述的,在上文,其实我们提到了inode=2的indoe节点,它就是根目录项,也是解析ext4fs的起点。
传统来说,对于目录的inode,其指向的block是基于目录项的数组(新的ext4 fs还有hash目录,其在ext3 引入,可以提升目录操作性能, 本文不做介绍),一个对于目录项来说,有两个结构:
struct ext4_dir_entry {
__le32 inode; /* Inode number */
__le16 rec_len; /* Directory entry length */
__le16 name_len; /* Name length */
char name[EXT4_NAME_LEN]; /* File name */
};
/*
* The new version of the directory entry. Since EXT4 structures are
* stored in intel byte order, and the name_len field could never be
* bigger than 255 chars, it's safe to reclaim the extra byte for the
* file_type field.
*/
struct ext4_dir_entry_2 {
__le32 inode; /* Inode number */
__le16 rec_len; /* Directory entry length */
__u8 name_len; /* Name length */
__u8 file_type; /* See file type macros EXT4_FT_* below */
char name[EXT4_NAME_LEN]; /* File name */
};
对于我们常用的ext4fs系统来说,启用了filetype这个特性,就是用的ext4_dir_entry_2这个结构。注意这个结构和linux用户态的struct dirent有直接关联,后面有缘可以介绍一下rewinddir/readdir等接口的使用。
对于目录项来说,除了inode序号外,最重要的就是file_type信息了,他们的典型值如下:
Value | Description |
---|---|
0x0 | Unknown. |
0x1 | Regular file. |
0x2 | Directory. |
0x3 | Character device file. |
0x4 | Block device file. |
0x5 | FIFO. |
0x6 | Socket. |
0x7 | Symbolic link. |
这里面最重要的type就是1和2,一个代表普通文件,一个代表目录。
有了这个数据结构介绍,我们就介绍完了ext4fs的基本组织形式,下面我们通过文件的基本操作来整体感受一下这种组织方式。
文件的操作与文件系统的组织方式
其实这里的文件操作与vfs有关联,但是现在我们就当做没有vfs。如果有上面基础的情况下,我们怎么写一个驱动来在ext4fs上操作文件。后面都是一些直白想法,要了解具体细节,移步本文后续系列,关于VFS的一点点资料。
对于文件的操作来说,我们第一步要定位这个文件。如果要定位这个文件,那么我们就需要这个文件的绝对路径。下面对于文本文件:/tmp/test.lg,我们看看怎么定位它:
-
首先根据ext4 Super Block得到Group Descriptors的属性,然后得到block group0 的 Group Descriptors的属性,最后得到block group0 的inode table/inode bitmap/data blocks bitmap。
-
根据block group0中的inode table[2]得到这个文件系统根目录的数据块,然后根据ext4_dir_entry_2来递归的解析出ext4fs的所有文件目录树。
-
根据/tmp/test.lg文件的绝对路径信息,结合上面我们的文件目录树,我们首先解析了"/"的目录项数组,得到了tmp目录的目录inode信息。然后根据tmp目录的目录项数组,得到了test.lg的inode信息。到这里,我们成功得到了文件的inode序号。
-
根据得到的inode序号,做相关的操作(读、写、创建、删除)。
其实上面我们操作一个文件的过程,在真正的linux系统中,由vfs和ext4fs驱动帮我们做了大量工作,具体我们到时候在vfs文章中来做一个文件操作的介绍。
后记
从本文和本人之前的文章中关于FAT文件系统的介绍来看,其实文件系统的核心在于:给定一个存储的介质,在这个存储介质上是怎么存放文件的,比如建议分组,建立映射等等。
参考文献
PS: 请尊重原创,不喜勿喷。
PS: 要转载请注明出处,本人版权所有。
PS: 有问题请留言,看到后我会第一时间回复。