[大数据与分布式系统]文件系统原理分析

参考链接

为什么引入文件系统？

因为磁盘上面不仅要存放文件数据本身，还需要有对这些数据进行管理的数据，比如文件起始位置、大小、创建时间等。这些数据又叫做元数据（Metadata）。不同文件系统的元数据是不一样的。元数据会占用额外的磁盘空间，但总体比例不会很大，它对功能的实现和性能的提升有非常重要的作用。格式化文件系统，其实就是写入一些初始化的元数据的过程。

上图是一个完整的FAT32分区: FAT1: 文件分配表，描述文件存储空间的簇链接关系(下一簇数据存储在哪个簇，因为同一个文件中数据的簇号是连续的)。 FAT2: FAT1的备份。 FDT: 文件目录表，描述了其他元数据信息(包括起始位置、大小、时间、权限等文件和目录属性)。

这种链表式的存储方式效率不高。

缺点: 1.簇为最小单元，磁盘利用率不够。 2.链表形式导致磁盘碎片，会降低访问速度。 3.掉电可能引起FAT表未刷新，簇映射乱掉。 4.需要FAT表和目录共同匹配才能识别文件。 5.容量有限，簇数增加会导致FAT表索引速度慢。

Windows上用的FAT、NTFS，Linux下的ext4、XFS、btrfs都是常见的文件系统。FAT简单，用得也广，但功能、性能、对数据的保护度都有所欠缺。NTFS是Windows下推荐的文件系统。Linux中用ext4的人较多，这是大多数Linux发行版的默认文件系统。在服务器领域，用XFS的人较多，因为在部分环境下它能表现出较高的性能。

文件系统的发展

网络文件系统：如CIFS（Windows网上邻居所用的协议）和NFS，就是网络文件系统。它们和普通文件系统的概念有所差别，并不定义文件数据是如何在磁盘上面分布的，而是告诉网络中的客户端，文件数据应当如何传输，怎么通过网络访问远端的文件。所以，它实际上是搭建在普通文件系统之上的。提供网络文件服务的设备，需要有一个本地的文件系统（如ext4），然后在启动一个或多个网络文件系统，负责从普通文件系统中读取数据，向外传送。
分布式文件系统或集群文件系统：如Hadoop中的HDFS。它们能把很多台电脑里的数据整合起来，对外表现出一个单一的存储节点，提供服务，实现性能扩展和高可靠性等高级特性。它们实际上也不会直接操作磁盘数据，而是叠加在普通文件系统之上的。用户对这类文件系统的IO请求，被它们处理之后，会转化为每一个节点上的普通IO，再调用本地的文件系统进行实际的数据读写。
特殊文件系统：Linux下就有sysfs和procfs等特殊文件系统，用来管理系统设备，调用内核接口。它们和磁盘上的数据就没有任何直接的联系了，只是以文件接口的方式，提供了很多特殊功能给用户使用。因为在接口上面和普通文件读写类似，所以也被冠名为文件系统。

参考链接

为什么引入文件系统？

文件系统的发展

CATALOG

FEATURED TAGS

FRIENDS