[大数据与分布式系统]文件系统原理分析

Posted by Yinhj on October 16, 2016

参考链接

《FAT文件系统原理》

为什么引入文件系统?

因为磁盘上面不仅要存放文件数据本身,还需要有对这些数据进行管理的数据,比如文件起始位置、大小、创建时间等。这些数据又叫做元数据(Metadata)。不同文件系统的元数据是不一样的。元数据会占用额外的磁盘空间,但总体比例不会很大,它对功能的实现和性能的提升有非常重要的作用。格式化文件系统,其实就是写入一些初始化的元数据的过程。

上图是一个完整的FAT32分区: FAT1: 文件分配表,描述文件存储空间的簇链接关系(下一簇数据存储在哪个簇,因为同一个文件中数据的簇号是连续的)。 FAT2: FAT1的备份。 FDT: 文件目录表,描述了其他元数据信息(包括起始位置、大小、时间、权限等文件和目录属性)。

这种链表式的存储方式效率不高。

缺点: 1.簇为最小单元,磁盘利用率不够。 2.链表形式导致磁盘碎片,会降低访问速度。 3.掉电可能引起FAT表未刷新,簇映射乱掉。 4.需要FAT表和目录共同匹配才能识别文件。 5.容量有限,簇数增加会导致FAT表索引速度慢。

Windows上用的FAT、NTFS,Linux下的ext4、XFS、btrfs都是常见的文件系统。FAT简单,用得也广,但功能、性能、对数据的保护度都有所欠缺。NTFS是Windows下推荐的文件系统。Linux中用ext4的人较多,这是大多数Linux发行版的默认文件系统。在服务器领域,用XFS的人较多,因为在部分环境下它能表现出较高的性能。

文件系统的发展

  1. 网络文件系统:如CIFS(Windows网上邻居所用的协议)和NFS,就是网络文件系统。它们和普通文件系统的概念有所差别,并不定义文件数据是如何在磁盘上面分布的,而是告诉网络中的客户端,文件数据应当如何传输,怎么通过网络访问远端的文件。所以,它实际上是搭建在普通文件系统之上的。提供网络文件服务的设备,需要有一个本地的文件系统(如ext4),然后在启动一个或多个网络文件系统,负责从普通文件系统中读取数据,向外传送。

  2. 分布式文件系统或集群文件系统:如Hadoop中的HDFS。它们能把很多台电脑里的数据整合起来,对外表现出一个单一的存储节点,提供服务,实现性能扩展和高可靠性等高级特性。它们实际上也不会直接操作磁盘数据,而是叠加在普通文件系统之上的。用户对这类文件系统的IO请求,被它们处理之后,会转化为每一个节点上的普通IO,再调用本地的文件系统进行实际的数据读写。

  3. 特殊文件系统:Linux下就有sysfs和procfs等特殊文件系统,用来管理系统设备,调用内核接口。它们和磁盘上的数据就没有任何直接的联系了,只是以文件接口的方式,提供了很多特殊功能给用户使用。因为在接口上面和普通文件读写类似,所以也被冠名为文件系统。