[toc]
lib/scatterlist.c Scatter-Gather Lists 衔接虚拟内存与硬件DMA的桥梁
历史与背景
这项技术是为了解决什么特定问题而诞生的?
scatterlist(分散/聚集列表)机制的诞生是为了解决现代操作系统中一个根本性的矛盾:软件(CPU)看到的内存视图与硬件(特别是DMA控制器)看到的内存视图之间的不匹配。
软件的视图:虚拟内存
- 在Linux中,无论是用户空间 (
malloc) 还是内核空间 (kmalloc,vmalloc),程序申请到的一块看起来连续的大内存缓冲区,其底层的物理内存几乎总是不连续的。它是由许多个分散的、不相邻的物理页面(Page)拼凑而成的。
- 在Linux中,无论是用户空间 (
硬件的视图:物理内存
- DMA(Direct Memory Access)控制器是一种硬件,它可以在没有CPU干预的情况下,直接在内存和I/O设备之间传输数据。为了工作,最简单的DMA控制器需要知道两件事:一个物理内存起始地址和一个长度。它假定这整块内存的物理地址是连续的。
核心矛盾:当驱动程序想让DMA硬件去处理一块由kmalloc分配的大缓冲区时,它无法只给硬件一个起始物理地址,因为这块缓冲区的物理页面是“零散”的。
scatterlist就是为了解决这个矛盾而生的。它是一种数据结构,能够精确地描述一块在虚拟地址上连续、但在物理地址上分散的内存区域,将它表示成一个由多个**(物理页地址,偏移量,长度)组成的列表。这样,支持分散/聚集 I/O (Scatter-Gather I/O)** 的高级DMA硬件就可以理解这个列表,并正确地从所有这些零散的物理内存片段中“聚集”(gather)数据进行发送,或者将接收到的数据“分散”(scatter)到这些片段中。
它的发展经历了哪些重要的里程碑或版本迭代?
scatterlist作为一个基础概念,其发展主要体现在API的易用性和功能的增强上:
- 基本实现:最初的
scatterlist就是一个简单的数组,用于描述一组内存片段。 - 链式结构 (Chaining):一个重要的里程碑是引入了链式
scatterlist(sg_chain)。单个scatterlist数组的大小是有限的(通常分配在栈上或单个slab中)。为了描述一个由极大量物理页面组成的超大缓冲区,链式结构允许一个scatterlist的末尾指向另一个scatterlist数组,从而可以表示任意复杂的内存布局。 - API的完善:内核开发者为
scatterlist开发了一整套丰富、安全且高效的辅助函数和宏(如sg_init_table,sg_next,for_each_sg等)。这使得驱动开发者不再需要手动操作struct scatterlist的内部成员,极大地简化了编程,减少了错误。 - 与DMA映射框架的深度集成:
scatterlist与内核的DMA映射框架(DMA mapping framework)紧密集成,成为dma_map_sg等核心函数的标准接口。
目前该技术的社区活跃度和主流应用情况如何?
scatterlist是Linux内核I/O子系统的绝对基石。
- 应用情况:所有进行高性能数据传输的子系统和驱动程序都严重依赖它。这包括:
- 块层 (Block Layer):所有对硬盘/SSD的读写请求。
- 网络栈 (Networking Stack):网络数据包(
sk_buff)的发送和接收。 - USB子系统:高速USB设备的数据传输。
- 加密子系统 (Crypto API):硬件加解密引擎的数据处理。
- 社区状态:
lib/scatterlist.c中的代码非常成熟和稳定。改动通常是为了性能优化、增加新的辅助函数,或适应新的硬件架构。
核心原理与设计
它的核心工作原理是什么?
scatterlist的核心是一个数据结构struct scatterlist和一套操作这个结构(及其数组)的API。
数据结构 struct scatterlist:
它通常包含以下核心信息(具体实现可能因架构而异,但逻辑上等价):
page_link:一个unsigned long,通过位技巧(bit twiddling)巧妙地编码了两个信息:- 指向该内存片段所在的**物理页(
struct page)**的指针。 - 一些标志位,例如表示是否是链的末尾。
- 指向该内存片段所在的**物理页(
offset:该内存片段在物理页内的起始偏移量。length:该内存片段的长度。
一个scatterlist通常不是单个存在,而是作为一个数组,即struct scatterlist sg_table[N]。这个数组描述了一块完整的、逻辑上连续的缓冲区。
核心API与工作流程:
- 初始化 (
sg_init_table): 准备一个scatterlist数组以供使用。 - 填充: 驱动程序将一个虚拟缓冲区(如来自
kmalloc的内存或用户空间的指针)转换成一个scatterlist。这个过程通常由更高级的内核函数完成,例如,块层的bio结构或网络栈的sk_buff结构在提交给硬件前,都会被转换成一个scatterlist。 - DMA映射 (
dma_map_sg): 驱动程序将填充好的scatterlist传递给DMA映射框架。这个框架会为每个物理内存片段生成DMA总线地址(这是硬件实际使用的地址),并处理缓存一致性等问题。 - 迭代 (
for_each_sg): 驱动程序使用for_each_sg宏来安全地遍历scatterlist中的每一个条目,将每个片段的DMA地址和长度编程到DMA控制器的描述符中。 - DMA传输: 启动DMA硬件,硬件会根据编程好的描述符列表,自动地、按顺序地处理所有内存片段。
- DMA解映射 (
dma_unmap_sg): 传输完成后,调用此函数释放DMA映射资源。
它的主要优势体现在哪些方面?
- 避免内存拷贝 (Zero-Copy):这是其最大优势。如果没有
scatterlist,驱动程序唯一的选择就是分配一个物理上连续的大缓冲区(这非常困难且浪费),然后将零散的应用数据拷贝进去。scatterlist通过让硬件直接处理零散内存,从根本上避免了这种昂贵的、消耗CPU和内存带宽的拷贝操作。 - 高效利用内存:允许系统自由地使用非连续的物理页面来组成大缓冲区,极大地提高了内存利用率。
- 灵活性:可以描述任意复杂的内存布局,包括跨越多个不同内存区域的缓冲区。
它存在哪些已知的劣势、局限性或在特定场景下的不适用性?
- 硬件依赖:该机制要求DMA硬件本身支持Scatter-Gather I/O。绝大多数现代硬件都支持,但一些非常简单的嵌入式DMA控制器可能不支持。
- 开销:相比于操作单个连续缓冲区的DMA,构建和处理
scatterlist本身存在一定的CPU开销。但这个开销远小于进行一次全缓冲区的内存拷贝。 - 编程复杂性:虽然API简化了操作,但其概念本身比简单的单块DMA要复杂。
使用场景
在哪些具体的业务或技术场景下,它是首选解决方案?
它是所有高性能、大块数据I/O场景的唯一标准解决方案。
- 网络数据包发送:一个网络数据包(
sk_buff)可能由多个片段组成(如协议头在一个缓冲区,数据负载在另一个映射自用户空间的页面)。网卡驱动会构建一个scatterlist来描述这个数据包,然后让DMA引擎将这些片段“聚集”起来发送出去。 - 磁盘读写:文件系统发起一个64KB的读请求,这64KB数据在内存中由16个不连续的4KB页面组成。块设备驱动会创建一个包含16个条目的
scatterlist,并将其交给SATA或NVMe控制器,控制器会把从磁盘读取的数据“分散”到这16个页面中。 - 硬件加解密:当需要对一个GnuPG加密的大文件进行硬件解密时,这个文件在内存中的缓冲区可能是非连续的。加密驱动会使用
scatterlist将整个缓冲区喂给硬件加解-引擎。
对比分析
请将其 与 其他相似技术 进行详细对比。
Scatter-Gather DMA vs. 弹跳缓冲区 (Bounce Buffering)
弹跳缓冲区是scatterlist出现之前或在硬件不支持Scatter-Gather I/O时的替代方案。
| 特性 | Scatter-Gather I/O (使用 scatterlist) |
弹跳缓冲区 (Bounce Buffering) |
|---|---|---|
| 核心原理 | 描述非连续内存,让硬件直接处理。 | 拷贝非连续内存到一个物理连续的“中转”缓冲区,让硬件处理中转区。 |
| 性能 (CPU) | 高。CPU只负责构建列表,不参与数据移动。 | 低。CPU需要执行两次内存拷贝(应用->弹跳区,弹跳区->应用),CPU开销巨大。 |
| 性能 (延迟) | 低。数据直接在设备和应用缓冲区之间传输。 | 高。两次内存拷贝增加了显著的延迟。 |
| 内存使用 | 高效。没有额外的缓冲区开销。 | 低效。需要额外分配一块与原始数据同样大小的、物理连续的内存。 |
| 硬件要求 | DMA控制器必须支持Scatter-Gather。 | 任何DMA控制器都可以使用。 |
| 内核行为 | 这是首选的高性能路径。 | 这是备用(fallback)路径。当DMA映射框架检测到硬件不支持SG,或者存在其他限制(如设备只能访问低端内存)时,它会自动在内部透明地使用弹跳缓冲区。 |
总结:scatterlist是现代高性能驱动的基石,它通过一种优雅的数据结构解决了操作系统虚拟内存管理与硬件物理地址需求之间的核心矛盾,是实现“零拷贝”理念的关键技术。
sg_init_table: Scatter-Gather List的初始化
本代码片段展示了Linux内核中用于**初始化一个散列表(Scatter-Gather List, SG-List)**的核心辅助函数。其主要功能是通过sg_init_table及其内联辅助函数,将一个struct scatterlist数组准备成一个有效的、可被DMA引擎或其他子系统使用的SG-List。这个过程包括将数组内存清零,并最关键地——标记散列表的结尾。
实现原理分析
此机制的核心原理是通过在scatterlist结构体的一个特殊成员(page_link)中设置终止标志位,来构建一个可遍历的、有明确结束点的链式结构(即使它物理上是一个数组)。
什么是Scatter-Gather I/O?
- 问题: 当驱动程序需要对一块逻辑上连续、但物理上不连续的内存进行DMA操作时(例如,一个来自用户空间的大缓冲区,它可能跨越多个不相邻的物理内存页面),无法通过一次简单的“源地址-目的地址-长度”DMA传输来完成。
- 解决方案: Scatter-Gather机制。驱动程序会创建一个散列表(SG-List),它本质上是一个描述符数组。每个描述符(
struct scatterlist)指向一个物理上连续的内存块(通常是一个页面或页面的一部分),并包含该块的地址和长度。DMA控制器可以被编程为依次处理这个列表中的所有描述符,从而将多个分散的(scattered)物理内存块,“聚合”(gathered)成一次逻辑上的连续传输。
核心数据结构 (
struct scatterlist):- 这个结构体包含了描述一个内存块所需的信息,如
page_link(指向物理页面的指针)、offset(在该页内的偏移)和length(数据长度)。 page_link的特殊用途:page_link成员被巧妙地复用了。它的最低两位被用作标志位:SG_CHAIN: 表示这个sg条目是一个“链指针”,它不指向数据,而是指向另一个scatterlist数组。这允许将多个SG-List链接成一个更长的链。SG_END: 表示这是整个SG-List(或链)的最后一个条目。
- 这个结构体包含了描述一个内存块所需的信息,如
标记结尾 (
sg_mark_end):- 职责: 标记一个
sg条目为终止符。 - 实现:
sg->page_link |= SG_END;: 使用按位或操作,将SG_END标志位置1。sg->page_link &= ~SG_CHAIN;: 使用按位与操作,确保SG_CHAIN标志位被清零。
- 作用: 当DMA引擎或其他代码遍历SG-List时(通常使用
for_each_sg宏),这个宏内部会检查每个条目的SG_END标志。一旦遇到被标记为END的条目,遍历就会停止。这为链表提供了一个明确的终点。
- 职责: 标记一个
初始化流程:
sg_init_table: 这是对外暴露的主API。它执行两个步骤:memset(sgl, 0, ...): 将整个scatterlist数组的内存清零。这是一个良好的实践,可以确保所有成员(特别是page_link)都处于一个已知的初始状态。sg_init_marker(sgl, nents): 调用辅助函数来标记结尾。
sg_init_marker: 这个内联函数只是简单地在数组的最后一个元素(&sgl[nents - 1])上调用sg_mark_end。
代码分析
1 | /** |









