加载中...

shmem

发表于2025-10-03|更新于2025-11-17|linuxmm

|总字数:2.8k|阅读时长:8分钟|浏览量:|评论数:

[TOC]

mm/shmem.c 共享内存文件系统(Shared Memory Filesystem) tmpfs与POSIX共享内存的基石

历史与背景

这项技术是为了解决什么特定问题而诞生的？

这项技术以及由它实现的tmpfs文件系统，主要是为了解决两大类问题：高性能的临时文件存储和高效的进程间通信（IPC）。

高速临时存储：传统的磁盘文件系统读写速度受限于物理硬件，速度较慢。很多程序在运行过程中需要创建临时文件（例如编译器中间文件、Web服务器的会话文件等），这些文件不需要持久化存储，在系统重启后即可丢弃。shmem通过在内存中实现一个完整的文件系统，提供了比磁盘快几个数量级的读写速度，极大地提升了这类应用的性能。
进程间通信（IPC）：在shmem出现之前，Linux主要支持System V IPC标准的共享内存。POSIX标准则提出了一套基于文件系统的共享内存API（shm_open, mmap）。为了在内核中实现一个统一、高效的后端来支持这两种共享内存机制，shmem被开发出来。它通过将共享内存区域抽象成内存中的“文件”，完美地融入了Linux“一切皆文件”的设计哲学。

它的发展经历了哪些重要的里程碑或版本迭代？

shmem的发展是逐步演进的，旨在提供一个比早期内存文件系统更完善的方案。

ramfs的局限性：Linux内核早期就有一个基于内存的文件系统叫ramfs。ramfs非常简单，它只是将Page Cache（页面缓存）和Dentry Cache（目录项缓存）的功能导出为一个文件系统。但ramfs有一个致命缺陷：它的大小会无限制地增长，直到耗尽所有物理内存，这很容易导致系统崩溃。并且，ramfs中的数据无法被交换到swap空间。
shmem/tmpfs的诞生：shmem.c的实现从ramfs中借鉴了核心思想，但增加了两个关键特性：
1. 大小限制：tmpfs实例在挂载时可以指定大小限制，防止其耗尽系统内存。
2. 可交换性（Swappiness）：当物理内存紧张时，tmpfs中不常用的数据可以像普通进程的内存一样，被交换到磁盘上的swap分区或swap文件中，从而释放物理内存供更紧急的任务使用。
成为共享内存后端：随着其功能的完善，shmem成为了内核中实现System V共享内存和POSIX共享内存的标准后端。对于用户可见的POSIX共享内存，glibc库期望有一个tmpfs挂载在/dev/shm上。

目前该技术的社区活跃度和主流应用情况如何？

shmem及其用户态接口tmpfs是现代Linux系统中一个极其稳定、成熟且不可或缺的核心组件。

社区活跃度：作为内存管理和虚拟文件系统的核心部分，shmem.c的代码非常稳定。相关的改动通常是为了进行性能优化、修复罕见bug或与内存管理子系统的其他部分（如页面回收）进行同步。
主流应用：
- /dev/shm：几乎所有的主流Linux发行版都会默认将一个tmpfs挂载在/dev/shm，作为POSIX共享内存的标准实现。许多应用（如Oracle数据库、多媒体应用、Python的SharedArray库）都利用它进行高性能的进程间数据共享。
- /tmp：很多系统管理员选择将/tmp目录也挂载为tmpfs，以加速临时文件的读写。
- 系统运行时目录：像/run这样的目录也通常是tmpfs，用于存放系统守护进程的运行时数据（如PID文件、socket文件等）。
- 编译构建：在编译大型项目时，将构建目录放在tmpfs中可以显著缩短编译时间。

核心原理与设计

它的核心工作原理是什么？

shmem.c的核心原理是利用内核的页面缓存（Page Cache）作为文件内容的直接存储介质，并将磁盘上的交换空间（Swap Space）作为其最终的后备存储。

虚拟文件系统：tmpfs是一个虚拟文件系统，它没有对应的物理块设备。当你创建一个tmpfs文件时，内核只是在内存中创建了对应的inode和dentry结构。
按需分配内存：向tmpfs文件写入数据时，并不会立即占用所有声明的空间。相反，内核会按需分配物理内存页，并将这些页加入到Page Cache中，与该文件的inode关联起来。所有对文件的读写操作，实际上都是对Page Cache中这些内存页的直接读写，因此速度极快。
与Swap的交互：tmpfs中的页面被认为是“可交换的匿名页”。当系统物理内存（RAM）不足时，内核的页面回收机制（kswapd）会像对待普通进程的内存一样，将tmpfs中不常被访问的“文件内容”（即那些内存页）写入到磁盘上的swap分区。此时，物理内存被释放，但在Page Cache中会留下一个指向swap位置的条目（swap entry）。
透明的Swap-in：当进程再次访问被换出的tmpfs文件部分时，会触发一个缺页异常（Page Fault）。内核会捕获这个异常，从swap分区中读回相应的数据到新的物理内存页中，并重新建立映射。这个过程对用户进程是完全透明的。
动态调整大小：当tmpfs中的文件被删除时，其占用的Page Cache中的内存页会被立即释放，如果这些页之前被换出到swap，swap空间也会被释放。这使得tmpfs的大小是动态变化的。

它的主要优势体现在哪些方面？

速度极快：所有操作都在内存中进行，避免了与慢速块设备的I/O交互，性能远超任何基于磁盘的文件系统。
动态大小：tmpfs只占用实际需要的内存和swap空间，而不是像ramdisk那样一次性预留所有空间。
易于使用：它表现为一个标准的文件系统，可以使用所有标准的文件操作命令和API（ls, cp, open, write等），无需特殊的编程接口。
非持久性（作为优势）：系统重启后自动清空，确保了临时数据的清洁，无需手动清理。

它存在哪些已知的劣势、局限性或在特定场景下的不适用性？

数据易失性：这是其最显著的特点也是最大的劣势。任何存储在tmpfs中的数据在系统重启或掉电后都会永久丢失。
消耗系统内存：tmpfs会与系统中的其他应用程序争用宝贵的物理内存和swap空间。如果一个tmpfs实例被填满，可能会耗尽系统可用内存，导致其他进程因内存不足（OOM, Out-of-Memory）而被杀死。
不适合大文件：虽然理论上tmpfs的大小可以达到物理内存加swap的总和，但用它来存储非常大的文件通常不是一个好主意，因为这会严重挤占系统为其他任务准备的内存资源。

使用场景

在哪些具体的业务或技术场景下，它是首选解决方案？请举例说明。

POSIX进程间通信：当多个进程需要共享大量数据时，在/dev/shm中创建一个文件，然后各自通过mmap进行内存映射，这是Linux下最高效的IPC方式之一。
高I/O的临时文件：Web服务器可以用tmpfs来存储PHP的session文件，从而加速用户会话的读写。数据库系统（如Oracle）也可能使用/dev/shm来实现其自动内存管理特性。
加速编译过程：在编译大型软件项目（如内核本身或大型C++项目）时，将输出目录设置在tmpfs挂载点上，可以大幅减少因生成大量中间文件而产生的I/O等待时间。

是否有不推荐使用该技术的场景？为什么？

需要持久化存储的任何场景：绝对不能用tmpfs来存储任何需要长期保存的数据，如数据库文件、用户文档、系统配置等。一旦系统关闭，数据将无法恢复。
内存极其有限的系统：在内存非常小的嵌入式设备上，大量使用tmpfs可能会迅速耗尽内存，导致系统不稳定。在这种情况下，传统的基于闪存的文件系统是更好的选择。

对比分析

请将其与其他相似技术进行详细对比。

对比一：tmpfs vs. ramfs

特性	tmpfs (由 `mm/shmem.c` 实现)	ramfs
核心机制	利用Page Cache，可被交换到Swap。	仅利用Page Cache，是其最简化的表现形式。
大小限制	有。可以在挂载时通过`size`选项指定上限。	无。会一直增长直到耗尽所有物理内存。
可交换性	可交换。当内存不足时，数据可以被换出到swap。	不可交换。数据始终驻留在物理内存中。
持久性	重启后数据丢失。	重启后数据丢失。
使用场景	通用的、安全的内存文件系统，如`/dev/shm`, `/tmp`。	主要用于内核调试或某些特定场景，因其不可控的增长性而在通用场景中较少使用。

对比二：tmpfs vs. Ramdisk (/dev/ram)

特性	tmpfs	Ramdisk (块设备)
设备类型	是一个文件系统，不是块设备。	是一个块设备，模拟了一块硬盘在内存中。
格式化	无需格式化，直接`mount`即可使用。	必须在创建后，使用`mkfs`（如`mkfs.ext4`）对其进行格式化才能使用。
大小	动态调整。只消耗实际使用的空间。	固定大小。在创建时即占用全部指定的内存空间。
缓存机制	它本身就是Page Cache的一种应用，没有双重缓存问题。	数据会经过双重缓存：一次在Ramdisk自己的内存里，一次在访问它的文件系统的Page Cache里，效率较低。
可交换性	可交换。	不可交换。
使用场景	现代Linux系统内存文件系统的首选。	较老的技术，主要用于启动过程中的initrd/initramfs，或某些需要模拟块设备的特殊测试场景。

mm/shmem.c

shmem_init 共享内存（Shared Memory）初始化

/*
 * tiny-shmem：使用 ramfs 代码实现的简单 shmemfs 和 tmpfs
 *
 * 该实现面向小型系统，在这些系统中，完整 shmem 代码（支持 swap 和资源限制）的复杂性
 * 超过了其带来的好处。对于没有 swap 的系统，这段代码的效果应与完整实现等效，
 * 但更加轻量。
 */

static struct file_system_type shmem_fs_type = {
	.name		= "tmpfs",
	.init_fs_context = ramfs_init_fs_context,
	.parameters	= ramfs_fs_parameters,
	.kill_sb	= ramfs_kill_sb,
	.fs_flags	= FS_USERNS_MOUNT,
};

void __init shmem_init(void)
{
	BUG_ON(register_filesystem(&shmem_fs_type) != 0);

	shm_mnt = kern_mount(&shmem_fs_type);
	BUG_ON(IS_ERR(shm_mnt));
}

文章作者: Liya Huang

文章链接: https://wdfk-prog.space/posts/ed44689a/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 wdfk-prog的个人博客！

赞助

微信
支付寶

相关推荐

[TOC] init/init_task.c 内核线程的一个核心特征是：它们没有自己独立的用户地址空间。它们只在内核空间运行，而内核地址空间是所有进程共享的。因此，内核线程不需要一个属于自己的内存描述符 struct mm_struct，所以它们的 task->mm 指针通常是 NULL init_task 就是大名鼎鼎的 PID 0 进程，也常被称为 swapper 进程。从它的标志位 .flags = PF_KTHREAD 可以看出，它是一个内核线程。 init_task 的调度策略(policy)是 SCHED_NORMAL，这意味着它是一个普通的分时调度任务，而不是实时任务。但是初始化阶段调用了init_idle()，使得它的sched_class 是 SCHED_IDLE，这样它就可以作为 CPU 的空闲任务运行。但是fork出来的其他进程继承的还是 SCHED_NORMAL 策略。进程的“始祖”：init_task 是系统中所有进程的祖先。在系统启动后，它会创建第一个内核线程 kernel_init（它最终会成为 PID 1 的...

[TOC] mm/filemap.c: Linux 页缓存 (Page Cache) 的心脏mm/filemap.c 是 Linux 内核中实现和管理页缓存 (Page Cache) 的核心源文件。页缓存是 Linux I/O 性能的基石，它将磁盘上的文件内容缓存到物理内存（RAM）中，使得后续对同一文件的读写操作可以直接在内存中完成，从而避免了缓慢的磁盘 I/O。可以把 mm/filemap.c 想象成一个高效的“图书管理员”，它负责管理一个巨大的图书馆（页缓存），图书馆里的每一页书（struct page）都对应着磁盘文件上的某一页内容。一、核心职责mm/filemap.c 的代码几乎参与了所有与文件 I/O 相关的内存操作，其核心职责包括：页缓存的查找与插入 (Finding and Inserting): 当需要读取文件数据时，它负责在页缓存中查找是否已缓存了对应的页面。如果找到（Cache Hit），则直接返回内存页；如果未找到（Cache Miss），则负责分配一个新的物理页，并将其插入到页缓存中，准备从磁盘加载数据...

[TOC] list_lru: Linux内核的可扩展对象缓存管理器list_lru 是 Linux 内核提供的一套可扩展的、近似 LRU (Least Recently Used) 缓存列表管理机制。它专门设计用来高效地管理大量、小型、生命周期不一的内核对象，例如目录项缓存（dentries）和索引节点缓存（inodes）。可以将其想象成一个特殊的“图书馆卡片目录系统”，这个系统需要被许多图书管理员（CPU核心）同时、频繁地访问，并且需要一种高效的方式来找出那些最久未被使用的卡片（对象）以便回收。一、核心问题：为什么需要 list_lru？在理解 list_lru 的设计之前，必须先明白它要解决的核心问题：在多核环境下的锁竞争。一个朴素的 LRU 列表实现通常是这样的：维护一个全局的双向链表。当一个对象被访问时，将它从链表中的当前位置移到链表头（表示最新使用）。当需要回收内存时，从链表尾部（表示最久未使用）开始移除对象。这种实现在单核系统上工作得很好。但在现代多核系统中，会产生一个巨大的性能瓶颈：所有 CPU 核心都必须竞争同一个全局锁来修改这个链表...

[TOC] mm/memblock.c: Linux内核的“拓荒时代”内存管理器mm/memblock.c 实现了一种极其早期的、简单的物理内存分配器，它在内核启动的“拓荒时代”——即在页分配器（伙伴系统）初始化之前——扮演着至关重要的角色。可以将其想象成一个在建造正式仓库（伙伴系统）之前，用来管理建筑材料（物理内存）的临时账本和场地规划师。它的唯一使命是在最原始的环境下，为内核自身的初始化提供最基本的内存分配服务，并在完成使命后，将所有管理权平稳地移交给更高级的内存管理系统。一、核心问题：为什么需要 memblock？在内核启动的极早期（start_kernel 函数刚开始执行时），真正的内存管理子系统（如伙伴系统、Slab 分配器）还完全不存在。这些高级系统本身就需要分配内存来存放它们复杂的数据结构（如 mem_map 数组、kmem_cache 结构等）。这就产生了一个“先有鸡还是先有蛋”的问题：为了初始化内存管理器，你需要分配内存。但为了分配内存，你需要一个已初始化的内存管理器。 memblock 就是为了打破这个循环而存在的。它是一个极其简单的...

[toc] mm/backing-dev.c 回写管理(Writeback Management) 脏页回写的调速器与执行者历史与背景这项技术是为了解决什么特定问题而诞生的？这项技术是为了解决Linux内核中一个核心的性能与数据一致性难题：如何智能、高效地将内存中被修改过的数据（“脏页”，Dirty Pages）写回到持久化存储设备（“后备设备”，Backing Device）中。在mm/backing-dev.c所代表的现代回写框架出现之前，Linux的脏页回写机制比较原始，存在诸多问题：全局瓶颈：早期的pdflush机制使用一个全局的线程池来处理所有设备的回写任务。这意味着一个慢速设备（如USB 1.0 U盘）的回写任务，可能会长时间占用一个flusher线程，从而阻塞一个高速设备（如NVMe SSD）的回写，造成**队头阻塞（Head-of-line blocking）**问题。缺乏精细控制：无法对单个设备设置不同的回写策略。所有设备共享一套全局的回写参数，这对于性能差异巨大的异构存储环境是极其低效的。写操作延迟风暴（Latency Spikes）：当系...

[TOC] mm/vmscan.c lruvec 结构体页面回收的核心数据结构lruvec 是 Linux 内核中用于管理 LRU（Least Recently Used，最近最少使用）页面列表的一个核心数据结构。它是内存管理子系统的一部分，定义于 mm/vmscan.c 相关头文件中，主要作用是在页面回收（Page Reclamation）过程中，对不同类型、不同状态的内存页面进行分组和跟踪，是内核决定回收哪些页面的关键依据。历史与背景这项技术是为了解决什么特定问题而诞生的？lruvec 的诞生是为了解决在现代计算机体系结构下，如何高效、精确、可扩展地管理内存页面以供回收的问题。区分页面类型：不同类型的内存页面回收成本和策略完全不同。例如，文件页（File-backed pages）如果内容未被修改（是干净的），可以直接丢弃，需要时再从磁盘读回；而匿名页（Anonymous pages，如进程堆栈、malloc分配的内存）则必须先交换到交换空间（Swap Area）才能释放，成本更高。lruvec 需要将它们分开管理。近似LRU算法：真正的LRU算法要求跟踪...

评论

数据加载中