操作系统 408-2-1 - 操作系统 - 计算机科学 | Flüstern = Whispering's Blog = 无需过去，无关未来，只有现在

# 进程的概念、组成、特征

# 概念

程序：是静态的，就是个存放在磁盘里的可执行文件，就是一系列额指令集合

进程：是动态的，是程序的一次执行过程（同一个程序多次执行会对应多个进程）

# 组成

PCB

进程描述信息：进程标识符 PID、用户标识符 UID
进程控制和管理信息：
- CPU、磁盘、网络流量使用情况统计...
- 进程当前状态：就绪态 / 阻塞态 / 运行态...
资源分配清单：
- 正在使用哪些文件
- 正在使用哪些内存区域
- 正在使用哪些 I/O 设备
处理机相关信息：如 PSW、PC 等等各种寄存器的值 (用于实现进程切换)

操作系统对进程进行管理工作所需的信息都存在 PCB 中

PCB 是进程存在的唯一标志，当进程被创建时，操作系统为其创建 PCB，当进程结束时，会回收其 PCB

进程的组成

PCB
程序段：程序的代码 (指令序列)
数据段：运行过程中产生的各种数据 (如：程序中定义的变量)

PCB 是给操作系统用的，程序段和数据段是给进程自己用的

程序段、数据段、PCB 三部分组成了进程实体 (进程映象)

引入进程的概念后，可把进程定义为：

进程是进程实体的运行过程，是系统进行资源分配和调度的一个独立单位

注意：PCB 是进程存在的唯一标识

一个进程被 "调度"，就是指操作系统决定让这个进程上 CPU 运行

# 进程的特征

动态性（进程最基本特征）
- 进程是程序的一次执行过程，是动态产生的、变化和消亡的
并发性
- 内存中有多个进程实体，各进程可并发执行
独立性
- 进程是能独立运行、独立获得资源、独立接受调度的基本单位
异步性
- 各进程按各自独立的、不可预知的速度向前推进，操作系统要提供 "进程同步机制" 来解决异步问题
结构性
- 每个进程都会配置一个 PCB。结构上看，进程由程序段、数据段、PCB 组成

# 进程的状态与转换、进程的组织

# 进程的状态

进程正在被创建时，它的状态是 "创建态"，在这个阶段操作系统会为进程分配资源、初始化 PCB
当进程创建完成后，便进入 "就绪态"，处于就绪态的进程已经具备运行条件，但由于没有空闲 CPU，就暂时不能运行
如果一个进程此时在 CPU 上运行，那么这个进程处于 "运行态"，CPU 会执行该进程对应的程序 (执行指令序列)
在进程运行的过程中，可能会请求等待某个事件的发生 (如等待某种系统资源的分配，或者等待其他进程的响应)。在这个进程下 CPU，并让它进入 "阻塞态"，当 CPU 空闲时，又会选择另一个 "就绪态" 的进程上 CPU 运行
一个进程可以执行 exit 系统调用，请求操作系统终止该进程。此时该进程会进入 "终止态"，操作系统会让该进程下 CPU，并回收内存空间等资源，最后还要回收该进程的 PCB

当终止进程的工作完成后，这个进程就彻底消失了

进程的状态转换

运行态、就绪态、阻塞态（三种为基本状态）

# 进程的组织

链接方式
- 按照进程状态将 PCB 分为多个队列
- 操作系统持有指向各个队列的指针
索引方式
- 根据进程状态的不同，建立几张索引表
- 操作系统持有指向各个索引表的指针

# 进程控制

进程控制的主要功能是对所有进程实施有效的管理，它具有创建新进程、撤销已有进程、实现进程状态转换等功能

实现进程控制：原语

原语原子性实现方式：用关中断指令和开中断指令两个特权指令实现原子性

# 进程的创建

创建原语（操作系统创建一个进程时使用的原语）
- 申请空白 PCB
- 为新进程分配所需资源
- 初始化 PCB
- 将 PCB 插入就绪队列（创建态 -> 就绪态）
引起进程创建的事件
- 用户登录：分时系统中，用户登录成功，系统会为其建立一个新进程
- 作业调度：多道批处理系统中，有新的作业放入内存时，会为其建立一个新的进程
- 提供服务：用户向操作系统提出某些请求时，会新建一个进程处理该请求
- 应用请求：由用户进程主动请求创建一个子进程

# 进程的终止

撤销原语（就绪态 / 阻塞态 / 运行态 -> 终止态 -> 无）
- 从 PCB 集合中找到终止进程的 PCB
- 若进程正在运行，立刻剥夺 CPU，将 CPU 分配给其他进程
- 终止其他所有子进程
- 将该进程拥有的所有资源归还给父进程或操作系统
- 删除 PCB
引起进程终止的事件
- 正常结束
- 异常结束
- 外界干预

# 进程的阻塞和唤醒

进程的阻塞
- 阻塞原语（运行态 -> 阻塞态）
  - 找到要阻塞的进程对应的 PCB
  - 保护进程运行现场，将 PCB 状态设置为 "阻塞态"，暂时停止进程运行
  - 将 PCB 插入相应事件的等待队列
- 引起进程阻塞的事件
  - 需要等待系统分配某种资源
  - 需要等待相互合作的其他进程完成工作
进程的唤醒
- 唤醒原语（阻塞态 -> 就绪态）
  - 在事件等待队列中找到 PCB
  - 将 PCB 从等待队列中移除，设置进程为就绪态
  - 将 PCB 插入就绪队列，等待被调度
- 引起进程唤醒的事件
  - 等待的事件发生

# 进程的切换

切换原语（运行态 -> 就绪态，就绪态 -> 运行态）
- 将运行环境信息存入 PCB
- PCB 移入相应队列
- 选择另一个进程执行，并更新其 PCB
- 根据 PCB 恢复进程所需的运行环境
引起进程切换的事件
- 当前进程时间片到
- 有更高优先级的进程到达
- 当前进程主动阻塞
- 当前进程终止

阻塞和唤醒必须成对出现

无论哪个进程控制原语，要做无非三件事：

更新 PCB 中的信息 (修改进程 State，保存 / 恢复运行环境)
将 PCB 插入合适的队列
分配 / 回收资源

# 进程通信

进程间通信：是指两个进程之间产生数据交互

进程是分配系统资源的单位 (包括内存地址空间)，因此各进程拥有的内存地址空间相互独立

为了保证安全，一个进程不能直接访问另一个进程的地址空间

共享存储

申请一片共享存储区域，两个进程都可以访问，但需要保证各个进程对共享空间的访问是互斥的

基于存储区的共享：操作系统会在内存中划出一块共享存储区，数据的形式、存放位置都由通信进程控制，而不是操作系统。这种共享方式速度很快，是一种高级通信方式

基于数据结构的共享：比如共享空间里只能放一个长度为 10 的数组，这种共享方式速度慢，限制多是一种低级通信方式

消息传递

进程的数据交换以格式化的消息为单位，进程通过操作系统提供的发送消息 / 接收消息两个原语进行数据交换

格式化的消息：

消息头：消息头包括：发送进程 ID、接收进程 ID、消息长度等格式化的信息
消息体

直接通信方式：消息发送进程要指明接收进程 ID

发送方发送消息至内存中的消息队列中，并指明消息的接收方
接收方从消息队列中接收消息

间接通信方式：通过 "信箱" 间接地通信。因此又被称为 "信箱通信方式"

发送方发送消息至内存中的信箱中，指明要发送至哪一个信箱
接收放要指明要从哪一个信箱中接收信息
可以多个进程往同一个信箱 send 消息，也可以多个进程从同一个信箱里接收消息

管道通信

管道是一个特殊的共享文件，其实就是在内存开辟一个大小固定的内存缓冲区

管道只能采用半双工通信，某一时间内只能实现单向的传输。如果要实现双向同时传输，则需要设置两个管道
各进程要互斥地访问管道 (由操作系统实现)
当管道写满时，写进程将阻塞，直到读进程将管道中的数据取走，即可唤醒写进程
当管道读空时，读进程将阻塞，直到写进程往管道中写入数据，即可唤醒读进程
管道中的数据一旦被读出，就彻底消失。因此，当多个进程读同一个管道时，可能会错乱。对此，通常有两种解决方案
- 一个管道允许多个写进程，一个读进程
- 允许有多个写进程，多个读进程，但系统会让各个读进程轮流从管道中读取数据

# 线程

线程是一个基本的 CPU 执行单元，也是程序执行流的最小单位。

引入线程后变化

资源分配、调度
- 传统进程机制中，进程是资源分配、调度的基本单位
- 引入线程后，进程是资源分配的基本单位，线程是调度的基本单位
并发性
- 传统进程机制中，只能进程间并发
- 引入线程后，各线程间也能并发，提升了并发度
系统开销
- 传统的进程间并发，需要切换进程的运行环境，系统开销很大
- 线程间并发，如果是同一个进程内的线程切换，则不需要切换进程环境，系统开销小
- 引入线程后，并发所带来的系统开销减小

线程的属性

线程是处理机调度的单位
多 CPU 计算机中，各个线程可占用不同的 CPU
每一个线程都有一个线程 ID、线程控制块 (TCB)
线程也有就绪、阻塞、运行三种基本状态
线程几乎不拥有系统资源
同一进程的不同线程间共享进程的资源
由于共享内存地址空间，同一进程中的线程间通信甚至无需系统干预
同一个进程中的线程切换，不会引起进程切换
不同进程中的线程切换，会引起进程切换
切换同进程内的线程，系统开销很小
切换进程，系统开销较大

# 线程的实现方式和多线程模型

# 线程的实现方式

用户级线程

用户级线程由应用程序通过线程库实现，所有的线程管理工作都由应用程序负责 (包括线程切换)
用户级线程中，线程切换可以在用户态下即可完成，无需操作系统干预
在用户看来，是有多个线程，但是在操作系统内核看来，并意识不到线程的存在 "用户级线程" 就是 "从用户视角看能看到的线程"
优缺点：
- 优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高
- 缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并发运行

内核级线程

内核级线程的管理工作由操作系统内核完成
线程调度、切换等工作都由内核负责，因此内核级线程的切换必然需要在核心态下才能完成
操作系统会为每个内核级线程建立相应的 TCB (线程控制块)，通过 TCB 对线程进行管理。"内核级线程" 就是 "从操作系统内核视角看能看到的线程"
优缺点：
- 优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多线程可在多核处理机上并行执行
- 缺点：一个用户进程会占用多个内核线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销大

# 多线程模型

在支持内核级线程的系统中，根据用户级线程和内核级线程的映射关系，可以划分为几种多线程模型

一对一模型：一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程
- 优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多线程可在多核处理机上并行执行
- 缺点：一个用户进程会占用多个内核线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销
多对一模型：多个用户级线程映射到一个内核级线程。且一个进程只被分配一个内核级线程
- 优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高
- 缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并发运行

重点：操作系统只 "看得见" 内核级线程，因此只有内核级线程才是处理机分配的单位

多对多模型：n 用户级线程映射到 m 个内核级线程 (n>=m)。每个用户进程对应 m 个内核级线程
- 克服了多对一模型并发度不高的缺点，又克服了一对一模型中一个用户进程占用太多内核级线程，开销太大的缺点

# 线程的状态与转换

三状态转换图

线程的组织与控制：

组织控制图