# 进程的概念、组成、特征

# 概念

程序:是静态的,就是个存放在磁盘里的可执行文件,就是一系列额指令集合

进程:是动态的,是程序的一次执行过程(同一个程序多次执行会对应多个进程)

# 组成

PCB

  • 进程描述信息:进程标识符 PID、用户标识符 UID
  • 进程控制和管理信息:
    • CPU、磁盘、网络流量使用情况统计...
    • 进程当前状态:就绪态 / 阻塞态 / 运行态...
  • 资源分配清单:
    • 正在使用哪些文件
    • 正在使用哪些内存区域
    • 正在使用哪些 I/O 设备
  • 处理机相关信息:如 PSW、PC 等等各种寄存器的值 (用于实现进程切换)

操作系统对进程进行管理工作所需的信息都存在 PCB 中

PCB 是进程存在的唯一标志,当进程被创建时,操作系统为其创建 PCB,当进程结束时,会回收其 PCB

进程的组成

  • PCB
  • 程序段:程序的代码 (指令序列)
  • 数据段:运行过程中产生的各种数据 (如:程序中定义的变量)

PCB 是给操作系统用的,程序段和数据段是给进程自己用的

程序段、数据段、PCB 三部分组成了进程实体 (进程映象)

引入进程的概念后,可把进程定义为:

进程是进程实体的运行过程,是系统进行资源分配和调度的一个独立单位

注意:PCB 是进程存在的唯一标识

一个进程被 "调度",就是指操作系统决定让这个进程上 CPU 运行

# 进程的特征

  • 动态性(进程最基本特征)
    • 进程是程序的一次执行过程,是动态产生的、变化和消亡的
  • 并发性
    • 内存中有多个进程实体,各进程可并发执行
  • 独立性
    • 进程是能独立运行、独立获得资源、独立接受调度的基本单位
  • 异步性
    • 各进程按各自独立的、不可预知的速度向前推进,操作系统要提供 "进程同步机制" 来解决异步问题
  • 结构性
    • 每个进程都会配置一个 PCB。结构上看,进程由程序段、数据段、PCB 组成

# 进程的状态与转换、进程的组织

# 进程的状态

  • 进程正在被创建时,它的状态是 "创建态",在这个阶段操作系统会为进程分配资源、初始化 PCB
  • 当进程创建完成后,便进入 "就绪态",处于就绪态的进程已经具备运行条件,但由于没有空闲 CPU,就暂时不能运行
  • 如果一个进程此时在 CPU 上运行,那么这个进程处于 "运行态",CPU 会执行该进程对应的程序 (执行指令序列)
  • 在进程运行的过程中,可能会请求等待某个事件的发生 (如等待某种系统资源的分配,或者等待其他进程的响应)。在这个进程下 CPU,并让它进入 "阻塞态",当 CPU 空闲时,又会选择另一个 "就绪态" 的进程上 CPU 运行
  • 一个进程可以执行 exit 系统调用,请求操作系统终止该进程。此时该进程会进入 "终止态",操作系统会让该进程下 CPU,并回收内存空间等资源,最后还要回收该进程的 PCB

当终止进程的工作完成后,这个进程就彻底消失了

进程的状态转换

运行态、就绪态、阻塞态(三种为基本状态)

# 进程的组织

  • 链接方式
    • 按照进程状态将 PCB 分为多个队列
    • 操作系统持有指向各个队列的指针
  • 索引方式
    • 根据进程状态的不同,建立几张索引表
    • 操作系统持有指向各个索引表的指针

# 进程控制

进程控制的主要功能是对所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能

实现进程控制:原语

原语原子性实现方式:用关中断指令和开中断指令两个特权指令实现原子性

# 进程的创建

  • 创建原语(操作系统创建一个进程时使用的原语)
    • 申请空白 PCB
    • 为新进程分配所需资源
    • 初始化 PCB
    • 将 PCB 插入就绪队列(创建态 -> 就绪态)
  • 引起进程创建的事件
    • 用户登录:分时系统中,用户登录成功,系统会为其建立一个新进程
    • 作业调度:多道批处理系统中,有新的作业放入内存时,会为其建立一个新的进程
    • 提供服务:用户向操作系统提出某些请求时,会新建一个进程处理该请求
    • 应用请求:由用户进程主动请求创建一个子进程

# 进程的终止

  • 撤销原语(就绪态 / 阻塞态 / 运行态 -> 终止态 -> 无)
    • 从 PCB 集合中找到终止进程的 PCB
    • 若进程正在运行,立刻剥夺 CPU,将 CPU 分配给其他进程
    • 终止其他所有子进程
    • 将该进程拥有的所有资源归还给父进程或操作系统
    • 删除 PCB
  • 引起进程终止的事件
    • 正常结束
    • 异常结束
    • 外界干预

# 进程的阻塞和唤醒

  • 进程的阻塞
    • 阻塞原语(运行态 -> 阻塞态)
      • 找到要阻塞的进程对应的 PCB
      • 保护进程运行现场,将 PCB 状态设置为 "阻塞态",暂时停止进程运行
      • 将 PCB 插入相应事件的等待队列
    • 引起进程阻塞的事件
      • 需要等待系统分配某种资源
      • 需要等待相互合作的其他进程完成工作
  • 进程的唤醒
    • 唤醒原语(阻塞态 -> 就绪态)
      • 在事件等待队列中找到 PCB
      • 将 PCB 从等待队列中移除,设置进程为就绪态
      • 将 PCB 插入就绪队列,等待被调度
    • 引起进程唤醒的事件
      • 等待的事件发生

# 进程的切换

  • 切换原语(运行态 -> 就绪态,就绪态 -> 运行态)
    • 将运行环境信息存入 PCB
    • PCB 移入相应队列
    • 选择另一个进程执行,并更新其 PCB
    • 根据 PCB 恢复进程所需的运行环境
  • 引起进程切换的事件
    • 当前进程时间片到
    • 有更高优先级的进程到达
    • 当前进程主动阻塞
    • 当前进程终止

阻塞和唤醒必须成对出现

无论哪个进程控制原语,要做无非三件事:

  • 更新 PCB 中的信息 (修改进程 State,保存 / 恢复运行环境)
  • 将 PCB 插入合适的队列
  • 分配 / 回收资源

# 进程通信

进程间通信:是指两个进程之间产生数据交互

进程是分配系统资源的单位 (包括内存地址空间),因此各进程拥有的内存地址空间相互独立

为了保证安全,一个进程不能直接访问另一个进程的地址空间

共享存储

申请一片共享存储区域,两个进程都可以访问,但需要保证各个进程对共享空间的访问是互斥的

基于存储区的共享:操作系统会在内存中划出一块共享存储区,数据的形式、存放位置都由通信进程控制,而不是操作系统。这种共享方式速度很快,是一种高级通信方式

基于数据结构的共享:比如共享空间里只能放一个长度为 10 的数组,这种共享方式速度慢,限制多是一种低级通信方式

消息传递

进程的数据交换以格式化的消息为单位,进程通过操作系统提供的发送消息 / 接收消息两个原语进行数据交换

格式化的消息:

  • 消息头:消息头包括:发送进程 ID、接收进程 ID、消息长度等格式化的信息
  • 消息体

直接通信方式:消息发送进程要指明接收进程 ID

  • 发送方发送消息至内存中的消息队列中,并指明消息的接收方
  • 接收方从消息队列中接收消息

间接通信方式:通过 "信箱" 间接地通信。因此又被称为 "信箱通信方式"

  • 发送方发送消息至内存中的信箱中,指明要发送至哪一个信箱
  • 接收放要指明要从哪一个信箱中接收信息
  • 可以多个进程往同一个信箱 send 消息,也可以多个进程从同一个信箱里接收消息

管道通信

管道是一个特殊的共享文件,其实就是在内存开辟一个大小固定的内存缓冲区

  • 管道只能采用半双工通信,某一时间内只能实现单向的传输。如果要实现双向同时传输,则需要设置两个管道
  • 各进程要互斥地访问管道 (由操作系统实现)
  • 当管道写满时,写进程将阻塞,直到读进程将管道中的数据取走,即可唤醒写进程
  • 当管道读空时,读进程将阻塞,直到写进程往管道中写入数据,即可唤醒读进程
  • 管道中的数据一旦被读出,就彻底消失。因此,当多个进程读同一个管道时,可能会错乱。对此,通常有两种解决方案
    • 一个管道允许多个写进程,一个读进程
    • 允许有多个写进程,多个读进程,但系统会让各个读进程轮流从管道中读取数据

# 线程

线程是一个基本的 CPU 执行单元,也是程序执行流的最小单位。

引入线程后变化

  • 资源分配、调度
    • 传统进程机制中,进程是资源分配、调度的基本单位
    • 引入线程后,进程是资源分配的基本单位,线程是调度的基本单位
  • 并发性
    • 传统进程机制中,只能进程间并发
    • 引入线程后,各线程间也能并发,提升了并发度
  • 系统开销
    • 传统的进程间并发,需要切换进程的运行环境,系统开销很大
    • 线程间并发,如果是同一个进程内的线程切换,则不需要切换进程环境,系统开销小
    • 引入线程后,并发所带来的系统开销减小

线程的属性

  • 线程是处理机调度的单位
  • 多 CPU 计算机中,各个线程可占用不同的 CPU
  • 每一个线程都有一个线程 ID、线程控制块 (TCB)
  • 线程也有就绪、阻塞、运行三种基本状态
  • 线程几乎不拥有系统资源
  • 同一进程的不同线程间共享进程的资源
  • 由于共享内存地址空间,同一进程中的线程间通信甚至无需系统干预
  • 同一个进程中的线程切换,不会引起进程切换
  • 不同进程中的线程切换,会引起进程切换
  • 切换同进程内的线程,系统开销很小
  • 切换进程,系统开销较大

# 线程的实现方式和多线程模型

# 线程的实现方式

用户级线程

  • 用户级线程由应用程序通过线程库实现,所有的线程管理工作都由应用程序负责 (包括线程切换)

  • 用户级线程中,线程切换可以在用户态下即可完成,无需操作系统干预

  • 在用户看来,是有多个线程,但是在操作系统内核看来,并意识不到线程的存在 "用户级线程" 就是 "从用户视角看能看到的线程"

  • 优缺点:

    • 优点:用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高
    • 缺点:当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可在多核处理机上并发运行

内核级线程

  • 内核级线程的管理工作由操作系统内核完成
  • 线程调度、切换等工作都由内核负责,因此内核级线程的切换必然需要在核心态下才能完成
  • 操作系统会为每个内核级线程建立相应的 TCB (线程控制块),通过 TCB 对线程进行管理。"内核级线程" 就是 "从操作系统内核视角看能看到的线程"
  • 优缺点:
    • 优点:当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行
    • 缺点:一个用户进程会占用多个内核线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大

# 多线程模型

在支持内核级线程的系统中,根据用户级线程和内核级线程的映射关系,可以划分为几种多线程模型

  • 一对一模型:一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程
    • 优点:当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行
    • 缺点:一个用户进程会占用多个内核线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销
  • 多对一模型:多个用户级线程映射到一个内核级线程。且一个进程只被分配一个内核级线程
    • 优点:用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高
    • 缺点:当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可在多核处理机上并发运行

重点:操作系统只 "看得见" 内核级线程,因此只有内核级线程才是处理机分配的单位

  • 多对多模型:n 用户级线程映射到 m 个内核级线程 (n>=m)。每个用户进程对应 m 个内核级线程
    • 克服了多对一模型并发度不高的缺点,又克服了一对一模型中一个用户进程占用太多内核级线程,开销太大的缺点

# 线程的状态与转换

三状态转换图

线程的组织与控制:

组织控制图