搶占式調度

本文轉載自查看原文 2021-06-27 12:22 775 進程管理

什么情況下會發生搶占呢？最常見的現象就是一個進程執行時間太長了，是時候切換到另一個進程了。

那怎么衡量一個進程的運行時間呢？在計算機里面有一個時鍾，會過一段時間觸發一次時鍾中斷，通知操作系統，時間又過去一個時鍾周期，這是個很好的方式，可以查看是否是需要搶占的時間點。

時鍾中斷處理函數會調用 scheduler_tick()。

void scheduler_tick(void)
{
  int cpu = smp_processor_id();
  // 1. 取出當前 CPU 的運行隊列
  struct rq *rq = cpu_rq(cpu);
  // 2. 得到這個隊列上當前正在運行中的進程的 task_struct
  struct task_struct *curr = rq->curr;
  ......
  // 3. 調用這個 task_struct 的調度類的 task_tick 函數，來處理時鍾事件
  curr->sched_class->task_tick(rq, curr, 0);
  cpu_load_update_active(rq);
  calc_global_load_tick(rq);
  ......
}

// 如果當前運行的進程是普通進程，調度類為 fair_sched_class，調用的處理時鍾的函數為 task_tick_fair
static void task_tick_fair(struct rq *rq, struct task_struct *curr, int queued)
{
  // 根據當前進程的 task_struct，找到對應的調度實體 sched_entity 和 cfs_rq 隊列，調用 entity_tick
  struct cfs_rq *cfs_rq;
  struct sched_entity *se = &curr->se;

  for_each_sched_entity(se) {
    cfs_rq = cfs_rq_of(se);
    entity_tick(cfs_rq, se, queued);
  }
  ......
}


static void entity_tick(struct cfs_rq *cfs_rq, struct sched_entity *curr, int queued)
{
  // 更新當前進程的 vruntime
 update_curr(cfs_rq);
  update_load_avg(curr, UPDATE_TG);
  update_cfs_shares(curr);
  .....
  if (cfs_rq->nr_running > 1)
    // 檢查是否是時候被搶占了
 check_preempt_tick(cfs_rq, curr);
}


static void check_preempt_tick(struct cfs_rq *cfs_rq, struct sched_entity *curr)
{
  unsigned long ideal_runtime, delta_exec;
  struct sched_entity *se;
  s64 delta;

  // ideal_runtime 是一個調度周期中，該進程運行的理想時間
  ideal_runtime = sched_slice(cfs_rq, curr);
  // sum_exec_runtime 指進程總共執行的實際時間;
  // prev_sum_exec_runtime 指上次該進程被調度時已經占用的實際時間。
  delta_exec = curr->sum_exec_runtime - curr->prev_sum_exec_runtime;
  // delta_exec 這次調度占用實際時間，如果大於 ideal_runtime，則應該被搶占了
  if (delta_exec > ideal_runtime) {
    resched_curr(rq_of(cfs_rq));
    return;
  }
  ......
  // 取出紅黑樹中最小的進程
  se = __pick_first_entity(cfs_rq);
 // 如果當前進程的 vruntime 大於紅黑樹中最小的進程的 vruntime，且差值大於 ideal_runtime，也應該被搶占了
  delta = curr->vruntime - se->vruntime;
  if (delta < 0)
    return;
  if (delta > ideal_runtime)
    resched_curr(rq_of(cfs_rq));
}

當發現當前進程應該被搶占，不能直接把它踢下來，而是把它標記為應該被搶占。

為什么呢？一定要等待正在運行的進程調用 __schedule 才行啊，所以這里只能先標記一下。

標記一個進程應該被搶占，都是調用 resched_curr，它會調用 set_tsk_need_resched，標記進程應該被搶占，但是此時此刻，並不真的搶占，而是打上一個標簽 TIF_NEED_RESCHED。

static inline void set_tsk_need_resched(struct task_struct *tsk)
{
  set_tsk_thread_flag(tsk,TIF_NEED_RESCHED);
}

另外一個可能搶占的場景是當一個進程被喚醒的時候。

當一個進程在等待一個 I/O 的時候，會主動放棄 CPU。但是當 I/O 到來的時候，進程往往會被喚醒。

這個時候是一個時機。當被喚醒的進程優先級高於 CPU 上的當前進程，就會觸發搶占。

try_to_wake_up() 調用 ttwu_queue 將這個喚醒的任務添加到隊列當中。

ttwu_queue 再調用 ttwu_do_activate 激活這個任務。

ttwu_do_activate 調用 ttwu_do_wakeup。

這里面調用了 check_preempt_curr 檢查是否應該發生搶占。

如果應該發生搶占，也不是直接踢走當前進程，而是將當前進程標記為應該被搶占。

static void ttwu_do_wakeup(struct rq *rq, struct task_struct *p, int wake_flags,
         struct rq_flags *rf)
{
  check_preempt_curr(rq, p, wake_flags);
  p->state = TASK_RUNNING;
  trace_sched_wakeup(p);
  ......
}

到這里，搶占問題只做完了一半。就是標識當前運行中的進程應該被搶占了，但是真正的搶占動作並沒有發生。

搶占的時機

真正的搶占需要時機，也就是需要那么一個時刻，讓正在運行中的進程有機會調用一下 __schedule。

這個時機分為用戶態和內核態。

對於用戶態的進程來講，從系統調用中返回的那個時刻，是一個被搶占的時機。

64 位的系統調用的鏈路為：

do_syscall_64->syscall_return_slowpath->prepare_exit_to_usermode->exit_to_usermode_loop

static void exit_to_usermode_loop(struct pt_regs *regs, u32 cached_flags)
{
  while (true) {
    /* We have work to do. */
    local_irq_enable();

    if (cached_flags & _TIF_NEED_RESCHED)
      schedule();
    ......
  }
}

對於用戶態的進程來講，從中斷中返回的那個時刻，也是一個被搶占的時機。

在 arch/x86/entry/entry_64.S 中有中斷的處理過程。

common_interrupt:
        ASM_CLAC
        addq    $-0x80, (%rsp) 
        interrupt do_IRQ
ret_from_intr:
        popq    %rsp
        testb   $3, CS(%rsp)
        jz      retint_kernel
/* Interrupt came from user space */
GLOBAL(retint_user)
        mov     %rsp,%rdi
        call    prepare_exit_to_usermode
        TRACE_IRQS_IRETQ
        SWAPGS
        jmp     restore_regs_and_iret
/* Returning to kernel space */ retint_kernel:
#ifdef CONFIG_PREEMPT
        bt      $9, EFLAGS(%rsp)  
        jnc     1f
0:      cmpl    $0, PER_CPU_VAR(__preempt_count)
        jnz     1f
        call    preempt_schedule_irq
        jmp     0b

中斷處理調用的是 do_IRQ 函數，中斷完畢后分為兩種情況，一個是返回用戶態，一個是返回內核態。

先來看返回用戶態這一部分，retint_user 會調用 prepare_exit_to_usermode，最終調用 exit_to_usermode_loop，和上面的邏輯一樣，發現有標記則調用 schedule()。

對內核態的執行中，被搶占的時機一般發生在 preempt_enable() 中。

在內核態的執行中，有的操作是不能被中斷的，所以在進行這些操作之前，總是先調用 preempt_disable() 關閉搶占，當再次打開的時候，就是一次內核態代碼被搶占的機會。

preempt_enable() 會調用 preempt_count_dec_and_test()，判斷 preempt_count 和 TIF_NEED_RESCHED 是否可以被搶占。

如果可以，就調用 preempt_schedule->preempt_schedule_common->__schedule 進行調度。

#define preempt_enable() \
do { \
  if (unlikely(preempt_count_dec_and_test())) \
    __preempt_schedule(); \
} while (0)


#define preempt_count_dec_and_test() \
  ({ preempt_count_sub(1); should_resched(0); })


static __always_inline bool should_resched(int preempt_offset)
{
  return unlikely(preempt_count() == preempt_offset && tif_need_resched());
}


#define tif_need_resched() test_thread_flag(TIF_NEED_RESCHED)


static void __sched notrace preempt_schedule_common(void)
{
  do {
    ......
    __schedule(true);
    ......
  } while (need_resched())

在內核態也會遇到中斷的情況，當中斷返回的時候，返回的仍然是內核態。

這個時候也是一個執行搶占的時機，在上面中斷返回的代碼中返回內核的那部分代碼，調用的是 preempt_schedule_irq。

asmlinkage __visible void __sched preempt_schedule_irq(void)
{
  ......
  do {
    preempt_disable();
    local_irq_enable();
    __schedule(true);
    local_irq_disable();
    sched_preempt_enable_no_resched();
  } while (need_resched());
  ......
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 搶占式調度進程調度算法 —— 搶占式優先級調度 keepalived搶占式與非搶占式 PSA 優先級調度算法（非搶占式）（java） Linux進程調度與搶占 kubernetes Pod資源調度之優先(搶占)調度圖解kubernetes調度器搶占流程與算法設計 [K8s]Kubernetes-調度、搶占、驅逐 Erlang 進程被搶占的條件——一個進程長時霸占調度器的極端示例 10.深入k8s：調度的優先級及搶占機制源碼分析