课件视频观看量预测 基于概率生成模型的课程的课件观看量预测

PVBM 预测模型 Probabilistic Viewing Behavior Model

PVBM是根据课件总量、学期天数、考试时间、学生数量、入学速率及日学习量这六个参数对学生的视频观看次数进行预测的模型。其核心在于通过计算每个学生在学期中每天观看视频的概率,模拟产生该课程整个学期各资源的访问状况。

该模型按如下公式计算学生 $i$ 在第 $t$ 天观看视频课件事件的概率 $p_i(t)$:

$$ p_i(t) = \begin{cases} \frac{w_{i,t}}{C}\times(1-\frac{s_i}{D})\times\frac{t}{E}, & t\le E \\ \frac{w_{i,t}}{C}\times(1-\frac{s_i}{D})\times\frac{E}{t}, & t > E \\ \end{cases} $$

其中:
$w_{i,t}$ 为学生 $i$ 在第 $t$ 天的累积观看视频课件次数;
$s_i$ 表示学生 $i$ 开始学习日期距学期开始的天数;
$p_i(t)$ 表示学生 $i$ 在学期第 $t$ 天观看课件的概率;
$E$ 表示课程考试日期距学期开始的天数;
$C$ 表示课程视频课件总数量;
$D$ 表示课程学期总天数.

基于 $p_i(t)$ 设计学习过程生成算法:

Step 1. 判断当前学生数量是否等于学生总数 $N$,如果是,则进入 Step 2;否则,加入 $u$ 名学生至学生列表 $L$,并对其初始化

Step 2. 计算已到课学生的 $p_i(t)$, 并按如下公式更新 $w_{i,t}$,其中 $\Delta w$ 为学生每次学习时观看视频课件次数

$$ w_{i,t} = \begin{cases} w_{i,t-1} + \Delta w, & with \; p_i(t) \; probability \\ w_{i,t-1}, & with \; 1 - p_i(t) \; probability \end{cases} $$

Step 3. 当 $t$ 等于 $D$ 时,算法结束,否则 $t=t+1$,转到Step 1

计算指标

根据上述模型,可以针对课程的课件,预估以下的关键指标以及具体细节:

最终预估总观看次数: 在课程考试结束后,该课程的课件被观看的总次数(人次)

最终预估到课率统计: 在课程考试结束后,所有学生访问课件的次数与应访问次数的比值,平均值和中位数

最终预估利用率统计: 在课程考试结束后,所有课件被累积被访问次数与应访问次数的比值,平均值和中位数

以下计算过程使用 API /api/course_cvpredict

模型参数输入 Parameters of PVBM model

课件总量 C
学期天数 D
考试时间 E

预计人数 N
入学速率 u
日学习量 dw
最终预估总观看次数
Final Estimated Total PV
-
最终预估到课率统计
Final Enroll Stat.
-
最终预估利用率统计
Final Utility Stat.
-

课件访问数量分布情况 / Estimated CV Visited Distribution

根据 PVBM 的模拟,可以产生学期内每个课件的总访问量,进而估算课件的利用情况,为调整课程设计提供参考。根据模拟结果,排在较前位置的课件被访问的次数较多,越往后则越少。而当总课件数量较少时,总体的访问情况会较好。造成这一现象的部分原因是课件的数量对于学习者的学习压力感受,过多的课件可能会使学习者有学习挫折感,进而导致较低的学习概率。课件视频总访问量分布(TV):每个视频课件的累计被访问次数

$$ TV = \{ \sum_{i=1}^{N}\sum_{t=1}^{D}s_{i,j,t} \;| \; j = 1...C, s\in \{0,\Delta w \} \} $$

其中,$s_{i,j,t}$ 为第 $i$ 个学生第 $t$ 天对第 $j$ 个课件的访问次数

学生访问数量分布情况 / Estimated Access Distribution

根据 PVBM 的模拟,可以产生每个学生最终访问课件总数的分布情况,横轴是按照学生入学的时间顺序排列,纵轴代表课件访问的数量。可以看出随着学期的推进,入学较晚的学生最终观看课件的数量也相对较少,但也有部分学生可能在学期末集中观看。学期末时各学生对课件的访问情况分布(SV):按入学日期升序排列的学生的累计课件访问次数分布

$$ SV = \{ \sum_{j=1}^{C}\sum_{t=1}^{D}s_{i,j,t} \;|\; i = 1...N \} $$

其中,$s_{i,j,t}$ 为第 $i$ 个学生第 $t$ 天对第 $j$ 个课件的访问次数

累计访问数量历史 / 累计利用率 Estimated PV/Utility History

课件的累计访问数量历史(VH):课程所有课件的累计被访问次数随时间的变化情况

$$ VH = \{ \sum_{j=1}^{C}\sum_{i=1}^{N}s_{i,j,t} \;|\; t = 1...D \} $$

其中,$s_{i,j,t}$ 为第 $i$ 个学生第 $t$ 天对第 $j$ 个课件的访问次数

课程整体利用率历史(URH):课程所有课件的整体利用率随时间的变化情况

$$ URH = \{ \frac{ \sum_{j=1}^{C}\sum_{i=1}^{N}s_{i,j,t} }{C \times N} \;|\; t = 1...D \} $$

其中,$s_{i,j,t}$ 为第 $i$ 个学生第 $t$ 天对第 $j$ 个课件的访问次数

访问数量排行榜 / 访问概率分布 Estimated Rank List / Estimated PDF

学生的视频总访问量排行榜(STV):学生累计视频观看次数分布,按照视频观看次数降序排列

$$ STV = \{ \sum_{j=1}^{C}\sum_{t=1}^{D}s_{i,j,t} \;|\; i = 1...N \}_{sorted} $$

其中,$s_{i,j,t}$ 为第 $i$ 个学生第 $t$ 天对第 $j$ 个课件的访问次数

学生的视频总访问量概率分布 p(STV):对学生累积视频观看次数的概率分布进行统计

$$ p(stv) = Pr(\{ v \in V : X(v) = stv \}) $$

其中,v 代表每个学生样本,$stv$ 代表访问量,$p(stv)$ 代表了学生访问量为 $stv$ 的概率