時序點過程學習筆記

本文轉載自查看原文 2021-05-12 11:44 272 數據算法

https://zhuanlan.zhihu.com/p/110171621

一、什么是時序點過程

現實世界中有這么個問題：有這么一系列歷史事件，每個事件都有其對應的發生時間，也有其所屬的事件類型，基於這一系列歷史事件，預測下一個要發生的是什么類型的事件，以及其發生的時間。

比如下一次地震發生在何時，何地是事件類型，比如一種股票的下一次買賣將發生在何時，買入或賣出是事件類型，比如用戶將在何時去下一個目的地，目的地是哪里是事件類型。

點過程可以對這一系列歷史事件建模，來解決這個預測問題。

$\boldsymbol{s}=\left\{\left(t_{i}, d_{i}\right)\right\}_{i=1}^{l}, d_{i} \in \mathcal{D}=\{1, \ldots, D\}$

時序點過程的核心是強度函數 $\lambda(t)$ 。 $N_d(t)$ 是截止 $t$ 時刻之前事件類型 $d$ 發生的總次數。 $\lambda_d(t)dt$ 代表在時間窗口 $[t, t+dt]$ 內，事件類型 $d$ 發生的概率。

$\lambda_d(t)dt = \frac{\mathbb{E}\left[\mathrm{d} N_{d}(t) | \mathcal{H}_{t_{\text {last }}}\right]dt}{\mathrm{d} t}=\frac{p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)dt}{1-F\left(t | \mathcal{H}_{t_{\text {last }}}\right)}$

其中 $p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)$ 代表基於歷史行為，事件類型 $d$ 在 $t$ 時刻發生的條件概率密度函數； $F\left(t | \mathcal{H}_{t_{\text {last }}}\right)$ 代表基於歷史行為，至少有一個事件類型在 $(t_{last}, t]$ 發生的條件概率。強度函數 $\lambda(t)$ 為：

$\begin{aligned} \lambda(t) &=\sum_{d=1}^{D} \lambda_{d}(t) \\ &=\sum_{d=1}^{D} \frac{p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)}{1-F\left(t | \mathcal{H}_{t_{\text {last }}}\right)}=\frac{p\left(t | \mathcal{H}_{t_{\text {last }}}\right)}{1-F\left(t | \mathcal{H}_{\text {last}}\right)} \\ &=\frac{\frac{\mathrm{d} F\left(t | \mathcal{H}_{\text {last }}\right)}{\mathrm{d} t}}{1-F\left(t | \mathcal{H}_{\left.t_{\text {last }}\right)}\right.}=-\frac{\mathrm{d}}{\mathrm{d} t} \log \left(1-F\left(t | \mathcal{H}_{\text {last }}\right)\right) \end{aligned}$

$\begin{aligned} F\left(t | \mathcal{H}_{t_{\text {last}}}\right) &=1-\exp \left(-\int_{t_{\text {lsst}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(t | \mathcal{H}_{t_{\text {last}}}\right) &=\lambda(t) \exp \left(-\int_{t_{\text {last}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(t, d | \mathcal{H}_{t_{\text {lsst}}}\right) &=\lambda_{d}(t) \exp \left(-\int_{t_{\text {last}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(d | t, \mathcal{H}_{t_{\text {last}}}\right) &=\frac{\lambda_{d}(t)}{\lambda(t)} \end{aligned}$

因此，只要能根據歷史事件模擬出強度函數 $\lambda(t)$ ，則可以根據 $\lambda(t)$ 預測下一個事件。對 $\lambda(t)$ 的模擬將點過程分為傳統點過程和深度點過程。

二、傳統點過程

1.homogeneous poisson process假設 $\lambda(t)$ 獨立於歷史事件，且隨着 $t$ 的變化恆定，即 $\lambda(t) = \lambda_0\geq0$ 。inhomogeneous poisson process假設 $\lambda(t)$ 獨立於歷史事件，且隨着 $t$ 的變化而變化，即 $\lambda(t) = g(t)\geq0$

2.hawkes process 認為歷史事件有激勵作用: $\lambda(t)=\gamma_{0}+\alpha \sum_{t_{j}<t} \gamma\left(t, t_{j}\right),\gamma_{0}\geq0$ ， $\alpha\geq0$ ， $\gamma\left(t, t_{j}\right)=exp(-\beta(t-t_j))$ ， $\beta\geq0$

3. self-correcting process 認為強度函數的趨勢是一直在增大，但是當一個事件發生后，會先減小。 $\lambda(t)=\exp \left(\mu t-\sum_{t_{i}<t} \alpha\right)$ ， $\mu>0$ ， $\alpha>0$

三、深度點過程

傳統點過程缺點：

（1）傳統點過程對強度函數有着上述設定，很有可能不符合實際情況，比如歷史事件對強度函數的影響並不一定是累加的；

（2）如果有多種事件類型的話，還需作出各個事件類型是互相獨立的假設，並且對每個事件類型求強度函數；

（3）傳統點過程對數據的缺失處理不是很好，有時我們只能觀測到一部分事件。

深度點過程就無需這么麻煩，用神經網絡這樣的非線性函數模擬強度函數，這樣一個黑盒子無需設定任何先驗知識。

1. Recurrent Markd Temporal Point Processes:Embedding Event History to Vector（kdd2016）

輸入層：事件類型和發生時間為輸入。事件類型用詞向量，時間用時間的特征（比如是否周末，是否深夜等）

事件類型生成：普通的softmax

強度函數為：

$\lambda(t)=\exp (\underbrace{\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}}_{\text {past influence }}+\underbrace{w^{t}\left(t-t_{j}\right)}_{\text {current influence }}+\underbrace{b^{t}}_{\text {base intensity }})$

時間生成：用下面這種求平均值的算法比較復雜，沒有數值解，有一種簡單的解法，我還沒弄明白是啥...

$\begin{array}{l}f(t)=\lambda(t) \exp \left(-\int_{t_{j}}^{t} \lambda(\tau) d \tau\right) \\ =\exp \left\{\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+w^{t}\left(t-t_{j}\right)+b^{t}+\frac{1}{w} \exp \left(\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+b^{t}\right)\right. \\ \left.-\frac{1}{w} \exp \left(\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+w^{t}\left(t-t_{j}\right)+b^{t}\right)\right\}\end{array}$

$\hat{t}_{j+1}=\int_{t_{j}}^{\infty} t \cdot f(t) d t$

loss: $\ell\left(\left\{\mathcal{S}^{i}\right\}\right)=\sum_{i} \sum_{j}\left(\log P\left(y_{j+1}^{i} | \boldsymbol{h}_{j}\right)+\log f\left(d_{j+1}^{i} | \boldsymbol{h}_{j}\right)\right)$

實驗使用的四個數據集：

New York City Taxi Dataset：共173 million記錄，299個事件類型，670753 個序列

Financial Transaction Dataset：共0.7 million記錄，2個事件類型，693499 個序列

Electrical Medical Records：204個事件類型，650個病人的序列

Stack OverFlow Dataset ：共480k記錄，81個事件類型，6k用戶的序列

代碼地址: https://github.com/dunan/NeuralPointProcess

2. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process（nips 2017）

上一篇論文中，lstm的不同時步的hidden state是離散的，換句話說：當一個新事件發生后，斷崖式變化。本文提出一個連續的hidden state變化方式。

$\lambda_{k}(t)=f_{k}\left(\mathbf{w}_{k}^{\top} \mathbf{h}(t)\right)$ $\mathbf{h}(t)=\mathbf{o}_{i} \odot(2 \sigma(2 \mathbf{c}(t))-1) \text { for } t \in\left(t_{i-1}, t_{i}\right]$

事件 $i-1$ 到事件 $i$ 之間的 $t$ 時刻，強度函數由 $\mathbf{h}(t)$ 決定， $\mathbf{h}(t)$ 由 $\mathbf{c}(t)$ 決定。注意 $\mathbf{c}(t)$ 在上篇論文是沒有的哦，因為上一篇論文只有事件 $i-1$ 到事件 $i$ ，沒有他們之間的 $t$ 時刻

$\begin{aligned} \mathbf{i}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{i}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{i}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{i}}\right) \\ \mathbf{f}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{f}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{f}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{f}}\right) \\ \mathbf{z}_{i+1} & \leftarrow 2 \sigma\left(\mathbf{W}_{\mathbf{z}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{z}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{z}}\right)-1 \\ \mathbf{o}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{o}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{o}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{o}}\right) \end{aligned}$

$\begin{array}{l}\mathbf{c}_{i+1} \leftarrow \mathbf{f}_{i+1} \odot \mathbf{c}\left(t_{i}\right)+\mathbf{i}_{i+1} \odot \mathbf{z}_{i+1} \\ \overline{\mathbf{c}}_{i+1} \leftarrow \overline{\mathbf{f}}_{i+1} \odot \overline{\mathbf{c}}_{i}+\overline{\boldsymbol{\imath}}_{i+1} \odot \mathbf{z}_{i+1} \\ \boldsymbol{\delta}_{i+1} \leftarrow f\left(\mathbf{W}_{\mathrm{d}} \mathbf{k}_{i}+\mathbf{U}_{\mathrm{d}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathrm{d}}\right)\end{array}$

$\mathbf{c}(t) \stackrel{\text { def }}{=} \overline{\mathbf{c}}_{i+1}+\left(\mathbf{c}_{i+1}-\overline{\mathbf{c}}_{i+1}\right) \exp \left(-\boldsymbol{\delta}_{i+1}\left(t-t_{i}\right)\right) \text { for } t \in\left(t_{i}, t_{i+1}\right]$

這里的 $\mathbf{h}(t_i)$ 和 $\mathbf{c}(t_i)$ 都不和上一篇論文中一樣，而是 $\mathbf{h}(t)$ 和 $\mathbf{c}(t)$ 在 $t_i$ 時刻的值。

可見 $\mathbf{c}(t)$ 事件 $i$ 到事件 $i+1$ 之間從 $\mathbf{c}_{i+1}$ 向 $\overline{\mathbf{c}}_{i+1}$ 變化的，至於 $\overline{\mathbf{c}}_{i+1}$ 怎么來的，大概是訓練的參數吧（還沒太明白）。

loss是根據強度函數算的：

$\ell=\sum_{i: t_{i} \leq T} \log \lambda_{k_{i}}\left(t_{i}\right)-\underbrace{\int_{t=0}^{T} \lambda(t) d t}_{\text {call this } \Lambda}$

本文的測試數據集：

Retweets Dataset：3個事件類型，1739547 個序列，序列長度109

MemeTrack Dataset：5000個事件類型，93267 個序列，序列長度3

3. CTRec: A Long-Short Demands Evolution Model for Continuous-Time Recommendation（SIGIR 2019）

這篇文章主要是將深度點過程用在商品推薦上，之前的商品推薦只考慮推薦對的商品，沒有考慮在對的時間推薦對的商品，比如用戶剛買了個廁所讀物，不代表它喜歡廁所讀物，不能一直給他推薦廁所讀物，而應該考慮商品周期，等他看完了上一本，再給他推薦新的（長期需求）。再比如用戶買了個畫板，就得立馬推薦顏料了（短期需求）。總之，就是考慮用戶畫像、短期需求和長期需求。

論文有三個創新點：使用的連續lstm，就是上一篇論文中的；使用cnn捕捉短期需求；使用attention捕捉長期需求。

強度函數融合了用戶畫像、短期需求和長期需求。

$\lambda_{i}(t ; \theta)=f(\underbrace{w_{i}^{i t e m \top} \cdot h(t)}_{\text {short-term }}+\underbrace{w_{i}^{a t t r i^{\top}} \cdot \vartheta(t)}_{\text {long-term }}+\underbrace{w_{i}^{u s e r \top} \cdot u}_{\text {basic demands }})$

cnn使用k個核做多層卷積，最后average pooling。

attention：

$\alpha_{t, t_{j}}=\boldsymbol{h}\left(t_{j}\right)^{\top} \boldsymbol{i}_{t}-\lambda \log \left(\max \left\{\gamma, d_{a_{t}, a_{t_{j}}}^{u}-\Delta_{a_{t}, a_{t_{j}}}^{u}\right\}\right)$

$\mathcal{P}_{t}=\sum_{j=1}^{n} \frac{\exp \left(\alpha_{t, t_{j}}\right)}{\sum_{q=1}^{n} \exp \left(\alpha_{t, t_{q}}\right)} \boldsymbol{h}\left(t_{j}\right)$

$\begin{aligned} \ell\left(I_{t}^{u} ; \theta\right) &=\sum_{j=1}^{n} \log \operatorname{Pr}\left(i_{t_{j}} | I_{t_{j}}^{u}, \Delta t_{j}\right) \\ &=\underbrace{\sum_{j=1}^{n} \log \lambda_{i_{t_{j}}}\left(t_{j} ; \theta\right)}_{\text {purchase }}-\sum_{i_{\text {neg}} \in I} \int_{t_{1}}^{t_{n}} \lambda_{i_{\text {neg}}}(t) d t \\ &=\sum_{i_{\text {neg}} \in I} \sum_{j=1}^{n}\left(\frac{1}{|I|} \log \lambda_{i_{t_{j}}}\left(t_{j} ; \theta\right)-\int_{t_{j-1}}^{t_{j}} \lambda_{\text {ineg}}(t) d t\right) \end{aligned}$

$i_{n+\epsilon}=\arg \max _{i} \int_{t_{n}}^{t_{n+\epsilon}} \frac{\lambda_{i}(t ; \theta)}{\sum_{j \in I} \lambda_{j}(t ; \theta)} p_{i}(t ; \theta) d t, \epsilon \in \mathbb{N}^{*}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 以機器學習的視角來看時序點過程的最新進展以機器學習的視角來看時序點過程的最新進展 phpstorm設置斷點過程 OpenCms創建站點過程圖解——獻給OpenCms的剛開始學習的人們 UML時序圖(Sequence Diagram)學習筆記 FPGA時序約束學習筆記——IO約束 Xilinx約束學習筆記（三）—— 時序概念空間點過程&點格局分析 timequest靜態時序分析學習筆記之基本概念 timequest靜態時序分析學習筆記之命令約束