[Reading] DeltaCon : A Principled Massive-Graph Similarity Function (Kor)
Contents
Koutra, D., Vogelstein, J. T., & Faloutsos, C. (2013). DeltaCon : A Principled Massive-Graph Similarity Function. Proceedings of the 2013 SIAM International Conference on Data Mining, 10(3), 162โ170.
Introduction
์ด๋ฒ์ ์ ๋ฆฌํ ๋ ผ๋ฌธ์ DELTACON ์ด๋ผ๋ Graph similarity metric์ ์ ์ํ, DELTACON: A Principled Massive-Graph Similarity Function์ผ๋ก, 2013๋ SIAM International Conference on Data Mining์ ๋ฐํ๋ ๋ ผ๋ฌธ์ ๋๋ค. (SIAM๊ณผ IEEE์์ ์งํํ๋ ๋๊ฐ์ ์ด๋ฆ์ Conference๊ฐ ์์ด์, ์ด์ชฝ์ ๋ณดํต SDM์ผ๋ก ์ฝ์นญํฉ๋๋ค). ์ด ๋ ผ๋ฌธ์์๋ ๊ทธ๋ํ ์ ์ฌ๋๊ฐ ๋ง์กฑํด์ผ ํ ๊ธฐ๋ณธ์ ์ธ ๊ธฐ์ค๋ค์ ์ ์ํ๊ณ , ๊ทธ ๊ธฐ์ค์ ๋ง๋ ์ค์ ์ ์ฌ๋ ๋ฉํธ๋ฆญ์ ์ ์ํ์์ต๋๋ค.
๋ ๊ทธ๋ํ $G_1 = (V_1, E_1), G_2 = (V_2, E_2)$ ๊ฐ ์ฃผ์ด์ก์ ๋, ์ฐ๋ฆฌ๋ ๋ ๊ทธ๋ํ์ ์ ์ฌ๋
๋ฅผ ์ธก์ ํ๋ ์ด๋ค ์ข์ ๋ฉํธ๋ฆญ์ ๊ฐ๊ณ ์ถ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํฐ ๊ทธ๋ํ $G$๊ฐ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ๋ณํํ๋ค๋ฉด - ์ฆ, $G_1, \dots G_n$ ์ ๋ํด์, $d(G_i, G_{i-1})$ ์ด ์ต๋์ธ ์์ $i$๋ฅผ ํ์ธํ๋ฉด anomally๋ฅผ ์ ์ ์์ ๊ฒ์
๋๋ค. ์ด ๋
ผ๋ฌธ์์๋ Node correspondence๊น์ง ์ฃผ์ด์ง ์ํฉ์์์ ๊ทธ๋ํ ์ ์ฌ๋์ ๋ํด์๋ง ๋ค๋ฃน๋๋ค.
Key Ideas
Concepts
๋ญ๊ฐ ๋ ธ๋ ๊ฐ์ ์ฐ๊ฒฐ๊ด๊ณ๋ฅผ ์์นํํด์ ์๊ณ ์๋ค๋ฉด, ์ด๋ฅผ ๋น๊ตํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด, Random walk with Restart ๊ฐ์ ๋ฐฉ๋ฒ์ ์ด์ฉ (์ด ๋ฐฉ๋ฒ์ ๋ํ ์ค๋ช ์ Advanced-algorithm ์ชฝ์ผ๋ก ์ ๊ฐ ํฌ์คํ ํ ์ ์ด ์์ต๋๋ค. ๋งํฌ) ํ์ฌ, ๋ ธ๋๊ฐ์ ์ฐ๊ฒฐ์ ๋๋ฅผ ํ๋ ฌ๋ก ๋ง๋ค์ด ๋จ๋ค๋ฉด ์ด ํ๋ ฌ์ด ๊ทธ๋ํ์ ์ด๋ค ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋, RwR์ ์๋๊ณ ์ด๋ณด๋ค ์ข๋ ์ต์ ์ด๋ฉฐ ์ฌ๋ฌ ์ข์ ์ฑ์ง์ ๊ฐ๋ Fast Belief Propagation์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ๋, ๋ ธ๋ ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ํฌํจํ๋ $n \times n$ ํ๋ ฌ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค. \(S = [s_{ij}] = \left(I + \epsilon^2 D - \epsilon A\right)^{-1}\) ์ฌ๊ธฐ์, $A$๋ ๊ทธ๋ํ์ ์ธ์ ํ๋ ฌ์, $D$๋ ๋ ธ๋ $i$์ degree๋ฅผ $d_{ii}$๋ก ํ๋ ๋๊ฐํ๋ ฌ์ ์ฌ์ฉํฉ๋๋ค.
Similarity measure properties
์ด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ช๊ฐ์ง ์ฑ์ง๋ค์ Graph Similarity Measure๊ฐ ๊ฐ์ ธ์ผ ํ ์ฑ์ง๋ค์ด๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค. ์๋น์๊ฐ ์ฐ๋ฆฌ์ ์ง๊ด์ ๊ธฐ๋ฐํ์๊ธฐ ๋๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ์ดํดํ ์ ์์ต๋๋ค.
- Identity : $sim(G, G) = 1$. ๋งค์ฐ ์์ฐ์ค๋ฝ์ต๋๋ค.
- Symmetry : $sim(G_1, G_2) = sim(G_2, G_1)$. ์ญ์ ๋งค์ฐ ์์ฐ์ค๋ฝ์ต๋๋ค.
- Zero Property : Complete graph $K_n$ ๊ณผ Vertex $n$๊ฐ์ edge๋ ํ๋๋ ์๋ zero graph $Z_n$์ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. ์ด๋, $d(K_n, Z_n) \to 0$ as $n \to \infty$ ๋ฅผ ์ํฉ๋๋ค.
- Edge Importance : Edge๊ฐ ๋ฌ๋ผ์ง๋ ๋ณํ๋ค ์ค, connected component์ ๊ฐ์๊ฐ ๋ฐ๋๋ฉด ํนํ ๋ ํฐ ์ฐจ์ด๋ก ๊ฐ์ฃผํฉ๋๋ค. ์ฆ, $K_n$ ๊ณผ $K_n$์ edge ํ๋๋ก ์ด์ด๋์ ๊ทธ๋ํ์์ bridge๋ ๋ค๋ฅธ edge๋ค๋ณด๋ค ๋ ์ค์ํฉ๋๋ค.
- Weight Awareness : Weighted graph์์, weight์ด ํฐ edge์์ ์ผ์ด๋๋ ๋ณํ๋ ๋ ์ค์ํฉ๋๋ค.
- Submodularity : ๊ฐ์ ํฌ๊ธฐ์ ๊ทธ๋ํ์์, edge ํ๋์ ์ค์๋๋ dense graph์์๊ฐ sparse graph์์๋ณด๋ค ๋ ์ค์ํฉ๋๋ค.
- Focus Awareness : ๊ทธ๋ํ์์ edge๋ค์ ๋ณํ (์ถ๊ฐ ๋๋ ์ ๊ฑฐ) ๊ฐ ์ด๋ฃจ์ด์ง ๋, ํ ์ ์ ๋ ธ๋ฆฌ๊ณ ํ์ชฝ์ ์ง์ค๋ ๋ณํ๋ ๋๋คํ ๋ณํ๋ณด๋ค ๋ ์ค์ํฉ๋๋ค.
DELTACON Algorithm
DELTACON์ ์์ ์ ์ํ ํ๋ ฌ $S$๋ฅผ ์ด์ฉ, ๋ค์๊ณผ ๊ฐ์ distance๋ฅผ ๊ณ์ฐํฉ๋๋ค. \(d(G_1, G_2) = \sqrt{\sum_{i = 1}^{n} \sum_{j = 1}^{n} \left(\sqrt{S_1(i, j)} - \sqrt{S_2(i, j)}\right)^2}\) ํ๋ ฌ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ๊ต์ฅํ ํน์ดํ๊ฒ ์ ์๋๋๋ฐ, ์ด๋ฅผ Jefries-Matusita distance ๋ผ๊ณ ๋ถ๋ฅธ๋ค๊ณ ํฉ๋๋ค. ๋ฃจํธ์ ์ฐจ๋ฅผ ์ ๊ณฑํ๋ ์ ๊ธฐํ ๋ฐฉ์์ผ๋ก ๋์ํ๋๋ฐ, ์ผ๋ฐ์ ์ธ Euclidean distance์๋ ๋ฌ๋ฆฌ ์ด distance๋ฅผ ์ฌ์ฉํ ๋ ์ ์ฑ์ง๋ค ์ ์ ๋ง์กฑํฉ๋๋ค. ์ด ๋ถ๋ถ์ ์ด ๋ ผ๋ฌธ์์ ์ํ์ ์ผ๋ก ์๋ฐํ๊ฒ ๋ ผ์ฆ๋์ง๋ ์์๊ณ , ๋ฐ์ดํฐ ๊ทธ๋ํ์ ๋ํด ์คํ์ ์ผ๋ก ๊ฒ์ฆ๋์์ต๋๋ค.
์ฐ๋ฆฌ๋ ๊ทธ๋ํ ์ ์ฌ๋๋ฅผ $[0, 1]$ ์ ์ง์ด๋ฃ๊ณ ์ถ๊ธฐ ๋๋ฌธ์, $sim(G_1, G_2) = \frac{1}{1 + d(G_1, G_2)}$ ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด sim ํจ์๋ฅผ DELTACON์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
Scalability
Anomally detection ๋ฑ์ ์ฐ์ธ๋ค๋ ๊ฒ์ ํตํด ์ ์ ์๋ฏ์ด, ๊ทธ๋ํ ์ ์ฌ๋๋ ๋ง์ ์์ ๊ทธ๋ํ๋ฅผ ๋์์ผ๋ก ํด์ผ ํ ์๋ ์๊ธฐ ๋๋ฌธ์, ๊ฐ๋ฅํ ๋นจ๋ผ์ผ ํฉ๋๋ค.
Deltacon ์๊ณ ๋ฆฌ์ฆ์์ ๊ฐ์ฅ ์ค๋ ๊ฑธ๋ฆฌ๋ ๋ถ๋ถ์ $S$ํ๋ ฌ์ ๊ณ์ฐ์ ๋๋ค. $S$ํ๋ ฌ์ $S = [s_{ij}] = \left(I + \epsilon^2 D - \epsilon A\right)^{-1}$ ์ ๊ฐ์ด ์ญํ๋ ฌ๋ก ์ ์๋๋๋ฐ, ์ผ๋ฐ์ ์ธ matrix๊ฐ ์๋๋ผ ํน์ํ graph structure๊ฐ ์๊ธฐ ๋๋ฌธ์ FaBP ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ $O(n^2)$ ์๊ฐ์ ๊ณ์ฐํ ์ ์๋ค๊ณ ํฉ๋๋ค. ์ดํ์ Matusita distance๋ ๋น์ฐํ $O(n^2)$์ ๊ณ์ฐ ๊ฐ๋ฅํ๋ฏ๋ก, ์ด ์๊ณ ๋ฆฌ์ฆ์ $O(n^2)$ ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ DELTACON์ ์ข๋ ๋น ๋ฅด๊ฒ ์๋ํ๋ approximation ๋ฒ์ ์ ์ ์ํ๊ณ ์์ต๋๋ค. $n^2$๋ณด๋ค ๋น ๋ฅด๊ฒ ํ๊ธฐ ์ํด์๋, Matusita distance ๊ณ์ฐ์ด ์ผ๋จ $O(n^2)$ ์๊ฐ์ ๋ฌด์กฐ๊ฑด ๊ฑธ๋ฆฌ๊ธฐ ๋๋ฌธ์ ํ๋ ฌ ์์ฒด๋ฅผ ์ค์ฌ์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด, affinity๋ฅผ ๊ณ์ฐํ๊ธฐ๋ ํ๋๋ฐ ๋ ธ๋ $i$์ ๋ํด ๋ชจ๋ ๋ ธ๋ $j$์ affinity๊ฐ ์๋, ๋ ธ๋๋ฅผ ์ ๋นํ ๋ฌถ์ด $g$๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ง๋ค์ด์ $i$์์ $j$๋ฒ ๊ทธ๋ฃน์ผ๋ก์ affinity๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด๋ ์ฆ, $S$ํ๋ ฌ์์ ์์๋ก ์ด๋ค์ $g$๊ฐ์ group์ผ๋ก ๋ฌถ์ด์ ๋ํจ์ผ๋ก์จ $n \times g$ํ๋ ฌ์ ๋ฌถ๋๋ค๋ ๊ฒ์ ๋๋ค. $g$๋ฅผ ์ถฉ๋ถํ ์๊ฒ ํ๊ณ , ๊ตฌํ์ ์ ํ๋ฉด ์ด ์๊ณ ๋ฆฌ์ฆ์ edge ๊ฐ์์ ๋ํด linearํ๊ฒ ๋๊ฒ ํ ์ ์๋ค๊ณ ํฉ๋๋ค.
์ด๋, ์ด๋ ๊ฒ approximateํ similarity๋ ํญ์ ์ค์ similarity๋ณด๋ค ํฐ ๊ฐ์ ๊ฐ์ต๋๋ค. (์ฆ๋ช ์ ๋ถ๋ก์ ์๊ณ , ๊ทธ๋ ๊ฒ ์ด๋ ต์ง๋ ์์ต๋๋ค. ๋งํฌ)
Conclusion
DELTACON์ ๋ฌด์๋ณด๋ค Graph Similarity Measure๊ฐ ๊ฐ์ ธ์ผ ํ ์ข์ ์ฑ์ง๋ค์ (์ ์ฑ์ ์ผ๋ก๋๋ง) ์ ์ํ์๊ณ , ์ด ์ฑ์ง๋ค์ ๋ง์กฑํ๋ ์ค์ similarity measure๋ฅผ ์ฐพ์๋์ผ๋ฉฐ, ์คํ์ ์ผ๋ก ์ด๋ฅผ ๊ฒ์ฆํ์๋ค๋ ์์๊ฐ ์์ต๋๋ค. ํนํ ๋ค๋ฅธ Similarity measure (Graph edit distance, spectral methods ๋ฑ) ๋ค์ ์ด๋ฌํ ๊ทธ๋ํ์ ๋ํ ์ง๊ด์ ์ธ ์ฑ์ง๋ค์ด ์ ํ ๊ณ ๋ ค๋์ง ์์๋๋ฐ, ์ด๋ฐ ์ ์ฌ๋๋ค์ ๋นํด DELTACON์ด ์ผ๋ง๋ ์ ์ํ ์กฐ๊ฑด๋ค์ ์ ๋ง์ถ๋์ง๋ฅผ ์๋นํ extensiveํ ์คํ์ ํตํด ๊ฒ์ฆํ์์ต๋๋ค. ํนํ Graph edit distance ๋ฑ ๊ณ์ฐ ์๊ฐ์ด ๊ต์ฅํ ์ค๋ ๊ฑธ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋นํด, exact๋ quadratic์ด๊ณ ์ด๋ฅผ edge ๊ฐ์์ ์ ํ์ด ๋๊ฒ ๋ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ํ์ฉ์ด ๊ฐ๋ฅํ ๊ฒ ๊ฐ์ต๋๋ค.
Thoughts
-
Graph์ ๋ ธ๋ ๋์ edge์ label์ด ์ฃผ์ด์ง๋ค๋ฉด, ์ด๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ํ์ฅํ ์ ์์๊น์?
- ์คํ์ ๊ฒ์ฆ์ ๋์ด์์, ์ฑ์ง๋ค์ ์์์ผ๋ก ํํํ๊ณ ๋
ผ์ฆํ๋ ๋ฐฉ๋ฒ์ ์์๊น์?
- ๋ถ๋ก์๋ Edge importance ์ฑ์ง๊ณผ zero property์ ๋ํด์๋ ์ฆ๋ช ํ๊ณ ์์ผ๋ฉฐ, ๋๋จธ์ง ์ฑ์ง๋ค์ ๋ํด์๋ interesting future work ๋ผ๊ณ ๋จ๊ฒจ๋์์ต๋๋ค.
- Focus Awareness์ ๊ฐ์ ์ฑ์ง๋ค์ด ๋ฌธ์ ์ธ๋ฐ.. ์ ๊น ์๊ฐํด๋ณด๋ฉด, edge ํ๋๊ฐ ๋ณํํ ๋, ๊ฐ ์ $i$์ ๋ํด ์๋ก ์๊ธด/์ ๊ฑฐ๋ edge๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด ์ ์์ต๋๋ค. ์ด ๊ฑฐ๋ฆฌ๋ฅผ $x_i$๋ผ๊ณ ํ๋ฉด, ๋ณํ $m$๋ฒ์ ๋ํด ํ๋ ฌ $x_{m, i}$๋ฅผ ์๊ฐํ ์ ์๊ฒ ์ต๋๋ค. Edge๊ฐ ํ์ชฝ์ ํ๊ฒํ ํ๋ค๋ ๊ฒ์, $x_{m, i}$์ ๊ฐ ์ด - ์ฆ, $m$๋ฒ์ ๋ณํ๊ฐ ์ด vertex๋ก๋ถํฐ ์ผ๋ง์ ๊ฑฐ๋ฆฌ์์ ์ผ์ด๋๋์ง๋ฅผ ๋ชจ์ ๋ฒกํฐ - ์ ํ์คํธ์ฐจ ๊ฐ์ ํต๊ณ์ ์ธ ์ฑ์ง๋ค์ ์ด์ฉํ์ฌ ์ธก์ ํ ์ ์์ ๊ฒ ๊ฐ๊ธฐ๋ ํฉ๋๋ค.
-
Edge ํ๋๊ฐ ๋ณํํ๋ฉด์, ๋ณํ ์ ๊ทธ๋ํ $G$์ ๋ณํ ํ ๊ทธ๋ํ $Gโ$๊ฐ์ deltacon similarity ๋๋ ๊ทธ ๊ทผ์ฌ๊ฐ์ ์ธก์ ํ๋ ๋ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ ์์๊น์? ๋ฐ๋๋ edge๊ฐ 1๊ฐ์ธ๋ฐ $n^2$ ์ด๋ $n$ ์๊ฐ์ ์ง๋ถํ๊ธฐ๋ ์ข ์๊น์ต๋๋ค.
-
Zero Property์์, $d(K_n, G_n)$ ์ด ํญ์ 0์ด ์๋๋ผ 0์ผ๋ก ์๋ ดํ๋ค๋ ๊ฒ์ด ์ฝ๊ฐ ์ค๋ฌํฉ๋๋ค. ์ ์ฒด์ ์ผ๋ก ๊ทธ๋ํ ์ ์ฌ๋๊ฐ ํฌ๊ธฐ์ ๋ง์ ์ํฅ์ ๋ฐ๋ ๊ฒ ๊ฐ์ต๋๋ค.
- FaBP๊ฐ ์ $O(n^2)$ ์ ์๋ํ๋์ง๋ ์์ง ๊ณต๋ถํ์ง ๋ชปํ์ต๋๋ค. ์ ๋ฐ์ ์ผ๋ก ํ๋ฐ๋ถ์ ์๊ฐ ๋ณต์ก๋ ์ฆ๋ช ์ด ์ฝ๊ฐ ์ ๊ตฌํํ๋ฉด ๋๋ค ๋ ์์ผ๋ก ์ฐ์ฌ ์๊ณ , ์๋ฐํ๊ฒ ์ฆ๋ช ๋์ด ์์ง ์๋ค๋ ์ ์ ์กฐ๊ธ ์์ฌ์ ๋๋ฐ, Github Repo ์ ๊ฝค ์ฝ๊ธฐ ์ฌ์ด ์ฝ๋๊ฐ ์์ด์ ๊ทธ๋ญ์ ๋ญ ๋ฉ๋ํ ์ ์์์ต๋๋ค. Sparse matrix์ ์ฑ์ง์ ์ ์ฌ์ฉํ๋ ๊ฒ ๊ฐ์ต๋๋ค.