rongmu
12/5/2015 - 5:57 PM

2015.12.04-learner_corpus-2

2015.12.04-learner_corpus-2

トークン数と TTR について少し数学的に考えてみると、プロットの結果が当たり前のことです。

トークン数とタイプ数は線形的な関係にあると仮定します。

$$
type =  \beta_0 + \beta_1 \cdot token
$$

$token = 1$ の場合、$type=1$ になるので、$\beta_0$ と $\beta_1$ の和が $1$ に決まっています。

$$\beta_0 + \beta_1 = 1$$


もし全ての単語が異なっているのなら、$type = token, \: \beta_1 = 1$になります。もし全ての単語が同じなら、$type = 1, \: \beta_1 = 0$ になります。$\beta_1$ の範囲は、$0$ から $1$ までです。

$$0 \le \beta_1 \le 1$$

TTR については、以下の関係が成り立ちます。

$$
\begin{eqnarray} 
TTR & = & \frac{type}{token} \\
       & = & \beta_0 \cdot \frac{1}{token} + \beta_1 \\
       & = & (1 - \beta_1) \cdot \frac{1}{token} + \beta_1 
\end{eqnarray} 
$$

トークン数とタイプ数が同じ線形関係に従うという2つのテキスト $i$ と $j$ があって、そのトークン数が $token_i < token_j$ であるのなら、TTR の差が下のようになります。

$$
\begin{eqnarray} 
TTR_i - TTR_j & = & (1- \beta_1) \cdot (\frac{1}{token_i} - \frac{1}{token_j}) \\
                     & = & (1- \beta_1) \cdot \frac{token_j - token_i}{token_i \cdot token_j}
\end{eqnarray} 
$$

$1 \le token_i < token_j$ であるので、$0 \le \beta_1 < 1$ である限り、$TTR_i > TTR_j$ になります。$\beta_1 = 1$ つまり $type = token$ だと、TTR が常に $1$ であり、差が $0$ になります。

したがって、$type < token$ である限り、トークン数が増えると、TTR が小さくなります。

----

GI については、以下の関係が成り立ちますが、複雑そうです。

$$ 
\begin{eqnarray}
GI & = & \frac{type}{\sqrt{token}} = TTR \cdot \sqrt{token} \\
     & = & (1 - \beta_1) \cdot \frac{1}{\sqrt{token}} + \beta_1 \cdot \sqrt{token}
\end{eqnarray} 
$$