6/2/2018 - 12:21 PM

論文を読んだときのメモ

A_New_Data_Structure_forCumulative_Frequency_Tables.md

Rendered
Source

1994年の論文

summary

binary indexed treeは動的算術圧縮を支援するために必要である累積頻度を維持するために提示された新しい手法. table elementのindexを並列にbinary表現する累積頻度を部分に分解することが基になっている. データ構造を横断する操作は indexのbinary codingが基になっている. 以前の方法で比較すると, よりコンパクトなデータとシンプルなコードを用いることで binary indexed treeは速い. すべての操作のaccess timeは定数時間か table sizeの対数時間に比例する. コンパクトなデータ構造と一緒にこれは large symbol alphabetsにとって部分的に適切な新しい手法を作る.

Introduction

適応算術データ圧縮の大部分のコストは継続するシンボルの範囲を削減するのに必要な累積頻度のテーブルののメンテナンスである. Neal and Clearyは最も頻度の高い記号を最も近い場所に置いて置くことのできる move-to-front mappingを提供することでプログラムを簡単にした. それは歪められたアルファベットでもよく動く. しかし、ましてより記号頻度の区域を整えられたものより効率的とは言えない. Moffatは linear-timeですべてのsymbolに到達できる木の構造を記述した. Jonesは頻度テーブルを取り扱い、最適化されたデータ構造を提供するために splay trees を用いた. この３つのテクニック MTF, HEAP, SPLAYはそれぞれこの論文で参照されるでしょう.

全ての場合に置いて彼らはデータ構造の中の使用されているシンボルの頻度を保ち続けようとした.

この論文では、一つの配列のみを頻度を保存するために使う新しい手法を記述している. しかし、注意深く選ばれたパターンの中でそれらを保存することは indexの要素の中の 1bitの数に比例する. このコストは更新とテーブルへの問い合わせの両方に対してである. 他の方法と比較すると単純でコンパクトであり速い. さらにデータの再編や移動の必要がない.

Principles

基本的なアイデアは, ちょうど整数が 2つの適切な力の合計であるように累積頻度を累積するsubfrequenciesの組の合計が適切になるような代表にすることである. つまり、もしindexが2bitを含んでいたら 2つの頻度を含み、もし8bit含んでいたら8つの頻度をもっている. 図1に16サイズのテーブルを示す.

最初の行は単純にindexである. 2行目はテーブルの中身を示している. 例えば4というindexの要素は1から4までの頻度の要素の合計を含んでいる. さらに， indexが6の要素は5~6までの頻度の合計である. 最後の三つの行は, 実際の例を表している. 以下の議論の通り，保存された値とitem頻度は二つの配列VとFをそれぞれ考慮している.

基本的な操作は古いindexから最低で一つのindexを除去することで新しいindexを計算を起こす. そしてこのオペレーションをindexが0になるまで繰り返す. 最初の11のindexでは，11, 10, 8, 0の列を算出する. 11番目の累積頻度を読むと合計はV[11] + V[10] + V[8] + V[0]という計算で成り立っている事がわかる. テーブルの二行目を戻って参照すると，この列がF[11] + F[9..10] + F[1..8] + F[0]という頻度で分けて見る事ができる. 最後の値つまり，F[0..11]は求められた結果である．

indexed methodは図2で表されているような部分頻度のテーブルの以内で木を生成する. それぞれのbarは配列の要素の頻度の範囲を表している. 任意のノードからルートまで木を横切る事は必要な頻度の全てを足し合わせれば良いことは明確である.

代わりに, 従来の形を描く事もできる. 実際にそのテーブルは二つの異なる木である.

Cacher is the code snippet organizer for pro developers

We empower you and your team to get more done, faster

論文を読んだときのメモ

summary

Introduction

Principles