Mi A Fájl Entrópia

Mi A Fájl Entrópia
Mi A Fájl Entrópia

Videó: Mi A Fájl Entrópia

Videó: Mi A Fájl Entrópia
Videó: Entrópia 2024, Április
Anonim

Bármely számítógépes fájl bájtokból áll. Egy bájt 0 és 255 közötti értékeket vehet fel. Az információ entrópia olyan statisztikai paraméter, amely megmutatja a fájl bizonyos bájtjainak előfordulásának valószínűségét.

Mi a fájl entrópia
Mi a fájl entrópia

Vizuálisan felmérheti az entrópia mértékét egy hisztogram segítségével - annak a valószínűségnek az eloszlását, hogy ugyanazok a bájtok megismétlődnek egy fájlban. A fájl entrópiájából kitalálhatjuk, hogy milyen típusú fájl áll előttünk, csak annak hisztogramját látva.

Bemutatás céljából vegyünk három különböző fájlt, és hasonlítsuk össze hisztogramjaikat. Legyen az első szöveges fájl (*. TXT). Hisztogramját az ábra mutatja:

гистограмма=
гистограмма=

A szöveges fájl csak szöveget tartalmaz. A szöveg minden karakterét bizonyos bájtok kódolják a kódolási táblázatnak megfelelően. Noha nagyszámú kódolási típus létezik, nyilvánvaló, hogy korlátozott számú alfanumerikus karakter van, ez általában kevesebb, mint 255. Ezért az első hisztogramon csak néhány területet foglalnak el, és egyes bájtok egyáltalán nem.

A következő fájl PDF formátumban lesz:

гистограмма=
гистограмма=

Ez a fájl minden lehetséges bájtot tartalmaz, mivel a PDF kódolása eltér a szöveges fájloktól. Sok szolgáltatási információt tárol: formázást, betűtípusokat, képeket stb. De hisztogramja azt mutatja, hogy néhány bájt körülbelül azonos valószínűséggel fordul elő, míg mások - sokkal gyakrabban, mint mások. Ezért a hisztogram többszörös éles törése, és általában meglehetősen "rongyos" megjelenésű, bár a teljes elérhető szélességet elfoglalja.

Az utolsó fájl pedig 7Z formátumban van tömörítve:

гистограмма=
гистограмма=

Ennek a hisztogramnak két fő jellemzője van: egyrészt az összes bájt nagyjából azonos valószínűséggel (meglehetősen lapos felső él) található a ZIP fájlban, másrészt a hisztogram felett gyakorlatilag nincs szabad hely, ami szinte teljes hiányt jelez felesleget egy ilyen fájl. Ezért arra a következtetésre juthatunk, hogy az archiváló algoritmusa valamilyen speciális módon "összekeveri" a fájl bájtjait annak érdekében, hogy elérje a maximális egyenletes eloszlást.

Így az entrópia a számítástechnikában, akárcsak a fizikában, a rendszer rendellenességének, ebben az esetben a fájlban lévő bájtok eloszlásának mértéke. Az entrópia lehetővé teszi a fájl tömörítésének és - közvetett módon - annak típusának megítélését.

Ajánlott: