Bilo koja računarska datoteka sastoji se od bajtova. Bajt može imati vrijednosti od 0 do 255. Informacijska entropija je statistički parametar koji pokazuje vjerojatnost pojave određenih bajtova u datoteci.
Možete vizualno procijeniti stupanj entropije pomoću histograma - raspodjele vjerovatnoće ponavljanja istih bajtova u datoteci. Iz entropije datoteke možemo pretpostaviti koja je vrsta datoteke ispred nas, vidjevši samo njen histogram.
Za demonstraciju uzmimo tri datoteke različitih vrsta i uporedimo njihove histograme. Neka prva bude tekstualna datoteka (*. TXT). Njegov histogram prikazan je na slici:
Tekstualna datoteka sadrži samo tekst. Svaki znak teksta kodiran je određenim bajtovima u skladu s tablicom kodiranja. Iako postoji velik broj vrsta kodiranja, očito je da postoji ograničen broj alfanumeričkih znakova, što je obično manje od 255. Stoga su samo neka područja zauzeta na prvom histogramu, a neki bajtovi uopće nisu.
Sljedeća datoteka bit će u PDF formatu:
Ova datoteka sadrži sve moguće bajtove, jer je PDF kodiran drugačije od tekstualnih datoteka. Pohranjuje puno servisnih informacija: formatiranje, fontove, slike itd. Ali njegov histogram pokazuje da se neki bajtovi javljaju s približno jednakom vjerovatnoćom, dok se drugi - mnogo češće od drugih. Otuda i višestruki oštri rafali na histogramu, i općenito ima prilično "raščupan" izgled, iako zauzima cijelu dostupnu širinu.
I zadnja datoteka je zipovana u 7Z formatu:
Ovaj histogram ima dvije glavne značajke: prvo se svi bajtovi nalaze u zipovanoj datoteci s manje ili više jednakom vjerovatnoćom (prilično ravan gornji rub), a drugo, iznad histograma praktički nema slobodnog prostora, što ukazuje na gotovo potpuno odsustvo suvišnosti takve datoteke. Stoga možemo zaključiti da algoritam arhivatora na neki poseban način "miješa" bajtove datoteke kako bi postigao njihovu maksimalnu ujednačenu distribuciju.
Dakle, entropija je u računarstvu, kao i u fizici, mjera poremećaja u sistemu, u ovom slučaju poremećaja u distribuciji bajtova u datoteci. Entropija vam omogućava da prosudite stepen kompresije datoteke i - neizravno - o njenom tipu.