Entropie

autor: Milan Kunz

Úvod

Jsem trochu na rozpacích, jak začít konečné téma série článků, které mi Natura v minulém období zveřejňovala, protože to o čem chci psát je značně kontroverzní téma. Celá série vlastně byla jen přípravou pro tento článek o entropii.

Vyhledávač Google najde na internetu přes 900 odkazů, mezi nimi jména firem, radiová stanice a i website pána entropie. Slovo entropie se stalo populární pro svou tajemnost. Každý o něm slyšel a nikdo pořádně neví, co znamená.

Když jsem narazil na problém entropie, cítil jsem se ze začátku jako kadet Biegler, který na školení důstojníků zmateně vykřikl: "Jesus Maria, Herr Major, es stimt nicht!"

Kadet Biegler horlivě sledoval výklad, ale ten nedával smysl. Já jsem na tom byl podobně. A stejně jako v mém případě se jednalo o teorii informace, v případě konkrét kadeta Bieglera o její podobor, teorii šifrování. Pomůckou tenkrát byla kniha "Hříchy otců" a Švejk na základě zkušeností se čtenářkou horlivostí pánů důstojníků vydal jim místo předepsaného druhého dílu jenom díl prvý.

Osobní vzpomínky

Obvykle se začíná historií problému. Já začnu vysvětlením, jak jsem se vůbec k problému a jeho řešení dostal. S trochou nadsázky se dá říci, že jsem byl k řešení problému dohnán jako Robinzon na pustém ostrově, který se musel shodou okolností naučit spoustu věcí zcela sám, bez učitelů. To se ukázalo jako výhoda, protože jsem neopakoval jejich chyby.

V rámci normalizace jsem byl vykázán z chemické laboratoře. S trochou štěstí jsem se uchytil v patentovém oddělení. Aby to nevypadalo, že nemám co na práci a nestal jsem se nadbytečným, musel jsem si sám zajišťovat zaměstnanost. Tak jsem si vymyslel patentové rešerše, ve kterých jsem se snažil zjistit, kolik vynálezů přihlašuje úspěšnější konkurence a jak asi velké jsou konkurenční výzkumné týmy.

Za socialismu se výzkum vlekl řadu pětiletek bez konečné realizace, což bylo pohodlné pro všechny zainteresované. Předpokládal jsem, že to bylo tím, že výzkumné týmy byly příliš malé.

Získal jsem několik rešerší, které se hodně podobaly. Asi polovina přihlašovatelů, což byly firmy, nikoliv přímo autoři, podala ve sledovaném období několika let jen jednu přihlášku vynálezu, mnohem méně jich mělo dvě a jen ojedinělí přihlašovatelé jich měli desítky.

Nejjednodušší popis dat se získal vynesením údajů na dvojitém logaritmickém papíru, kdy počáteční body leží na přímce. Později jsem zjistil, že takové rozdělení objevil statistik Lotka, když se ještě před tím, než jsem se narodil, zajímal o produktivitu autorů v pětiletém rejstříku Chemical Abstracts. Tvar rozdělení je obecně platný pro všechnu informaci.

Rozdělení je velmi kosé a platí i pro rozdělení bohatství. Bohatých je málo, chudých mnoho. To už komentoval svatý Matouš, podle kterého tomu, kdo má bude přidáno a tomu, kdo nemá, bude vzato i to, co má. Na problém se dá nahlížet také optimisticky, úspěch budí úspěch.

Řada autorů tvar rozdělení považuje za specifický pro informaci, ale naopak se může tvrdit, že v přírodě jsou taková rozdělení základní. Za příklad si můžeme vzít rozdělení velikosti částic, od mikročástic ke hvězdám a černým dírám, v živé přírodě máme řadu od jednobuněčných organismů k velrybám a sekvojím, kde těch největších organismů existuje velmi málo.

Měl jsem tenkrát trochu štěstí, které člověk potřebuje pro neočekávaný objev. Důvodem, proč jsem se nespokojil s jednoduchým popisem, bylo to, že jsem ve svých rešerších zachytil jednu anomálii.

Jednalo se o patenty z oboru výroby polyvinylchloridu. Rozdělení bylo deformované v tom smyslu, že v souboru chyběli největší světoví producenti. Příčinu, proč vedoucí firmy v sledovaném období omezily výzkum jsem zjistil teprve později, když vyšlo najevo, že v rozhodném období velké firmy financovaly výzkum výzkumu vlivu vinylchloridu na vznik rakoviny. Měly k dispozici jeho předběžné výsledky jako tajnou informaci. Předpokládaly možný zákaz výroby a proto přestaly investovat do výzkumu v oboru. Pokles vynálezecké aktivity byl jen dočasný, v následujícím období se objevila řada vynálezů, které řešily nově vzniklé problémy, zmenšení obsahu stop vinylchloridu v polyvinylchloridu a bezpečnost práce s vinylchloridem.

Danou rešerši lépe popisovalo rozdělení logaritmicko-normální (rozdělení normální s logaritmickou substitucí). Také u ostatních rešerší toto rozdělení vyhovovalo, pouze přihlašovatelů jednou či dvěma přihláškami bylo vždy více, než by odpovídalo rozdělení logaritmicko-normálnímu.

Korelace se velmi vylepšila, když se použila substituce log(log2 (mk + 1)!). Ten vykřičník ve vzorci není upozorněním na podivnost této substituce, ale je to znak funkce faktoriálu, kterou jsem použil. Faktoriál je součin celé řady čísel 1 až n. Logaritmování mění součin na součet logaritmů. Druhé logaritmování by zobrazilo číslo 1 na minus nekonečno, proto je potřeba přidávat jednotku, binární logaritmus základní dvojku vydá jako jednotku, která při druhém logaritmování přejde na nulu. tuto trochu krkolomnou substituci jsem použil vlastně z nouze. Uvažoval jsem o korektnějším použití funkce součinu čísla k s jeho logaritmem (k log k), podle teorie informace, jenomže tyto hodnoty bych musel pracně počítat ručně, kdežto faktoriály jsem měl k dispozici ve formě tabulek, takže stačilo jej zlogaritmovat.

Mimo tento praktický argument jsem měl představu, že logaritmuji polynomický koeficient (viz níže) podobně jako kdysi Boltzmann, protože jsem si právě opakoval základy termodynamiky. Na rozdíl od něj jsem do faktoriálů nedosazoval počet přihlašovatelů s určitým počtem patentů, ale počet jejich patentů, což podle mého chápání odpovídalo základním kvantům, jednotkám, v tomto případě nikoliv energie, ale informace.

Logaritmicko-normální rozdělení informace, použitelné i bez uvedené substituce, je rozdělení useknuté, protože počítá jen s určitými minimálními kvanty informace, kterými mohou být knihy, články, citace a podobně, takže nezná zlomky. Situace by se asi změnila, kdyby se zjišťoval počet stránek, slov nebo dokonce znaků v publikacích. Tak by se jedna publikace počítala jako několik tisíc slov a teoreticky by mohly existovat publikace pouze s několika mála slovy (název a jméno autora). Takové statistiky však představují jiný problém, dnes sice technicky řešitelný, ale zatím se to nedělá.

Výsledky rešerší jsem publikoval. Teprve po nějaké době jsem si uvědomil, že jsem provedl něco "co se nedělá". Použil jsem entropii ke korelování rozdělení uvnitř soustavy. To však nebylo to podstatné, měl jsem nepříjemný pocit, že něčemu nerozumím. Když jsem si nějakou dobu marně lámal hlavu nad matematickými vlastnostmi entropické funkce, rozhodl jsem se, že musím ke zdrojům, a prostudovat si Shannonovu práci. Po jejím přečtení mi to bylo jasné, v čem spočívají potíže. Informační entropie se počítá podle polynomického koeficientu, který jsem použil, a ten je jiný než podle kterého se počítá entropie fyzikální, takže se jedná o dvě různé funkce.

Tady se objevil nový problém: V jakém poměru jsou oba polynomické koeficienty a tím entropie? Rešerše týkající se funkce entropie už tehdy odkazovaly na několik set publikací. Neměl jsem chuť je všechny shánět, ale v jejich názvech jsem nenašel ani zmínku o tom, že by si někdo všimnul rozdílu, který jsem si uvědomil.

Studoval jsem kombinatoriku, ale k ničemu to nevedlo.

Oba koeficienty jsou uvedeny jen v dodatku k jednomu vydání Fischerovy monografie, ke které jsem se dostal až mnohem později. Jsou tam uvedeny bez bližšího vysvětlení.

Asi po roce přešlapování jsem se konečně rozhodl prostudovat si původní Boltzmannovu práci. Musel jsem na ni asi měsíc čekat, než byla volná, což se ukázalo jako výhoda, protože jsem mezitím začal chápat některé vlastnosti rozdělení čísla n.

Když jsem si konečně Boltzmannův článek donesl do práce (byl jsem přece ve studijním oddělení, tak to patřilo do mé náplně), ani jsem jej pořádně nedočetl, protože jsem našel řešení, prosté jako Kolumbova vejce. Oba polynomické koeficienty se jednoduše násobí, tedy jejich logaritmy jsou dvě rozdílné aditivní funkce.

Tehdy jsem měl už k dispozici kalkulačku z Tuzexu, takže výpočet čísla 77 jako součtu 11 násobků dvou polynomických koeficientů byl rychlý (také to můžete zkusit, viz níže).

Bláhově jsem si myslel, že už mám vše za sebou, problém jsem uspokojivě vyřešil. To jsem netušil, že o mé řešení nebude nikdo stát, protože odporuje učeným knihám. Podařilo se mi je publikovat pouze v těch případech, kdy si recenzenti neuvědomovali význam problému. Jinak si nechtěli pálit ruce s doporučením k publikaci.

Docházelo při tom ke komickým situacím.

Prvý recenzent mi vytýkal, že se vyjadřuji nesrozumitelně. To mne trochu naštvalo a tak jsem sdělení přepracoval a poslal do redakce časopisu Věda a technika mládeži, kde je beze všeho otiskli. Bylo jasné, že ve srozumitelnosti mého výkladu problém asi není.

Potíže jsou mnohem hlubší. Měl je už před sto léty Boltzmann se svou funkcí H(n), kterou navrhl jako matematický ekvivalent fyzikální funkce. Jeho kolegové vymýšleli paradoxy, aby dokázali, že nemá pravdu (1).

Boltzmann, který jako bodrý Vídeňák po návratu z Ameriky nejdříve spěchal do restaurace na pivo, tomuto tlaku dlouho odolával. Nakonec však podlehl depresím a spáchal sebevraždu, shodou okolností právě v době, kdy Planck pomocí kvantové hypotézy vysvětlil záření černého tělesa, což jej jen jinou formou uplatnění Boltzmannových představ (2).

Boltzmannovo vysvětlení zapadlo do nečtených archivů tak dokonale, že ani nositel Nobelovy ceny za fyziku Steven Weinberg je nezná, ačkoliv téma patří do základního kurzu fyziky. Při přednášce na SMS řekl doslova (3):
"V roce 1970, v počátcích teorie strun, jsme spolu s Kersonem Huangem pustili do řešení problému, jak určit počet stavů, které se objeví v kmitající struně při dané hmotě. To je důležitý problém v termodynamice, chcete-li např. znát hustotu energie prázdného prostoru se strunovými fluktuacemi. Zjistili jsme, že počet stavů je ve velmi úzké souvislosti s počtem způsobů, kterými lze celé číslo napsat jako součet celých čísel. Např. 2 lze napsat jedním způsobem jako 1 +1. 3 lze napsat dvěma způsoby jako 1 +1 + 1, nebo 2 + 1, atd. Tento způsob se nazývá partitio numerorum a my jsme potřebovali znát, jak vypadá pro velmi velká čísla, což odpovídá velkým hmotám. Problém partitia numerorum pro velká čísla byl vyřešen v roce 1918 G. H. Hardym a jeho kolegou Ramanujanem a mně udělalo velkou radost je citovat, neboť Hardy byl znám jako matematik, který byl pyšný na to, že jeho práce nebudou mít nikdy fyzikální aplikace."

Partitio numerorum však použil už Boltzmann při řešení důležitého problému v termodynamice, při řešení rozdělení rychlostí molekul plynu a entropie. Ani nositel Nobelovy ceny za fyziku Steven Weinberg, ani žádný z přítomných fyziků to nevěděl.

Jiný recenzent v jiném časopise mi namítal, že navrhované řešení odporuje činnosti Maxwellova démona. Na základě zkušeností se socialismem, který se snažil řídit samovolně probíhající procesy, jsem ukázal, že Maxwellův démon stejnou činností molekuly nejen třídí, ale také míchá (pokud začne šíbovat molekuly rozdělené dle teploty, což je samovolný proces), takže jeho práce entropii zvyšuje i snižuje, případně kdyby pracoval v toroidní komoře (pneumatika), plyn uvede do cirkulace, takže dochází ke změně hybnosti plynu. Moje poznámka vyšla, avšak původní publikace nikoliv.

Vlastní problém zkomplikovala Shannonova teorie spojení (4), považovaná všeobecně za teorii informace. Shannon použil formálně podobnou funkci H(m) jako míru informace, kterou zavedl jako axiom, aniž by se namáhal s vymezením rozdílu. Toho se chopila řada autorů, axiomatická forma se jim zdála dokonalejší a lepší než zpochybňovaná funkce H(n). Fyzik Brillouin, kterému prý unikla Nobelova cena za fyziku, dokonce zapletl do vysvětlení předpokládaného vztahu mezi informací a entropií Maxwellova démona. To byla druhá tragedie v této historii, tentokrát vědecká. Vztah mezi oběma entropiemi lze totiž odvodit od rozdělení, které je známé pod Brillouinovým jménem.

Hříchy otců, díl prvý: Termodynamika

Termodynamika vznikla z potřeby vysvětlit funkci parního stroje, vztahy mezi teplotou T, objemem V a tlakem P vodní páry, definované stavovou rovnicí. Při tom se formalizovala zkušenost, že k zahřívání těles je třeba jim dodávat teplo Q, že pevné látky při určité teplotě tají a kapaliny se při určité teplotě vypařují.

Při popisování těchto jevů definoval Clausius roku 1854 novou funkci S, kterou nazval entropií. Na rozdíl od teploty, objemu a tlaku, není možné funkci S měřit přímo, ale je ji nutné vypočítávat z experimentálních dat. Její hodnota je určena tvarem plochy pod křivkou, protože funkce S je definována jako diference,

d(S)=d(Q)/T.

Při formální integraci se ve vzorci objeví logaritmus teploty.

Boltzmann se zabýval, podobně jako před ním Maxwell, rozdělením rychlostí molekul plynu. Nárazy jednotlivých molekul na stěny nádoby vyvolávají tlak. Tento tlak je dán průměrnou kinetickou energií jednotlivých molekul, která je přímo závislá na teplotě, a jejich počtem, který je nepřímo závislý na objemu. Oba autoři došli ke shodnému výsledku, který je znám jako Maxwell- Boltzmannovo rozdělení.

Boltzmann mimo to navrhl jako formální ekvivalent entropie funkci

H = - S (nk/n)log(nk/n)

kde nk je počet molekul s energií k, n je celkový počet molekul. Při tom platí

n = S nk

a je zvykem dosazovat zkráceně podíly

pk = nk/n.

Boltzmann při tomto návrhu narážel na řadu obtíží. Za prvé výpočet podle tohoto vztahu vyžaduje kvantování energie, takže Boltzmann použil kvantovou hypotézu, aniž by měl důkaz její oprávněnosti. Sám prakticky okamžitě od této představy upustil a nijak ji neohajoval, ačkoliv na ní byla založena celá jeho úvaha. To byla možná zásadní chyba. Za druhé nesprávně svůj příklad interpretoval pomocí pravděpodobnosti, vzhledem k tomu, že tehdejší fyzika prakticky kromě krystalografie neznala pojem symetrie. Dnes se celá fyzika subatomárních částic točí kolem pojmu symetrie, takže prohlášení, že entropie je logaritmickou mírou symetrie by bylo přijatelné.

Boltzmann použil příklad sedmi molekul, které si mezi sebe dělí sedm kvant energie. Taková soustava může být v jednom ze stavů, které lze popsat následujícími vektory

(7, 0, 0, 0, 0 ,0, 0),
(6, 1, 0, 0, 0 ,0, 0),
(5, 2, 0, 0, 0 ,0, 0),
(4, 3, 0, 0, 0 ,0, 0),
(4, 2, 1, 0, 0 ,0, 0),
(3, 2, 2, 0, 0, 0, 0),
(3, 2, 1, 1, 0 ,0, 0),
(3, 1, 1, 1, 1 ,0, 0),
(2, 2, 1, 1, 1 ,0, 0),
(2, 1, 1, 1, 1 ,1, 0),
(1, 1, 1, 1, 1, 1, 1).

Vektory jsou známy v teorii čísel jako rozdělení čísla m na n sčítanců. Obvykle se s nulami nepočítá, ale Boltzmann použil přesně uvedenou formu zápisu, která se dá pokládat za základní formu rozdělení čísla (5). Zápis bez nulových hodnot je pouhá diference.

Boltzmann předpokládal, že soustava plynu mění při náhodných srážkách molekul rozdělení.

Jednotlivá rozdělení představují ve fázovém prostoru sférické orbity. Každé orbitě odpovídá ve fázovém prostoru takový objem, kolik je možných různých stavů, které se získají permutacemi hodnot vektoru. U prvého rozdělení je sedm možností, u posledního jedna a u rozdělení (3, 2, 1, 1, 0 ,0 , 0) je jich 840. Objem odpovídající rozdělení se vypočítá tak, že faktoriál n! se dělí faktoriály počtu stejných hodnot vektorů.

Maximální počet stavů by se dosáhl, kdyby každá molekula měla vlastní úroveň energie, což by pro 7 částic vyžadovalo minimálně 21 kvant energie (0+1+2+3+4+5+6=21). V obvyklých termodynamických soustavách, kdy počet molekul udává Avogadrovo číslo s třiadvaceti nulami násobené počtem molů a počet kvant energie je dán dokonce součinem Avogadrova čísla s Boltzmannovou konstantou a Kelvinovou teplotou nejsou teploty potřebné pro takovou maximalizaci počtu stavů reálně dosažitelné. Je nezbytné, aby částic s relativně malými energiemi bylo mnohem více, než částic s velkými energiemi.

Objem orbit odpovídá jejich symetrii. Orbity ve fázovém prostoru jsou sférické, všechny permutace vektoru rozdělení energie mají stejnou Euklidovskou délku. Lze tedy tvrdit, že entropie je logaritmickou mírou symetrie, čím větší symetrie, tím vyšší entropie. Aby se předešlo nedorozuměním, větší symetrie znamená větší počet prvků symetrie a vyšší stupeň. Čtverec má větší počet prvků symetrie než rovnostranný trojúhelník, koule má více prvků symetrie než kruh.

Je nutno podotknout, že koncepce tají velké problémy, které přesahují rámec termodynamiky. Soustavu plynu v termodynamické rovnováze si můžeme představit v laboratoři.

Platí však pro plynná oblaka ve Vesmíru, zárodky hvězd či galaxií? Když si takovou soustavu rozdělíme na části, bude rozdělení všude stejné, nebo různé části budou v různém stavu? Ve velkých soustavách by se měly vyskytovat částice s energiemi odpovídajícími energii kosmického záření. Je kosmické záření integrální součástí termodynamických soustav, nebo je to cizí prvek?

Nesporné je, že v takových velkých soustavách se uplatňuje gravitace. Hustota oblaku v jeho centru je větší než na okrajích. Je tedy gravitace projevem snahy soustavy po dosažení maximální entropie, nebo je to cizí prvek?

Hříchy otců, díl druhý: Teorie informace

Tato teorie se objevila před více než padesáti léty a byla přijata na rozdíl od Boltzmanna bez jakéhokoliv odporu, naopak s velkým nekritickým nadšením.

Vlastně to byla pouze teorie komunikace, teorii všeho z toho udělali nadšenci, kterým se zalíbila její strohá axiomatická forma. Axiomy se nemusí dokazovat, ty je nutno vyvracet. To se zpravidla dělá tak, že se ukážou rozpory mezi axiomy. Případně je třeba ukázat, že teorie nefunguje a je v rozporu se skutečností.

Entropii zavedl autor teorie jako axiom. Jednoduše prohlásil, že mírou informace je funkce H(m), která se počítá podle vzorce

H(m) = -S mj/m log mj/m

kde mj je počet opakování symbolu j, m je celkový počet symbolů v textu či zprávě, jeho délka. Při tom platí

m = S mj

a je zvykem psát zkráceně

pj = mj/m.

Všimněte si použití rozdílných symbolů proti funkci H(n). Opakováním symbolu j se říká jeho frekvence, což připomíná fotony. Tato analogie je i funkční, fotony také přenášejí mezi mikročásticemi informaci o stavu sousedních mikročástic. Existuje však důležitý rozdíl, zatím co každá mikročástice je kompaktní, což vyjadřuje její název, jednotlivé opakování symbolů jsou v textu rozesety dosti rovnoměrně.

Vzhledem k tomu, že v textu se může vyskytnout několik symbolů se stejnou frekvencí k, lze rovněž psát

m = S mj = S nkmk

Vzhledem k tomu, že funkce H(m) se už v teorii informace používala dříve a měla jméno, nazval Shannon tuto funkci entropií. Poradil mu to John von Neumann. Prý takto (6):

"Měl by jste tomu říkat entropie ze dvou důvodů. Za prvé vaše funkce nejistoty se užívá v statistické mechanice pod tímto jménem a tak už má jméno. A za druhé, což je mnohem důležitější, nikdo neví, co entropie opravdu je, tak ve sporu budete vždy mít výhodu."

Rada John von Neumanna byla možná chytrá. Nebyla však moudrá, protože svedla na scestí další vývoj.

Nová teorie byla nadšeně přijata. Epigoni navrhli nahrazení pochybné Boltzmannovy funkce H(n) novou funkcí H(m). To se jim podařilo, z části z toho důvodu, že si nikdo nedal práci, aby podrobil kritickému rozboru vztah obou funkcí.

Místo toho se přijal chybný model vztahu entropie a informace. Do vysvětlování tohoto vztahu se zapletl Maxwellův démon, který prý k snižování entropie tříděním molekul potřebuje informaci. S touto myšlenkou přišel už dříve Szilard. Informace snižující entropií je její inversní funkcí, jakousi negentropií.

Abychom si udělali jasno o vztahu obou funkcí H(n) a H(m), vyjdeme z Boltzmannova příkladu.

Ke každému rozdělení, které charakterizuje příslušný vektor, přiřadíme informační vektor v základním stavu, kdy symboly jsou řazeny podle abecedy a frekvence. Tedy:

(7, 0, 0, 0, 0 ,0, 0) = (a, a, a, a, a, a, a)
(6, 1, 0, 0, 0 ,0, 0) = (a, a, a, a, a, a, b)
(5, 2, 0, 0, 0 ,0, 0) = (a, a, a, a, a, b, b)
(4, 3, 0, 0, 0 ,0, 0) = (a, a, a, a, b, b, b)
(4, 2, 1, 0, 0 ,0, 0) = (a, a, a, a, b, b, c)
(3, 2, 2, 0, 0, 0, 0) = (a, a, a, b, b, c, c)
(3, 2, 1, 1, 0 ,0, 0) = (a, a, a, b, b, c, d)
(3, 1, 1, 1, 1 ,0, 0) = (a, a, a, b, c, d, e)
(2, 2, 1, 1, 1 ,0, 0) = (a, a, b, b, c, d, e)
(2, 1, 1, 1, 1 ,1, 0) = (a, a, b, c, d, e, f)
(1. 1, 1, 1, 1, 1, 1) = (a, b, c, d, e, f, g).

Posloupnost (a, a, a, a, a, a, a) odpovídá vektoru (7, 0, 0, 0, 0, 0, 0), permutaci vektoru (0, 7, 0, 0, 0, 0, 0) odpovídá posloupnost (b, b, b, b, b, b, b) a tak dále. Číselná hodnota vektoru n se nahradí příslušným počtem symbolů odpovídajících danému vektoru j. Posloupnost (a, a, a, b, b, c, g) odpovídá vektoru (3, 2, 1, 0, 0, 0, 1).

Ve zprávách se jednotlivé symboly samozřejmě čárkami neoddělují. Jejich vypuštění je však pouhá formální úprava zápisu, která nemá vliv na podstatu problému.

Permutace n-vektoru mění symboly za jiné, nikoliv jejich pořadí. Změny pořadí symbolů se dosáhnou rovněž permutacemi, v tomto případě měnícími pořadí v posloupnosti. Zde jsou to m-permutace. Tyto permutace se počítají v daném konkrétním případě takto 7!/3!2!1!1!0!0!0!. Tento výraz má smysl vzhledem k definici faktoriálu 0! = 1.

V příkladě je použita rovnost m = n. Obvykle je počet znaků mnohem větší než počet symbolů abecedy. Základní rozdělení je potom useknuté.

Přechod od polynomického koeficientu k funkci H(m) je podobný jako u funkce H(n), s použitím Stirlingovy aproximace. Její použití je v případě informace trochu problematické vzhledem k tomu, že počty symbolů ve zprávách jsou ve srovnání s počty molekul v termodynamických soustavách relativně malá čísla, takže aproximace jsou zatíženy většími relativními chybami, to však není příliš podstatné. Další rozdíl je v tom, že Shannon použil logaritmus o základu 2, což ovšem vyžaduje další úpravy, na druhé straně umožňuje jinou interpretaci informační entropie, jako přímé míry informace získané označením m objektů symboly vybranými z abecedy o n členech.

Jestliže máme m neoznačených objektů, můžeme je indexovat pomocí binárního rozhodovacího stromu. Strom vyrůstající z kořene se větví vždy na dvě větve označené 0 (vlevo) a 1 (vpravo). Strom by měl být podle možnosti pravidelný, potom má nejmenší počet větví. Například pro označení osmi předmětů potřebujeme 24 znaků:

000, 001, 010, 011, 100, 101, 110, 111.

Pokud předměty jsou předem označeny, můžeme původní označení použít jako kořen a počet nutných znaků se zmenší. Třeba pro osm symbolů a, a, a, a, b, b, c, d, potřebujeme jen 10 znaků:

a00, a01, a10, a11, b0, b1, c, d.

Rozdíl (24 – 10) dělený počtem objektů je mírou informace, kterou o souboru máme.

Příklad je volen tak, že souhlasí přesně s funkcí H(m). Pro velká čísla můžeme nahradit počítání větví přímo logaritmem o základu 2 jako dolní limitou počtu větví. Je to paradox, za informaci nepovažujeme takové vyhodnocení. Musíme si ještě jednou připomenout, že Shannona zajímal technický problém, jak znaky zpráv přenést elektronicky bez chyb a co nejefektivněji.

Lze říci, že funkce H(m) jednoduše měří, kolik různých zpráv je možné vytvořit z daného souboru symbolů jejich různými uspořádáními a tak umožňuje vyhodnocení efektivnosti třeba různých kódování.

Funkce H(m) má maximum, když všechny hodnoty m jsou stejné. Nejlépe by bylo, kdyby každý symbol se objevil ve zprávě pouze jednou. To je možné pouze u velmi krátkých zpráv. Angličtina používá pouze 26 písmen, při využití malých a velkých znaků by se taková optimální zpráva mohla prodloužit na 52 znaků, při využití všech ASCII symbolů by to bylo 256. Faktoriál 256 je větší než exp(1419), takže by se tak dala zakódovat dosti velká knihovna (každé sérii ASCII symbolů by odpovídala jedna kniha). Ještě delší by mohly být optimální depeše v čínštině, kde znaky znamenají slabiky nebo celá slova.

V přirozených jazycích se znaky nevyužívají rovnoměrně, právě naopak, vedle značně frekventovaných písmen se některá objevují jen zřídka. Souhlásky x a z jsou pro angličtinu cizí a objevují se dost málo (zdá se mi, že teď se to pomalu mění, najdete je nyní dosti často v různých slangových výrazech).

Shannon považoval tuto nerovnoměrnost za chybu přirozených jazyků a rozdíl mezi rovnoměrným využitím symbolů a jejich skutečným využitím nazval redundancí (nadbytečnost).

Ukázali jsme si, že H(n) je maximální, pokud každé n má svou frekvenci, tedy všechna mjjsou různá. Nadbytečnost však zvyšuje H(n) takže součet obou entropií je větší, než kdyby se maximalizovala pouze entropie jediná. Pro informaci není prostě maximalizace jedné entropie optimální. Toto jednoduché vysvětlení experimentálních faktů svědčí pro můj výklad problému.

Ve skutečnosti právě nadbytečnost usnadňuje porozumění zprávám. Toto tvrzení se snadněji vysvětlí na celých slovech, která se v textu také objevují velmi nerovnoměrně. V tomto textu je frekvence slova "entropie" mnohem vyšší než ve frekvenčním slovníku, což je známka toho, že entropie je tématem tohoto sdělení. Nerovnoměrnost zabraňuje monotónnosti. České přísloví "já o koze, on o voze" ukazuje úskalí optimalizovaného využití symbolů, rozdíly mezi jednotlivými sděleními by se musely hledat lupou.

Nadbytečnost informace se objevuje už v DNA, protože v RNA se jednotlivé triplety neobjevují rovnoměrně. Mimo to některé aminokyseliny jsou kódovány několika triplety, což zvyšuje frekvenci jejich výskytu.

 Entropie míchání

Informační entropie se počítá z frekvence znaků, která je stejná pro litery v tiskařské kase (kdo si ještě pamatuje tento výraz z doby, kdy se litery řadily do sazby ručně ze zásobníku?) jako v hotové sazbě. Úsilí sazeče a před ním autora zprávy se na entropii zprávy vůbec neprojeví. Při tom právě určité uspořádání symbolů v posloupnosti přenáší informaci. Autoři mu věnují značné úsilí, aby dosáhli dokonalosti ve výběru slov a jejich pořádku, aby se slova ani fráze neopakovaly, ale teorie informace si vůbec nevšímá tohoto úsilí a ani jej neumí měřit.

Shannon si byl vědom tohoto nedostatku a počítal frekvence dvou po sobě následujících hlásek a jim odpovídající entropii, jako možnou náhradu nějaké lepší míry.

Abychom si problém ozřejmili, použijeme k tomu Maxwellova démona. Ten jak je známo, umí rozlišovat chladné a horké molekuly (pomalé a rychlé) a jejich tříděním snižovat entropii. Může se však také jednat o různé chemické prvky či sloučeniny.

Takže si představme na rozdíl proti předešlému, že každý výskyt písmena odpovídá jedné molekule. Vezmeme jich tolik, aby zaplnily dostatečně velký prostor, třeba dva svazky (pro příklad postačí dva řádky). Oddělené molekuly budou reprezentovat řady symbolů (počet je stejný, písmena s mezerami jsou různě široká)

ccccccccccccccccccccccccccccccc

hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh

a smíchané molekuly řada

chchchchchchchchchchchchchchchchchchchchchchchchch.

V tomto řádku jsou molekuly smíchány příliš dokonale, takže by připomínaly spíše krystal než nějakou zprávu. Je to však také jedna z počítaných variant.

Nabízí se otázka, zda je možné nějak měřit stupeň promíchání symbolů v textech, nebo také nukleových kyselin v sekvencích DNA či číslic v číslech.

Domnívám se, že takovou možností je měření vzdáleností mezi následujícími symboly v posloupnosti.

Můžeme si představit, že posloupnost bude vznikat náhodně, třeba dlouhou sérií hodů mincí, kdy jsou možné jen dva výsledky. Sleduje se, zda padla hlava nebo orel. Při hodu kostkou existuje šest ploch poskytujících možnosti, aby se kostka ustálila. Pro celou abecedu bychom potřebovali polyedr s odpovídajícím počtem hran (nebo více kostek, kdy by symbol určovala kombinace jejich výsledků). Polyedr by měl být nepravidelný, protože písmena v přirozených jazycích nejsou stejně využívána. Samohlásky, kterých je méně, jsou většinou velmi frekventované, avšak některé souhlásky, v češtině třeba q, w, x, se vyskytují relativně řídce. Podle jejich četnosti lze třeba poznat odborný text s častými slovy cizího původu.

U hodů mincí je rozdělení vzdáleností mezi jednotlivými shodnými výsledky známé jako negativně binomické rozdělení. Tyto vzdálenosti se mohou spočítat ze všech posloupností určité délky, kolikrát se mezi následujícím symbolem vyskytne jeden, dva či více symbolů druhého druhu.

Ukázalo se, že je možné výsledek popsat matematicky, nejprve rekurentními vzorci, pak analytickým vzorcem. Před používáním PC byly výpočty negativně binomického rozdělení velmi pracné, proto bylo téměř neznámé. Dnes však existují programy, které odstranily všechny potíže s jeho analýzou.

Vzdálenosti v číselných posloupnostech mohou být různé. Zlomek 1/3 má nekonečný počet číslic za desetinnou čárkou (0,333..). Zde se opakuje pouze jedna číslice, takže rozdělení vzdáleností je monotónní.

V jiném iracionálním číslu, číslu e, se číslice vyskytují prakticky náhodně. To znamená, že rozdělení vzdáleností mezi jednotlivými číslicemi lze popsat velmi dobře negativně binomickým rozdělením (podrobnosti viz mujweb.atlas.cz/veda/kunzmilan).

U textů je rozdělení písmen méně pravidelné a k jeho popisu se může vedle negativně binomického rozdělení použít rozdělení exponenciální, rozdělení logaritmicko-normální a rozdělení Weibullovo (to se používá při sledování životnosti strojních a elektronických součástí). Při tom se vyskytují v průběhu rozdělení anomálie, některých vzdáleností je více, než by odpovídalo ideálnímu průběhu funkce, jiných méně.

Podobná situace s rozděleními vzdáleností existuje i u základního jazyka živé přírody, genů, rDNA a DNA a i v textech.

Je možné vypočítat entropii i těchto rozdělení vzdáleností. To by byly další hodnoty, které mají analogii i u termodynamických soustav. U krystalu jsou všechny vzdálenosti téměř stejné, ale v roztocích či plynech nejsou molekuly rozděleny úplně rovnoměrně a mimo to se musí projevit i jejich tvar.

Závěr

Matematika bývá pokládána za racionální vědu, ve které nemají co dělat emoce, jen holá fakta a důkazy. Historie entropie svědčí o tom že to vůbec není pravda. I matematikové často opakují jenom to, co je naučili jejich učitelé.

Kdysi kdosi překročil bludný kořen a vydal se nesprávným směrem. Vzhledem k tradici se mylné názory přejímají.

Je nesporný fakt, že existují dva polynomické koeficienty. Tady lze chybu stopovat až k Newtonovi, že nepsal výsledek násobení mnohočlenu, třeba (a + b + c)3 se dvěma polynomickými koeficienty ve tvaru:

3x3 + 6[3(x2)y] + 6xyz

kde se za x dosazuje a,b,c, potom za y se dosazuje b, c, a za z se dosazuje jen c, což dá celkem 27 členů (3 + 18 + 6).

Boltzmann se dopustil chyby, že svoji představu orbit ve fázovém prostoru rozmělnil pravděpodobností a že opustil kvantovou hypotézu. Bylo ironií osudu, že spáchal sebevraždu ve stejné době, kdy Planck pomocí kvantové hypotézy vysvětlil spektrum záření černého tělesa. Izolované termodynamické soustavy se ve fázovém prostoru pohybují po rovinách konstantní energie a samovolně se dostávají na orbity s největším objemem. Nepochopení jeho základní myšlenky skončilo tragedií.

Pak přišla teorie informace, to byla komedie. Z formálně i funkčně bezvadné teorie komunikace se udělala univerzální teorie. která měla vše vysvětlit. Místo jasného vymezení vzhledem k fyzikálnímu pojmu se s její pomocí snažili vylepšit "podezřelý" Boltzmannův výklad. Na strohé axiomy se nalepil výklad sice barvitý, ale zcestný.

Literatura:

1. Jiří Svršek, Matematika. Století polemik o základech matematiky. Historická vsuvka, Ludvík Boltzmann, Natura

2. L. Boltzmann, Über die Beziehung zwischen dem zweiten Hauptsatze der mechanishen Wärmetheorie und die Wahrscheinlichkeitsrechnung, Wiener Berichte 1877, 76, 373.

3. Matematika – jednotící prvek vědy, Pokroky matematiky, fyziky a astronomie, 34 (1989) 193-205.

4. C. E. SHANNON, The Mathematical Theory of Communication, Bell System Technical Journal, 27 (1948), 379, 623.

5. Milan Kunz, Partitio numerorum, Natura 1999, číslo 7; Konstrukce čísel, Natura 1999, číslo 9.

6. M. Tribus, E. C. McIrvine, Energy and Information, Scientific American, 1971, 225, 3, 179.