Inteligentní stroje a společnost Omron

zpracoval: Jiří Svršek

Lidské bytosti více než 80 procent informací získávají svým zrakem. Právě z tohoto důvodu japonská společnost Omron věnuje tolik času a financí na vývoj systémů pro rozpoznávání obrazu, který by byl srovnatelný s lidským zrakem. Jedním ze základních projektů společnosti je rychlé rozpoznávání tvarů předmětů a znaků. Vývoj se dnes ubírá směrem k rozpoznávání textu, hlasu a ke zpracování trojrozměrného obrazu.

V Kyoto společnost Omron vybudovala Optoelektronickou laboratoř. Studují se zde různé vlastnosti světla, jako je jeho polarizace a vlnová délka. Vyvíjí se zde zařízení a technologie rozpoznávání vlnové délky světla, srovnatelné s vnímáním lidského oka, které rozpoznává sebemenší detaily na povrchu předmětů.

V Tsukubě společnost Omron vybudovala Mikromechanickou laboratoř. Úkolem laboratoře je vyvíjet a zajistit hromadnou výrobu a montáž mikromechanických senzorů a komponent, které se nazývají inteligentní struktury. V laboratoři se studují nové možnosti mikromechanických senzorů a vyvíjejí se nové komponenty mikroskopické velikosti pro tovární automaty. Laboratoř se podílí na japonském národním projektu Výzkumu a vývoje mikromechanické technologie.

V Kyoto společnost Omron vybudovala Laboratoř pro otevřené platformy, která se zabývá výzkumem otevřených počítačových sítí s cílem integrovat do těchto sítí zařízení od technologických robotů až po domácí digitální přístroje. Moderní sítě se stanou nejen zdrojem informací, ale budou také sloužit pro řízení.

V Kyoto společnost Omron dále provozuje svoji Laboratoř softwarového inženýrství, která se zabývá výzkumem, vývojem a softwarovým inženýrstvím s cílem posílit produktivitu a zvýšit kvalitu produktů společnosti Omron. Na základě projektu SPI (Software Process Improvement) zdokonalování vývoje softwaru společnost Omron zkoumá pokročilé technologie vývoje softwaru s cílem podpořit vývoj svých klíčových produktů. Laboratoř také zkoumá dokonalejší využití pokročilých informačních technologií a vyvíjí vzdělávací programy pro softwarové inženýry.

V Yokohamě společnost Omron provozuje svoji Laboratoř komunikací a bezdrátových technologií. Výzkum a vývoj se zde soustřeďuje na vývoj nové generace komunikačních technologií, jako jsou vysokorychlostní vícekanálové přenosové systémy a různé přenositelné komunikační technologie, pomocí nichž lze budovat pružné a přenositelné systémy. Jedním z projektů Laboratoře je také rozeznávání obrazu pomocí radiových vln, které zde neslouží pouze pro komunikaci, ale také pro vzdálené měření nebo detekci objektů.

Společnost Omron se ve své Laboratoři fuzzy logiky a lidských médií v Kyoto zabývá technologickými aplikacemi fuzzy logiky. Základním cílem je zkonstruovat novou generaci rozhraní mezi člověkem a počítačem nebo robotem, které by bylo schopno vnímat lidský hlas a jeho emocionální obsah. Rozhraní by mělo být schopno rozeznávat nejen čísla a text, ale také zvuky a obrazy. Výzkumníci se tak snaží vytvořit uživatelsky přátelské stroje.

Technologie rozpoznávání informací

Jak již bylo uvedeno, společnost Omron se zabývá aplikacemi fuzzy logiky v počítačové technologii s cílem vyvinout digitální zařízení, která budou mít lepší a ergonomická rozhraní komunikace s člověkem. Počítačové systémy dosud selhávají při interpretaci čísel, psaného textu, přirozeného jazyka, zvuku a obrazu. Proto je prakticky nemožné softwarově zpracovávat informace, které se týkají psychologického profilu nebo emocionálního stavu. Vědci společnosti Omron se proto zabývají projekty využití fuzzy logiky pro zpracování zmíněných informací.

Při aplikaci matematiky v přírodních vědách dochází při popisu reality k zásadnímu rozporu. Na jedné straně matematika poskytuje vysokou přesnost popisu, ale na straně druhé je tento popis často neúměrně složitý a prakticky zcela nepoužitelný. Proto dochází ke zjednodušení a výsledný popis je pak nepřesný a mnohdy nevýstižný.

Filozofové si jsou již dlouhou dobu vědomi toho, že zavádění přesnosti do popisu přírodních dějů za každou cenu je umělé. Bertrand Russel v článku Vagueness [Russel, B.: Vagueness. Australian J. Phil., 1, 1923, s. 84-92] napsal: "tradiční logika předpokládá použití přesných pojmů, které jsou však aplikovatelné pouze v ideální představě." Snaha o stále větší přesnost nutně vede k nárůstu definic a ke složitosti popisů jednoduchých jevů.

V roce 1966 L. A. Zadeh ve svém článku o nových směrech analýzy komplexních systémů [Zadeh, L.A.: Outline of a New Approach to the Analysis of Complex Systems and Decision Processes. IEEE Trans. Syst. Man. Cybern., 1, 1973, s. 28-44] formuloval tzv. princip inkompatibility: "Roste-li složitost systému, klesá naše schopnost formulovat přesné a významné soudy o jeho chování, až je dosaženo hranice, za níž jsou přesnost a relevantnost prakticky vzájemně se vylučující charakteristiky."

Mocným nástrojem pro popis reality je přirozený jazyk. Vedle jeho mnohotvárnosti je jeho hlavní síla ve schopnosti funkčně používat nepřesné, vágní pojmy. Každý takový pojem určuje třídu objektů, jejíž hranice lze jen velmi těžko vymezit. Pokud bychom se pokusili zařazovat jednotlivé prvky universa do těchto tříd, brzy bychom se dostali do značných problémů. Prvky těchto tříd tedy nelze zapsat do seznamu a proto netvoří množinu.

S problémem přesného vymezení pojmů souvisí některé paradoxy antické filozofie, jako je např. paradox hromady: Mějme malou hromadu kamení, ke které přidáme jeden kámen. Dostaneme tak malou hromadu. Z toho plyne, že každá hromada kamení je malá.

Ve druhé polovině 20. století vznikla řada nových disciplín, jako je teorie systémů, teorie jazyků, teoretická robotika, umělá inteligence a stále více se začala uplatňovat výpočetní technika. Rozvoj těchto oborů nutil matematiky, aby se zabývali problémem popisu nepřesných pojmů. V roce 1965 L. A. Zadech publikoval článek [Zadech, L.A.: Fuzzy sets. Inf. & Control, 8, 1965, s. 338-353], který zahájil rozvoj modifikované teorie množin, tzv. fuzzy množin, které jsou nástrojem pro matematický popis vágních a nepřesných pojmů. Základní myšlenka fuzzy množin je jednoduchá. Pokud nejsme schopni stanovit přesné hranice třídy vymezené vágním pojmem, nahradíme toto rozhodnutí mírou vybíranou z nějaké škály. Každý prvek bude mít přiřazenou míru, která vyjadřuje jeho místo a roli v této třídě. Bude-li škála uspořádaná, pak menší míra bude vyjadřovat, že daný prvek leží někde na okraji třídy. Tuto míru nazýváme stupněm příslušnosti daného prvku k dané třídě. Třída, v níž každý prvek je charakterizován stupněm příslušnosti k této třídě, se nazývá fuzzy množina. Lze také říci, že stupeň příslušnosti vyjadřuje stupeň našeho přesvědčení, že daný prvek patří do dané fuzzy množiny.

Jestliže např. popisujeme vágní pojem "velký strom", pak každé výšce, která připadá v úvahu, přiřadíme číslo vyjadřující stupeň našeho přesvědčení, že takový strom je velký. Tento stupeň plyne z toho, jak chápeme pojem "velký strom". Je vidět, že přiřazování stupňů příslušnosti závisí na subjektu a také na kontextu, kdy např. velký strom v arktické oblasti je něco jiného než velký strom v tropech.

Stupeň příslušnosti nemá nic společného s pravděpodobností. Pokud bychom chtěli mluvit o pravděpodobnosti, museli bychom zkoumat výskyt nějakého jevu (např. zda strom, na který se právě díváme, je 20 metrů vysoký). Fuzzy množiny popisují vágní pojmy sami o sobě.

Je možné namítnout, že lze hovořit o pravděpodobnosti toho, že daný strom je velký, a tak zdůvodňovat pravděpodobnostní podstatu fuzzy množin. V tomto případě se však hovoří o pravděpodobnosti fuzzy jevu, tedy jevu, který je definován pomocí fuzzy množin.

V současné době se společnost Omron soustřeďuje na tři základní oblasti zpracování informací podle typu média.

První oblastí je hlasová interakce, která se soustřeďuje na zpracování zvukové informace. Společnost Omron se zaměřila na rozpoznávání, syntézu a interaktivní řízení s aplikacemi v podobě automaticky odpovídajících telefonních přístrojů nebo hlasových terminálů poskytujících informace. Cílem je vysoké rozlišení a zpracování lidského hlasu a řeči a syntéza přirozeného lidského hlasu.

Druhou oblastí je informační navigace. Společnost Omron se zabývá automatickým rozpoznáváním, zpracováním a vyhledáváním informací. Cílem je vytvořit systém, který bude schopen analyzovat psychologický profil uživatele a vyhledávat informace, které tomuto uživateli nejlépe vyhovují z obrovského množství existujících informací. Vyhledávací systémy založené na vzorku textu jsou dnes v síti Internet stále obtížněji použitelné. Uživatel obvykle nalezne obrovské množství s hledaným tématem zcela nesouvisejících informací. Uživatel, hledající informace o textovém procesoru LaTeX v systému AltaVista, nalezne spoustu zcela s tématem nesouvisejících informací o latexových barvách.

Jednou z konkrétních aplikací informační navigace je systém pro informační služby zdravotní péče.

Třetí oblastí je identifikace obrazu, vyhledání snímku na základě jeho slovního popisu. Vedlejším produktem se stala výše uvedených oblastí se stala robotická kočka Tama.

V Kansei společnost Omron provozuje laboratoř pro technologie vybavování obrazu. Studují se zde technologie pro obrazovou identifikaci osob. Jedním ze zařízení je systém, který umožní automaticky nalézt pomocí kamery psychicky nemocné pacienty nebo starší lidi, kteří zabloudí. Další technologie by měla umožňovat vyhledávat fotografie pomocí popisných slov, jako je "horký" a "těžký". Laboratoř provádí také vývoj malých robotů určených pro vlastní výzkum a případně pro psychiatrické účely. Tito roboti využívají kombinace různých technologií vnímání, jako je sensorická detekce nebo rozpoznání dotyku, a technologie vytvářející emoce a chování robota. Cílem je vytvořit přirozené rozhraní pro kontakt člověka s neživým strojem, jaký zatím vidíme jen ve filmech science fiction.

Hlasová interakce

Od počátků věku počítačů se lidé snažili uplatnit metody přirozené interakce, jako lidský hlas, pro komunikaci se stroji. Společnost Omron chce lidem navrátit přirozený životní styl ve světě obklopeném digitální technikou. Jádro tohoto vývoje leží ve vývoji technologie hlasového rejstříku, v rozpoznávání hlasu, v syntéze hlasu dosahující kvality lidského hlasu a konečně v interaktivním řízení přirozené komunikace. Další projekty se zaměřují na vývoj adresového rejstříku pro rozpoznávání, na interaktivní adresové ověřování a na interaktivní řízení s cílem zkonstruovat automatický systém pro odpovídání na telefonické dotazy. V budoucnosti by mělo dojít k vývoji terminálů, které budou na hlasový dotaz poskytovat hlasové odpovědi. Tento vývoj vyžaduje rozpoznání hlasu ve zvukově zašumělém prostředí a schopnost systému rozeznávat klíčová slova mezi jinými zvuky.

Podpora informačních služeb zdravotní péče

Jeden z projektů Laboratoře fuzzy logiky a lidských médií je strukturální analýza světových jazyků, která původně vycházela ze softwaru Wnn, vstupního softwaru pro zpracování japonštiny. Nyní se tento software vyvinul v "informační navigaci".

Pro automatizaci informačních služeb zdravotní péče společnost Omron vyvinula textový syntezátor, který automaticky generuje rady pro uživatele z psaného textu nebo z webovských stránek. Dále bylo vyvinuto multimediální vyjádření, které konvertuje generovaný text do tvaru, jemuž čtenář dává přednost. Konečně byl vyvinut systém, který rozpoznává hledané informace na Internetu.

V typické databázi se lze na obrázky dotazovat pouze pomocí klíčových slov, které jsou k obrázkům připojeny. Při budování rozsáhlých databází obrázků ale lze těžko nalézt klíčová slova, která by obrázky přesně popisovala. Proto společnost Omron vyvinula technologii, která vyhledává podobné obrázky na základě popisných charakteristik obrázků, jako jsou barvy a tvary. Tato technologie již nebude vyžadovat připojení klíčových slov k obrázkům v databázích. Navíc první výsledek prvního vyhledání lze použít jako klíč pro druhé přesnější vyhledání. Takto lze neustále zpřesňovat popis obrázku a zpřesňovat výběr. Hledaný obrázek lze nalézt rychleji než v běžných databázových systémech. Protože jsou vyhledávány současně barvy a tvary, je hledání přesnější.

Výzkumníci připravují rozsáhlý slovník, který používá popisný jazyk pro charakteristiky obrázku. Brzy bude možné obrázky hledat pomocí tohoto popisného jazyka.

V domovech důchodců nebo na psychiatrických klinikách je nutné mít neustále přehled o pohybujících se osobách. Duševně nemocní nebo staří lidé se někdy obtížně orientují v prostředí a mohou se snadno ztratit. Společnost Omron vyvinula technologii, která automaticky identifikuje pohybující se osoby. Používá metodu Gaborových vlnek a grafické shody. Systém je nyní schopen identifikovat tvář osoby snímané videokamerou. Systém rozpozná lidskou tvář z různých úhlů, což je zásadní vlastnost, protože kamera často nemůže být umístěna tak, aby snímala tvář zepředu. Tímto systémem lze identifikovat také osoby, které se snaží svoji tvář před kamerami skrývat.

Robotická kočka Tama

Vztahy mezi lidmi a stroji se mění. Končí doba, kdy se lidé museli přizpůsobovat omezeným schopnostem strojů, ale stroje se začínají přizpůsobovat přirozenému prostředí lidí. Proto dochází k rozvoji složitého rozpoznávání informací, umělé inteligence a modelování emocí. Společnost Omron vyvíjí co nepřirozenější rozhraní mezi strojem a člověkem, které nalezne využití od automatizovaných a robotizovaných systémů až po domácí použití.

Jako příklad přirozenějšího rozhraní mezi strojem a člověkem společnost Omron vyvinula robota, nazvaného Tama, který má podobu malé kočky. Robotická kočka vnímá dotyk, je schopna pohybu, rozumí lidskému hlasu a odpovídajícím způsobem na něj reaguje.

Robotická kočka Tama má osm dotykových čidel a tři pohybová čidla, která jí umožňují rozpoznávat dotyk a polohu těla. Proto je schopna rozpoznat, když ji někdo chová v náručí nebo jak pohybuje svým ocasem. Je schopna rozeznat, odkud k ní přichází zvuk a také rozpozná své vlastní hlasové projevy od hlasů okolních lidí.

Všechny informace ze senzorů se vyhodnocují v jejím "mozku", který pracuje na principech fuzzy logiky. Tama na své okolí reaguje jedním ze šesti emocionálních projevů. Dokáže vyjádřit hněv, překvapení, spokojenost, úzkost, nespokojenost a strach. Tyto emoce projevuje odpovídajícím "kočičím" způsobem. Tama se sama učí a její reakce na okolí se postupně mění podle toho, jak se k ní lidé chovají.

Na rozdíl od robotických hraček není robotická kočka Tama určena pro komerční výrobu, ale slouží pouze k výzkumným účelům a bude využívána také v psychiatrii při zooterapii u pacientů, k nimž nelze připustit živá zvířata. Zooterapie je někdy účinnou metodou pro navázání kontaktu s duševně nemocným pacientem nebo ke zmírnění projevů psychotického onemocnění.

Jednou z možných aplikací principů robotické kočky Tamy může být bankomat. Podle rytmu a tlaku dotyku a podle tónu hlasu může bankomat rozpoznat duševní rozpoložení člověka a odpovídajícím způsobem reagovat. Jakmile se bankomat jednou seznámí s vaším chováním, bude schopen urychlit případné transakce nebo naopak jim zabránit, pokud jednáte z donucení.

Robokočka Tama se stala výjimečným symbolem přirozenějšího rozhraní mezi strojem a člověkem, které bude brát ohled na lidské pocity a vhodně na ně reagovat. V budoucnu tedy zmizí situace, které lze charakterizovat slovy: "Počítač vámi pohrdá".

Literatura a odkazy:

[1] Novák, Vilém: Fuzzy množiny a jejich aplikace, SNTL, Spálená 51, 113 02 Praha 1, 1990, ISBN: 80-03-00325-3

[X1] Omron.

[X2] Tama has feelings. Interactive Pet Robot


časopis o přírodě, vědě a civilizaci