Fotka z iPhonu 6s Plus přes aplikaci Microsoft Mix, kde UI vyhodnotila, že jde o fotku v šeru a ponechala ji tmavší s relativně malým šumem.

Fotka z iPhonu 6s Plus přes aplikaci Microsoft Mix, kde UI vyhodnotila, že jde o fotku v šeru a ponechala ji tmavší s relativně malým šumem.

Fotka ze zrcadlovky Canon, která se drží střední šedé, fotka je kvalitnější díky velkému čipu, ale její barevné ladění a vyvážení bílé neodpovídá realitě.

Fotka ze zrcadlovky Canon, která se drží střední šedé, fotka je kvalitnější díky velkému čipu, ale její barevné ladění a vyvážení bílé neodpovídá realitě.

Originální fotka z iPhonu 6s Plus

Originální fotka z iPhonu 6s Plus

Stejná fotografie, jen se softwarovou simulací hloubky ostrosti.

Stejná fotografie, jen se softwarovou simulací hloubky ostrosti.

Fotografii pořízená zrcadlovkou Canon se světelným objektivem, kde je rozostření pozadí dosaženo optickou cestou skrze velmi otevřenou clonu.

Fotografii pořízená zrcadlovkou Canon se světelným objektivem, kde je rozostření pozadí dosaženo optickou cestou skrze velmi otevřenou clonu.

Klasický snímek pořízený iPhonem 7 plus bez zásahu UI

Klasický snímek pořízený iPhonem 7 plus bez zásahu UI

Snímek v režimu Portrét, kde úřadovala UI. Rozmazané pozadí vypadá díky druhému objektivu přirozené, bohužel se ztratily některé části listů a kus větve.

Snímek v režimu Portrét, kde úřadovala UI. Rozmazané pozadí vypadá díky druhému objektivu přirozené, bohužel se ztratily některé části listů a kus větve.

Snímek z aplikace Microsoft Pix, kde umělá inteligence spojila několik expozic pro potlačení šumu,

Snímek z aplikace Microsoft Pix, kde umělá inteligence spojila několik expozic pro potlačení šumu,

Originální snímek plný šum a se špatným vyvážením bílé.

Originální snímek plný šum a se špatným vyvážením bílé.

Originální snímek ze širokoúhlého objektivu s kácejícími se hranami.

Originální snímek ze širokoúhlého objektivu s kácejícími se hranami.

Transformace v aplikaci Snapseed.

Transformace v aplikaci Snapseed.

Snímek už má díky UI  dopočítané rohy, kde případné chyby tolik nevadí, protože do nejdůležitější středové části se nezasahovalo.

Snímek už má díky UI dopočítané rohy, kde případné chyby tolik nevadí, protože do nejdůležitější středové části se nezasahovalo.

Poslední snímek je úprava v ZPS X, kde je spodek oříznutý a střed fotky je pixelově extrapolovaný, tím se ze stavby ztratila ostrost a detaily.

Poslední snímek je úprava v ZPS X, kde je spodek oříznutý a střed fotky je pixelově extrapolovaný, tím se ze stavby ztratila ostrost a detaily.

Fotografie z aplikace Slow Stutter, které pomocí UI zvládá dlouhou expozici i za denního světla. Povšimnete si hlavně rozmazaných mraků, přičemž statické objekty nejsou přepálené.

Fotografie z aplikace Slow Stutter, které pomocí UI zvládá dlouhou expozici i za denního světla. Povšimnete si hlavně rozmazaných mraků, přičemž statické objekty nejsou přepálené.

Původní černobílá fotka

Původní černobílá fotka

Fotka dobarvená pomocí webové aplikace algorithmia.com

Fotka dobarvená pomocí webové aplikace algorithmia.com

Fotka ze zrcadlovky Canon, která se drží střední šedé, fotka je kvalitnější díky velkému čipu, ale její barevné ladění a vyvážení bílé neodpovídá realitě.
Originální fotka z iPhonu 6s Plus
Stejná fotografie, jen se softwarovou simulací hloubky ostrosti.
Fotografii pořízená zrcadlovkou Canon se světelným objektivem, kde je rozostření pozadí dosaženo optickou cestou skrze velmi otevřenou clonu.
16
Fotogalerie

Umělá inteligence ve fotografii – k čemu slouží a jaká je budoucnost?

Plno nebo maloformátová zrcadlovka, středoformát, bezzrcadlovka, to jsou dnešní ikony kvalitní fotografie, a to hlavně díky super optice a velkému čipu. Může je ale překonat umělá inteligence?

Nejdříve trocha fotografické teorie: zásadní rozdíl mezi mobilem a klasickým foťákem, je velkost jejich čipů. A od velikosti čipu se pak odvíjí hloubka ostrosti, fyzická velikost pixelů a tím pádem menší šum atd. Prostě a jednoduše, větší čipy v kombinaci s kvalitní optikou podávají výsledky lepší než mobily.

Nepoznáte to ani tak při fotce krajiny za slunného dne, ale při portrétní fotografii a v problematickém světle určitě. On je dost velký rozdíl i mezi plnoformátovou a APS-C zrcadlovkou, kde se bavíme o cca poloviční velikosti čipu. Čip v běžném telefonu je zpravidla zabírá asi 3 % plochy plnoformátové zrcadlovky.

Mobily ale chtějí foťáky dohnat, ale cestou vylepšování optiky a zvětšování čipu, to prostě nepůjde. Větší a lepší čip si totiž logicky žádá větší optiku a na telefonu už prostě není místo. Samozřejmě existují různé fígle, jako jsou zdvojené čočky a moc bych se divil, kdyby někdo v budoucnu nepřišel se třemi čočkami, ale v zásadě je to jen drobení problému na menší části, nikoli jeho komplexní řešení.

Právě umělá inteligence (UI) by mohla být a pravděpodobně bude tím správným řešením, kdy může optiku a elektroniku dohnat software. Dnes jsou to spíše drobné krůčky, kdy umělá inteligence pomáhá, ale do budoucna bude její přínos takový, že se rozdíl mezi telefonem a zrcadlovkou z hlediska kvality výstupu stáhne na úplné minimum. Umělou inteligenci v telefonech, a i v některých foťácích omezuje hlavně výpočetní náročnost, ideálně by totiž výpočty a následné renderování mělo probíhat v reálném čase, což je i pro dnešní výkonné stroje dost obtížné.

Proč umělá inteligence?

Především není vhodné chápat pojem umělá inteligence jako terminátora. Obecná definice je hodně široká a pro fotografii prakticky zbytečná. Pro zjednodušení zahrnu pod tento pojem i termín strojové učení, které právě u fotografie nebo obrazových dat obecně dává velký smysl. Nicméně pro úplnost, u obrazových dat obecně, se umělá inteligence chápe jako algoritmus, který je schopný rozpoznat, co na obrázku, potažmo zachycované scéně, je. Jestli jde o portrét, širokoúhlý snímek krajiny nebo produktovou fotografii telefonu na bílém pozadí. Strojové učení pak umělé inteligenci pomáhá se ziskem dat z fotografie: software se na vzorku fotek – teoreticky čím více, tím lépe – naučí, jak vypadá pes, jak vypadá mořská hladina, nebo lidský obličej. Na základě těchto poznatků pak umí určit na fotografii, která nebyla v učícím vzorku, jestli jde o obličej člověka, nebo se do objektivu díval pes. Jsou to propojené nádoby, které umí dělat neuvěřitelné věci.

Vzhledem k tomu, že je fotografií na internetu hromada, má strojové učení dost materiálu, aby se mohlo učit. Ostatně tohle není žádná novinka, Google používá analýzu obrazových dat na zdokonalování překladače nebo vyhledávání. Když dáte do vyhledávače výraz: pes. Najde Google i obrázky, které v sobě nenesou žádnou textovou informaci, že na fotce je pes, nebo jsou popisky v cizím jazyce. Umělá inteligence pozná podle obrazových dat, že jde o psa, fotku si zaindexuje a případný cizí název použije do slovníku. Případně obráceně, z názvu v cizím jazyce vydedukuje, že jde o obrázek psa a pak přidá analyzovaná obrazová data do databáze a další rozpoznání psa na jiných fotkách bude o to přesnější. Takovýchto případů strojového učení najdete na webu desítky a nejde primárně jen o obrazová data, ty jsou totiž jedním dílkem ve skládačce, využití je daleko širší.

Právě u mobilního telefonu, který se schopen komunikovat s celým světem, má nasazení umělé inteligence obrovský smysl. Než totiž zmáčknete spoušť, může software analyzovat snímanou scénu a pokusit se najít vhodná nastavení, aby fotka prostě vyšla. „Předžvýkaná” data mohou být přímo ve fotoaplikaci a dají se poměrně jednoduše aktualizovat. Informace mohou proudit obousměrně, a tak se zlepšují jak data se serveru, tak i data v telefonu. Tohle je obrovský benefit oproti klasickým foťákům, které tuto možnost zpravidla nemají.

Pomoc pro expoziční automatiku

Běžná expoziční automatika, nebo poloautomatika ve fotoaparátech nerozeznává scénu, foťák tedy netuší, jestli fotíte skleničku červeného vína ve sklepě nebo otevírací dobu muzea. Dlužno dodat, že některé moderní stroje rozpoznají obličej, což je typické použití UI, takže foťák tuší, co je hlavním předmětem fotografie. Ve zbylých případech je ale v podstatě slepý. Jediné, na co se zmůže, je změření světla dopadajícího na senzor.

Využívá se jednoduchého triku, který má vlastní fotografický terminus technicus: střední šedá. Naprostá většina záběrů, které se pořizují, jsou v průměru středně šedé. Foťák se snaží o rovnoměrné zachycení tmavých a světlých míst. Ve většině případů tento fígl stačí. Děláte-li záběr ve stínu, foťák zjistí, že je málo světla a upraví expoziční parametry tak, aby výsledkem měření byla střední šedá, tedy přidá ISO, otevře clonu nebo prodlouží expoziční čas. Hodně světlé místo se zase ztmavuje do střední šedé a úprava parametrů probíhá obráceně. A vy pak ve většině případů máte správně exponovanou fotku.

01.jpg02.jpg
Vlevo je fotka z iPhonu 6s Plus přes aplikaci Microsoft Mix, kde UI vyhodnotila, že jde o fotku v šeru a ponechala ji tmavší s relativně malým šumem. Vpravo je fotka ze zrcadlovky Canon, která se drží střední šedé, fotka je kvalitnější díky velkému čipu, ale její barevné ladění a vyvážení bílé neodpovídá realitě.

Univerzální řešení ale přestává stačit v okamžiku, kdy se dostanete do nestandardní situace. Fotografové rádi používají termíny „černoška na uhlí a blondýna na sněhu“. Klasická expoziční automatika vyhodnotí, že je jednou snímek moc tmavý, podruhé že je moc světlý. Výsledkem jsou dvě fotky s šedivými osobami na podprůměrných snímcích. Foťák totiž reaguje jen na dopadající světlo na čip a absolutně nereflektuje (přesněji nemůže reflektovat), co je vlastně na snímku. Tady musí být fotograf připraven použít kompenzaci expozice, kterou (polo)automatiku přesvědčí, že chce snímek tmavší, nebo světlejší.

A prakticky stejně to funguje s vyvážením bílé, lidské oko rozpozná bílý papír při západu slunce i pod čistě bílou zářivkou, mozek si to prostě přebere. Foťáky musí nastavení přizpůsobovat barevné teplotě zdroje světla mnoho nastavení, aby bíla byla bílá a lidé měli správnou barvu pleti. Klasická expoziční automatika s tím může mít občas problémy, takže se klidně může stát, že skupinové foto v sále bude vypadat jako schůze pacientů se žloutenkou.

03.jpg04.jpg05.jpg
Vlevo je originální fotka z iPhonu 6s Plus, uprostřed stejná fotografie, jen se softwarovou simulací hloubky ostrosti. Vpravo vidíte fotografii pořízenou zrcadlovkou Canon se světelným objektivem, kde je rozostření pozadí dosaženo optickou cestou skrze velmi otevřenou clonu.

Možná jste si všimli, že moderní telefony v plně automatickém režimu píší na displej, o jakou se jedná scénu a primárně se tak nemusí opírat jen o středně šedou. Velmi dobře v tomto pracují telefony Sony, které rozeznají krajinu, ale třeba i pokus o produktovou fotku, kdy nechají bílé pozadí přepálené a expozičně se soustředí hlavně na focený předmět. Často se také můžete setkat s automatickým zapnutím HDR atd.

Primárně jde o vyšší řady telefonů, které mají pro podobné hrátky dost výkonu, ale čím dál více se trochu vlastní inteligence dostává i do nižších řad. Velmi dobře patrné je to na snímcích v šeru, UI analyzuje záběr a dojde k závěru, že jde o fotku v šeru, tudíž by mělo být z fotky parné, že jde o šero. Expoziční automatika pak netrvá na střední šedé a fotku nechá přirozeně tmavší. Oproti tomu bez UI bude fotka plná šumu, protože je potřeba vyhnat ISO, aby byla fotka v průměru středně šedá.

Rozostřené pozadí

Určitě si vybavíte portrétní fotografie, kdy je obličej nebo postava ostrá a pozadí je rozostřené. Tohle je disciplína, kterou mají foťáky se světelnými objektivy v malíčku. V tomto případě jde o totiž o čistou fyziku, přesněji optiku. U telefonu s malým čipem, nebo i u foťáku s nesvětelným objektivem je takováto fotografie technicky nemožná, protože mají a priori velkou hloubku ostrosti.

Zdá se, že jedinou funkční náhradou je dvojice čoček, případně softwarové rozmazání. Při čistě softwarové cestě vypadá výsledek zpravidla velmi nepřirozeně. Musíte totiž co nejpřesněji simulovat rovinu zaostření, tedy přesně ohraničit předmět, který je motivem fotografie a pak pomocí nějakého matematického modelu rozostřit všechno okolo. Problém je v tom, že u optické cesty je reflektována vzdálenost objektů od objektivu, blízké objekty jsou tedy rozostřené jinak než ty vzdálené. Čistě softwarovou cestou tak podle matematického modelu rozmažete všechno stejně a výsledkem je často špatně určený objekt, který vypadá, jako by jej někdo vsadil do nekonkrétní směsice barev.

Při použití dvou čoček, je situace o něco lepší, nikoli však dostatečná. Primární objektiv zaostří na předmět fotografie a software se snaží co nejpřesněji „oříznout” hlavní motiv fotky. Druhý objektiv zaostří na nejkratší možnou vzdálenost a získáte kompletně neostrou fotografii. Pak se softwarově oba snímky smíchají. Výsledkem je o něco přirozenější snímek, protože rozostřené pozadí je získáno optickou cestou, nikoli výpočetním modelem.

Obě techniky ale kulhají minimálně na jednu nohu. Největší problém je právě v přesném označení a ohraničení objektu. Pokud jde o holohlavého pána, není celkem problém dostat velmi přesné ohraničení, pokud je to ale modelka s rozpuštěnými vlasy, větvička jehličnatého stromu nebo květina, rázem je problém na světě. Pro získání přesných obrysů takovýchto objektů přestává klasická detekce hran a podobných barevných odstínů stačit. Jen si zkuste přesně a detailně označit větvičku s několika kusy jehličí, když je kolem ní a za ní desítka podobných větviček.

06.JPG07.JPG
Dva totožné snímky z iPhonu 7 Plus, levý snímek je klasický, na druhém v režimu Portrét úřadovala UI. Rozmazané pozadí vypadá díky druhému objektivu přirozené, bohužel se ztratily některé části listů a kus větve.

Výpočetně jde o poměrně náročnou disciplínu, u které se zapotí i výkonný stolní počítač, natož pak telefon. Čím přesnější je třeba mít ohraničení, tím více se musí počítat a tím déle výpočet trvá. Jenže při pohledu do hledáčku neb na displej chcete vidět výsledek hned, proto musí telefon počítat s nižší přesností a u složitých tvarů vypadá výsledek nepřirozeně.

Se zdvojenými čočkami v současnosti koketuje nejvíce Huawei a Apple: součinnost dvou fotoaparátů je poháněna také umělou inteligencí, právě ta se stará o jakžtakž rozumné ohraničení objektu. Přestože je dnes tato technologie stále spíše úsměvná, hlavně z pohledu fotografa s velkou zrcadlovkou, musí se nechat, že dělá velké pokroky. Můj první testovaný telefon HTC One M8 se dvěma čočkami byl v roce 2014 spíše k smíchu. Pokusy o rozmazané pozadí končily katastrofou. A o tři roky později umí Huawei oproti tehdejšímu HTC doslova zázraky.

Apple s iPhone 7 Plus posunul celou disciplínu ještě dál, protože pro rozostření používá „teleobjektiv” a právě jiná perspektiva přispívá k tomu, že fotky občas vypadají velmi dobře. Hlavně je ale vidět, jak se díky analyzování dat a strojovému učení automatiky v telefonech zlepšují. I roční posun mezi Huawei P9 a P10 je v tomto propastný. Pochopitelně za to může i vyšší výkon procesorů, který dovoluje více výpočtů ve stejném čase.

UI prakticky, kde si na ni šáhnout

Umělá inteligence je už dnes tichým společníkem každého uživatele mobilních telefonů, pokud se ale nespokojíte jen s vědomím, že tam někde je a chcete si na UI fyzicky sáhnout, tak tady máte možnost. Jako první zmíním skvělou aplikaci Microsoft Pix, která je dostupná jen pro iOS. Jde v zásadě o jednoduchou fotoaplikaci, která nemá žádné nastavení a všechno obstarává umělá inteligence.

Konkrétně se stará o správné nastavení expozice, umí redukovat šum, ale největší síla přichází v okamžiku, kdy klasické aplikaci dochází dech. Pix dělá automaticky multiexpozice, tedy několik snímků za sebou. Při akční fotce pak UI vybere ten nejlepší záběr, který je bez pohybové neostrosti. Stejně to funguje třeba při noční fotce, kde se finální snímek složí z několika podexponovaných fotek. Pix funguje několik měsíců a Microsoft aplikaci neustále vylepšuje, přesto nejsou výsledky stále 100%, za vyzkoušení ale aplikace určitě stojí.

pix01.JPGpix02.JPG
Vlevo vidíte snímek z aplikace Microsoft Pix, kde umělá inteligence spojila několik expozic pro potlačení šumu, vpravo je pak originální snímek plný šum a se špatným vyvážením bílé.

Druhou mobilní aplikací je Snapseed, který máte asi zafixovaný jako fotoeditor, jenže i sem už probublala UI. Aplikace umí rozšířit obraz, technicky tedy z obrazových dat dopočítá, co je asi za hranicí fotky a vy si tak můžete udělat z fotky pláže krásné panorama. Pochopitelně je třeba počítat s nějakými chybami, třeba dokreslení pláže nebo lesa probíhá celkem bez problémů, ale ve skupině lidí nebo ve městě můžete narazit na problém.

Skvělá funkce je také rovnání kácejících se hran, běžné editory fotku podle kácejících se hran ořezávají a vrchní část pixelovou extrapolací roztahují. Srovnání funguje na výbornou, ale v kritické části fotky přijdete o detaily a ostrost. Snapseed spodní část fotky smrskne a dopočítá informaci v krajích snímku, kde případné nepřesnosti tolik nevadí, důležitý je střed fotky, kde se pixely vypouštějí a vy tak nepřijdete ani o ostrost, ani o kresbu.

08.jpg09.PNG
10.jpg11.jpg
Jako první vidíte originální snímek ze širokoúhlého objektivu s kácejícími se hranami. Následuje transformace v aplikaci Snapseed. Třetí snímek má díky UI dopočítané rohy, kde případné chyby tolik nevadí, protože do nejdůležitější středové části se nezasahovalo. Poslední snímek je úprava v ZPS X, kde je spodek oříznutý a střed fotky je pixelově extrapolovaný, tím se ze stavby ztratila ostrost a detaily.

Velké povědomí o UI ve fotografii má aplikace Prisma, které udělá z každé fotky abstraktní dílo podle různých předloh. V prvních verzích se výpočty prováděli na straně serveru a po nějaké době, až se UI naučila, se výpočty přesunuly přímo do zařízení. Nicméně podobných aplikací, které podobně upravují i videa najdete desítky. Upřímně, tady šlo hlavně o demonstraci schopností než o nějaký skutečně užitečný počin.

Velkou roli hraje umělá inteligence už delší dobu u dlouhých expozic. Princip totiž není stejný jako klasického foťáku, kdy se skutečně chytá světlo na snímače několik sekund a ve dne je potřeba použít silný šedý filtr. Telefony mohou bez jakéhokoli filtru exponovat klidně hodinu i za slunečného dne. UI totiž umí ignorovat části fotky, které by se přepálily a zachytí třeba jen nehybné. Klidně tak můžete pořídit fotku Karlova mostu úplně bez lidí. Záleží na nastavení, takže se v noci dá kreslit světlem, ve dne se dají rozmazat mraky atd. Aplikací je neskutečně moc a každá má trochu jiné výsledky. Při většině těchto hrátek se bohužel neobejdete bez stativu. Nicméně Apple v iOS 11 počítá s dlouhou expozicí, která půjde pořídit přímo z ruky, ale jede se až v postprodukci. Z tzv. Live Photos se zafixují statické objekty a pohybující se mohou rozmazat. Apple to na WWDC prezentoval na tekoucí vodě a výsledek vypadal velmi dobře. S dlouhou expozicí experimentuje už dlouho i Huawei, který podobné hrátky přímo integruje do své fotoaplikace.

dlouhá expozice.JPG
Fotografie z aplikace Slow Stutter, které pomocí UI zvládá dlouhou expozici i za denního světla. Povšimnete si hlavně rozmazaných mraků, přičemž statické objekty nejsou přepálené. 

Ono stačí, když si budete chtít vyfotit selfie a aplikace vám nabídne vyhlazení pleti, zvětšení očí a stažení lícních kostí, tohle vše je dílo umělé inteligence, která v reálné čase pracuje v obrazovou informací. To stejné platí pro všechny grafické prvky v Instagram Stories nebo na Snapchatu. Těch příkladů, kdy umělá inteligence kouzlí najdete na internetu desítky, třeba obarvování černobílých fotografií. UI pochopí na základě učení, co na fotce je a následně hledá podobné vzory u barevných fotek, ví třeba, že silnice je černá, střecha s pálenou taškou bude červená atd. Vyzkoušet to můžete třeba webové adrese demos.algorithmia.com. Výpočet je poměrně náročný, takže zatím probíhá jen na serveru.

BW.jpgcolor.png
Původní černobílá fotka a vedle vidíte dobarvenou pomocí webové aplikace algorithmia.com

Pomocník cloud

Umělá inteligence potřebuje poměrně dost výkonu, tudíž je její běh na telefonu zatím omezený. Poměrně logicky by bylo vhodné směřovat výpočetní činnost na servery. V budoucnu by tak telefony on-line posílali zabíranou scénu na server, který provede analýzu, pak třeba rozostří pozadí, správně vyváží bílou, srovná kácející se hrany, odstraní pána s ponožkami v sandálech, který překáží v pravém horním rohu a vy pak na telefonu uvidíte téměř dokonalý výsledek a pak už je stačí zmáčknout spoušť. Dnes hudba budoucnosti, za několik let věřím denní realita.

Zvítězí UI na optikou?

Do mnoha nastavení už umělá inteligence zasáhla a mnohdy ani uživatelé mobilů netuší, že se tak stalo, ale ani ty nejvýkonnější modely prozatím neukazují zlomek toho, co je možné s fotkou dělat. UI má obrovské možnosti, ale zatím je u fotografie teprve na začátku, nicméně její každoroční pokrok, je více než citelný. A jednou dojde doba, kdy se telefon s obrovským výpočetním výkonem serveru v zádech vyrovná zrcadlovce.

Nicméně odpověď, jestli zvítězí UI nad optickou je dle mého rezolutní ne. Když necháte úpravy na počítači, budou všichni dělat skvělé, ale úplně stejné fotky. Čím vládnou klasické foťáky více než kvalitou fotek, je skutečnost, že do fotek můžete vtisknout svůj um a své vidění světa. Tohle se jednou možná UI také naučí, ale to už je úplně jiný příběh. 

Určitě si přečtěte

Články odjinud