Umelá inteligencia Microsoftu sa vyrovnala človeku

Spoločnosť Microsoft vytvorila systém umelej inteligencie (AI) na vytváranie titulkov k obrázkom, ktorý ich dokáže opísať presne tak, ako by ho popísal človek. Niekedy dokonca lepšie.


     STARÝ SYSTÉM: Muž v modrom tričkuNOVÝ SYSTÉM: Niekoľko ľudí nosiacich chirurgické rúška     

 

Technologická spoločnosť so sídlom v Redmonde uviedla, že nový systém na vytváranie titulkov k obrázkom je dvakrát lepší ako ten, ktorý sa od roku 2015 používa v produktoch a službách spoločnosti Microsoft. Tento nový systém je k dispozícii v aplikácii Seeing AI, aplikácii Microsoft pre nevidiacich a zrakovo postihnutých používateľov, a začne sa objavovať neskôr v tomto roku v programoch Microsoft Word, Outlook a PowerPoint. Tento systém je prístupný aj vývojárom prostredníctvom cloudovej platformy Microsoft Azure.


     STARÝ SYSTÉM: Muž jazdiaci na skejtborde po boku budovyNOVÝ SYSTÉM: Hráč bejzbalu chytajúci loptu     

 

Táto funkcia dokáže vygenerovať alternatívny text, popis fotografie na webovej stránke alebo v dokumente pre ľudí, ktorí majú problémy so zrakom alebo nevidia vôbec. Aplikáciou Seeing AI (Talking camera for the Blind) sa Microsoft snaží týmto ľuďom pomôcť. Pomocou tohto systému by aplikácia mala presvedčivo a presne opísať fotografie vrátane fotografií z aplikácií pre sociálne médiá.


     STARÝ SYSTÉM: Osoba sediaca pri západe slnkaNOVÝ SYSTÉM: Táborák na pláži     

 

Spoločnosť Microsoft predcvičila tento model AI spárovaním obrázkov s kľúčovými slovami, ktoré boli špecifické pre objekt na obrázku. Použitím kľúčových slov namiesto úplných titulkov bolo možné do modelu vložiť väčšie množstvo údajov. Predtrénovaný model bol následne vyladený na datasete obrázkov s titulkami.

Na benchmarku nocaps (benchmark, ktorý hodnotí AI systémy na generovanie titulkov pre objekty na obrázkoch) tento systém vytvoril titulky, ktoré boli niekedy dokonca popisnejšie a presnejšie ako titulky k rovnakým obrázkom, ktoré napísali ľudia (podľa výsledkov výskumnej práce VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training).


     STARÝ SYSTÉM: Muž stojaci na vrchole horyNOVÝ SYSTÉM: Muž nesúci surf     

 

 


     STARÝ SYSTÉM: Detailný záber rastlinyNOVÝ SYSTÉM: Detailný záber pšenice v poli     

 

 


     STARÝ SYSTÉM: Osoba sediaca za stolom používajúca notebookNOVÝ SYSTÉM: Osoba používajúca mikroskop     

 

 


     STARÝ SYSTÉM: Detailný záber osoby robiacej párky v rožku na doske na krájanieNOVÝ SYSTÉM: Osoba robiaca chlieb     

 

 

Zdroje: The AI Blog - Microsoft, arXiv.org e-Print archive

Komentáre (2)
PCfans

Bombasticky titulok na sposob bulvaru.Ja to vidim tak ze nejaka appka vie popisat obrazok z naucenej databaze,a to je vsetko co vie.Keby vedela este povedat operatorovy ze ma rozopnuty rozporok na nohaviciach,a podla okolnosti sa tomu zasmiat,alebo mu to len taktne pripomenut.A este mu povedat ze to pivo co si vcera dal nebol Budweiser ale anglicke pivo Buxton tak by to stalo za pozornost.

Pjetro de

Principialne ide o to, ze to nebezi vyuzitim klasickych algoritmov ale vyuzitim AI a mozno nie na konvencnom hardveri, ale napr. na TPU (Tensor Processing Unit = vlastne specializovane procesory pre AI, kt. si sam vyraba napr. Google). Tu nejde o nic viac a o nic menej. Tvoja poznamka je sice pravdiva, ale absolutne nelogicka. AI by okrem porozumenaia kontextu v najkomplesnejsich meritkach ale musela byt integrovana do entity (robota/sondy), ktora by mala kontakt s fyzikalnou realizou pomocou imitacie ludskych zmyslov a bola by vcera v tej krcme.

Toto je naproti tomu iba (na milionoch obrazkoch) natrenovana neuronova siet (mozno beziaca na specifickom hardveri) schopna obstojne analyzovat obrazky podla nasich predstav. Takze ozaj nerozumiem co by sme mali akoze od takej neuronovej siete cakat.

Pridať nový komentár
TOPlist