Spoločnosť Microsoft vytvorila systém umelej inteligencie (AI) na vytváranie titulkov k obrázkom, ktorý ich dokáže opísať presne tak, ako by ho popísal človek. Niekedy dokonca lepšie.



STARÝ SYSTÉM: Muž v modrom tričkuNOVÝ SYSTÉM: Niekoľko ľudí nosiacich chirurgické rúška

Technologická spoločnosť so sídlom v Redmonde uviedla, že nový systém na vytváranie titulkov k obrázkom je dvakrát lepší ako ten, ktorý sa od roku 2015 používa v produktoch a službách spoločnosti Microsoft. Tento nový systém je k dispozícii v aplikácii Seeing AI, aplikácii Microsoft pre nevidiacich a zrakovo postihnutých používateľov, a začne sa objavovať neskôr v tomto roku v programoch Microsoft Word, Outlook a PowerPoint. Tento systém je prístupný aj vývojárom prostredníctvom cloudovej platformy Microsoft Azure.



STARÝ SYSTÉM: Muž jazdiaci na skejtborde po boku budovyNOVÝ SYSTÉM: Hráč bejzbalu chytajúci loptu

Táto funkcia dokáže vygenerovať alternatívny text, popis fotografie na webovej stránke alebo v dokumente pre ľudí, ktorí majú problémy so zrakom alebo nevidia vôbec. Aplikáciou Seeing AI (Talking camera for the Blind) sa Microsoft snaží týmto ľuďom pomôcť. Pomocou tohto systému by aplikácia mala presvedčivo a presne opísať fotografie vrátane fotografií z aplikácií pre sociálne médiá.



STARÝ SYSTÉM: Osoba sediaca pri západe slnkaNOVÝ SYSTÉM: Táborák na pláži

Spoločnosť Microsoft predcvičila tento model AI spárovaním obrázkov s kľúčovými slovami, ktoré boli špecifické pre objekt na obrázku. Použitím kľúčových slov namiesto úplných titulkov bolo možné do modelu vložiť väčšie množstvo údajov. Predtrénovaný model bol následne vyladený na datasete obrázkov s titulkami.

Na benchmarku nocaps (benchmark, ktorý hodnotí AI systémy na generovanie titulkov pre objekty na obrázkoch) tento systém vytvoril titulky, ktoré boli niekedy dokonca popisnejšie a presnejšie ako titulky k rovnakým obrázkom, ktoré napísali ľudia (podľa výsledkov výskumnej práce VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training).



STARÝ SYSTÉM: Muž stojaci na vrchole horyNOVÝ SYSTÉM: Muž nesúci surf



STARÝ SYSTÉM: Detailný záber rastlinyNOVÝ SYSTÉM: Detailný záber pšenice v poli



STARÝ SYSTÉM: Osoba sediaca za stolom používajúca notebookNOVÝ SYSTÉM: Osoba používajúca mikroskop



STARÝ SYSTÉM: Detailný záber osoby robiacej párky v rožku na doske na krájanieNOVÝ SYSTÉM: Osoba robiaca chlieb

Zdroje: The AI Blog - Microsoft, arXiv.org e-Print archive