ChatGPT nově reaguje i na obrázky a půjde ještě dál

5. 10. 2023

760

Nová verze ChatGPT sanfranciského startupu OpenAI umí mluvit a plynně vede konverzaci. Teď vůbec poprvé ChatGPT reaguje i na obrázky. Z fotografie vnitřku ledničky vám i poradí, co si z daných surovin uvaříte.

V minulých týdnech OpenAI rozšířila možnosti využívání nástrojů umělé inteligence, když představila generátor obrázků [DALL-E]. Ten zapracovala do ChatGPT. Poprvé tak populární chatbot pracuje i s obrázky. Dosud reagoval jen na mluvené slovo podobně jako chatbot Alexa od Amazonu nebo Siri společnosti Apple a další digitální asistenti.

„Chceme, aby bylo používání ChatGPT jednodušší a užitečnější,“ říká Peter Deng, viceprezident pro spotřebitelské a průmyslové výrobky OpenAI v článku amerického listu The New York Times The New ChatGPT Can ‘See’ and ‘Talk.’ Here’s What It’s Like.

Lidé mohou například předložit fotografii vnitřku chladničky a chatbot jim dodá seznam jídel, které mohou z daných surovin uvařit. Komunikační robot OpenAI známý jako ChatGPT vzbudil pozornost stovek milionů uživatelů jen několik dnů po jeho uvedení na trh loni v listopadu. S podobnými chatboty na trh rázem vstoupily i velké technologické firmy. Bot OpenAI se díky dobrému fungování rychle dostal mezi konkurenční chatboty nebo Google Bard. A konkuruje i starším technologiím, jako je zmiňovaná Alexa a Siri.

ChatGPT reaguje na obrázky, rozpoznávání tváří odmítá

ChatGPT při použití na webu, iPhonu a zařízeních s Androidem nově reaguje na fotografie, ale i grafy a diagramy. Umí je podrobně popsat a odpovědět na otázky ohledně jejich obsahu. V tom spatřují vývojáři mimo jiné užitečný nástroj pro lidi se zrakovým postižením.

Funkci pro rozpoznávání obrázků založenou na technologii společnosti OpenAI představila i společnost Microsoft. Nástroj je součástí jejího chatbotu Bing. Vývojář OpenAI Sandhini Agarwal, který se specializuje na bezpečnost nástrojů AI, uvedl, že nová verze botu ale odmítá identifikaci tváří. Záměrem jejího vývoje podle něj je, aby poskytovala velmi podrobný popis jiných fotografií. Například fotografií z Hubblova teleskopu, uvedl.

Policie v Česku tajně šmíruje lidi, varují pirátští poslanci

A bot rozpoznávající obrázky mohou podle něj dobře využívat i studenti. Třeba obrázek matematického problému, který obsahuje slova, čísla a grafy, může bot hned přečíst a vyřešit. Může tak být efektivním nástrojem výuky, nebo naopak švindlování.

Umělá inteligence nabírá na intenzitě

Dlouhou dobu patřili chatboti Alexa a Siri k jediným způsobům, jak hlasově komunikovat s chytrým telefonem, laptopem a dalším elektronickým zařízením. Ale ChatGPT a Bard od Googlu nyní operují lepšími jazykovými schopnostmi, píší emaily, poezii, studentské práce, a dokonce reagují na libovolná témata. Významné chatboty současnosti jsou:

ChatGPT je jazyk umělé inteligence vyvinutý americkým startupem OpenAI. Pozornost vyvolal loni v listopadu díky své schopnosti reagovat na složité otázky. Zvládá psát poezii, generovat kódy, plánovat dovolené a překládat z cizích jazyků. GPT-4, nejnovější verze představená letos v březnu, umí dokonce reagovat na obrázky a sestavovat jednotné testy, třeba pro právníky.
Bing: Jen dva měsíce poté, kdy OpenAI veřejnosti představil ChatGPT, přišel Microsoft, původně investor a partner OpenAI, s podobným chatbotem. Ten také dokázal vést otevřenou konverzaci na jakékoliv téma díky internetovému vyhledavači Bing. Reakce botu ale byla často nepřesná, zavádějící a nejasná. Což u uživatelů vzbuzovalo značné rozladění a nedůvěru.

Válka o AI: Vyhraje Google nebo Microsoft?

Bard:Jde o chatbot Googlu uvolněný letos v březnu pro omezený počet uživatelů ve Spojených státech a Velké Británii. Původně jej vývojáři vytvořili jako kreativní nástroj pro psaní emailů a poezie. Nyní Bard generuje myšlenky, úspěšně píše blogy a odpovídá na faktické nebo spekulativní otázky.
Ernie: Jde o prvního čínského konkurenta ChatGPT, který v březnu představil vyhledávací gigant Baidu. Ernie [Enhanced Representation through Knowledge Integration] se však v praxi neosvědčil a stal se propadákem. Po slibném „živém“ představení se totiž ukázalo, že chatbot je jenom nahraný.

Společnost OpenAI ve svém chatbotu kombinuje dvě komunikační metody. Její vývojáři považují mluvenou konverzaci za přirozený způsob, jak komunikovat s chatbotem. Uživatelé ChatGPT si mohou vybírat z pěti syntetických hlasů včetně ženského a mužského hlasu. Ty jsou podstatně přesvědčivější než ty, které používají jiní digitální asistenti.

Placená verze ChatGPT

OpenAI poprvé představila nástroj na rozpoznávání obrázků letos na jaře. Zároveň vedení společnosti upozornilo, že ho zatím pro veřejnost ale neuvolní. Nejprve její výzkumníci prozkoumají, zda nehrozí zneužití technologie. Dále chtějí vyloučit, aby novinku někdo nezneužíval jako nástroj pro sledování lidí.

V následujících týdnech se společnost chystá představit novou verzi svých chatbotů. Zpřístupní je ale pouze předplatitelům služby ChatGPT [v USA cca 20 USD/měsíc, cca 460 Kč, pozn. red.]. Hlasových reakcí se od něj ale dočkají pouze uživatelé iPhonů, iPadů nebo zařízeních využívajících Android.

Syntetické hlasy chatbotů ChatGPT jsou podle jejich uživatelů ve srovnání s jinými boty přirozenější. I když stále ještě znějí jako robot. A podobně jako ostatní digitální asistenti mívají problémy s homonymy. Když se například NYT zeptal nového ChatGPT, jak napsat slovo „gym“ [tělocvična], chatbot odpověděl „J-I-M“. Nicméně výhodou tohoto chatbotu je, že se dovede rychle a sám opravit.

„Když se mu řeklo ´ne, jiný druh gym´, tak bot odpověděl: „Aha, teď už vím, co myslíte. To je místo, kde lidé cvičí a píše se to G-Y-M.“

Ačkoliv hlasové rozhraní ChatGPT připomíná dřívější asistenty, hlavní technologie je naprosto rozdílná. ChatGPT primárně pohání velký jazykový model neboli L.I.M, který se naučil generovat jazyk analýzou velkého počtu textů posbíraného na internetu.

Umělá inteligence je trend. Jak do ní investovat

Starší digitální asistenti, jako je Alexa či Siri, pracovali jako centra příkazů. Vykonávají určitý počet zadání nebo odpovídají na omezený počet úkolů uložených v jejich databázi.

Například: „Alexo, rozsviť! nebo „Jak je v Cupertinu?“

Přidávání nových příkazů starším asistentům trvalo i celé týdny. ChatGPT oproti tomu odpoví na každou otázku v několika sekundách. I když ne vždy správně.

Ani Amazon neusíná na vavřínech a nedávno představil zdokonalený systém pro Alexu, který umožní plynulejší konverzaci a na „jakékoliv téma.“ K tomu mu pomáhá částečně nový L.L.M. A obsahuje i další zlepšení tempa a intonace, aby byl hlas přirozenější.

I společnost Apple, která tradičně nezveřejňuje své plány, hodlá konkurovat ChatGPT. Již otestovala prototyp svého hlasového modelu, který využije ve svých nových produktech.

Michal Achremenko

ChatGPT reaguje na obrázky, rozpoznávání tváří odmítá

Umělá inteligence nabírá na intenzitě

Placená verze ChatGPT

KOMENTÁŘ Zrušit odpověď

POSLEDNÍ ČLÁNKY

NEJČTENĚJŠÍ ČLÁNKY

NOVINKY

NEJDISKUTOVANĚJŠÍ ČLÁNKY