Vítejte u našeho seriálu o AI podcastech. Tentokrát je tu 24. díl podcastu AI ta Krajta a hosty jsou Lenka a Jan Činčala z firmy CloudTalk, která vyvíjí software pro call centra.

Tato epizoda je nabitým ponorem do praxe. Jak se reálně staví a prototypují AI funkce? Hosté mluví o tom, co je „Conversational Intelligence“, jak bojují s nízkou latencí u Voice Agentů, proč jsou evaluace (evals) modelů noční můrou kvůli „špinavým datům“ a proč by dnes při výběru frameworku už nesáhli po LangChainu.

Pokud vás zajímá, jak se AI dělá „v zákopech“ a nejen na konferencích, tento díl je pro vás.

O čem byla řeč? Hlavní kapitoly epizody

Hloubková analýza: 3 klíčové postřehy z praxe

Tým v CloudTalk je na přímé frontě implementace AI. Zde jsou tři nejzajímavější postřehy z jejich praxe.

1. Voice Agenti: „Sendvič“ vs. Nativní Audio

Největší „hype“ je aktuálně kolem Voice Agentů 28:14. Jan popisuje, že většina současných řešení funguje jako „sendvič“: vezme audio, převede ho na text (Speech-to-Text), ten pošle do LLM, a odpověď LLM pak převede zpět na řeč (Text-to-Speech) 29:50. CloudTalk tento přístup používá, protože je spolehlivý a hlavně multilinguální 33:01.

Skutečná budoucnost je ale podle nich v nativních audio modelech (jako GPT-4o mini audio), na které se chystají přejít 33:10. Jejich výhoda? Dokáží vnímat emoce, nuance a ironii v hlase, které se v textovém přepisu „sendviče“ zcela ztratí 34:28.

2. Realita „Evals“: Peklo se špinavými daty

Jak se testuje, jestli je AI model dobrý? Hosté popisují tvrdou realitu evaluací (evals). Lenka dostala za úkol vytrénovat model na detekci záznamníků 20:51. Měla k dispozici gigabajty nahrávek, ale zjistila, že jsou to „velmi špinavé dáta“ 21:31.

Nahrávky byly v mnoha různých jazycích a ve velmi špatné kvalitě 22:00. Modely na tom totálně selhávaly. Řešení? Musela vytvořit velmi malý, ale dokonale čistý a reprezentativní dataset, na kterém pak modely porovnává v podstatě vizuálně 22:20.

3. Kritika LangChainu: „Zbytečně zamotané“

Ke konci přišla řeč na frameworky. Jan Činčala přiznal, že CloudTalk používá LangChain 47:38. Proč? Jednoduše proto, že v době, kdy začínali, „existoval jenom LangChain“ 47:43.

Kdyby ale začínal dnes, znovu by si ho nevybral 48:07. Považuje ho za „zbytečně zamotané“ a plné „milionů abstrakcí“, které člověku spíše brání 48:07. Místo toho má raději „lightweight“ nástroje, jako je instructor, které řeší konkrétní problém (např. strukturovaný output) a jsou mnohem jednodušší 48:33. Velkým pomocníkem pro ladění jejich pipeline je pak nástroj LangFuse 49:36.

Závěr: AI je hlavně o detailech

Tato epizoda skvěle ukázala, že implementace AI není magie, ale mravenčí práce. Je to o boji s latencí, čištění dat a hledání nástrojů, které nejsou „zbytečně zamotané“. Velkým tématem byl i reálný use case Voice Agentů, kteří v CloudTalku pomáhají filtrovat obrovské množství falešných „scam“ přihlášek o práci 39:43, aby se HR mohlo věnovat reálným kandidátům.

Jaký framework místo LangChainu používáte vy? A už jste mluvili s voice agentem, který by poznal ironii? Dejte nám vědět do komentářů!

Komentáře

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Přihlásit

Registrovat

Obnova hesla

Zadejte uživatelské jméno nebo e-mailovou adresu, e-mailem obdržíte odkaz pro vytvoření nového hesla.