Vítejte u našeho seriálu o AI podcastech. Tentokrát je tu 24. díl podcastu AI ta Krajta a hosty jsou Lenka a Jan Činčala z firmy CloudTalk, která vyvíjí software pro call centra.
Tato epizoda je nabitým ponorem do praxe. Jak se reálně staví a prototypují AI funkce? Hosté mluví o tom, co je „Conversational Intelligence“, jak bojují s nízkou latencí u Voice Agentů, proč jsou evaluace (evals) modelů noční můrou kvůli „špinavým datům“ a proč by dnes při výběru frameworku už nesáhli po LangChainu.
Pokud vás zajímá, jak se AI dělá „v zákopech“ a nejen na konferencích, tento díl je pro vás.
O čem byla řeč? Hlavní kapitoly epizody
- 02:27 – Představení hostů: Lenka a Jan Činčala z CloudTalk
- 06:26 – Co je CloudTalk? (Software pro call centra)
- 08:26 – Jak funguje AI tým v CloudTalk
- 12:41 – Research v praxi: Detekce Voicemailu (záznamníku)
- 14:46 – Proč researcherka píše produkční kód (a role Cursoru)
- 20:51 – Problém s „evals“: Proč museli zahodit špinavá data
- 25:08 – Co je „Conversational Intelligence“ (Sumarizace, Topics, Sentiment)
- 28:14 – Téma: Voice Agenti (hlasoví boti)
- 29:50 – Jak funguje Voice Agent: „Sendvič“ (STT-LLM-TTS) vs. Audio-to-Audio
- 34:28 – Proč je nativní audio lepší? (Zachytí emoce, ironii)
- 39:43 – Reálný use case: Voice agent filtruje „scammery“ v HR
- 44:36 – Proč nenasazují vlastní LLM? (Nevyplatí se to)
- 45:52 – Bezpečnost a OpenAI (Transparentnost je klíč)
- 47:38 – Kritika LangChainu: „Zbytečně zamotané“
Hloubková analýza: 3 klíčové postřehy z praxe
Tým v CloudTalk je na přímé frontě implementace AI. Zde jsou tři nejzajímavější postřehy z jejich praxe.
1. Voice Agenti: „Sendvič“ vs. Nativní Audio
Největší „hype“ je aktuálně kolem Voice Agentů 28:14. Jan popisuje, že většina současných řešení funguje jako „sendvič“: vezme audio, převede ho na text (Speech-to-Text), ten pošle do LLM, a odpověď LLM pak převede zpět na řeč (Text-to-Speech) 29:50. CloudTalk tento přístup používá, protože je spolehlivý a hlavně multilinguální 33:01.
Skutečná budoucnost je ale podle nich v nativních audio modelech (jako GPT-4o mini audio), na které se chystají přejít 33:10. Jejich výhoda? Dokáží vnímat emoce, nuance a ironii v hlase, které se v textovém přepisu „sendviče“ zcela ztratí 34:28.
2. Realita „Evals“: Peklo se špinavými daty
Jak se testuje, jestli je AI model dobrý? Hosté popisují tvrdou realitu evaluací (evals). Lenka dostala za úkol vytrénovat model na detekci záznamníků 20:51. Měla k dispozici gigabajty nahrávek, ale zjistila, že jsou to „velmi špinavé dáta“ 21:31.
Nahrávky byly v mnoha různých jazycích a ve velmi špatné kvalitě 22:00. Modely na tom totálně selhávaly. Řešení? Musela vytvořit velmi malý, ale dokonale čistý a reprezentativní dataset, na kterém pak modely porovnává v podstatě vizuálně 22:20.
3. Kritika LangChainu: „Zbytečně zamotané“
Ke konci přišla řeč na frameworky. Jan Činčala přiznal, že CloudTalk používá LangChain 47:38. Proč? Jednoduše proto, že v době, kdy začínali, „existoval jenom LangChain“ 47:43.
Kdyby ale začínal dnes, znovu by si ho nevybral 48:07. Považuje ho za „zbytečně zamotané“ a plné „milionů abstrakcí“, které člověku spíše brání 48:07. Místo toho má raději „lightweight“ nástroje, jako je instructor, které řeší konkrétní problém (např. strukturovaný output) a jsou mnohem jednodušší 48:33. Velkým pomocníkem pro ladění jejich pipeline je pak nástroj LangFuse 49:36.
Závěr: AI je hlavně o detailech
Tato epizoda skvěle ukázala, že implementace AI není magie, ale mravenčí práce. Je to o boji s latencí, čištění dat a hledání nástrojů, které nejsou „zbytečně zamotané“. Velkým tématem byl i reálný use case Voice Agentů, kteří v CloudTalku pomáhají filtrovat obrovské množství falešných „scam“ přihlášek o práci 39:43, aby se HR mohlo věnovat reálným kandidátům.
Jaký framework místo LangChainu používáte vy? A už jste mluvili s voice agentem, který by poznal ironii? Dejte nám vědět do komentářů!

Komentáře