Velké jazykové modely (LLM), jako jsou ChatGPT, Gemini, Claude, Perplexity a Grok primárně interpretují video obsah prostřednictvím textových narážek. Mohou:
- Získejte statistiky z přepisů videí.
- Poskytněte odkazy na videa, která jsou považována za relevantní pro dotaz uživatele.
- Po výslovné výzvě analyzujte přepis a metadata videa.
V praxi LLM zpracovávají psaný jazyk; ještě nemohou přímo analyzovat pohyblivé obrázky a audio streamy. Toto omezení je z velké části způsobeno velkým objemem dat. Například 100 slov prostého HTML váží zhruba 0,8 kB, zatímco stejný obsah vykreslený jako 45sekundové HD video zabírá asi 20 MB – tedy zhruba 25 000krát více dat. V důsledku toho mohou video soubory na požádání v současnosti pitvat pouze specializované prohledávače a univerzální prohledávače stále nemají kapacitu, aby to dokázaly pro každé video, se kterým se setkají.
Kvůli tomu se musí optimalizace videa pro LLM zaměřit na okolní textová metadata. Klíčové prvky jsou:
Přepisy, názvy a popisy
Každé video by mělo mít úplný přepis, jasný název a podrobný popis, který vysvětluje jeho obsah. Tyto prvky musí být vystaveny přímo ve zdroji stránky – bez obálek JavaScriptu nebo prvků iframe – aby je prohledávače LLM mohly číst. Bohužel více než 95 % webových videí závisí na doručování JavaScriptu nebo prvků iframe, což skrývá jejich metadata před mnoha systémy umělé inteligence.
Vložení Wistia vhodná pro LLM řeší tento problém vložením přepisu jako prostého HTML textu do kódu pro vložení a poté pomocí JavaScriptu k nahrazení tohoto textu přehrávačem videa. Tento přístup zajišťuje, že prohledávače a uživatelé, kteří nemohou vykreslit video, stále obdrží textovou zálohu.
Pro weby, které vkládají videa YouTube, platí stejný princip. Vložené prvky iframe YouTube jsou pro prohledávače LLM neviditelné, takže jediný spolehlivý způsob, jak AI porozumět videu, je zahrnout přepis jako viditelný text na stránku. Nahrávání přesných, vícejazyčných přepisů na YouTube je zásadní, i když tyto přepisy nebudou zahrnuty do obecné sady školení LLM kvůli smluvním podmínkám YouTube zakazujícím hromadné škrábání.
A co vztah Blíženců k YouTube?
Je běžnou mylnou představou, že vlastnictví Gemini i YouTube společností Google zaručuje bezproblémovou integraci. I když Gemini může přistupovat k databázi videí YouTube s dalšími metadaty, její fungování zůstává podobné jako u jiných LLM:při identifikaci relevantních videí se spoléhá na webové citace a odkazy. Hodnocení videí ve výsledcích vyhledávání se automaticky nepřevádí na videa zvýrazněná Gemini.
Výhled do budoucna:Budou LLM přímo zpracovávat video soubory?
Odborníci předpokládají, že během několika příštích let získají LLM výpočetní výkon k interpretaci video obsahu podobně jako lidé. Zda se však tato schopnost stane běžnou, závisí na přírůstkové hodnotě, kterou přináší, oproti nákladům na zpracování. Současné projekce naznačují, že do roku 2028 by LLM mohly být schopny analyzovat JavaScript způsobem srovnatelným s Googlebotem a do roku 2031 by mohly běžně zpracovávat zapouzdřené video soubory. Do té doby zůstává pravidlo jednoduché:pokud obsah není čitelný jako text, zůstává pro AI neviditelný.