Visual Reasoning AI:Revoluční živé vysílání s porozuměním scéně

Umělá inteligence (AI) již transformovala video postprodukci. Nyní existují nástroje umělé inteligence pro vše od titulků přes speciální efekty až po úpravy. Je dokonce možné vygenerovat další snímky pro prodloužení klipu, který je příliš krátký. Všechny tyto modely umělé inteligence však pracují s videem, které již bylo vytvořeno. Další hranicí je živé video.

Visual Reasoning AI je nová technologie zrozená z partnerství mezi PTZOptics a Moondream.ai. Přináší pochopení scén do kamer a pracovních postupů s živým videem v reálném čase. Je to zdarma, open source a běží v jakémkoli moderním webovém prohlížeči.

Ale co to přesně je a jak to funguje?

Jazykový model vidění

Velké jazykové modely (LLM) v posledních letech dominovaly konverzaci o umělé inteligenci. Vyškoleni na textových datech pohánějí chatboty a virtuální asistenty, kteří se stávají stále více známými. Ale LLM rozumí pouze slovům.

Vision Language Model (VLM) jako Moondream je jiný. VLM dokáže porozumět videu, obrázkům a zvuku, stejně jako textovým vstupům. To znamená, že Moondream dokáže interpretovat vizuální a zvukové informace a poté generovat text a další výstupy v reakci na to, co „vidí“.

Moondream je open-source VLM vytvořený M87 Labs se sídlem v Seattlu. Je navržen pro pochopení obrázků, detekci objektů a analýzu scén. Protože se jedná o open source, lze jej bezplatně nainstalovat a spustit lokálně. K dispozici je také cloudový přístup, i když zahrnuje poplatky za používání.

Visual Reasoning AI

Visual Reasoning AI přináší praktickou automatizaci profesionálních audiovizuálních pracovních postupů, jako je streamování, vysílání a živá produkce. Ve svém jádru tato technologie generuje přirozené jazykové popisy toho, co kamera zachytí v reálném čase.

Kromě popisu dokáže lokalizovat a zvýraznit jakýkoli objekt specifikovaný srozumitelným jazykem, stejně jako počítat a sledovat objekty v zorném poli kamery. Snad nejpozoruhodnější je, že analyzuje scény, aby předvídal, co se pravděpodobně stane dál, spouští automatické reakce, jako jsou pohybující se robotické kamery, odesílání upozornění nebo aktualizace řídicích panelů.

Výsledkem je flexibilní nástroj, který lze konfigurovat v celé řadě produkčních scénářů.

Jak to funguje

Visual Reasoning AI:Revoluční živé vysílání s porozuměním scéně

Obrázek s laskavým svolením:Visual Reasoning AI

Visual Reasoning je cloudové řešení, což znamená, že není potřeba stahovat ani instalovat žádný software a není potřeba žádný speciální hardware. Funguje na stolních počítačích, noteboocích, tabletech a chytrých telefonech prostřednictvím jakéhokoli moderního webového prohlížeče a je kompatibilní s jakoukoli kamerou, včetně webových kamer, PTZ kamer a kamer smartphonů.

Po přihlášení na webovou stránku Visual Reasoning lze do rozhraní přidat připojené kamery. Moondream VLM zpracovává jeden snímek videa najednou, takže pro analýzu živého videa zachycuje více snímků v nastaveném intervalu. Tyto obrázky jsou nahrány na platformu Moondream.ai, kde AI interpretuje změny v čase.

Stojí za zmínku, že tento přístup snímek po snímku přináší přirozené omezení. Ve dvousekundovém intervalu se systém dobře hodí do prostředí s mírným tempem (schůzky, prezentace, bohoslužby), ale může mít potíže s udržením kroku s rychlou akcí, jako jsou rychlé sporty. Nastavení intervalu umožňuje operátorům vyvážit odezvu vůči zátěži zpracování, ale kontinuální analýza v reálném čase není to, co tento systém v současnosti nabízí.

Umělá inteligence dokáže popsat scénu v přirozeném jazyce, identifikovat lidi, předměty a místa. Může také sledovat a počítat počet lidí objevujících se ve videu v průběhu času. Funkce detekce více objektů kreslí ohraničující rámečky kolem konkrétních položek na scéně – operátor jednoduše napíše popis v jednoduché angličtině, jako například „dveře“, „kniha“ nebo „muž v červené košili“, a Visual Reasoning namapuje kolem položky barevný rámeček. Pomocí přizpůsobitelných barev rámečků lze identifikovat více objektů současně.

Vizuální uvažování a video produkce

Web Visual Reasoning nabízí devět bezplatných nástrojů s otevřeným zdrojovým kódem pro profesionální AV a vysílání. Nejpřesvědčivější ukázka toho, co je možné, když je porozumění scéně AI aplikováno na živé ovládání kamery.

Automatické sledování PTZ

Obrázek s laskavým svolením:Visual Reasoning AI

PTZ Auto-Tracker kombinuje Visual Reasoning AI s ovládáním kamery PTZOptics k vytvoření inteligentního sledovacího systému. Místo toho, aby se spoléhal na detekci pohybu nebo pevné zóny, akceptuje popisy objektu v přirozeném jazyce („mluvčí v modré bundě“ nebo „hráč s míčem“) a řídí kameru tak, aby se podle toho posouvala, nakláněla a přibližovala. U produkcí bez specializovaných kamerových operátorů, jako jsou bohoslužby, konferenční prezentace nebo malé sportovní přenosy, se potenciál této technologie projeví okamžitě.

Multimodální fúze

Multimodal Fusion je možná nejambicióznější z devíti nástrojů. Souběžně analyzuje obraz a zvuk, čímž poskytuje Visual Reasoning plnější smyslový obraz scény. V nastavení prezentace to znamená, že systém dokáže detekovat, kdo mluví, a automaticky přepínat kamery. Při živém hudebním vystoupení dokáže identifikovat zvuk konkrétního nástroje a nasměrovat PTZ kameru tak, aby tohoto interpreta sledovala – tato schopnost obvykle vyžaduje kvalifikovaného lidského režiséra, který činí rozhodnutí ve zlomku sekundy.

Nástroj Scoreboard Extractor čte a digitalizuje informace z výsledkové tabulky z libovolného video kanálu. Kamera namířená na výsledkovou tabuli v tělocvičně nebo na displej stadionu poskytuje zdroj a AI extrahuje příslušná data. Aktuálně podporované sporty zahrnují fotbal, fotbal, basketbal a volejbal s možností určit, která data se mají sledovat. Extrahované informace pak mohou být překryty vysíláním.

Asistent barev

Nástroj Color Assistant dokáže analyzovat barevné charakteristiky referenčního obrázku. Poté poskytne doporučení pro přizpůsobení nastavení fotoaparátu. To je ideální pro produkci s více kamerami, kde potřebujete konzistentní barvy napříč různými modely fotoaparátů. K dosažení specifického filmového vzhledu můžete také použít nástroj Color Assistant. Model AI rozumí teplotě barev, sytosti, kontrastu a tónovým charakteristikám.

Monitor zóny

Zone Monitor vám umožňuje definovat vlastní oblasti ve vašem videu. Automaticky pak detekuje, kdy konkrétní objekty nebo osoby vstoupí, opustí nebo zůstanou v těchto zónách. To by mohlo být užitečné pro tvůrce filmů o divoké zvěři, spouštějící vzdálené kamery, aby sledovaly konkrétní zvířata a ignorovat ostatní druhy.

Popisovač scény

Scene Describer automaticky generuje popisy toho, co se děje ve vašem videu, v přirozeném jazyce. Může to být užitečné pro analýzu obsahu nebo jako funkce usnadnění.

Detekční boxy

Detekční rámečky identifikují objekty, které si vyberete ve svém videu, a nakreslí kolem nich přesné ohraničující rámečky.

Inteligentní počítadlo

Smart Counter používá Visual Reasoning AI k přesnému počítání lidí, vozidel nebo jakýchkoliv objektů, které určíte, když vstupují do scény a opouštějí ji.

Analyzátor scény

Pomocí Scene Analyzer se můžete ptát na to, co se děje ve vašem videu. Visual Reasoning AI pak odpoví okamžitou odpovědí.

Síla vizuálního uvažování

Systém Visual Reasoning je navržen jako modulární – jeho nástroje lze konfigurovat a kombinovat tak, aby vyhovovaly různým produkčním prostředím. Ukázka na webových stránkách společnosti to ilustruje scénářem jednání zasedací místnosti. Když účastníci vstoupí do místnosti, AI je počítá a identifikuje. Jakmile schůzka začne, Visual Reasoning určí, kdo mluví, a podle toho přepne pohled kamery. Také detekuje, kdy se na monitoru objeví video kanál, a ořízne tento zdroj.

Systém se rozšiřuje do dynamičtějších prostředí, jako je živá hudba. Monitorováním zvuku vedle videa dokáže detekovat zpěváka a nasměrovat kameru, aby je sledovala. Během instrumentálního sóla rozpozná zvuk, identifikuje odpovídající nástroj a interpreta ve scéně a pohybuje PTZ kamerou, aby je zachytila. Když sólo skončí, zkrátí se na široký záběr celé scény.

Vzhledem k tomu, že Visual Reasoning je postaven na modelu vize-jazyk, přijímá instrukce v přirozeném jazyce spíše než vyžaduje tradiční programování. To znamená, že operátoři mohou jasně popsat, co chtějí, aby systém dělal, a relativně rychle jej překonfigurovat pro různé kontexty, jako jsou konference, bohoslužby, živé divadlo, sportovní přenosy a tak dále. Instrukce mohou být připraveny před akcí, přičemž systém pak funguje autonomně během produkce.

Vyzkoušení

Na webu Visual Reasoning je stránka Playground, kde si můžete vyzkoušet technologii a vyzkoušet nástroje. Můžete jej používat se svým smartphonem, stolním počítačem, notebookem nebo tabletem. Jednoduše přidejte svůj e-mail a Visual Reasoning vám pošle odkaz pro přihlášení. Počet požadavků, které můžete poslat AI, je omezen. Můžete však přejít na web Moondream.ai a požádat o bezplatný klíč API pro další přístup.

Významný krok vpřed pro produkci videa pomocí umělé inteligence

Visual Reasoning představuje významný krok vpřed pro produkci a vysílání AI videa. Ve spojení s kamerami PTZOptics umožňuje automatizované kamerové systémy, které lze přizpůsobit konkrétním výrobním scénářům. Tato technologie je open source a volně použitelná, což znamená, že její vývoj se pravděpodobně zrychlí, jak bude její přijetí roste a k jejímu vývoji přispěje více uživatelů.