4:2:0 vs. 4:2:2 vs. Raw:Videographer's Guide to Chroma Subsampling

Dedikované videokamery a dokonce i hybridní kamery nyní nabízejí nepřeberné množství formátů pro natáčení videa, ale jaký je rozdíl mezi 4:2:0, 4:2:2 a raw a jak to ovlivní vaše záběry? Pochopení technických podrobností může být užitečné při informovaném rozhodování o tom, který formát použít.

Množství různých formátů záznamu nabízených v nabídce videa vaší kamery může být někdy ohromující, ale pokud si z tohoto článku neodnesete nic jiného, zde je jeho podstata:v závislosti na faktorech, jako je rozlišení, barevná hloubka a obnovovací kmitočet vašeho videozáznamu, mohou být operace, jako je kódování a dekódování vašeho videa, úprava vašich záběrů nebo jejich ukládání a obnova ze souborů, extrémně časově, datově a výpočetně náročné. Poněkud záhadně pojmenované formáty videa zmíněné v nadpisu tohoto článku jsou odpovědí na tento problém a nabízejí tvůrcům videa různé možnosti, jak dělat kompromisy mezi kvalitou svých záběrů a množstvím informací (nebo dat), které jsou potřeba k jejich uložení.

Velký kompromis:Kvalita obrazu versus úložiště dat

Obecně platí, že nejkvalitnější formáty videa budou vyžadovat nejvíce dat pro uložení, zatímco formáty s nejnižší kvalitou budou vyžadovat nejméně. Množství dat potřebných k uložení vašeho videozáznamu může mít důležité praktické důsledky. Větší datové sady generované vysoce kvalitními video formáty vytvářejí větší soubory, které mají určité potenciální nevýhody. K uložení záběrů jsou zapotřebí větší objemy digitálních paměťových médií a delší doba zápisu těchto vysoce kvalitních videosouborů může také omezit schopnost fotoaparátu pořizovat záběry. Volba kvalitnějšího formátu videa vás může například donutit natáčet s nižší snímkovou frekvencí a/nebo rozlišením, aby datový kanál fotoaparátu držel krok.

A problémy nekončí u fotoaparátu.

Jakmile tyto větší soubory nahrajete do svého počítače pro úpravy, čas a výpočetní zdroje potřebné ke čtení a zpracování těchto souborů jsou odpovídajícím způsobem delší a váš počítač může mít dokonce potíže s dokončením těchto úkolů, pokud postrádá nezbytnou paměť nebo výpočetní výkon pro zpracování tak velkých datových sad.

Pozitivní je, že kvalitnější video formáty vám poskytnou – no… vyšší kvalitu záznamu (samozřejmě) – ale mohou také nabídnout jednodušší pracovní postup a vynikající výsledky v rámci sady pro úpravy, o čemž budeme diskutovat později.

Jednoduchý příklad tohoto druhu kompromisu mezi kvalitou obrazu a velikostí souboru, kterému každý rozumí, je bitová hloubka. Pixely na snímači digitálního fotoaparátu budou mít specifikovanou bitovou hloubku pro kódování barev při nahrávání videa nebo fotografií. Pixel s 8bitovou barevnou hloubkou může zaznamenat 2⁸ nebo 256 barev pro každý z červených, zelených a modrých (RGB) kanálů, celkem tedy asi 16,7 milionů barev. Kamerový senzor, který nabízí 12bitovou barevnou hloubku, naopak dokáže zaznamenat asi 68,3 miliardy barev. Barevné podání 12bitového snímače bude ve většině případů samozřejmě mnohem lepší než podání 8bitového snímače, ale 20megapixelový snímek pořízený 12bitovým snímačem bude vyžadovat 90 megabajtů pro uložení barevných dat, zatímco 8bitový snímač vyžaduje 60 megabajtů (za předpokladu, že v obou případech nedojde ke kompresi obrazu).

Níže uvedený 8bitový barevný obrázek (s laskavým svolením Wikipedie) pěkně ilustruje druh kompromisu mezi kvalitou a velikostí souboru, o kterém jsme diskutovali. Na modrém pozadí oblohy můžete jasně vidět příklad jevu pruhování, který může být způsoben použitím menší bitové hloubky pro barvu.

Viditelné pruhy na 8bitovém obrázku (s laskavým svolením Steve F, Wikipedia)

Je docela snadné pochopit, jak může výběr bitové hloubky pro váš obraz videa ovlivnit kompromis mezi kvalitou obrazu a velikostí souboru, ale co tyto další, záhadněji pojmenované formáty videa jako 4:2:2 a 4:2:0?

90 let starý barevný systém, který dodnes používáme

Abychom těmto video formátům porozuměli, musíme udělat krok za hranice světa jednoduchých barev RGB a podívat se na jiný systém kódování barev, který vznikl koncem 30. let, kdy televizní inženýři začali uvažovat o zavedení barevného vysílání. Analogicky ke způsobu, jakým Microsoft v roce 1985 potřeboval, aby jejich nový operační systém Windows byl zpětně kompatibilní se všemi počítači, na kterých již běžel jejich předchozí diskový operační systém (DOS), televizní inženýři zjistili, že během přechodného období, kdy se stále zaváděla barevná televize, by nové barevné vysílání muselo být také kompatibilní s černobílými televizory, které většina lidí stále používala. V roce 1938 přišel francouzský inženýr Georges Valensi s důmyslným systémem pro oddělení černé a bílé složky obrazu od barevných složek. Pro nové barevné vysílání by stávající černobílé televize jednoduše využívaly černobílou složku signálu, zatímco nové barevné televize by z této černobílé složky rekonstruovaly plně barevný obraz v kombinaci se dvěma dalšími barevnými kanály.

Navzdory svému stáří se Valensiho systém, označovaný jako YCbCr, dodnes používá a ve skutečnosti je základem našich moderních metod kódování videa (včetně formátů 4:2:2 a 4:2:0, o kterých zde budeme hovořit). Namísto rozdělení obrazu na červený, zelený a modrý kanál rozděluje systém YCbCr obraz na dvě široké složky označované jako luma a chroma. Složka luma (Y v YCbCr) je v podstatě černá a bílá část obrázku, zatímco složka chroma se skládá ze dvou barevných rozdílových kanálů – modrého rozdílového kanálu (Cb) a červeného rozdílového kanálu (Cr).

Skutečně důmyslným aspektem tohoto systému je, že přímo využívá způsob, jakým lidské oko reaguje odlišně na jas (světlé a tmavé tóny) a barvy – a dělá to velmi chytrým způsobem, který nám umožňuje zakódovat přesné video obrazy s použitím menšího množství informací.

Protože lidské oko je citlivější na jas než na barvu, je možné kódovat barevné informace s nižším rozlišením a přesto být schopen rekonstruovat přesný obraz. V případě vysílaného televizního signálu to odpovídá použití menší šířky pásma pro chroma (barevné) složky než pro luma (jasovou) složku. Pro digitální video obraz můžeme využít stejný prostorově úsporný koncept tím, že použijeme menší zlomek našich dat ke kódování chroma složek s nižším rozlišením.

Ale jak praví informační reklama – počkejte, je toho víc…

Naše oči jsou také citlivější na střední zelenou oblast viditelného spektra než na barvy blíže k červenému nebo modrému konci spektra, což znamená, že můžeme dále snížit množství dat, která musíme uložit pro naše video snímky tím, že uložíme méně informací o červené a modré barvě než informací o zelené barvě – a to je přesně to, co YCbCr dokáže.

Ale v tuto chvíli se možná ptáte:"Kde přesně jsou informace o zeleném kanálu? Máme luma (černou a bílou) složku a chroma kanály pro rozdíly v červené a modré barvě. Vyhazujeme zelený kanál?"

Odpověď je ne.

Vzhledem k tomu, že naše oči jsou citlivější na zelenou, informace o zelené barvě jsou zachovány v rámci luma složky s vyšším rozlišením. Když jsou informace o zelené barvě potřeba pro rekonstrukci původního obrazu v RGB, lze je snadno extrahovat z dat luma.

Jen jako stranou – tato zvýšená citlivost lidského oka na zelenou se také odráží v rozložení barevných filtrů v matici Bayer (nebo X-Trans, pokud používáte Fuji), které pravděpodobně sedí před snímačem vašeho digitálního fotoaparátu a používají se k rekonstrukci barev z čistého jasového obrazu, který snímač vidí. Pokud se podíváte na níže uvedený diagram, uvidíte, že na Bayerově matici jsou dva zelené filtry pro každý červený nebo modrý filtr – což více váží zelenou složku obrazu v souladu s přirozenou barevnou odezvou našich očí.

Bayer Filter (s laskavým svolením Amada44, Wikipedia)

Chroma Subsampling:Chytrý hack pro úsporu datového úložiště

Protože naše oči jsou citlivější na jas obrazu než na jeho barvy, můžeme obětovat určité rozlišení v informacích o barvách – zejména v modrých a červených kanálech – aniž bychom příliš ohrozili přesnost našeho obrazu. To nám umožňuje dále snížit množství dat, která potřebujeme k uložení obrazu, s odpovídajícími výhodami, pokud jde o obcházení některých problémů s velkými datovými sadami, o kterých jsme již hovořili. Jedním ze způsobů, jak dosáhnout tohoto snížení dat, je selektivně použít některé informace o chroma z určitých pixelů pomocí metody známé jako chroma subsampling.

Zvažte toto pole 8 barevných pixelů v původním obrázku.

Color Pixel Array| © Gordon Webster

Můžeme takto oddělit luma a chroma složky tohoto pixelového pole.

Rozdělení obrazu na složky luma a chroma | © Gordon Webster

Než postoupíme dále, je důležité poznamenat, že pixely CbCr jsou zobrazeny jako jediná kombinace pixelů kanálů Cb a Cr, ale v systému YCbCr by každý z nich byl ve skutečnosti zakódován jako dva samostatné pixely Cb a Cr.

Všimnete si, že existují dvě řady pixelů se čtyřmi pixely v každé řadě, a odtud pocházejí názvy formátů chroma subsampling 4:2:0 a 4:2:2. První číslo je šířka pixelového bloku, přes který vzorkujeme barvy – v tomto případě 4. Druhé číslo je počet pixelů, jejichž barvy budeme vzorkovat v prvním řádku. Třetí číslo je počet pixelů, jejichž barvy budeme vzorkovat ve druhém řádku.

Tento další obrázek ukazuje tyto protokoly dílčího vzorkování jasněji a pomůže nám porozumět podrobnostem každého protokolu.

Chroma Subsampling | © Gordon Webster

Ve formátu 4:2:0 vzorkujeme dva pixely v prvním řádku CbCr – pixely 1 a 3 – a žádné pixely z druhého řádku. Poté nastavíme pixely 1 a 2 v prvním řádku na hodnotu pixelu 1 a pixely 3 a 4 na hodnotu pixelu 3. Vzhledem k tomu, že jsme žádné pixely ve druhém řádku nenavzorkovali, jednoduše nastavíme hodnotu každého pixelu ve druhém řádku na hodnotu pixelu nad ním v prvním řádku. Přidáním zpět kanálu luma získáme výsledek, který vidíme ve spodní části diagramu.

Z diagramu můžete vidět, že s dílčím vzorkováním 4:2:0 obětujeme polovinu našeho barevného rozlišení vertikálně a polovinu horizontálně.

Ve formátu 4:2:2 vzorkujeme dva pixely v prvním řádku – pixely 1 a 3 – a stejné dva pixely z druhého řádku. Poté nastavíme pixely 1 a 2 v prvním řádku na hodnotu pixelu 1 a pixely 3 a 4 na hodnotu pixelu 3 – ale tentokrát, protože jsme také vzorkovali dva pixely ve druhém řádku, můžeme provést ekvivalentní operaci pro pixely ve druhém řádku.

Z diagramu můžete vidět, že s dílčím vzorkováním 4:2:2 obětujeme polovinu našeho barevného rozlišení horizontálně, ale zachováváme celé naše původní vertikální rozlišení.

Ale co ten protokol 4:4:4 ve třetím sloupci?

Všimnete si, že při dílčím vzorkování 4:4:4 používáme všechny hodnoty CbCr v každém řádku, a proto neobětujeme vůbec žádné barevné rozlišení. Protokol 4:4:4 je to, čemu říkáme bezztrátový formát kódování videa, a pokud jste to ještě neuhádli, podvzorkování 4:4:4 se běžněji označuje jako raw.

Takže zpět k otázce kvality obrazu versus ukládání dat

Nejprve se podívejme na to, kolik dat nám každý z těchto protokolů dílčího vzorkování ušetří při kódování našich videozáznamů. Dobrou zprávou je, že si tato čísla ani nemusíte pamatovat, protože existuje velmi snadné pravidlo, jak to zjistit pouze z názvu protokolu. Toto rychlé pravidlo vám dám za chvíli, ale uvidíme, jak to funguje.

Pokud zakódujeme všech 8 pixelů pomocí YCbCr (4:4:4) s bitovou hloubkou 8, potřebujeme 8 bitů pro každý luma pixel, 8 bitů pro každý Cb pixel a 8 bitů pro každý Cr pixel, tedy celkem 192 bitů pro zakódování celého 8pixelového pole. Toto je požadavek na úložiště pro bezztrátový formát raw, který můžeme vzít jako základ, protože tímto protokolem nešetříme žádné místo.

Pro 4:2:2 máme pouze čtyři Cb a čtyři Cr pixely místo osmi každého, takže můžeme zakódovat celé 8pixelové pole pouze pomocí 128 bitů – úspora jedné třetiny.

Pro 4:2:0 máme pouze dva Cb a dva Cr pixely místo osmi každého, takže můžeme zakódovat celé 8pixelové pole pouze pomocí 96 bitů – což je poloviční úspora.

Rychlým a snadným pravidlem pro zjištění, kolik vám každý formát videa ušetří, je sečíst čísla v názvu protokolu a vydělit 12. Tedy 4:4:4 =12/12 =1, 4:2:2 =8/12 =0,67 a 4:2:0 =6/12 =0,5. Snadno!

Jak je to tedy s kvalitou obrazu?

Se všemi těmi řečmi o vyřazení barevného rozlišení byste mohli být v pokušení myslet si, že 4:2:0 je nějaký druh rychlého a špinavého protokolu pro pořizování videozáznamů nízké kvality s minimálním úložným prostorem, ale možná vás překvapí, že 4:2:0 je ve skutečnosti standardem pro vysoce kvalitní digitální video média, jako je Blu-ray. Pokud vezmete v úvahu analogii ze světa statické fotografie, efektivně zahodíme obrovské množství informací, když převedeme obrázek z původního raw formátu do JPEG, ale přesto můžeme z obrázku JPEG vytvořit výtisky o velikosti stěny, pokud je rozlišení dostatečné.

Ve skutečnosti byste ve většině případů jen těžko viděli velký, pokud vůbec nějaký, rozdíl mezi videem natočeným ve formátu raw a videem natočeným v poměru 4:2:0. Rozdíly tam určitě jsou, pokud jste odhodláni koukat na pixely, ale obvykle jsou jemné – projevují se hlavně ve scénách, kde je snímek rozdělen ostrými hranami na hranicích různých barev. Obrázek níže ukazuje srovnání mezi třemi zde probíranými protokoly dílčího vzorkování a ve zvětšeném zobrazení můžete vidět stopy artefaktů dílčího vzorkování pro poměry 4:2:0 a 4:2:2.

Artefakty Chroma subsampling, s laskavým svolením Janke, Wikipedia

Kromě vyšší kvality záběrů, které poskytuje, surové (4:4:4) video skutečně září, pokud jde o úpravy. Abychom se vrátili k naší analogii statického fotografování, mnoho profesionálních fotografů fotografuje v raw, i když nakonec dodají své snímky v komprimovaném formátu, jako je JPEG, protože jim to dává mnohem větší flexibilitu a kontrolu během procesu úprav. Stejný přístup často používají profesionální videografové.

Nezpracované video je nekomprimované (nebo používá bezeztrátovou kompresi), zachovává barvu v plném rozlišení pro každý pixel a zabraňuje jakýmkoli problémům s kompresními artefakty ve fázi úprav. Vzhledem k tomu, že video není zpracováno, má editor videa mnohem větší flexibilitu při manipulaci a úpravě záznamu – například nastavení vyvážení bílé, obnovení přepálených světel nebo tmavých stínů nebo použití barevného odstupňování. Pro práci s barevným klíčem – například natáčení proti zelené obrazovce – nebo jakýkoli druh kompozice v postprodukci je použití nezpracovaného videa zásadní, aby se předešlo artefaktům, jako jsou barevné lemování a zubaté okraje, ke kterým může dojít v důsledku podvzorkování barev.

Po přečtení tohoto článku tedy doufám, že až se příště ponoříte do nabídky videa na kameře, shledáte řadou možností formátu videa o něco méně skličující – stejně jako budete mít lepší představu o tom, jaké důsledky bude mít výběr jednoho formátu před druhým, pokud jde o ukládání a manipulaci se záznamem.