Latte 3: největší skok v dějinách Nette

Prosím o fanfáry, na scénu přichází Latte 3. S kompletně přepsaným kompilátorem. Nová verze představuje největší vývojový skok, jaký kdy v Nette nastal.

Proč vlastně Latte

Latte má překvapivou historii. Původně totiž nebylo myšleno vážně. Mělo dokonce demonstrovat, že žádný šablonovací systém není v PHP potřeba. Bylo pevně spjato s presentery v Nette, kde však nebylo defaultně zapnuté a programátor jej musel aktivovat přes tehdejší ošklivý název CurlyBracketsFilter.

Zvrat přišel až s nápadem, že šablonovací systém by mohl HTML stránce rozumět. Vysvětlím. Pro ostatní šablonovací systémy je text v okolí značek jen šumem bez jakéhokoliv významu. Je jedno, jestli jde o HTML stránku, CSS styl nebo třeba text v Markdownu, šablonovací engine vidí jen shluk bajtů. Latte naopak dokument chápe. Což přináší spoustu zásadních výhod. Od komfortu v podobě vychytávek jako jsou třeba n:attributy, až po ultimátní bezpečnost.

Latte tak ví, jakou použít escapovací funkci (což většina programátorů neví, ale díky Latte to nevadí a nevytvoří bezpečnostní díru Cross-site scripting). Zabrání vypsání řetězce, který by v určitém místě byl nebezpečný. Dokonce dokáže předejít dezinterpretaci mustache závorek frontendovým frameworkem. A bezpečnostní experti nebudou mít co žrát :)

Nečekal bych, že tímto nápadem přeběhne Latte ostatní systémy o 10 let, protože dodneška vím pouze o dvou, co takto fungují. Krom Latte je to ještě Soy od Google. Latte a Soy jsou jediné opravdu bezpečné šablonovací systémy pro web. (Byť teda Soy ze zmíněných vychytávek má pouze to escapování.)

Druhou klíčovou vlastností Latte je, že pro výrazy uvnitř značek (někdy se říká maker) používá jazyk PHP. Tedy syntaxi programátorovi důvěrně známou. Vývojář se tak nemusí učit nový jazyk. Nemusí zkoumat, jak se to či ono v Latte píše. Prostě to napíše tak jak umí. Naopak třeba populární šablonovací systém Twig používá syntaxi Pythonu, kde se i zcela základní konstrukce píší odlišně. Například foreach ($people as $person) se v Pythonu (a tedy i Twigu) píše jako for person in people, což zcela zbytečně nutí mozek přepínat mezi dvěma opačnými konvencemi.

Latte tedy má oproti konkurenci natolik podstatnou přidanou hodnotu, že má smysl investovat úsilí do jeho údržby a vývoje.

Současný kompilátor

Latte a jeho syntax vznikla před 14 lety (rok 2008), současný kompilátor o tři roky později. Uměl už tehdy vše podstatné, co se dodnes používá, tedy i bloky, dědičnost, snippety atd.

Kompilátor fungoval jako jednoprůchodový, což znamená, že parsoval šablonu a rovnou ji přetvářel do PHP kódu, který sestavil do výsledného souboru. Jazyk PHP používaný ve značkách (tj. v makrech) se tokenizoval a poté procházel několika procesy, které tokeny upravovaly. Jeden proces doplňoval řetězcové uvozovky kolem identifikátorů, jiný přidával syntaktické vychytávky, které PHP tehdy neznalo (například zápis polí pomocí [] místo array(), nullsafe operátory ?->) nebo které nezná doposud (zkrácený ternární operátor, filtry ($var|upper|truncate), atd).

Tyto procesy ale nijak nekontrolovaly PHP syntax nebo používané konstrukce. Což se výrazně změnilo až před dvěma lety (rok 2020) s příchodem sandbox režimu. Sandbox hledá v tokenech možné volání funkcí a metod a upravuje je, což není vůbec jednoduché. Přičemž případné selhání je vlastně bezpečností chybou.

Nový kompilátor

Za jedenáct let vývoje Latte se našly situace, kdy jednoprůchodový kompilátor nestačil (třeba při inkludování bloku, který ještě nebyl definován). Všechny issue šlo sice vyřešit, ale ideální by bylo přejít na dvoukrokovou kompilaci, tedy nejprve šablonu naparsovat do mezipodoby, do AST stromu, a pak teprve z něj vygenerovat kód třídy.

Taktéž s postupným vylepšováním PHPlike jazyka používaného ve značkách přestávala dostačovat reprezentace v tokenech a ideální by bylo i jej naparsovat do AST stromu. Naprogramovat sandbox nad AST stromem je výrazně snadnější a dá se garantovat, že bude skutečně neprůstřelný.

Trvalo mi pět let se do přepsání kompilátoru pustit, protože jsem věděl, že to bude extrémně náročné. Už samotná tokenizace šablony představuje výzvu, neboť musí běžet paralelně s parsováním. Parser totiž musí mít možnost ovlivňovat tokenizaci, když například narazí na atribut n:syntax=off.

Podporu pro paralelní běh dvou kódů přináší až Fibers v PHP 8.1, nicméně Latte je zatím nevyužívá, aby mohlo fungovat na PHP 8.0. Místo toho používá obdobné coroutines (v dokumentaci PHP o nich nic nenajdete, tak alespoň odkaz na Generator RFC). Pod kapotou Latte se tedy odehrávají kouzla.

Nicméně jako ještě mnohem náročnější úkol mi připadalo napsat lexer a parser pro tak komplexní jazyk, jako je dialekt PHP používaný ve značkách. V podstatě to znamenalo vytvořit něco jako nikic/PHP-Parser pro Latte. A zároveň i nutnost formalizovat gramatiku tohoto jazyka.

Dnes můžu říct, že se mi povedlo všechno dokončit. Latte má kompilátor, jaký jsem si dlouhá léta přál. A z toho původního nezbyl ani jediný řádek kódu 🙂

Latte 3: největší skok v dějinách Nette

Proč vlastně Latte

Současný kompilátor

Nový kompilátor

Komentáře

petr #1

michal #2

chemix #3

Napište komentář