·  Źródło: youtube.com

Stop sleeping on HTML

HTML generowany przez agentów AI przewyższa Markdown dzięki gęstości informacji, interaktywności i lepszemu zaangażowaniu w weryfikację wyjść.

Uczestnicy: Theo Browne, Thariq Shihipar, Andrej Karpathy

Analiza: Stop sleeping on HTML

Data analizy: 2026-05-13


0. KARTA MATERIAŁU

Tytuł:              Stop sleeping on HTML
Autor/Prowadzący:   V01 — prawdopodobnie Theo Browne (t3dotgg) [PRAWDOPODOBNE]
                    Podstawa: wielokrotne odniesienia do T3 Code (własny projekt),
                    "Prime" (ThePrimeagen — znany osobiście), "Julius" i "Ben"
                    jako współpracownicy; styl i tematyka zgodne z kanałem t3dotgg.
Uczestnicy:
  - V01 (prowadzący/komentator): developer i content creator, twórca T3 Stack;
    kontekst motywacyjny: promuje nowoczesne narzędzia webowe (React, HTML, T3);
    wcześniej opublikował film krytykujący Markdown — zachowuje narracyjną ciągłość.
  - Thariq Shihipar ("Thoric/Thorek" w transkrypcie — błąd ASR):
    engineering lead Claude Code w Anthropic; autor artykułu "The Unreasonable
    Effectiveness of HTML" (maj 2026);
    kontekst motywacyjny: pracownik Anthropic może mieć interes w promowaniu
    formatu generującego więcej tokenów (HTML > Markdown pod względem długości).
  - Andrej Karpathy (autor posta na X/Twitter o HTML jako formacie LLM):
    były dyrektor AI w Tesla i OpenAI, niezależny badacz; kontekst motywacyjny:
    neutralny — nie jest związany z Anthropic.
Data publikacji:    2026-05-13 (wg SRT)
Długość:            ~37 minut (00:00:0000:36:59)
Typ:                Monolog z komentarzem (video-essay; prowadzący czyta artykuły
                    na żywo i reaguje w czasie rzeczywistym)
Główna teza:        HTML generowany przez agentów AI jest lepszym formatem komunikacji
                    niż Markdown — ze względu na gęstość informacji, interaktywność
                    i większe zaangażowanie użytkownika w weryfikację wyjść agenta.
Kontekst motywacyjny:
    Prowadzący jest twórcą narzędzi dla programistów (T3 Stack, T3 Code) i
    propagatorem ekosystemu webowego (React-first); promowanie HTML jest spójne
    z jego profilem. Thariq (Anthropic) ma strukturalny interes: HTML generuje
    więcej tokenów = wyższe przychody. Karpathy jest niezależnym głosem dającym
    wiarygodność tezom bez konfliktu interesów.

1. SŁOWNIK KLUCZOWYCH POJĘĆ

Skill (umiejętność agenta) — plik tekstowy definiujący instrukcje zachowania agenta AI w konkretnym kontekście. W Claude Code: plik .md dołączany do systemu przed wykonaniem zadania. Prowadzący na żywo usuwa swój "frontend design skill" bo uznaje go za zbyt sztampowy. Uwaga: "skill" w tym kontekście to zewnętrzna instrukcja (jak system prompt), nie wbudowana zdolność modelu.

Compaction (kompresja kontekstu) — automatyczny mechanizm skracania historii konwersacji po przekroczeniu limitu tokenów. Prowadzący twierdzi, że jakość compaction w Claude Code znacząco pogorszyła się — przestał mu ufać i zamiast tego zaczyna nowe sesje.

Artifact — wynik działania agenta wyświetlany bezpośrednio w interfejsie (np. HTML renderowany obok rozmowy). Prowadzący krytykuje implementację artefaktów na claude.ai jako nieużywalną (czas ładowania >90 sekund).

HTML maximalist — określenie Thariqua na własne podejście: całkowite porzucenie Markdown na rzecz HTML dla wszystkich wyjść agenta. Prowadzący uważa to za skrajność.

MCP (Model Context Protocol) — protokół umożliwiający agentom AI dostęp do zewnętrznych narzędzi: Slack, Linear, Git, przeglądarka. Kluczowy dla argumentu o przewadze Claude Code nad Claude.ai — agent może osadzić dane z MCP bezpośrednio w HTML.

Throwaway code (kod jednorazowy) — kod generowany przez agenta wyłącznie na potrzeby jednej operacji (eksploracja danych, wizualizacja), nigdy nie commitowany ani reużywany. Prowadzący szacuje, że ~70% kodu, który "pisze" (przez agenta), jest jednorazowe.

MDX — format łączący Markdown z komponentami React (JSX). Prowadzący przewiduje MDX jako "nieodkryty rynek" i naturalny następnik HTML dla wyjść agentów AI.


2. OŚ CZASU Z BLOKAMI TEMATYCZNYMI

[0:001:16] Kontekst: od krytyki Markdown do HTML

Tezy:

Prowadzący nawiązuje do poprzedniego materiału o wadach Markdown, który spotkał się z agresywnymi komentarzami. Ustala, że HTML jako alternatywny format wyjść agentów zdobywa zwolenników: Thariq z Anthropic opublikował artykuł, Karpathy skomentował na X, Simon Willison dzielił się podobnymi hackami podczas wspólnego testowania GPT-5.

Fakty:


[2:545:09] Artykuł Thariqua: Markdown jako ograniczający format

Tezy:

Thariq identyfikuje paradoks: jeśli i tak prosisz Claude'a o edycję pliku Markdown, tracisz jego kluczową zaletę (łatwe ręczne edytowanie przez człowieka). Prowadzący reaguje natychmiastowo i usuwa własny "frontend design skill" na żywo, komentując, że był zbyt sztampowy. Dygresja o Pangram Labs ujawnia, że treść artykułu Thariqua jest napisana przez człowieka, ale wygenerowane przezeń pliki HTML są w 100% AI-generated — co prowadzący komentuje bez negatywnej oceny.

Fakty:

Cytaty:

"I am also increasingly not editing these files myself, but using them as specs, reference files, brainstorming outputs. When I do make edits, I'm usually prompting Claude to edit them, which removes one of Markdown's largest benefits." — Thariq Shihipar (cytowany przez V01), ~03:20 Kryterium: [DEFINICJA] — precyzuje dokładnie, kiedy zaleta Markdown przestaje obowiązywać


[5:109:08] Gęstość informacji: co HTML może, a Markdown nie

Tezy:

Thariq wymienia typy informacji obsługiwane natywnie przez HTML: tabele (CSS), ilustracje (SVG), fragmenty kodu, interaktywność (JS), przepływy pracy, dane przestrzenne, obrazy. Prowadzący zgadza się z większością, ale zaznacza trwałą słabość modeli z obrazami — halucynowanie base64 i URL-ów jest powszechne. Anegdota z GPT 5.5: reasoning trace modelu ujawnił konflikt między potrzebą użytkownika (znajdź obraz) a instrukcją systemową ("generuj obraz gdy użytkownik pyta") — model wybrał instrukcję systemową. To szerszy problem kolizji instrukcji niż tylko słabość z obrazami.

Fakty:

Cytaty:

"I watched in its reasoning trace: 'The user asked for us to find images on the internet. But it's in our system prompt that we must generate an image whenever the user asks. So we're going to generate images.'" — V01, ~08:47 Kryterium: [SYGNAŁ] — ujawnia mechanizm konfliktu system prompt vs. intencja użytkownika jako szerszy problem alignmentu instrukcji, nie tylko słabości z obrazami


[9:0812:03] Czytelność i udostępnianie — z kluczowym zastrzeżeniem

Tezy:

Thariq twierdzi, że HTML dramatycznie zwiększa prawdopodobieństwo przeczytania specyfikacji lub raportu. Prowadzący przyjmuje argument, ale formułuje istotne zastrzeżenie — hipotezę nowości: ile z tej wyższości to faktyczna czytelność, a ile to efekt bycia nowym? Gdyby HTML stał się równie powszechny jak Markdown, czy nadal bylibyśmy bardziej skłonni go czytać? Prowadzący weryfikuje na żywo mobilną responsywność przykładów z artykułu i stwierdza, że nie są responsywne — co podważa konkretny argument Thariqua o "czytaniu na dowolnym urządzeniu".

Fakty:

Cytaty:

"The novelty of HTML is a big portion of the value right now." — V01, ~12:08 Kryterium: [NAPIĘCIE] — prowadzący zgadza się z tezą ogólną, ale podważa trwałość efektu; uczciwe autopodważenie wewnętrznego napięcia w argumencie Thariqua


[12:0314:02] Interaktywność i kontekst danych

Tezy:

Thariq wskazuje, że HTML pozwala budować playgrounds z suwakami do dostrajania parametrów, z przyciskiem "eksportuj do promptu". Kluczowy argument dla Claude Code vs Claude.ai: agent może czytać pliki lokalne, MCPs (Slack, Linear), historię git i wbudować te dane w HTML. Prowadzący dostrzega lukę operacyjną: bez dobrego skill'a pliki HTML rozrastają się chaotycznie w projekcie.

Fakty:


[14:0217:07] Radość tworzenia i przepływ pracy

Tezy:

Thariq argumentuje, że radość z HTML to sam w sobie wystarczający powód. Prowadzący przyjmuje: cokolwiek zwiększa zaangażowanie programisty w weryfikację wyjść agenta, poprawia jakość końcowego produktu. Kontekst: prowadzący zaczął uruchamiać nowe sesje zamiast compaction — HTML pliki służą jako bogate przekazanie kontekstu między sesjami. Ważna technika: prośba o wiele wariantów jednocześnie zamiast iterowania — efekt: większa różnorodność wyjść.

Fakty:

Cytaty:

"I've realized it's better to just make a shitload of branches and a shitload of threads instead of trying to massage an existing long thread into the shape you want. I just copy-paste the parts I like into a new thread and start from scratch." — V01, ~16:42 Kryterium: [META] — ujawnia własne podejście do zarządzania kontekstem agenta; praktyczna wskazówka dla użytkowników Claude Code


[17:0722:05] Przegląd kodu: HTML jako lepszy diff view

Tezy:

Prowadzący demonstruje na żywo: VS Code z podglądem Markdown i syntax highlightingiem — kod jest już czytelny. To bezpośredni kontrargument do Thariqua. Prowadzący zgadza się jednak, że rendering diffów w Markdown jest faktycznie słaby. Thariq proponuje technikę ukierunkowania: "Help me review this PR [...] I'm not very familiar with the streaming and backpressure logic. So focus on that." — agent skupia się na obszarze o najwyższym ryzyku dla konkretnego reviewera.

Fakty:

Cytaty:

"Help me review this PR by creating an HTML artifact that describes it. I'm not very familiar with the streaming and backpressure logic. So focus on that. Render the actual diff with inline margin annotations, color code findings by severity." — Thariq Shihipar (cytowany przez V01), ~21:18 Kryterium: [DEFINICJA] — precyzuje technikę "directed HTML review": ukierunkowanie agenta na obszar nieznajomości reviewera, nie na cały kod


[22:0528:22] Raporty, badania i technika "promptowania dumb"

Tezy:

Thariq praktykuje: poproszono Claude Code o syntezę zmian w prompt caching z git history → HTML explainer. Prowadzący rozbudowuje: technika "pretending to be dumber than I am" pozwala tworzyć treści dla odbiorcy innego niż autor. Wielu programistów ma problem z wyjściem poza własną perspektywę — projektują agenta wyłącznie dla siebie. Throwaway editor jako konkretny przykład: narzędzie jednorazowe do śledzenia wydatków na GitHub Copilot — stworzone, użyte, wyrzucone.

Fakty:

Cytaty:

"I would argue almost half of my prompts are me pretending to be dumber than I am, so that the model will steer in the right direction for my users, and then I take the reins back whenever it goes where I don't want it." — V01, ~25:00 Kryterium: [META] — ujawnia epistemologię promptowania: świadome przyjmowanie perspektywy odbiorcy zamiast własnej wiedzy jako technika sterowania

"More devs need to internalize this way of thinking because you can make much better stuff for your end users if you build custom tools to get there that are only ever used once and thrown away." — V01, ~26:10 Kryterium: [KONTROWERSJA] — podważa kulturę "pisz tylko reużywalny kod"; teza dyskusyjna w kontekście bezpieczeństwa i audytowalności jednorazowych narzędzi


[28:2230:58] FAQ i realne ograniczenia HTML

Tezy:

Thariq odpowiada na obiekcje: token efficiency przy 1M oknie kontekstowym Opus 4.7 jest nieistotna. Prowadzący ocenia ten argument jako "silly point" — kontekst i koszt per-token to dwie różne rzeczy. Wersjonowanie HTML to uznana słabość (Thariq sam ją wymienia). Podsumowanie prowadzącego: HTML to eksperyment do czasu gdy stanie się nowym domyślnym formatem — analogicznie jak Markdown zastąpił kiedyś plain text.

Fakty:


[30:5836:59] Karpathy: HTML to tylko krok — przyszłość to wideo z diffusion nets

Tezy:

Karpathy formułuje szerszą tezę: HTML to jeden krok na drodze do interfejsów AI w pełni wykorzystujących ludzką przepustowość wzrokową (~1/3 mózgu). Prowadzący demonstruje na żywo: wklejanie zrzutu ekranu do T3 Code (GUI widzi obraz) vs terminal (nie widzi) — konkretna ilustracja tezy o przestarzałości terminali. Karpathy przewiduje finalnie interaktywne wideo z diffusion nets. Prowadzący nie podziela tej konkretnej wizji i proponuje MDX jako pośredni krok.

Fakty:

Cytaty:

"More generally, in my opinion, audio is the human preferred input to AI, but vision, images, animations and video are the preferred output from them." — Andrej Karpathy (cytowany przez V01), ~31:00 · x.com/karpathy/status/2053872850101285137 Kryterium: [META] — Karpathy opisuje asymetrię modalności: input ≠ output; teza wpływa na cały argument o HTML

"IMO the extrapolation, though the technology doesn't exist just yet, ends in some kind of interactive videos generated directly by a diffusion neural net." — Andrej Karpathy (cytowany przez V01), ~32:58 Kryterium: [PREDYKCJA] — falsyfikowalna: interaktywne wideo z diffusion nets jako dominujący interfejs AI. Data weryfikacji: ~2031

"I think MDX is an untapped market. All roads lead to React." — V01, ~35:59 Kryterium: [PREDYKCJA] — MDX jako następny format dla wyjść agentów AI. Data weryfikacji: ~2027


3. REJESTR PROGNOZ

# Prognoza Kto mówi Horyzont Data weryfikacji Falsyfikowalność
1 Interaktywne wideo generowane bezpośrednio przez diffusion neural net jako interfejs AI Karpathy ~5 lat 2031 WYSOKA — wymaga: działającego systemu pixel-streaming + masowej adopcji
2 Każdy piksel ekranu strumieniowany na żywo z modelu — brak HTML, layoutu, kodu Karpathy długoterminowo 2035+ NISKA — wizja spójna, ale brak mierzalnych kryteriów sukcesu
3 MDX jako "untapped market" — następny dominujący format wyjść agentów V01 ~1-2 lata 2028 WYSOKA — mierzalne przez adopcję MDX w narzędziach AI vs HTML
4 HTML zastąpi CLAUDE.md jako domyślny format kontekstu/konfiguracji agentów V01 (pośrednio) ~1 rok 2027 WYSOKA — falsyfikowalne przez brak aktualizacji Claude Code
5 Prowadzący opublikuje wideo o własnym HTML skill oraz wideo testującym skille Matta Pococka V01 kilka tygodni 2026-06 WYSOKA — weryfikowalne przez historię kanału

Flagi:


4. DETEKCJA TECHNIK RETORYCZNYCH I BŁĘDÓW LOGICZNYCH

Czas/Lokacja Typ Opis Ocena wpływu na argumentację
~05:10 Appeal to authority Powołanie się na Willisona, Karpathy'ego i Thariqua jako potwierdzenie tezy o HTML Umiarkowany — autorytety relevantne, ale żaden nie przeprowadził kontrolowanego eksperymentu
~08:47 Anegdota jako argument Historia z GPT 5.5 generującym obraz zamiast szukania — użyta jako dowód słabości modeli z obrazami Słaby — jeden incydent nie generalizuje; prowadzący sam mówi "it's all lossy"
~11:51 Uczciwe autopodważenie (pozytywne) Prowadzący sam formułuje "hipotezę nowości" i podważa własną tezę POZYTYWNY — rzadkie uczciwe pytanie o własny argument; wzmacnia wiarygodność analizy
~12:03 Fałszywa dychotomia Markdown vs HTML — implicite sugeruje wybór binarny Umiarkowany — MDX wymieniane dopiero na końcu; przez większość materiału to zero-sum frame
~15:24 Cherry-picking Thariq pokazuje tylko najlepsze przypadki (playground, wizualizacje); pomija słabe Umiarkowany — plan implementacji był słabym przykładem, co prowadzący przyznaje
~28:44 Ad hominem lite "I think those people are dumb" o krytykach efektywności tokenowej Niski — prowadzący natychmiast mówi "it's a funny joke, but it's not very real"
~35:59 Non sequitur "All roads lead to React" po MDX — React nie jest jedyną platformą obsługującą MDX Niski — retoryczne podsumowanie; Astro, Next.js, Remix też obsługują MDX
~22:3627:02 Argument przez absurd Jeden incydent (artefakty Anthropic ładują >90s) → "fucking terrible engineering at Anthropic" WYSOKI — jednostkowy incydent jako podstawa do generalnej dyskredytacji organizacji
Cały materiał Pominięcie kosztu Argument skupia się na jakości wyjść, pomija wyższy koszt HTML per token Istotny — brak kalkulacji ROI przy różnych wolumenach użycia

5. ANALIZA WIELOPERSPEKTYWICZNA

Perspektywa ekonomiczna: kto korzysta finansowo?

Argument token efficiency jest kluczowy dla oceny materiału. Thariq i prowadzący mają rację, że HTML daje "lepsze outputy", ale kalkulacja kosztów jest niekompletna. HTML zwykle generuje 20-40% więcej tokenów niż równoważny Markdown — przy cenach Opus 4.7 to istotna różnica w skali. Argument "1M token context window nie robi różnicy" miesza rozmiar kontekstu z kosztem — kontekst może być duży, ale każdy token wciąż kosztuje. Thariq (pracownik Anthropic) ma strukturalny interes w propagowaniu formatu generującego więcej tokenów. Karpathy nie ma tego interesu — co daje jego popierciu tezy wyższy indeks wiarygodności.

Perspektywa technologiczna: HTML jako format przejściowy

Karpathy formułuje najciekawszą tezę: ewolucja formatów wyjściowych AI podąża za rosnącą przepustowością wizualną interfejsów. Tekst surowy → Markdown → HTML → coś bardziej wizualnego. Sugeruje to, że spór HTML vs. Markdown jest sporem o właściwy format dla obecnego etapu możliwości modeli — nie o absolutną wyższość. HTML jest formatem przejściowym: bogatszy od Markdown, ale wciąż proceduralny. MDX (sugestia prowadzącego) jest ciekawą hybrydą — zachowuje czytelność Markdown i strukturę, ale dodaje komponentową interaktywność. Problem: MDX wymaga runtime (Node.js + bundler), co usuwa kluczową zaletę HTML ("open directly in browser"). Każdy krok w ewolucji przynosi nowe trade-offy.


6. CZEGO BRAKUJE

Pytania, które powinny paść:

Pominięte kontrargumenty:

Brakujące dane:

Pominięte perspektywy:

Tematy-duchy:


7. WNIOSKI KOŃCOWE

Synteza: Materiał prezentuje solidny argument dla konkretnych, dobrze zdefiniowanych przypadków użycia: gdy agent AI generuje dokumentację techniczną, specyfikację lub raport dla użytkownika zaangażowanego w weryfikację wyjść — HTML może faktycznie dawać lepsze wyniki niż Markdown. Kluczowe mechanizmy: interaktywność (playgrounds, eksport), bogatszy rendering (diff view, SVG), wyższe zaangażowanie emocjonalne. Jednak materiał systematycznie pomija kontrargumenty: bezpieczeństwo, wyższy koszt tokenów, degradacja formatu w czasie, dostępność.

Najuczciwszym momentem materiału jest "hipoteza nowości" prowadzącego (~11:51) — przyznaje, że nie wie, ile z wartości HTML to efekt inherentny, a ile to efekt bycia nowym. Ta niepewność powinna być centralnym wnioskiem, nie marginalną uwagą. Thariq (Anthropic) ma konflikt interesów, ale argument nie jest przez to fałszywy — jest niekompletny. Karpathy jako niezależny głos nadaje tezom wiarygodność, ale jego wizja jest daleko-terminowa i spekulatywna.

Centralne napięcie: Materiał nigdy nie rozwiązuje pytania: czy HTML jest lepszy inherentnie, czy dlatego że jest nowy i rzadki? Odpowiedź ma fundamentalne znaczenie dla decyzji o adopcji — jeśli to efekt nowości, zaleta zaniknie wraz z upowszechnieniem formatu.

Data przydatności: Analiza jest aktualna do: (1) znaczącej zmiany w zdolnościach modeli do generowania HTML/SVG/JS bez halucynacji; (2) pojawienia się natywnych formatów AI (MDX runtime w agentach lub inne); (3) rozwiązania przez Anthropic problemów z artefaktami i wersjonowaniem HTML. Pierwsze dwa mogą nastąpić w ciągu 12-18 miesięcy (do końca 2027).