Díky zákonu o svobodném přístupu k informacím jsme získali od Finanční správy denní agregovaná data za období od samotného startu EET 1.12.2016 až do 24.11.2017. Detailnější popis dat naleznete zde – Popis dat. Data není jednoduché spočítat, za jejich vygenerování je třeba zaplatit a následně počkat na provedení výpočtu. Pravidelné zveřejňování dat není v tuto chvíli dle informací z FS z technických důvodů možné.
Dále jsme data prohlédli a zjistili, že obsahují mnoho anomalit. Poslali jsme dotazy Finanční správě, která nám rychle a ochotně poskytla vysvětlení. Bylo potřeba data základně očistit a analýzy provádět dále nad tímto upraveným vzorkem. Pro analýzy jsme využili Excel v kombinaci s nástrojem PowerBI kvůli možnosti využití a zveřejnění na těchto stránkách. Další informace o našich závěrech naleznete v sekci Analýza.
Tento web je testem, zda-li je o reálné výsledky EET zájem a jestli mají nějaké další analýzy smysl. Pokud ano, plánujeme otestovat více hypotéz, získat další část dat a pokusit se přesvědčit Finanční správu, že tato data jsou pro veřejnost zajímavá a pravidelné zveřejňování dává smysl. Původně jsme požádali o agregované informace po hodinách, jejich poskytnutí by nás ale stálo cca 150 000 Kč.
Pokud jste dataholici jako my a máte zajímavé nápady, nebo byste chtěli pomoci, pište na info@datazeet.cz

Analýza

Popis dat

Data jsou agregovaná po dnech a přes NACE kódy a kraje. Hodnotami jsou jednotlivé sazby DPH a pak celková tržba. Excel má přibližně 142 tisíc řádek a 24 MB.
Datové schéma je poměrně jednoduché: DEN, KOD_CINNOSTI_PROVOZOVNY, KOD NACE, NAZEV_CINNOSTI_PROVOZOVNY, KRAJ, CELKOVA_TRZBA, ZAKL_NEPODL_DPH, DAN 21%, DAN 15%, DAN 10%.

Pro zobrazení jsme využili free nástroj PowerBI a na následujících stranách chceme ukázat některé naše poznatky. Pro vlastní zkoumání máte níže sešit PowerBI s daty z EET.

Zjištění

Čistota dat

Nejvýraznější zjištění je, že data jsou ve velkém nepořádku. Co to znamená?

  • Až do dubna zjevně do produkčního EET prosakovala testovací data.
  • Některé řádky nedávají smysl. Celková tržba by měla vzniknout jako základ nepodléhající DPH a pak jednotlivé složky DPH 10,15,21. Tento vzoreček platí jen u 782 řádků ze 142 tisíc. Tzn. pouze 0,55% řádků je úplně v pořádku.
  • Dle oficiálního vyjádření prý někdy obchodníci posílají informace s mínusem
  • Někdy jsou v datech vidět korekce – jeden den dochází k obrovskému nárůstu, v dalším dnu dojde ke korekci opačným směrem.
  • Je třeba provádět čištění dat, které se momentálně neprovádí, nebo nám poslaná data jsou nečištěná.

Pro nějaké detailnější analýzy jsou data dotčena jistou chybou, která se ale pro určité typy analýz dá zanedbat.
Další analýzy jsme proto prováděli nad daty od dubna 2017.

Podíl EET na celkovém výběru DPH

Protože jsme nedostali data za celý rok a první 4 měsíce roku 2017 jsou zatíženy extrémní chybou, vzali jsme data od května za 6 měsíců. Vybralo se 119 miliard korun, přičemž v roce 2017 MFČR deklaruje výběr DPH 381 miliard korun. Při hloupém vynásobení 6 měsíců 2 se dostáváme na 238 miliard, což by znamenalo, že EET pokrývá cca 62,5% vybíraného DPH. To se zdá více, než je očekávaná hodnota a zase to může vést k tomu, že poskytnutá data neodpovídají skutečnosti.

Pravidelnost

Na diagramu je vidět jasná pravidelnost v objemu i dnu, kdy dochází k výběru DPH. Čtyři poklesy jsou státní svátky, kdy musejí mít větší prodejny zavřeno. Na základě těchto informací lze postavit rozumně fungující fraud systém, který bude detekovat anomálie ve vybíraných částkách.
Díky tomuto lze také zodpovědět otázku, kolik stojí státní svátek se zavřenými obchody. 1. května je státní svátek, při kterém nemusí obchodníci zavírat. Na diagramu je vidět pokles, který se liší od 8.5. o cca 40 milionů korun. Nicméně 13.4. byl výběr naopak rekordní – šlo o čtvrtek před volným pátkem a pondělím. Lidé se tedy zásobili dopředu a je pozorovatelný nárůst výběru o 40 milionů korun. Jde o velice prostou analýzu, která by zasloužila detailnější a delší rozbor, nicméně ukazuje potenciál těchto dat. U dalších svátků totiž není nárůst předcházejících dnů tak výrazný.
Další zajímavá analýza by se mohla týkat tzv. bridge days – dny mezi státními svátky, kdy se vyplatí vzít dovolenou, když je volné např. úterý.

Trendy

Některá odvětví jsou registrována do EET, nicméně objemy jsou spíše symbolické. Nicméně to neznamená, že tím klesá jejich vypovídající schopnost, viz následující výběr DPH v oblasti kempů a tábořišť:

Sezona začíná v červnu a končí v září. Nepřekvapivě jsou lepší víkendy.

Typy DPH

V další rychlé analýze jsme se chtěli podívat na speciální typy DPH. V ČR v tuto chvíli existují následující kategorie DPH:
• DPH 10 – Kojenecká výživa, radiofarmaka, knihy, časopisy, mlýnské výrobky – pečivo?,
• DPH 15 – potraviny, teplo, zdravotnické pomůcky apod., dětské sedačky
• DPH 21 – zbytek
Struktura výběru je vidět v následujícím diagramu:

V únoru a březnu je signifikantní sloupec pohostinství, což je ale pravděpodobně způsobeno prosakováním testovacích dat do produkce. Nicméně poměr pohostinství se následně signifikantně snižuje.
Zaměřili jsme se na 10% DPH a výsledný obrázek pro odvětví Maloobchod mimo prodejny, stánky a trhy dává tušit, že je v datech asi opět nějaký problém:

1.září, jihočeský kraj. Co se dělo, dokáží zjistit pouze lidé na finanční správě.
Podobný případ se stal opět v jihočeském kraji 2. listopadu:

Jedná se o maloobchod s ostatními výrobky převážně pro domácnost za 80 milionů korun, což by znamenalo odběr zboží za 800 milionů.
Poslední příklad je z moravskoslezského kraje, z 8. října:

Jak obyvatelé utrácí

Tato analýza chce využít informace o počtu obyvatel v krajích. Data o obyvatelích jsou z ledna 2017.

Zdroj: http://www.eprehledy.cz/kraje_pocet_obyvatel_hruba_mzda_nezamestnanost.php

Poměr DPH by ideálně měl být v poměru stejném, jako jsou počty obyvatel v kombinaci s průměrným výdělkem. Následující tabulka ale ukazuje, že tomu tak není.

Poměry útrat v jednotlivých krajích

Je vidět, že mnoho lidí jezdí nakupovat do Prahy, to asi není žádné překvapení. Nicméně jde téměř o dvojnásobek očekávaného počtu, což ale může být způsobeno i velkým zájmem turistů. Další podobně zajímavý kraj je Liberecký, byť jen o cca 25%, ale v případě 10% DPH jde skoro o dvojnásobek, jako v případě Prahy.

Jak se daří ekonomice

EET je podle nás nejlepším zdrojem dat o výkonnosti průmyslu. Informace o spotřebě lze mít téměř v reálném čase a tak je možné vidět, jestli ekonomika brzdí, nebo přidává. Samozřejmě nepostihujeme případy, kdy se výběr daní snižuje, protože dochází k podvádění.
Navíc pokud máme informace o tom, že se ekonomice daří a výběr DPH bude setrvale klesat, je to známka toho, že preventivní význam EET již nefunguje a je třeba začít efektivně kontrolovat.
Ukázkou je např. odvětví pohostinství:

Graf výše jednoznačně ukazuje nepříznivý vývoj, ve kterém je vidět velký pokles hlavně v září 2017. Pravděpodobně to znamená odeznění efektu EET, viníkem tohoto poklesu v ČR je hlavně moravskoslezský kraj, kde je pokles signifikantní:

Závěry prvních analýz

Jak bylo zmíněno výše, hlavním problémem poskytnutých dat je datová kvalita a absence základních kontrol. Tím, že nesedí mnoho hodnot, se důvěryhodnost našich dat snižuje.
Za cca 150 000 korun finanční správa navrhla, že by byla schopna poskytnout data v hodinové granularitě. Potom by bylo možné provést další analýzy, například odchodů z restauračních zařízení, největší nápory v obchodních střediscích apod.
EET je funkční systém, který může zodpovědět mnoho otázek, nicméně z výše uvedeného se domníváme, že finanční správa jeho význam zatím nedocenila a pravděpodobně neprovádí pokročilejší analýzy. Nicméně velký dík ji patří za to, že data v agregované podobě poskytla a tím umožnila vznik této a třeba i dalších analýz.

Poděkování

Děkujeme Finanční správě za poskytnutí těchto dat, velice vstřícnou komunikaci a pokus vysvětlit v rámci zákonných mezí všechny naše otázky. Dále děkujeme všem firmám i podnikatelům, kteří data do EET posílají a bez nichž by tato analýza vzniknout nemohla.