Jump to content
Co nového? Mé kurzy
Diskuze Sledované příspěvky Žebříčky

Otázka

Odesláno

Dobrý den,

Používám Yahoo data a všiml jsem si že v denních datech (bar je jeden den) poslední dva bary jsou ke stejnému datu. Hodnoty jsou "stejné" ale někdy se mírně liší. Děje se to posledních několik dní, od 13.3. Někteří kolegové tady používají Yahoo, tak je dobré o tom vědět - mě to poslední dny negenerovalo žádné signály a tohle je možná příčina.

Teď přemýšlím co s tím. ještě nevím jestli ty dva bary nějak spojit. Dřív jsem si připravil skript který překontroloval data, použil jsem ho jen na data pro backtest, budu ho muset používat i na data pro live.

Také přemýšlím nad další věcí. Má smysl stahovat každý den znovu celou historii dat (třeba 2 roky), nebo není lepší stahovat jen posledních několik barů a ty spojit s datama z minula? Má to nevýhodu že se musí kontrolovat zda akcie neměla nějaký split atd.

 

Screenshot.png

4 odpovědi na tuto otázku

Doporučené příspěvky

  • 1
Odesláno
19. 3. 2026 v 12:39, pocket napsal/a:

Dobrý den,

Používám Yahoo data a všiml jsem si že v denních datech (bar je jeden den) poslední dva bary jsou ke stejnému datu. Hodnoty jsou "stejné" ale někdy se mírně liší. Děje se to posledních několik dní, od 13.3. Někteří kolegové tady používají Yahoo, tak je dobré o tom vědět - mě to poslední dny negenerovalo žádné signály a tohle je možná příčina.

Teď přemýšlím co s tím. ještě nevím jestli ty dva bary nějak spojit. Dřív jsem si připravil skript který překontroloval data, použil jsem ho jen na data pro backtest, budu ho muset používat i na data pro live.

Také přemýšlím nad další věcí. Má smysl stahovat každý den znovu celou historii dat (třeba 2 roky), nebo není lepší stahovat jen posledních několik barů a ty spojit s datama z minula? Má to nevýhodu že se musí kontrolovat zda akcie neměla nějaký split atd.

 

Screenshot.png

Taky jsem si toho u Yahoo dat všiml, poslední dobou to není úplně spolehlivé. Ty zdvojené bary jsem řešil tak, že beru jen jeden – většinou ten poslední a ten předchozí ignoruju, případně si to kontroluju podle timestampu, pokud se liší. Někdy se ty hodnoty fakt lehce rozcházejí, takže je dobré mít nějakou jednoduchou validaci.

Co se týče stahování dat, za mě je lepší kompromis – nestahovat úplně všechno pokaždé, ale třeba posledních pár měsíců a přepisovat to. Máš tak větší jistotu, že se opraví případné chyby nebo úpravy dat. Splity jsou samozřejmě problém, ale ty většinou řeší už samotný provider.

  • 0
Odesláno
21. 3. 2026 v 20:26, IslainGarcia napsal/a:

Taky jsem si toho u Yahoo dat všiml, poslední dobou to není úplně spolehlivé. Ty zdvojené bary jsem řešil tak, že beru jen jeden – většinou ten poslední a ten předchozí ignoruju, případně si to kontroluju podle timestampu, pokud se liší. Někdy se ty hodnoty fakt lehce rozcházejí, takže je dobré mít nějakou jednoduchou validaci.

Co se týče stahování dat, za mě je lepší kompromis – nestahovat úplně všechno pokaždé, ale třeba posledních pár měsíců a přepisovat to. Máš tak větší jistotu, že se opraví případné chyby nebo úpravy dat. Splity jsou samozřejmě problém, ale ty většinou řeší už samotný provider.

Ještě bych doplnil, že se vyplatí hlídat i časová pásma, protože občas se může stát, že data nejsou úplně konzistentní a pak to dělá zmatek právě v těch denních barech. Stačí malý posun a najednou máš dva záznamy pro „stejný“ den.

Já si třeba udržuju jednoduchý filtr, který kontroluje duplicity a zároveň porovnává objemy nebo close ceny, jestli nedávají úplně nesmysl. Když něco nesedí, radši to zahodím než to pustit dál do strategie.

A pokud na těch datech stavíš něco důležitějšího, asi bych časem zvážil i placený zdroj, aspoň jako referenci.

  • 0
Odesláno
Důležité

 

Taky jsem si toho u Yahoo dat všiml, poslední dobou to není úplně spolehlivé. Ty zdvojené bary jsem řešil tak, že beru jen jeden – většinou ten poslední a ten předchozí ignoruju, případně si to kontroluju podle timestampu, pokud se liší. Někdy se ty hodnoty fakt lehce rozcházejí, takže je dobré mít nějakou jednoduchou validaci.

Co se týče stahování dat, za mě je lepší kompromis – nestahovat úplně všechno pokaždé, ale třeba posledních pár měsíců a přepisovat to. Máš tak větší jistotu, že se opraví případné chyby nebo úpravy dat. Splity jsou samozřejmě problém, ale ty většinou řeší už samotný provider.

Ještě bych doplnil, že se vyplatí hlídat i časová pásma, protože občas se může stát, že data nejsou úplně konzistentní a pak to dělá zmatek právě v těch denních barech. Stačí malý posun a najednou máš dva záznamy pro „stejný“ den.

Já si třeba udržuju jednoduchý filtr, který kontroluje duplicity a zároveň porovnává objemy nebo close ceny, jestli nedávají úplně nesmysl. Když něco nesedí, radši to zahodím než to pustit dál do strategie.

A pokud na těch datech stavíš něco důležitějšího, asi  casino vklad 1€ https://ceskecasino.best/1-euro-vklad/ bych časem zvážil i placený zdroj, aspoň jako referenci.

Ještě jedna věc, která se mi osvědčila, je logování těch problémových situací. Když si ukládáš, kdy a u jakého symbolu došlo k duplicitě nebo nesrovnalosti, časem v tom začneš vidět vzory. U některých tickerů nebo období se to opakuje častěji, takže si na to můžeš dát extra pozor nebo je rovnou filtrovat přísněji.

Taky pomáhá porovnávat data z více zdrojů aspoň občas namátkově, nemusí to být pořád. Člověk tím rychle zjistí, jestli je chyba systematická, nebo jen náhodná. Ve výsledku jde hlavně o to mít proces, kterému můžeš věřit, i když samotná data nejsou stoprocentní.

 

  • 0
Odesláno
Před 14 hodinami, IslainGarcia napsal/a:

Ještě jedna věc, která se mi osvědčila, je logování těch problémových situací. Když si ukládáš, kdy a u jakého symbolu došlo k duplicitě nebo nesrovnalosti, časem v tom začneš vidět vzory. U některých tickerů nebo období se to opakuje častěji, takže si na to můžeš dát extra pozor nebo je rovnou filtrovat přísněji.

Taky pomáhá porovnávat data z více zdrojů aspoň občas namátkově, nemusí to být pořád. Člověk tím rychle zjistí, jestli je chyba systematická, nebo jen náhodná. Ve výsledku jde hlavně o to mít proces, kterému můžeš věřit, i když samotná data nejsou stoprocentní.

 

Díky za tipy. Třeba ty časová pásma a posun by mě vůbec nenapadlo. Mluvil jsi o placeném zdroji, ten plánuji až časem, nyní to není nezbytné pro moje potřeby. Ve svých skriptech už mám základní kontroly příkazů a velikosti pozice, na market data bych tam měl mít kontrolu jen při exekuci systému na neobvykle rozdílné hodnoty OHLC, tak teď doplním důkladnější kontrolu samotných dat.

Jako kdyby Yahoo schválně házelo klacky pod nohy, no určitě nám to neservírují na stříbrném podnose 🙂 Nedávno mi přestalo fungovat stahování, a nedokázal jsem rozluštit co mám jinak v API requestu oproti tomu z prohlížeče. Nakonec jsem začal používat Pythonní curl_cffi který z nějakého důvodu funguje.

Zapojte se do diskuze

Příspěvek můžete vložit nyní a registrovat se později. Pokud máte na serveru účet, přihlašte se a příspěvek bude publikován pod Vašim uživatelským jménem.
Poznámka: příspěvek bude uveřejněn po schválení moderátorem.

Návštěvník
Odpověď na otázku

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Předchozí obsah byl obnoven.   Smazat obsah editoru

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Vytvořit...