Zpět na blog
Návody 28. prosince 2025

Proč 90% AI projektů selhává? Kompletní průvodce přípravou dat pro AI

Pavel Čermák
Pavel Čermák
Jednatel, Technický ředitel
Proč 90% AI projektů selhává? Kompletní průvodce přípravou dat pro AI
1

Úvod: Skrytá pravda o AI projektech

Koupili jste si drahý AI nástroj. Nasadili ho. A teď? Halucinuje. Odpovídá nesmysly. Vrací zastaralé informace.

Proč? Protože jste přeskočili ten nejdůležitější krok – přípravu dat.

Podle zprávy Data Trust Report 202541% organizací přiznává problémy s udržením konzistentní kvality dat, což negativně ovlivňuje implementaci AI řešení. A to je jen špička ledovce.

„Špatná data = špatná AI. Tak jednoduché to je.”

V tomto článku vám ukážeme:

  • Proč je kvalita dat kritická pro úspěch AI
  • 4 hlavní problémy RAG projektů (95% selhává v produkci)
  • Jak správně připravit data pro RAG systémy
  • 5 chunking strategií s konkrétními příklady
  • Co je RAGus.ai a jak řeší problém halucinací


1

Hlavní problémy RAG & Gen AI projektů

95% RAG projektů selhává v produkci. Proč? Identifikovali jsme 4 hlavní příčiny:

4 hlavní problémy RAG projektů

Problém #1: Struktura dat

Jak nahrát firemní data (desítky tisíc nestrukturovaných URL a dokumentů) do znalostní báze ve strukturovaném formátu?

  • A: Data jsou nahraná do KB bez preprocessingu a struktury
  • B: KB nedokáže vrátit validní informace pro přesnou odpověď bez halucinací
  • C: Data musí být kvalitní a unikátní (odstranění zbytečného boilerplate)

Problém #2: Chunking

V ideálním světě by každý dokument nebo URL seděl ve vlastním chunk s vyčištěnými informacemi.

Realita:

  • Vektorové databáze mají limity: 500–4096 tokenů na chunk
  • Většina platforem používá naivní strategie:

- Dělení obsahu po pevném počtu tokenů
- Povoleno 800-1500 tokenů na chunk
- Text useknut uprostřed věty
- Kontext ztracen = vyhledávání selhává
- Fixní překryv tokenů

Problém #3: Metadata

Každý chunk potřebuje bohatá a detailní metadata:

  • Původ (název souboru, číslo stránky, URL odkaz)
  • Pole pro filtraci
  • Shrnutí aktuálního chunku
  • Shrnutí překryvu s předchozím chunkem
  • Shrnutí zdrojové stránky

Problém #4: Automatické aktualizace

  • KB postavena jednou, nikdy neaktualizována
  • AI vrací zastaralé informace
  • Nebo rovnou halucinuje

💡 Nechcete to řešit sami? Jako AI společnost s více než 30 úspěšně dokončenými projekty nabízíme přípravu dat na klíč. Od auditu po finální integraci — my se postaráme o vše.


2

Co je RAG a proč je klíčem k přesné AI

Retrieval-Augmented Generation (RAG)

RAG je technologie, která kombinuje vyhledávání relevantních informací s generativními schopnostmi AI modelů.

Princip RAG (Retrieval-Augmented Generation)

Místo toho, aby AI odpovídala pouze ze svých trénovaných znalostí (které mohou být zastaralé), RAG:

  1. Retrieval (Vyhledávání): Najde relevantní dokumenty ve znalostní bázi
  2. Augmentation (Obohacení): Přidá nalezené informace do kontextu
  3. Generation (Generování): AI vygeneruje odpověď na základě aktuálních dat

Proč RAG funguje lépe než klasické LLM

AspektKlasické LLMRAG
Aktuálnost dat❌ Zastaralé (trénink)✅ Aktuální (živá data)
Citace zdrojů❌ Nelze ověřit✅ Odkaz na zdroj
Halucinace❌ Časté✅ Minimální
Přesnost~70-80%90-99%

3

Jak správně připravit data pro AI

4-krokový proces přípravy dat

4-krokový proces přípravy dat pro AI

Krok 1: Zmapování zdrojů

Projdeme všechno – web, dokumenty, databáze, e-maily, interní systémy. Zjistíme, co máte a v jakém stavu.

Krok 2: Čištění a sjednocení

Pryč s duplicitami. Pryč s nekonzistencemi. Jeden zdroj pravdy. Jedna struktura.

Krok 3: Obohacení a rozdělení

Přidáme metadata, shrnutí, souvislosti. Rozdělíme optimální strategií. AI pak ví, kde hledat.

Krok 4: Vytvoření "druhého mozku"

Vše nahrajeme do jedné znalostní báze – vašeho centrálního zdroje pravdy.

💡 Nechcete to řešit sami? Nabízíme profesionální přípravu dat na klíč. Zkušenosti z 30+ projektů.


4

Chunking strategie: Kompletní průvodce s příklady

AI nečte celé dokumenty. Pracuje s "chunky" – kousky textu. Jak je rozdělíte, tak vám bude odpovídat.

Špatné dělení = špatné výsledky.

Příklad textu pro všechny strategie

Pro srovnání použijeme stejný text o vesmírném teleskopu Kepler:

TEXT
# The Kepler Space Telescope

The Kepler space telescope was a space observatory launched by NASA to discover Earth-size planets orbiting other stars. It was named after astronomer Johannes Kepler.

## Mission Overview

Kepler's sole instrument was a photometer that continually monitored the brightness of approximately 150,000 main sequence stars in a fixed field of view. It looked for periodic dimming, known as transits, caused by planets crossing in front of their host star.

## Major Discoveries

During its nine-year mission, Kepler observed 530,506 stars and confirmed 2,662 planets. A key finding was that 20-50% of stars visible to the naked eye likely have small, rocky planets similar in size to Earth.

## End of Operations

The mission ended in 2018 when the spacecraft ran out of fuel. The telescope was deactivated, but its data continues to yield new discoveries.

Strategie 1: Dělení podle pevné velikosti (Fixed Size)

Technický název: Recursive Character Splitter / Fixed Token Count

Jak funguje: Rozdělí text každých N tokenů, bez ohledu na obsah.

Příklad výstupu:

ChunkObsahProblém
1"The Kepler space telescope was a space observatory... ## Mission Overview Kepler's sole instrument was a"❌ Useknutí uprostřed věty
2"photometer that continually monitored the brightness... caused by planets crossing in"❌ Začíná i končí uprostřed věty
3"front of their host star. ## Major Discoveries During its nine-year mission..."❌ Míchá nesouvisející sekce

Vhodné pro: Když je rychlost důležitější než kvalita, nebo máte omezený rozpočet.

Nevýhody: Často usekne myšlenky, ztrácí kontext.

💰 Náklady: Nízké | 📈 Kvalita: ⭐ Nízká


Strategie 2: Dělení podle nadpisů (Header-Based)

Technický název: Markdown Header Chunking

Jak funguje: Hledá nadpisy (#, ##) a drží vše pod každým nadpisem pohromadě.

Příklad výstupu:

ChunkObsah
1# The Kepler Space Telescope — "The Kepler space telescope was a space observatory... named after Johannes Kepler."
2## Mission Overview — "Kepler's sole instrument was a photometer... planets crossing in front of their host star."
3## Major Discoveries — "During its nine-year mission, Kepler observed 530,506 stars..."
4## End of Operations — "The mission ended in 2018 when the spacecraft ran out of fuel..."

Perfektní! Každá sekce zůstává kompletní.

Omezení: Nefunguje, pokud dokument nemá nadpisy (chat, e-maily, transkripty).

💰 Náklady: Nízké | 📈 Kvalita: ⭐⭐ Střední


Strategie 3: Dělení podle významu (Semantic Chunking)

Technický název: Semantic Chunking

Jak funguje: AI měří, jak "podobná" je každá věta té následující. Když se téma výrazně změní, vytvoří nový chunk.

Příklad výstupu:

ChunkProč seskupeno
"The Kepler space telescope was a space observatory... It looked for periodic dimming, known as transits."AI vidí "telescope," "instrument," "monitor" jako související koncepty
"During its nine-year mission, Kepler observed 530,506 stars and confirmed 2,662 planets..."Čísla a objevy = nové téma
"The mission ended in 2018 when the spacecraft ran out of fuel...""End," "deactivated" = téma ukončení

Výhoda: Seskupuje myšlenky i bez nadpisů v dokumentu.

Nevýhoda: Pomalejší, vyžaduje ladění.

💰 Náklady: Střední | 📈 Kvalita: ⭐⭐⭐ Vysoká


Strategie 4: AI-rozhodnuté dělení (Agentic/LLM-Based) ⭐

Technický název: LLM-Based Chunking / Agentic Chunking

Jak funguje: AI přečte celý text a sama rozhodne o nejlepších místech pro rozdělení na základě logiky a toku.

⚠️ Důležité: Proč NEPOSÍLAT AI celý text k označení

  • 💰 Drahé (duplikuje všechny vstupní tokeny jako výstup)
  • 🐢 Pomalé (masivní generování výstupu)
  • Riziko halucinací (AI může změnit originální text)
  • 📏 Omezení výstupního okna

Správný 3-fázový proces:

FÁZE 1: Pre-split s indexovými tagy (bez AI)

Text se rozdělí na malé kousky (~50 tokenů) s číselnými tagy:

TEXT
<chunk_0>The Kepler space telescope was a space observatory launched by NASA to discover Earth-size planets orbiting other stars.</chunk_0>

<chunk_1>It was named after astronomer Johannes Kepler. Kepler's sole instrument was a photometer that</chunk_1>

<chunk_2>continually monitored the brightness of approximately 150,000 main sequence stars in a fixed field of view.</chunk_2>

<chunk_3>It looked for periodic dimming, known as transits, caused by planets crossing in front of their host star.</chunk_3>

<chunk_4>During its nine-year mission, Kepler observed 530,506 stars and confirmed 2,662 planets.</chunk_4>

<chunk_5>A key finding was that 20-50% of stars visible to the naked eye likely have small, rocky planets similar in size to Earth.</chunk_5>

<chunk_6>The mission ended in 2018 when the spacecraft ran out of fuel.</chunk_6>

<chunk_7>The telescope was deactivated, but its data continues to yield new discoveries.</chunk_7>

FÁZE 2: AI rozhodnutí (minimální výstup – jen čísla!)

AI dostane prompt: "Vrať POUZE indexy chunků, kde mají vzniknout sémantické zlomy."

TEXT
AI Response: split_after: 0, 3, 5, 7

AI vypíše pouze ~10 tokenů, ne celý dokument!

FÁZE 3: Programové spojení (bez AI)

Na základě split_after: 0, 3, 5, 7 se chunky spojí:

Finální ChunkZdrojObsah
1chunk_0"The Kepler space telescope was a space observatory launched by NASA..."
2chunks 1-3"It was named after astronomer Johannes Kepler. Kepler's sole instrument was a photometer..."
3chunks 4-5"During its nine-year mission, Kepler observed 530,506 stars and confirmed 2,662 planets..."
4chunks 6-7"The mission ended in 2018 when the spacecraft ran out of fuel. The telescope was deactivated..."

Výsledek: AI rozhodla o sémanticky optimálních bodech, originální text zachován přesně, nízké náklady na tokeny.

💰 Náklady: Střední | 📈 Kvalita: ⭐⭐⭐⭐ Velmi vysoká


Strategie 5: Sumarizace / Q&A Formát

Technický název: Structured Output / Q&A Format / Propositional Indexing

Jak funguje: Místo zachování originálního textu extrahuje čistá fakta jako páry otázka-odpověď nebo strukturovaný JSON.

Příklad výstupu:

OtázkaOdpověď
Co byl Kepler Space Telescope?Observatoř NASA pro objevování planet velikosti Země.
Jaký nástroj Kepler používal?Fotometr monitorující jas hvězd.
Kolik planet Kepler potvrdil?2 662 planet.
Kolik hvězd Kepler pozoroval?530 506 hvězd.
Proč mise skončila?Vesmírná loď vyčerpala palivo v roce 2018.

Vhodné pro: FAQ systémy, databáze, když uživatelé kladou konkrétní dotazy.

Nevýhoda: Ztrácí příběh a kontext mezi fakty. Může halucinovat.

💰 Náklady: Vysoké | 📈 Kvalita: ⭐⭐⭐⭐ Velmi vysoká


📊 Srovnávací tabulka chunking strategií

#StrategieTechnický názevCo dělá✅ Výhody❌ Nevýhody💰 Náklady📈 Kvalita
1Fixed SizeRecursive Character SplitterŘeže po N tokenechRychlé, jednoduchéUsekne věty, ztrácí kontext💲 Nízké
2By HeadersMarkdown Header ChunkingDělí podle nadpisů #, ##Drží sekce pohromaděVyžaduje strukturu💲 Nízké⭐⭐
3By MeaningSemantic ChunkingAI detekuje změnu tématuChytrá seskupeníPomalejší, vyžaduje ladění💲💲 Střední⭐⭐⭐
4AI-DecidedLLM-Based / AgenticAI čte a rozhoduje o zlomemZvládá chaotický textVyžaduje AI zpracování💲💲 Střední⭐⭐⭐⭐
5SummarizationStructured Output / Q&APřevádí na otázka-odpověďPerfektní pro FAQZtrácí narativ💲💲💲 Vysoké⭐⭐⭐⭐

💡 Pro Tip: Pokud AI-Decided chunking vytvoří chunk, který přesahuje limit vaší vektorové databáze (např. 8000 tokenů), kombinujte s Summarizací. AI rozhodne o hranicích → následně se příliš velké chunky kondenzují.


5

Jak zvýšit kvalitu vyhledávání (Enhancement strategie)

Samotný chunking je jen základ. Špičkové RAG systémy používají vylepšovací techniky, které každému kousku textu dodají "supervlastnosti":

Přidání kontextu dokumentu (Document Summary)

Ke každému chunku přidáme globální kontext – název dokumentu, hlavní téma.

Bez kontextu (problém):

TEXT
"The mission ended in 2018 when the spacecraft ran out of fuel."

❌ AI neví, která mise!

S Document Summary:

TEXT
[Zdroj: NASA Kepler Space Telescope mission (2009-2018), exoplanet detection]
"The mission ended in 2018 when the spacecraft ran out of fuel."

✅ Teď vyhledávání "fuel" nebo "Kepler" vrátí chunk, který dává smysl sám o sobě.

Vyhledávací klíčová slova (Search Keywords)

Před samotný text vložíme pravděpodobné otázky a klíčová slova:

TEXT
kepler fuel end mission 2018 shutdown why did kepler stop | The mission ended in 2018...

Srovnání Enhancement strategií

VylepšeníCo dělá💰 Náklady📈 Kvalita
Document SummaryPřidá kontext ke každému chunku💲💲 Střední⭐⭐⭐
Search KeywordsPřidá vyhledávací dotazy💲💲💲 Vysoké⭐⭐⭐⭐
Kombinace obouMaximální přesnost💲💲💲 Vysoké⭐⭐⭐⭐⭐ Elitní

6

Co dělá data "AI-ready"?

7 klíčových vlastností kvalitních dat

7 vlastností AI-ready dat
  1. Celé myšlenky, ne útržky – Text není useklý v půlce věty. AI dostane kompletní informaci.
  2. Jasná hierarchie – AI přesně ví, kde hledat odpovědi a kde jsou pomocná data.
  3. Předpřipravené otázky – Ke každému bloku jsou přiřazené otázky, na které odpovídá.
  4. Shrnutí u každého bloku – AI okamžitě chápe kontext, nemusí číst celý dokument.
  5. Propojení mezi částmi – Každý blok ví, co bylo před ním. AI chápe souvislosti.
  6. Metadata pro filtraci – Datum, kategorie, zdroj. AI může hledat přesně tam, kde má.
  7. Původ každé informace – AI může citovat zdroj a vy víte, že to není vymyšlené.

Příklad: Špatná vs. dobrá data

❌ Typická realita (raw_data.txt):

Chaos. Duplicity. Chybějící kontext. AI hádá.

TEXT
Úřední hodiny pondělí 8-17 úterý zavřeno
středa 8-12 a 13-17 Úřední hodiny: Po
8:00-17:00, Út: zavřeno, St: 8-12, 13-17
ÚŘEDNÍ HODINY pondělí osmá až sedmnáctá
Otevírací doba: Po 8-17 městský úřad
otevřeno od 8 do 5 odpoledne v pondělí
úterý je zavíračka středa půlden a pak
znovu od jedný hodiny odpoledne kontakt
tel. 123456789 nebo email info@mě...

🏷️ Problémy: Duplicity | Nekonzistence | Chybí metadata | Špatná struktura


✅ Po naší přípravě (chunk_001.json):

Čistá struktura. Metadata. Kontext. AI ví.

JSON
{
  // Vektorově vyhledatelná pole
  "searchableFields": {
    "rag_question": "Jaké jsou úřední hodiny městského úřadu?",
    "content": "Úřední hodiny: Po 8-17, Út zavřeno, St 8-12 a 13-17",
    "source_page_summary": "Kontaktní stránka MÚ",
    "current_chunk_summary": "Otevírací doba úřadu",
    "overlap_summary": "...kontaktní údaje a adresa"
  },
  // Filtrovatelná metadata
  "metadataFields": {
    "source_url": "mestsky-urad.cz/kontakt",
    "category": "úřední hodiny",
    "date_int": 20250115,
    "language": "cs",
    "chunk_index": 3
  }
}

🏷️ Výhody: Optimalizováno pro RAG | Plná metadata | Bez duplicit | Jasná hierarchie


7

RAGus.ai: Naše řešení problému

Co je RAGus.ai?

RAGus.ai je naše specializovaná RAG-as-a-Service platforma určená:

  • AI agenturám
  • Enterprise AI týmům
  • RAG vývojářům
  • No-code builderům (Voiceflow, Botpress)

Klíčové funkce

FunkcePopis
Centralizovaný dashboardSpráva všech AI produktů na jednom místě
Pokročilá analytikaStatistiky konverzací, detailní reporting
Integrovaný helpdeskEfektivní řešení dotazů a eskalací
Přímé napojeníOpenAI, Voiceflow, Pinecone, Qdrant
5 chunking strategiíVčetně agentního (LLM) chunkingu
Rychlé vyhledáváníOdpovědi v milisekundách
Enterprise bezpečnostSOC 2, bankovní šifrování

Jak RAGus.ai řeší halucinace

  1. Čistá a strukturovaná data – Automatické čištění a deduplikace
  2. Automatická synchronizace – Znalostní báze je vždy aktuální
  3. Monitoring odpovědí – Kontinuální vylepšování
  4. Zpětná vazba – Palec nahoru/dolů pro trénování

Výsledek: 90%+ přesnost ihned, až 99% do 3 měsíců.

// RAGus.ai
Administrační panel

Čistá a strukturovaná data — základ úspěšné AI

Kvalitní AI asistent je jen tak dobrý, jak dobrá jsou data, která mu dáte. RAGus.ai je náš vlastní administrační panel, který slouží jako centrální mozek pro všechny vaše AI produkty. Stará se o to, aby vaše znalostní báze byla vždy aktuální, přehledná a bez chyb.

  • 99% přesnost díky vyčištěným datům
  • Centrální správa všech AI produktů na jednom místě
  • Automatická synchronizace vaší znalostní báze
  • Efektivní monitoring a dohled nad 'mozkem' AI
RAGus.ai Dashboard
RAGus.ai Features
RAGus.ai Analytics
RAGus.ai Management
Administrační panel
Správa a trénování AI
Monitorování konverzací
Zadávání zpětné vazby

8

Dvě cesty: Služba vs. Self-service

Profesionální služba (doporučeno)

Pro koho:

  • Nemáte kapacitu řešit přípravu dat
  • Chcete garantovaný výsledek bez starostí
  • Oceníte expertní vedení a podporu

Cena: od 2 500 Kč/hod nebo od 15 000 Kč za datový zdroj

👉 Objednat přípravu dat na klíč

RAGus.ai Self-service

Pro koho:

  • Máte technický tým a chcete kontrolu
  • Potřebujete automatizaci a škálování
  • Stavíte vlastní AI produkty

Cena: od $49.99/měsíc

👉 Vyzkoušet RAGus.ai zdarma


9

Závěr a další kroky

Klíčové poznatky

  1. 95% RAG projektů selhává kvůli špatné struktuře dat
  2. 4 hlavní problémy: Struktura, Chunking, Metadata, Aktualizace
  3. 5 chunking strategií – od jednoduché po AI-řízenou
  4. Enhancement techniky dramaticky zvyšují přesnost
  5. RAGus.ai nabízí kompletní řešení od přípravy po monitoring

Vytvořte si svůj "druhý mozek" pro AI

Nezáleží, kde máte data ani v jakém formátu. Vše propojíme do jednoho uceleného místa – znalostní báze, ze které AI čerpá.

Žádné hledání. Žádné hádání. Žádné halucinace.


*Máte zájem o bezplatnou konzultaci? Kontaktujte nás a ukážeme vám, jak z rozházených dat vytvořit jeden ucelený zdroj pravdy.*

Příprava dat RAG RAGus.ai AI halucinace Chunking Znalostní báze Vector Database

Chcete dosáhnout podobných výsledků?

Domluvte si bezplatnou konzultaci a zjistěte, jak může AI transformovat vaši organizaci.

Bezplatná konzultace
// KONTAKT

Připraveni Začít VašiAI Transformaci?

Spojte se s HypeDigitaly a proměňte potenciál AI v konkurenční výhodu vaší organizace.

Domluvte si bezplatnou konzultaci

30minutový call bez závazku

Preferujete přímý kontakt?

Bez závazku30min konzultaceSídlo v ČR