Cubix Institute of TechnologyCubix Institute of Technology aims to gather the most important skill set building blocks for IT professionals by organizing cohort-based online IT&TECH trainings with the help of industry-leading mentors, tech companies and higher education institutions.
Our constantly expanding portfolio currently consists of 35+ courses, including topics, e.g.: Frontend and Backend development (Java, Python, C++, JavaScript, Angular, React, Node.js, C#, .NET, stb), Mobile and Cross-Platform Development (iOS, Android, Flutter), IT Project and Product Management, Software Testing, DevOps, and Cloud Solutions, Data Science, AI/ML/DL, UI/UX, IT security, Video Game-, AR/VR/XR Development, IoT and Embedded System Development, Blockchain, etc.
Become a member of our community!
Online IT academy
|
|
|
AI Data Engineering – strukturálatlan adatoktól a vektortérig
-
Fejlett adatbetöltés (data ingestion) és optical character recognition (OCR): Megtanulod kezelni a strukturálatlan adatokat - komplex PDF-eket, táblázatokat és szkennelt dokumentumokat dolgozol fel olyan eszközökkel, mint az Unstructured.io és a LlamaParse. Integrálod az OCR technológiákat az adatfolyamba, hogy a képi információk is kereshetővé váljanak.
-
Mérnöki szintű darabolási (chunking) stratégiák: Túllépsz a fix méretű daraboláson, és elsajátítod a szemantikus, rekurzív és sentence window stratégiákat. Megérted a mérnöki kompromisszumokat a chunk mérete és a találati pontosság között, elkerülve a kontextus vesztést.
-
Metaadat-gazdagítás és szűrés: Megtanulod, hogyan nyerj ki automatikusan metaadatokat (dátum, szerző, verzió) a nyers szövegből, és hogyan csatold ezeket a vektorokhoz. Ezzel lehetővé teszed a precíz, szűrt kereséseket (pl. "csak a 2026-os szerződések"), ami praktikus a vállalati felhasználásban.
-
Vektoradatbázisok skálázása (VectorOps): Éles környezetben (Pinecone, Weaviate) tanulsz meg dolgozni, megértve az indexelési algoritmusokat (HNSW, IVF) a milliós nagyságrendű rekordok gyors kereséséhez. Elsajátítod a vektorok karbantartását: frissítés, törlés és verziókezelés éles rendszeren.
-
Hibrid keresés és újrarangsorolás (reranking): Építesz egy pipeline-t, amely kombinálja a kulcsszavas (BM25) és a szemantikus (Dense Vector) keresést a "naiv RAG" hibáinak kiküszöbölésére. Cross-Encoder modellekkel újrarangsorolod a találatokat, jelentősen növelve ezzel a válaszok pontosságát.
-
Bevezetés a tudásgráfokba (GraphRAG): Megismerkedsz a legmodernebb trenddel, ahol a vektoros keresést gráfadatbázissal (Neo4j) ötvözöd. Képes leszel entitások közötti rejtett kapcsolatok feltárására ott, ahol a hagyományos vektoros keresés nem elég.
-
Adatelőkészítés LLM-mel: Megtanulod, hogyan építs automatizált tisztító pipeline-okat kisebb, olcsóbb modellekkel (Small Language Models). Ezekkel távolítod el a zajt (fejlécek, impresszumok) és generálsz automatikus metaadatokat (dátum, kategória, szerző) a nyers fájlokhoz, még mielőtt azok az adatbázisba kerülnének.
-
Gyakorlati záróprojekt: A képzés végén egy "Context-as-a-Service" mikro-szolgáltatást építesz, ahol a feladatod egy olyan robusztus, konténerizált backend létrehozása lesz, amely leveszi az adatfeldolgozás terhét az alkalmazásfejlesztők válláról, és szabványos API végponton keresztül szolgáltat tiszta, releváns tudást bármilyen AI alkalmazás számára (például vektor adatbázis alapú AI asszisztens alkalmazások fejlesztéséhez is.)
A vállalati adatvagyon közel 80%-a strukturálatlan formában (PDF, e-mail, kép, ppt, szöveg) hever, amivel a hagyományos SQL-alapú eszközök nem tudnak mit kezdeni, így kritikus szükség van azokra, akik ezt "Smart Data"-vá alakítják.
Mivel az LLM modellek újratanítása (fine-tuning) rendkívül költséges, a piac a RAG (Retrieval-Augmented Generation) technológia felé mozdult el, ami az AI fejlesztés standard-je lett.
A "naiv" vektoros keresés azonban éles környezetben gyakran elbukik, tehát hiába az egyre okosabb modellek, megfelelő "adatellátás" nélkül nehezen használhatóak vállalati környezetben.
Ezért a cégeknek olyan szakemberekre van szükségük, akik képesek a hibrid keresés és a reranking technológiák finomhangolására a pontos válaszok érdekében.
Az itt megszerezhető tudással építheted meg azt a "Context-as-a-Service" infrastruktúrát, ami nélkül a legokosabb nagy nyelvi modell is "vak" marad a vállalati adatokon.
Data Engineer-eknek: Akik már magabiztosak a hagyományos ETL és SQL világában, de látják, hogy a piac a strukturálatlan adatok felé mozdul. Ők ezen a képzésen megtanulhatják, hogyan illesszék be a modern AI eszközöket (pl. Unstructured.io, Pinecone) a meglévő data pipeline-okba.
Backend és Python fejlesztőknek: Akiknek feladatuk az AI integrációja a vállalati rendszerekbe, de rájöttek, hogy egy egyszerű OpenAI API hívás nem elég a minőségi megoldáshoz. Ők itt megtanulják megépíteni azt a robusztus, konténerizált backend szolgáltatást ("Context API"), amely leveszi a terhet a frontend alkalmazásokról.
AI fejlesztőknek: Akik már értik a modellek elméletét vagy végeztek AI asszisztens alkalmazás fejlesztő kurzust, de a gyakorlatban küzdenek az adatminőség ("Garbage In, Garbage Out") problémájával. Nekik ez a képzés adja meg a tudást ahhoz, hogy ne csak "demo", hanem "production-ready" rendszereket építhessenek, ahol a keresés skálázható és pontos.
AI Solution Architect-eknek: Akiknek dönteniük kell, hogy mikor elég a vektoros keresés, és mikor szükséges gráfadatbázist (GraphRAG) bevezetni az összefüggések feltárására, és ehhez mély technikai rálátásra van szükségük.
-
Alapvető ismeretek az adatbázisok működéséről.
-
Középszintű Python programozási tudás - magabiztosan kell kezelned a JSON adatokat, az API hívásokat és az objektumorientált koncepciókat.
-
Szükséged lesz egy OpenAI API kulcsra vagy hardverre helyi modellek futtatásához.
-
Mivel a képzés végén egy backend szolgáltatást építesz, előnyt jelent, ha nem idegen számodra a Docker és a REST API-k.
A "hagyományos" Data Engineer végzettség egyértelmű előny, de nem kötelező feltétel, mindent a gyakorlatban, a "nulláról" építünk fel.
Képzés indulásának időpontja: Jelenleg nincs meghirdetett időpontunk, de hamarosan érkezik! Addig is kötelezettségek nélkül előjelentkezhetsz és emailben értesítünk, amint felkerül a következő elérhető tanfolyam időpontja.
Részvételi díj: 290.000 Ft
Jelentkezel a képzésre: Ha eldöntötted, hogy jelentkezel a képzésre és szeretnéd biztosítani helyedet, nincs más teendőd, mint a „Beiratkozom” gombra kattintva kitölteni a jelentkezési formot és kifizetni a képzés díját.
Kérdezel még a képzésről: Ha szívesen jelentkeznél, de úgy érzed még van néhány kérdés, amire nem találtad meg a választ, kattints az „Érdekel, de kérdeznék” gombra, add meg elérhetőségedet és 48 órán belül felvesszük veled a kapcsolatot, vagy írj nekünk közvetlenül az info@cubixedu.com e-mail címre!
-
0.Advanced Data Ingestion (A "Szemét" Adatok Kezelése)
-
1. lecke
Nem csak text extraction: Komplex PDF-ek, táblázatok, szkennelt dokumentumok feldolgozása
-
2. lecke
Eszközök: Unstructured.io, LlamaParse, Microsoft Azure Document Intelligence.
-
3. lecke
OCR (Optical Character Recognition) integrálása az adatfolyamba.
-
4. lecke
[TESZT]
-
5. lecke
[HÁZI FELADAT]
-
6. lecke
[LIVE ALKALOM]
-
1.Chunking Stratégiák Mérnöki Szemmel
-
7. lecke
Miért rossz a "Fixed-size chunking"?
-
8. lecke
Szemantikus darabolás (Semantic Chunking), Rekurzív darabolás, Hierarchikus indexelés (Parent-Child indexing).
-
9. lecke
Metaadatok kinyerése és csatolása a vektorokhoz (ez javítja a visszakeresést).
-
10. lecke
[TESZT]
-
11. lecke
[HÁZI FELADAT]
-
12. lecke
[LIVE ALKALOM]
-
2.Vektoradatbázisok Skálázása (VectorOps)
-
13. lecke
A Chatbot kurzuson tanult ChromaDB/Pinecone skálázása millió rekord fölé.
-
14. lecke
Indexelési algoritmusok mélyebben: HNSW, IVF, PQ (hogy gyors legyen a keresés).
-
15. lecke
Adatbázis karbantartás: Vektorok frissítése, törlése, verziózása.
-
16. lecke
[TESZT]
-
17. lecke
[HÁZI FELADAT]
-
18. lecke
[LIVE ALKALOM]
-
3.Hibrid Keresés és Reranking (A RAG lelke)
-
19. lecke
BM25 (kulcsszavas) + Dense Vector (szemantikus) keresés kombinálása.
-
20. lecke
Cross-Encoder Re-ranking modellek (pl. Cohere, BGE) beillesztése a pipeline-ba a pontosság növelésére.
-
21. lecke
[TESZT]
-
22. lecke
[HÁZI FELADAT]
-
23. lecke
[LIVE ALKALOM]
-
4.Knowledge Graphs (Tudásgráfok) alapjai
-
24. lecke
Bevezetés a GraphRAG-be: Amikor a vektoros keresés nem elég.
-
25. lecke
Kapcsolatok építése entitások között (Neo4j integráció alapjai).
-
26. lecke
[TESZT]
-
27. lecke
[HÁZI FELADAT]
-
28. lecke
[LIVE ALKALOM]
-
5.Záró projektfeladat
-
29. lecke
Záró projektfeladat