Kurs "Data Engineer" - kurs 95 000 rub. från Yandex Workshop, utbildning 6,5 månader, Datum: 11 december 2023.
Miscellanea / / November 30, 2023
För praktiserande utvecklare
Lär dig bygga en infrastruktur för att arbeta med data och systematisera din kunskap för att använda den i din nuvarande roll eller ändra inriktning till en dataingenjör.
För blivande dataingenjörer
Strukturera kunskap: förutom tydlig teori kommer det att finnas mycket övning. Du kommer att få erfarenhet av att arbeta med projekt - detta hjälper dig att bygga en portfölj, sticka ut från andra kandidater och inte gå vilse i verkligt arbete.
Datavetenskapsspecialister och analytiker
Bemästra färdigheter som hjälper dig att hantera uppgifter mer effektivt: bygg datapipelines, designa skyltfönster, bygg ETL och samla in rådata i stora volymer.
Uppdatering av datamodellen
1 modul 2 veckor
Företaget fortsätter att fördjupa dig i sina processer. Datan du arbetade med har uppdaterats, så du måste ändra datamodellen.
I den här kursen:
- förstå hur företaget bygger en databas;
- uppdatera strukturen för den nuvarande databasen i enlighet med nya affärskrav;
- förbereda nya skyltfönster och mätvärden för analytiker och chefer.
Teknik och verktyg:
- PostgreSQL
+1 projekt i portfölj
Bygg en datamart med inkrementell laddning för publikanalys av onlinebutiker.
DWH: revidering av datamodeller
Modul 2 3 veckor
Företaget växer, dataarkitekturen blir mer komplex. Du får en uppgift – att optimera processer med data.
I den här kursen:
- Tänk igenom processen för övergång från det gamla databassystemet till det nya samtidigt som du minimerar affärsförluster (driftsättning utan driftstopp);
- förbereda datamigrering;
- ta hänsyn till eventuella problem och utforma ett alternativ för att återställa ändringar;
- implementera en ny databasstruktur och anpassa den till befintliga processer kring data.
Teknik och verktyg:
- PosgreSQL
- Pytonorm
+1 projekt i portfölj
Du kommer att ställa i ordning datamodellen och migrera data inom onlinebutikens nuvarande lagring.
ETL: databeredningsautomation
Modul 3 3 veckor
Du vet nu nästan allt om företagets datalager. Det är dags att tänka om ETL-processer.
I den här kursen:
- automatisera datapipeline;
- konfigurera automatisk nedladdning av data från källor;
- lära sig att regelbundet och stegvis ladda data till databasen.
Teknik och verktyg:
- Pytonorm
- Luftflöde
- PostgreSQL
+1 projekt i portfölj
Bygg en pipeline för automatiskt mottagande, bearbetning och laddning av data från källor till skyltfönstret för ett e-handelsprojekt.
Kontroll av datakvalitet
Modul 4 1 vecka
Du vill vara säker på att dina första pipelines fungerar bra. Datakvaliteten måste kontrolleras och haverier måste spåras i tid.
I den här kursen:
- förstå hur man använder metainformation och dokumentation;
- utvärdera kvaliteten på uppgifterna.
DWH för flera källor
Modul 5 2 veckor
Du fortsätter att undersöka DWH eftersom företagets utveckling och därmed ökningen av datavolymen inte går att stoppa.
I den här kursen:
- bygga DWH från grunden på ett relationellt DBMS;
- bekanta dig med MongoDB som datakälla.
Teknik och verktyg:
- PostgreSQL
- MongoDB
+1 projekt i portfölj
Du kommer att designa och implementera DWH för en intern startup.
Analytiska databaser
Modul 6 2 veckor
Det finns mer och mer specifik ostrukturerad data som också behöver lagras och bearbetas. Därför kommer vi att introducera dig till konceptet med analytiska databaser med Vertica DBMS som exempel.
I den här kursen:
- studielagringsorganisation i Vertica;
- lära sig hur man gör grundläggande operationer med data i Vertica;
- bygga ett enkelt datalager i Vertica.
Teknik och verktyg:
- Vertica
- PostgreSQL
- Luftflöde
- S3
+1 projekt i portfölj
Bygg en DWH för ett högbelastnings- och lågstrukturerat meddelandedatasystem med hjälp av Vertica.
Data Lake Organisation
Modul 7 4 veckor
Klassiska lösningar hjälper inte att hantera mängden data. För att klara nya affärsutmaningar kommer du att bygga och befolka en Data Lake.
I den här kursen:
- överväg Data Lake-arkitekturen (övers. "datasjö");
- lära sig att behandla data i MPP-systemet;
- fyll datasjön med data från källor;
- öva databehandling med PySpark och Airflow.
Teknik och verktyg:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt i portfölj
Bygg en datasjö och automatisera laddningen och bearbetningen av data i den.
Strömbearbetning
Modul 8 3 veckor
Du har övervunnit svårigheterna med en stor mängd data, men en ny uppgift har dykt upp - du måste hjälpa verksamheten att fatta beslut snabbare. Här behöver du kunskap om strömdatabehandling. strömning).
I den här kursen:
- överväga funktionerna i strömdatabehandling;
- bygga ditt eget streamingsystem;
- bygga ett skyltfönster med hjälp av realtidsdata.
Teknik och verktyg:
- Kafka
- Spark Streaming
+1 projekt i portfölj
Du kommer att utveckla ett databehandlingssystem i realtid.
Molnteknik
Modul 9 3 veckor
Nu kan du arbeta med både stora datamängder och strömmar. Allt som återstår är att automatisera skalningen av system med hjälp av molntjänster.
I den här kursen lär du dig att implementera redan studerade lösningar, men i molnet (med Yandex Cloud som exempel).
Teknik och verktyg:
- Yandex. Moln
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt i portfölj
Du kommer att utveckla infrastruktur för att lagra och bearbeta data i molnet.
Examensprojekt
Modul 10 3 veckor
Bekräfta att du har lärt dig nya färdigheter.
Här kommer du att behöva självständigt välja och implementera lösningar på ett affärsproblem. Detta kommer att hjälpa dig att återigen förstärka användningen av de verktyg du har lärt dig, såväl som ditt oberoende.