Kurs "Data Analyst" - kurs 96 000 rubel. från Yandex Workshop, utbildning 7 månader, datum 7 december 2023.
Miscellanea / / December 02, 2023
En dataanalytiker extraherar mening ur siffror och värderingar: han ser trender, förutsäger händelser och hjälper ett företag att förstå kunder, optimera processer och växa.
Marknaden behöver specialister som kan använda data på ett användbart sätt. En studie av personalföretaget Ancor för september 2022 visade att 45 % av de ryska företagen letar efter analytiker för att ansluta sig till deras team.
Färdigheter du kommer att lära dig på kursen
Jobbtitel
Analytiker, dataanalytiker, dataanalytiker
Utvecklingsmöjligheter: Produktanalytiker, marknadsanalytiker, BI-analytiker, datavetenskapsspecialist
Här är teknikerna och verktygen du kommer att använda:
Pytonorm
Jupyter anteckningsbok
SQL
PostgreSQL
Tablå
A/B-test
Börja tjäna pengar genom att analysera
Du kommer att utgå från en juniorposition, och sedan bara gå framåt. Du kommer att klättra på karriärstegen och växa i värde. Och en dag kommer det inte finnas något pris för dig.
Slutför kursprogrammet för dataanalys
Vi uppdaterar den regelbundet för att säkerställa att den uppfyller branschens och arbetsgivarnas behov.
Med andra ord, du lär dig bara det som definitivt kommer att vara användbart i ditt arbete.
Gratis del - 1 vecka
Gratis introduktion: Grunderna i Python och dataanalys
Lär dig de grundläggande begreppen för dataanalys och förstå vad dataanalytiker och datavetare gör.
• Moscow Catnamycs. Visar data på skärmen. CSV-filer. Arbeta med tabeller. Värmekartor. Multiplicera en kolumn med ett heltal.
• Fel i koden. Syntaxfel. Namnfel. Fel vid division med noll. Fel vid import av en modul.
• Variabler och datatyper. Variabler. Datatyper. Aritmetiska operationer med tal och strängar.
• Hur man gör hypoteser. Hypoteser. HADI cykler. Analytiskt tänkande. Läsa grafer.
• Vad datavetare gör. Analytikeruppgifter. Förtydligande av arbetsuppgifter. Sönderfall. Projektets stadier.
• Kontrollera konverteringar. Omvandling. Datautforskning. Bildande av slutsatser.
• Återbetalning av annonskampanjer. Kolumndiagram. Skillnad mellan element. Indexering i kolumner.
• Maskininlärning och datavetenskap. Utbildning i maskininlärning. Hitta unika värden i kolumner. Logisk indexering. Gruppera värden i en tabell. Förutsägelsefel.
• Slutprojekt. Användarsegmentering.
PythonPandasErrorsSeaborn HypothesesConversionVariablesDatatyperHeatmaps
1 sprint 3 veckor
Grundläggande Python
Dyk djupare in i Python-programmeringsspråket och Pandas-biblioteket.
• Variabler och datatyper. Python språk. Variabler. Visar data på skärmen. Visar objekt på skärmen. Felhantering, försök...förutom operatör. Datatyper. Datatypkonverteringar.
• Linjer. Indexer i rader. Linjeklipp. Operationer på strängar. Strängmetoder. Formateringssträngar, format()-metoden, f-strängar.
• Listor. Index i listor. Lista skivor. Lägga till objekt i en lista. Tar bort listobjekt. Addering och multiplikation av listor. • Sortering av listor. Sök efter objekt i en lista. Dela en sträng i en lista med strängar, sammanfoga en lista med strängar till en sträng.
• För slinga. Cyklar. Uppräkning av element. Itererar över elementindex. Bearbeta listelement med loopar: hitta summan och produkten av element.
• Kapslade listor. Går igenom kapslade listor med räknevärden. Lägga till element i kapslade listor. Sorterar kapslade listor.
• Villkorlig operatör. Medan loop. Boolesk datatyp. booleska värden. Logiska uttryck. Sammansatta logiska uttryck. Villkorligt uttalande om...elif...annat. Förgrening. Filtrera listor med en villkorlig operator. Medan loop.
• Funktioner. Tilldelning av funktioner. Parametrar och argument. Parametrar med standardvärden. Positionella och namngivna argument. Returnera ett resultat från en funktion.
• Ordböcker. Nycklar och värderingar. Söker efter ett värde med nyckel. Lägga till objekt i ordboken. Lista över ordböcker. Vacker produktion av ordböcker.
• Pandas bibliotek. Läser csv-filer. Dataram. Dataframe konstruktör. Skriver ut den första och sista raden i en dataram. Indexering i dataramar. Indexering på seriekolumner.
• Dataförbehandling. GIGO-principen. Byter namn på dataramkolumner. Hantera saknade värden. Hantera explicita och implicita dubbletter.
• Dataanalys och presentation av resultat. Gruppera data. Sortering av data. Grunderna i beskrivande statistik.
• Jupyter Notebook - en anteckningsbok i en cell. Jupyter Notebook-gränssnitt. Genvägar för Jupyter Notebook.
LoopsPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesConditional Statement
Projekt
Jämför Yandex Music-användardata efter stad och veckodag.
2 sprint 2 veckor
Dataförbehandling
Lär dig att rensa data från extremvärden, utelämnanden och dubbletter, samt konvertera olika dataformat.
• Arbeta med pass. Omvandling. Småkakor. Kategoriska och kvantitativa variabler. Hantera luckor i kategoriska variabler. Hantering av luckor i kvantitativa variabler. Hantering av luckor i kvantitativa variabler per kategori.
• Ändra datatyper. Läser Excel-filer. Konvertera serier till numerisk typ. Talmodul, abs()-metod. Jobbar med datum och tid. Felhantering, försök...förutom operatör. Sammanfoga dataramar, merge() metod. Pivottabeller.
• Sök efter dubbletter. Sök efter dubbletter, skiftlägeskänslig.
• Datakategorisering. Nedbrytning av tabeller. Kategorisering efter numeriska intervall. Kategorisera baserat på flera värden per rad.
• Systematiskt och kritiskt tänkande i analytikerarbetet. Systemtänkande. Orsaker till datafel. Kritiskt tänkande.
PythonPandasGaphanteringDatabearbetningDuplicerad bearbetningDatakategorisering
Projekt
Analysera data om bankkunder och bestämma andelen kreditvärdiga.
3 sprint 2 veckor
Undersökande dataanalys
Lär dig grunderna i sannolikhet och statistik. Använd dem för att utforska de grundläggande egenskaperna hos data, leta efter mönster, distributioner och anomalier. Lär känna Matplotlib-biblioteket. Rita diagram och träna på att analysera grafer.
• Första grafer och slutsatser. Använda pivottabeller. Stapeldiagram. Distributioner. Avståndsdiagram.
• Studie av dataskivor. query()-metoden. Jobbar med datum och tid. Rita grafer med metoden plot(). Occams rakkniv.
• Arbeta med flera datakällor. Datasegment baserat på externa objekt. Lägga till nya kolumner i en dataram. Lägga till data från andra dataramar. Byt namn på kolumner. Kombinera tabeller med metoderna merge() och join().
• Datarelationer. Scatterplot. Korrelation av variabler. Scatterplotmatris.
• Validering av resultat. Konsolidering av grupper. Dela in data i grupper.
PythonPandasMatplotlibHistogramData SlicesDataanalysScatterplotScatterplotDatavisualiseringBeskrivande statistik
Projekt
Utforska arkivet med annonser för försäljning av fastigheter i St. Petersburg och Leningrad-regionen.
4 sprint 3 veckor
Statistisk dataanalys
Lär dig att analysera samband i data med hjälp av statistiska metoder. Lär dig vad statistisk signifikans och hypoteser är.
• Kombinatorik. Kombinationer. Multiplikationsregel. Omarrangemang. Antal permutationer. Placeringar. Antal placeringar. Kombinationer. Antal kombinationer.
• Sannolikhetsteori. Experimentera. Sannolikhetsutrymme. Evenemang. Sannolikhet. Korsande och ömsesidigt uteslutande evenemang. Euler-Venn diagram. Lagen om stora tal.
• Beskrivande statistik. Kategoriska och kvantitativa variabler. Läge och median. Genomsnittligt värde. Dispersion. Standardavvikelse. Kvartiler och percentiler. Avståndsdiagram. Kolumndiagram. Frekvensdensitet. Stapeldiagram.
• Slumpmässiga variabler. Diskret slumpvariabel. Sannolikhetsfördelning för en diskret stokastisk variabel. Kumulativ funktion (fördelningsfunktion) av en diskret slumpvariabel. Matematisk förväntan på en diskret slumpvariabel. Spridning av en diskret slumpvariabel.
• Distributioner. Bernoullis experiment. Binomialexperiment. Binomial distribution. Kontinuerlig jämn fördelning. Normal distribution. Standard normalfördelning. CDF och PPF för normalfördelning. Poissonfördelning. Approximation av en fördelning med en annan.
• Testa hypoteser. Allmän befolkning. Prov. Provtagningsfördelning. Centrala gränsvärdessatsen. Ensidiga och tvåsidiga hypoteser. P-värde. Testa ensidiga och tvåsidiga hypoteser för ett prov. Testa hypotesen om jämlikhet mellan medel för två allmänna populationer. Testa hypotesen om jämlikhet mellan medel för beroende urval.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionerHypotestestning Sannolikhetsteori
Projekt
Testa hyrbilshypoteser för att hjälpa ditt företag att växa.
Extra sprint
Sannolikhetsteori
Kom ihåg eller erkänn de grundläggande termerna i sannolikhetsteorin: oberoende, motsatta, oförenliga händelser, etc. Med hjälp av enkla exempel och roliga problem kommer du att träna på att arbeta med siffror och bygga upp logiken i lösningar.
Detta är en valfri sprint. Det betyder att varje elev själv väljer ett av alternativen:
• Bemästra ytterligare en sprint på 10 korta lektioner, fräscha upp teorin och lös problem.
• Öppna bara blocket med intervjuuppgifter, återkalla praktik utan teori.
• Hoppa över kursen helt eller gå tillbaka till den när det finns tid och behov.
PythonHändelser SannolikhetBayes' satsSlumpmässiga variablerSannolikhetsteoriStatistisk dataanalys
5 sprint 1 vecka
Slutprojekt av den första modulen
Lär dig hur du utför preliminär dataforskning och formulerar och testar hypoteser.
ScipyNumpyPythonPandasMatplotlibDataanalysHypotestestningDatabearbetning
Projekt
Hitta mönster i spelförsäljningsdata.
6 sprint 2 veckor
Grundläggande SQL
Lär dig grunderna i strukturerat frågespråk SQL och relationalgebra för att arbeta med databaser. Bekanta dig med funktionerna i att arbeta i PostgreSQL, ett populärt databashanteringssystem (DBMS). Lär dig att skriva frågor med olika komplexitetsnivåer och översätta affärsproblem till SQL. Du kommer att arbeta med en databas över en webbutik som är specialiserad på film och musik.
• Introduktion till databaser. Databashanteringssystem (DBMS). SQL-språk. SQL-frågor. Formatera SQL-frågor.
• Datasegment i SQL. Datatyper i PostgreSQL. Datatypkonvertering. WHERE klausul. Logiska operatorer. Dataskivor. Operatörer I, LIKA, MELLAN. Jobbar med datum och tid. Hantera saknade värden. Villkorlig CASE-konstruktion.
• Aggregationsfunktioner. Gruppera och sortera data. Matematiska operationer. Aggregationsfunktioner. Gruppera data. Sortering av data. Filtrering efter aggregerad data, HAVING-operator.
• Relationer mellan tabeller. Typer av bordsfogar. ER-diagram. Byta namn på fält och tabeller. Alias. Slå ihop tabeller. Typer av sammanfogningar: INNERFOGNING, LEFT JOIN, RIGHT JOIN, FULL YTTRE JOIN. Alternativa typer av fackförbund UNION och UNION ALLA.
• Underfrågor och vanliga tabelluttryck. Underfrågor. Undersökningar i FROM. Undersökningar i WHERE. En kombination av kopplingar och underfrågor. Vanliga tabelluttryck (CTE). Variation av förfrågningar.
SQLDBMSPostgreSQLSubqueriesDatabaserSQL-frågorFiltrering av dataSortering av dataGruppera data Sammanfoga tabellerVanliga tabelluttryck
Projekt
Du kommer att skriva en serie frågor av varierande komplexitet till en databas som lagrar data om riskkapitalinvesterare, startups och investeringar i dem.
7 sprint 3 veckor
Analys av affärsindikatorer
Lär dig vilka mätvärden som finns i verksamheten. Lär dig använda verktyg för dataanalys i näringslivet: kohortanalys, försäljningstratt och enhetsekonomi.
• Mätvärden och kanaler. Omvandling. Trattar. Marknadsföringstratt. Intryck. Klick. CTR. Produkttratt.
• Kohortanalys. Användarprofil. retentionsgrad. Churn rate. Analyshorisont. Visualisering av kohortanalys. Retentionsanalys av slumpmässiga kohorter. Konvertering i kohortanalys. Beräknar mått i Python.
• Enhetsekonomi. Mätvärden LTV, CAC, ROI. ARPU, ARPPU. Beräknar mått i Python. Avancerad visualisering av mätvärden. Sharey-parameter. Glidande medelvärde.
• Anpassade mätvärden. Utvärdering av användaraktivitet. Användarsession. Anomaliutredning.
MetricsTrattarConversionEnhetsekonomiKohortanalysProduktmåttMarknadsföringsmått
Projekt
Baserat på data, förstå användarbeteende, samt analysera kundernas lönsamhet och annonserings-ROI för att ge rekommendationer till marknadsavdelningen.
8 sprint 2 veckor
Avancerad SQL
Du kommer att gå ytterligare en kurs i att arbeta med databaser och komma ännu närmare verksamheten. Med hjälp av SQL-språket kommer du att analysera beräkningen av de viktigaste affärsmåtten som du blev bekant med i sprinten "Business Indicators Analysis". Överväg att arbeta med ett komplext verktyg som fönsterfunktioner. Lär dig att ändra innehållet i databaser lokalt, utan en simulator, med hjälp av speciella klientprogram och bibliotek för Python.
• Beräkning av affärsindikatorer. Dataschema. Omvandling. LTV. ARPU. ARPPU. ROI. Beräkning med SQL.
• Aggregerande fönsterfunktioner. ÖVER uttryck. PARTITION BY window parameter.
• Fönsterrankningsfunktioner. Rangordningsfunktioner. Fönster BESTÄLL AV operatör. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Fönsteroperatorer tillsammans med rankningsfunktioner.
• Fönsteroffsetfunktioner. Kumulativa värden. Offsetfunktioner. LEDA(). EFTERSLÄPNING(). Fönsterfunktioner och alias.
• Kohortanalys. Retention Rate, Churn Rate. LTV.
• Installation och konfiguration av databasen och databasklienten. Databasklient. Installerar PostgreSQL. Installerar DBeaver. DBeaver-gränssnitt. Skapande av databas. Distribuera en databasdump. Laddar upp frågeresultat. Presentation av frågeresultat.
SQLDBMSMetricsPostgreSQLDabaserSQL-frågorFönsterfunktionerKohortanalys
Projekt
Använd Python och SQL, anslut till en databas, beräkna och visualisera nyckeltal i ett programmerings- och svarstjänstsystem.
9 sprint 2 veckor
Beslutsfattande i näringslivet
Du kommer att lära dig vad A/B-testning är och förstå i vilka fall det används. Lär dig designa A/B-tester och utvärdera dess resultat.
• Grunderna för hypotesprövning i näringslivet. Ledande mått. Grunder för experiment. Generering av hypoteser. Prioritering av mått. Att välja metod för att genomföra ett experiment. Kvalitativa metoder för att testa hypoteser. Kvantitativa metoder för att testa hypoteser. För- och nackdelar med A/B-tester.
• Prioritering av hypoteser. RICE ramverk. Räckviddsparameter. Påverkansparameter. Konfidensparameter. Insatsparameter.
• Förbereder för att genomföra ett A/B-test. A/A-test. Typ I och II fel. Kraften hos statistiskt test. Betydelsen av statistiskt test. Flera jämförelser, metoder för att minska sannolikheten för fel. Beräkning av provstorlek och varaktighet för ett A/B-test. Grafisk analys av mått.
• Analys av A/B-testresultat. Testar hypotesen om jämlikhet mellan aktier. Shapiro-Wilk-test för att testa datanormalitet. Icke-parametriska statistiska tester. Mann-Whitney test. Stabilitet av kumulativa mätvärden. Analys av extremvärden och skurar.
• Beteendealgoritmer. Fakta, känslor, bedömningar. Förklara din synpunkt.
A/B-testningPrioritering av hypoteser Förberedelse för A/B-testningAnalys av A/B-testresultat Analys av A/B-testresultat
Projekt
Analysera resultaten av A/B-tester i en stor webbutik.
10 sprint 1 vecka
Slutprojekt av den andra modulen
Lär dig testa statistiska hypoteser med hjälp av A/B-testning och förbered slutsatser och rekommendationer i analytiskt rapportformat.
FörsäljningstrattA/B-testningDatabearbetningForskningsdataanalys
Projekt
Utforska försäljningstratten och analysera resultaten av A/B-tester i mobilapplikationen.
11 sprint 2 veckor
Hur man berättar en historia med data
Du kommer att lära dig hur du korrekt presenterar resultaten av din forskning med hjälp av grafer, de viktigaste siffrorna och deras korrekta tolkning. Lär känna biblioteken Seaborn och Plotly.
• Till vem, hur, vad och varför ska man berätta. Presentation av forskningsresultatet. Berättarens målgrupp. Vad och varför man ska berätta för en dataanalytiker.
• Seaborn Library. Seaborn-biblioteket som en förlängning av Matplotlib-biblioteket. jointplot() metod. Färgomfång. Diagramstilar. Visualisering av distributioner.
• Handlingsbibliotek. Interaktiva grafer. Linjediagram. Kolumndiagram. Tårtdiagram. Trattdiagram.
• Datavisualisering i geoanalytik. Geoanalys. Bibliotek Folium. Kartvisning. Ställa in markörer med specificerade koordinater. Skapa punktkluster. Anpassade ikoner för markörer. Horoplet.
• Förbereda en presentation. Slutsatser baserade på studien. Säsongsvariationer och yttre faktorer. Absoluta och relativa värden. Simpsons paradox. Principer för att konstruera presentationer. Rapporter i Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsDatavisualisering
Projekt
Förbered en marknadsstudie baserad på öppna data om offentliga cateringanläggningar i Moskva, visualisera erhållen data.
12 sprint 2 veckor
Bygga instrumentpaneler i Tableau
I denna sprint kommer du att arbeta med Tableau BI-systemet. Lär dig att ansluta till data och modifiera den, bygga olika typer av grafer, sätta ihop instrumentpaneler och presentationer.
• Grunderna i att arbeta med Tableau. BI-system. Tablå. Skapa ett dokument. Sparar dokumentet. Publicering av dokumentet.
• Arbeta med datakällor. Datakällor. Datasammanslagning. Relationsmetod. Gå med metod. Blandningsmetod. Unionsmetod. Ändra tabellformatet.
• Datatyper. Grundläggande datatyper. Mått. Åtgärder. Jobbar med datum och tid. Uppsättningar. Grupper. Alternativ. Ändra formatet för variabler. Variabler Mätnamn, Mätvärden, Antal.
• Tabeller och beräkningar. Gränssnitt för arkredigering. Pivottabeller. Beräknade fält. LOD uttryck.
• Filter och sortering. Sorteringsåtgärder. Sorteringsmått. Kapslade sorter. Sortering med hjälp av en parameter. Filter.
• Visualiseringar. Visualiseringskontroller. Värmekartor. Cirkeldiagram. Kolumndiagram. Histogram. Avståndsdiagram. Punktdiagram. Linjediagram. Kombinerade grafer. Områdesdiagram.
• Särskilda visualiseringar och verktygstips. Kort. Karaktärskarta. Bubbeldiagram. Trädkarta. Cirkelvyer diagram. Punktdiagram. Gantt-diagram. Mät namn och mät värden i visualiseringar. Reverse engineering. Verktygstips. Verktygstips med visualiseringar. Tröskelvärden på grafer. Analytiska verktyg i Custom.
• Presentationer. Extra tillval. Studie av typiska parametrar. Skapa en presentation.
• Instrumentpaneler. Laddar och förbereder data. Förbereder visualiseringar. Instrumentbräda montering. Handlingar. Demonstration av instrumentpanelen. Publicera en instrumentpanel.
TableauDashboardsBI-verktygBI-verktygDatavisualisering
Projekt
Undersök historien om TED-konferenser och skapa en instrumentpanel i Tableau baserat på erhållen data.
Extra sprint
Grunderna för maskininlärning
Bekanta dig med grunderna för maskininlärning och lär dig om de viktigaste uppgifterna för maskininlärning i företag.
PythonPandasSklearnMachine learningMachine learning tasksMachine learning algoritmer
Extra sprint
Öva Python
Du kommer att ta flera laborationer med ytterligare uppgifter i programmeringsspråket Python. Du kommer också att lära dig hur du extraherar data från webbresurser.
Du kommer:
• i strukturen av HTML-sidor och driften av GET-förfrågningar,
• lära sig att skriva enkla reguljära uttryck,
• lära känna API och JSON,
• göra flera förfrågningar till webbplatser och samla in data.
JSONPythonREST APIWeb scraping
13 sprint 3 veckor
Examensprojekt
I det senaste projektet bekräftar du att du behärskar ett nytt yrke. Förtydliga kundens uppdrag och gå igenom alla stadier av dataanalys. Nu finns det inga lektioner eller läxor – allt är som på ett riktigt jobb.
Slutspurten innehåller projektarbete, A/B-testning och SQL-uppgifter samt ytterligare en uppgift. Projektet innehåller en redogörelse för problemet, det förväntade resultatet, en uppsättning data och deras beskrivning.
Uppdraget avser ett av fem affärsområden:
• banker,
• detaljhandeln,
• spel,
• mobilapplikationer,
• e-handel.
Det kommer inte att finnas någon vanlig beskrivning av steg i projektet. Du kommer att arbeta igenom dem själv.
SQ LPython PandasTableau Dashboards Postgre SQL-nedbrytning A/B-testning