200 Domande e Risposte al Colloqui Per Data Scientist e Data Engineer

Team I.A. Italia
3 feb 2022
Tempo di lettura: 33 min

Saper rispondere a delle domande sull'apprendimento automatico è parte integrante del percorso per diventare uno scienziato dei dati , un ingegnere dell'apprendimento automatico o un ingegnere dei dati .

Domande e Risposte al Colloqui Per Data Scientist e Data Engineer

Il team di Intelligenza Artificiale Italia ha creato una guida gratuita per le interviste/colloqui sulla scienza dei dati , in cui abbiamo appreso esattamente come questi colloqui sono progettati per far cadere i candidati! In questo blog, abbiamo curato un elenco di domande chiave del colloquio che potresti incontrare in un colloquio di apprendimento automatico. Abbiamo anche fornito alcune risposte utili per accompagnarle in modo da poter superare il tuo colloquio di lavoro di machine learning (o stage di machine learning).

Domande dell'intervista sull'apprendimento automatico: 4 categorie Tradizionalmente abbiamo visto le domande dei colloqui di apprendimento automatico apparire in diverse categorie.

Il primo ha davvero a che fare con gli algoritmi e la teoria dietro l'apprendimento automatico. Dovrai mostrare una comprensione di come gli algoritmi si confrontano tra loro e come misurarne l'efficacia e l'accuratezza nel modo giusto.
La seconda categoria ha a che fare con le tue capacità di programmazione e la tua capacità di eseguire su quegli algoritmi e la teoria.
Il terzo ha a che fare con il tuo interesse generale per l'apprendimento automatico . Ti verrà chiesto cosa sta succedendo nel settore e come stare al passo con le ultime tendenze dell'apprendimento automatico.
Infine, ci sono domande specifiche dell'azienda o del settore che mettono alla prova la tua capacità di prendere le tue conoscenze generali sull'apprendimento automatico e trasformarle in punti attuabili per portare avanti i profitti.

Abbiamo suddiviso questa guida alle domande del colloquio di apprendimento automatico nelle categorie sopra menzionate in modo che tu possa ottenere più facilmente le informazioni di cui hai bisogno quando si tratta di domande del colloquio di apprendimento automatico.

Domande del colloquio di apprendimento automatico: algoritmi/teoria Le domande del colloquio sull'apprendimento automatico sugli algoritmi ML metteranno alla prova la tua comprensione della teoria alla base dell'apprendimento automatico.

Domande e Risposte dei Colloqui Per Data Scientist

Pronti a vedere nel dettaglio più di 50 domande e risposte solitamente chieste per le nuove posizioni da Data Scientist e Domande e Risposte dei Colloqui Per Data Scientist. Quindi si parte ecco le 50 più frequenti Domande e Risposte dei Colloqui Per Data Scientist

Q1: Qual è la differenza tra bias e varianza ? Risposta: Il bias è un errore dovuto a presupposti errati o eccessivamente semplicistici nell'algoritmo di apprendimento che stai utilizzando. Ciò può portare il modello a non adattare i tuoi dati, rendendo difficile che abbia un'elevata precisione predittiva e che tu possa generalizzare le tue conoscenze dal set di addestramento al set di test. La varianza è un errore dovuto alla troppa complessità dell'algoritmo di apprendimento che stai utilizzando. Ciò fa sì che l'algoritmo sia altamente sensibile agli elevati gradi di variazione nei dati di addestramento, il che può portare il modello a sovraadattare i dati. Trascinerai troppo rumore dai tuoi dati di addestramento perché il tuo modello sia molto utile per i tuoi dati di test.

La scomposizione bias-varianza essenzialmente scompone l'errore di apprendimento da qualsiasi algoritmo aggiungendo il bias, la varianza e un po' di errore irriducibile dovuto al rumore nel set di dati sottostante. In sostanza, se rendi il modello più complesso e aggiungi più variabili, perderai la distorsione ma guadagnerai una certa varianza: per ottenere la quantità di errore ridotta in modo ottimale, dovrai compensare la distorsione e la varianza. Non vuoi né una distorsione elevata né una varianza elevata nel tuo modello. D2: Qual è la differenza tra apprendimento automatico supervisionato e non supervisionato? Risposta: L'apprendimento supervisionato richiede l'addestramento dei dati etichettati. Ad esempio, per eseguire la classificazione (un'attività di apprendimento supervisionato), dovrai prima etichettare i dati che utilizzerai per addestrare il modello a classificare i dati nei tuoi gruppi etichettati. L'apprendimento non supervisionato, al contrario, non richiede l'etichettatura esplicita dei dati. Q3: In che modo KNN è diverso dal clustering di k-mean? Risposta: K-Nearest Neighbors è un algoritmo di classificazione supervisionato , mentre k-means clustering è un algoritmo di clustering non supervisionato . Anche se all'inizio i meccanismi possono sembrare simili, ciò significa in realtà che affinché K-Nearest Neighbors funzioni, sono necessari dati etichettati in cui si desidera classificare un punto senza etichetta (quindi la parte vicina più vicina). Il clustering di K-medie richiede solo un insieme di punti senza etichetta e una soglia: l'algoritmo prenderà punti senza etichetta e imparerà gradualmente come raggrupparli in gruppi calcolando la media della distanza tra punti diversi. La differenza fondamentale qui è che KNN ha bisogno di punti etichettati ed è quindi un apprendimento supervisionato, mentre k-mean no, ed è quindi un apprendimento non supervisionato.

Q4: Spiega come funziona una curva ROC. Risposta: La curva ROC è una rappresentazione grafica del contrasto tra tassi di veri positivi e tassi di falsi positivi a varie soglie. Viene spesso utilizzato come proxy per il compromesso tra la sensibilità del modello (veri positivi) e la ricaduta o la probabilità che attivi un falso allarme (falsi positivi).

Q5: Definisci precisione e recall. Risposta: Recall è anche noto come il tasso di veri positivi: la quantità di positivi dichiarati dal tuo modello rispetto al numero effettivo di positivi presenti nei dati. La precisione è anche nota come valore predittivo positivo ed è una misura della quantità di positivi accurati dichiarati dal tuo modello rispetto al numero di positivi effettivamente dichiarati. Può essere più facile pensare al ricordo e alla precisione nel contesto di un caso in cui hai previsto che c'erano 10 mele e 5 arance in un caso di 10 mele. Avresti un ricordo perfetto (in realtà ci sono 10 mele e avevi previsto che sarebbero state 10) ma una precisione del 66,7% perché dei 15 eventi che hai previsto, solo 10 (le mele) sono corrette.

Q6: Che cos'è il teorema di Bayes? In che modo è utile in un contesto di apprendimento automatico? Risposta: Il teorema di Bayes ti dà la probabilità a posteriori di un evento data quella che è nota come conoscenza a priori.

Matematicamente, è espresso come il tasso di veri positivi di un campione di condizione diviso per la somma del tasso di falsi positivi della popolazione e il tasso di veri positivi di una condizione. Supponiamo che tu abbia effettivamente il 60% di possibilità di avere l'influenza dopo un test antinfluenzale, ma tra le persone che hanno avuto l'influenza, il test sarà falso il 50% delle volte e la popolazione complessiva ha solo il 5% di possibilità di avere l'influenza influenza. Avresti effettivamente il 60% di possibilità di avere l'influenza dopo essere stato positivo al test?

Il teorema di Bayes dice no. Dice che hai un (.6 * 0.05) (tasso di vero positivo di un campione di condizione) / (.6*0.05) (tasso di vero positivo di un campione di condizione) + (.5*0.95) (tasso di falso positivo di un Popolazione) = 0,0594 o 5,94% di probabilità di contrarre l'influenza .

Il teorema di Bayes è alla base di una branca dell'apprendimento automatico che include in particolare il classificatore Naive Bayes . Questo è qualcosa di importante da considerare quando ci si trova di fronte a domande di interviste sull'apprendimento automatico.

Q7: Perché "Naive" Bayes è ingenuo? Risposta: Nonostante le sue applicazioni pratiche, specialmente nel text mining, Naive Bayes è considerato “naive” perché fa un presupposto che è praticamente impossibile da vedere nei dati della vita reale: la probabilità condizionata è calcolata come il puro prodotto delle probabilità individuali di componenti. Ciò implica l'assoluta indipendenza delle caratteristiche, una condizione probabilmente mai incontrata nella vita reale. Come ha detto un commentatore di Quora in modo stravagante, un classificatore Naive Bayes che ha capito che ti piacevano i sottaceti e il gelato probabilmente ti consiglierebbe ingenuamente un gelato ai sottaceti.

Q8: Spiega la differenza tra la regolarizzazione L1 e L2. Risposta: La regolarizzazione L2 tende a distribuire l'errore tra tutti i termini, mentre L1 è più binaria/sparsa, con molte variabili a cui viene assegnata una ponderazione 1 o 0. L1 corrisponde all'impostazione di un priore laplaceano sui termini, mentre L2 corrisponde a un priore gaussiano.

Q9: Qual è il tuo algoritmo preferito e puoi spiegarmelo in meno di un minuto? Risposta: Gli intervistatori pongono queste domande del colloquio di apprendimento automatico per testare la tua comprensione di come comunicare sfumature complesse e tecniche con equilibrio e capacità di riassumere in modo rapido ed efficiente. Mentre rispondi a queste domande, assicurati di avere una scelta e assicurati di poter spiegare diversi algoritmi in modo così semplice ed efficace che un bambino di cinque anni possa afferrarne le basi!

Q10: Qual è la differenza tra l'errore di tipo I e di tipo II? Risposta: Non pensare che questa sia una domanda trabocchetto! Molte domande del colloquio di apprendimento automatico saranno un tentativo di lanciarti domande di base solo per assicurarti di essere al top del tuo gioco e di aver preparato tutte le tue basi. L'errore di tipo I è un falso positivo, mentre l'errore di tipo II è un falso negativo. In breve, l'errore di tipo I significa affermare che qualcosa è successo quando non è successo, mentre l'errore di tipo II significa che si afferma che non sta accadendo nulla quando in realtà qualcosa lo è.

Un modo intelligente per pensare a questo è pensare all'errore di tipo I come dire a un uomo che è incinta, mentre l'errore di tipo II significa dire a una donna incinta che non sta portando un bambino.

Q11: Che cos'è una trasformata di Fourier? Risposta: Una trasformata di Fourier è un metodo generico per scomporre funzioni generiche in una sovrapposizione di funzioni simmetriche. O come dice questo tutorial più intuitivo , dato un frullato, è così che troviamo la ricetta. La trasformata di Fourier trova l'insieme delle velocità del ciclo, delle ampiezze e delle fasi che corrispondono a qualsiasi segnale temporale. Una trasformata di Fourier converte un segnale dal tempo nel dominio della frequenza: è un modo molto comune per estrarre caratteristiche da segnali audio o altre serie temporali come i dati dei sensori.

Q12: Qual è la differenza tra probabilità e verosimiglianza?

Risposta : La parola verosimiglianza si riferisce alla possibilità. D'altra parte, la parola probabilità si riferisce al "caso". Questa è la principale differenza tra le due parole, vale a dire, probabilità e probabilità. La verosimiglianza indica il significato di "essere probabile" come nell'espressione "con ogni probabilità".

D13: Che cos'è il deep learning e in che modo contrasta con altri algoritmi di machine learning? Risposta: Il deep learning è un sottoinsieme dell'apprendimento automatico che riguarda le reti neurali: come utilizzare la backpropagation e alcuni principi della neuroscienza per modellare in modo più accurato grandi insiemi di dati non etichettati o semistrutturati. In questo senso, il deep learning rappresenta un algoritmo di apprendimento non supervisionato che apprende le rappresentazioni dei dati attraverso l'uso di reti neurali.

Q14: Qual è la differenza tra un modello generativo e discriminativo? Risposta: Un modello generativo imparerà le categorie di dati mentre un modello discriminativo imparerà semplicemente la distinzione tra diverse categorie di dati. I modelli discriminativi generalmente supereranno i modelli generativi nei compiti di classificazione.

Q15: Quale tecnica di convalida incrociata useresti su un set di dati di serie temporali? Risposta: Invece di utilizzare la convalida incrociata k-fold standard, devi prestare attenzione al fatto che una serie temporale non è costituita da dati distribuiti casualmente, ma è intrinsecamente ordinata in base all'ordine cronologico. Se un modello emerge in periodi di tempo successivi, ad esempio, il tuo modello potrebbe ancora riprenderlo anche se quell'effetto non regge negli anni precedenti! Ti consigliamo di fare qualcosa come il concatenamento in avanti in cui sarai in grado di modellare i dati passati, quindi guardare i dati rivolti in avanti.

Step 1: allenamento [1], prova [2]
Step 2: allenamento [1 2], prova [3]
Step 3: allenamento [1 2 3], prova [4]
Step 4 : allenamento [1 2 3 4], prova [5]
Step 5 : allenamento [1 2 3 4 5], prova [6]

Q16: Come viene potato un albero decisionale? Risposta: La potatura è ciò che accade negli alberi decisionali quando i rami che hanno un potere predittivo debole vengono rimossi al fine di ridurre la complessità del modello e aumentare l'accuratezza predittiva di un modello di albero decisionale. L'eliminazione può avvenire dal basso verso l'alto e dall'alto verso il basso, con approcci come l'eliminazione degli errori ridotti e l'eliminazione della complessità dei costi.

L'eliminazione degli errori ridotti è forse la versione più semplice: sostituire ogni nodo. Se non diminuisce l'accuratezza predittiva, mantienilo potato. Sebbene sia semplice, questa euristica in realtà si avvicina molto a un approccio che ottimizzerebbe per la massima precisione.

D17: Che cosa è più importante per te: precisione del modello o prestazioni del modello? Risposta: Tali domande di intervista sull'apprendimento automatico mettono alla prova la tua comprensione delle sfumature delle prestazioni del modello di apprendimento automatico! Le domande del colloquio di apprendimento automatico spesso guardano ai dettagli. Esistono modelli con una maggiore precisione che possono avere prestazioni peggiori in termini di potere predittivo: come ha senso?

Bene, ha tutto a che fare con il modo in cui l'accuratezza del modello è solo un sottoinsieme delle prestazioni del modello e, a volte, fuorviante. Ad esempio, se si desidera rilevare le frodi in un enorme set di dati con un campione di milioni di persone, un modello più accurato molto probabilmente non prevederebbe alcuna frode se solo una vasta minoranza di casi fosse una frode. Tuttavia, questo sarebbe inutile per un modello predittivo, un modello progettato per trovare la frode che afferma che non c'è alcuna frode! Domande come questa ti aiutano a dimostrare che comprendi che l'accuratezza del modello non è l'elemento fondamentale delle prestazioni del modello. Q18: Qual è il punteggio F1? Come lo useresti? Risposta: Il punteggio F1 è una misura delle prestazioni di un modello. È una media ponderata della precisione e del richiamo di un modello, con risultati tendenti a 1 i migliori e quelli tendenti a 0 i peggiori. Lo useresti nei test di classificazione in cui i veri negativi non contano molto.

Q19: Come gestiresti un set di dati sbilanciato? Risposta: Un set di dati sbilanciato si ha quando, ad esempio, si esegue un test di classificazione e il 90% dei dati si trova in una classe. Questo porta a problemi: un'accuratezza del 90% può essere distorta se non hai potere predittivo sull'altra categoria di dati! Ecco alcune tattiche per superare la gobba:

Raccogli più dati anche per gli squilibri nel set di dati.
Ricampiona il set di dati per correggere gli squilibri.
Prova un algoritmo completamente diverso sul tuo set di dati.

Ciò che è importante qui è che tu abbia un'idea acuta di quale danno può causare un set di dati sbilanciato e come bilanciarlo.

Q20: Quando dovresti usare la classificazione rispetto alla regressione? Risposta: La classificazione produce valori discreti e set di dati in categorie rigorose, mentre la regressione fornisce risultati continui che consentono di distinguere meglio le differenze tra i singoli punti. Utilizzeresti la classificazione rispetto alla regressione se desideri che i tuoi risultati riflettano l'appartenenza dei punti dati nel tuo set di dati a determinate categorie esplicite (es: se desideri sapere se un nome è maschile o femminile piuttosto che solo quanto sono correlati con maschile e nomi femminili.)

Q21: Citare un esempio in cui le tecniche d'insieme potrebbero essere utili. Risposta: Le tecniche di ensemble utilizzano una combinazione di algoritmi di apprendimento per ottimizzare le migliori prestazioni predittive. In genere riducono l'overfitting nei modelli e rendono il modello più robusto (è improbabile che venga influenzato da piccole modifiche nei dati di addestramento). Potresti elencare alcuni esempi di metodi di insieme (bagging, boosting, il metodo "bucket of models") e dimostrare come potrebbero aumentare il potere predittivo.

Q22: Come ti assicuri di non essere sovradimensionato con un modello? Risposta: Questa è una semplice riaffermazione di un problema fondamentale nell'apprendimento automatico: la possibilità di sovraadattare i dati di addestramento e trasportare il rumore di quei dati attraverso il set di test, fornendo così generalizzazioni imprecise.

Esistono tre metodi principali per evitare l'overfitting:

Mantieni il modello più semplice: riduci la varianza tenendo conto di un minor numero di variabili e parametri, rimuovendo così parte del rumore nei dati di addestramento.
Utilizzare tecniche di convalida incrociata come la convalida incrociata di k-fold.
Utilizzare tecniche di regolarizzazione che penalizzano alcuni parametri del modello se possono causare overfitting.

D23: Quali approcci di valutazione lavoreresti per valutare l'efficacia di un modello di apprendimento automatico? Risposta: devi prima dividere il set di dati in set di addestramento e test, o magari utilizzare tecniche di convalida incrociata per segmentare ulteriormente il set di dati in set compositi di set di addestramento e test all'interno dei dati. È possibile utilizzare misure come il punteggio F1, l'accuratezza e la matrice di confusione. L'importante qui è dimostrare di comprendere le sfumature di come viene misurato un modello e come scegliere le giuste misure di prestazione per le giuste situazioni.

Q24: Come valuteresti un modello di regressione logistica? Risposta: una sottosezione della domanda precedente. Devi dimostrare di comprendere quali sono gli obiettivi tipici di una regressione logistica (classificazione, previsione, ecc.) e portare alcuni esempi e casi d'uso. Q25: Qual è il "trucco del kernel" e come è utile? Risposta: Il trucco del kernel coinvolge le funzioni del kernel che possono essere abilitate in spazi di dimensioni superiori senza calcolare esplicitamente le coordinate dei punti all'interno di quella dimensione: invece, le funzioni del kernel calcolano i prodotti interni tra le immagini di tutte le coppie di dati in uno spazio delle caratteristiche. Ciò consente loro l'utilissimo attributo di calcolare le coordinate di dimensioni maggiori pur essendo computazionalmente più economico del calcolo esplicito di dette coordinate. Molti algoritmi possono essere espressi in termini di prodotti interni. L'uso del trucco del kernel ci consente di eseguire efficacemente algoritmi in uno spazio ad alta dimensione con dati a dimensione inferiore. Domande del colloquio di apprendimento automatico: programmazione Queste domande del colloquio sull'apprendimento automatico mettono alla prova la tua conoscenza dei principi di programmazione necessari per implementare nella pratica i principi dell'apprendimento automatico. Le domande del colloquio di apprendimento automatico tendono a essere domande tecniche che mettono alla prova le tue capacità logiche e di programmazione: questa sezione si concentra maggiormente su quest'ultima.

Q26: Come gestisci i dati mancanti o danneggiati in un set di dati? Risposta: potresti trovare dati mancanti/corrotti in un set di dati e eliminare quelle righe o colonne o decidere di sostituirli con un altro valore. In Pandas, ci sono due metodi molto utili: isnull() e dropna() che ti aiuteranno a trovare colonne di dati con dati mancanti o danneggiati e a eliminare quei valori. Se vuoi riempire i valori non validi con un valore segnaposto (ad esempio, 0), puoi usare il metodo fillna().

D27: Hai esperienza con Spark o strumenti per big data per l'apprendimento automatico? Risposta: Ti consigliamo di familiarizzare con il significato dei big data per le diverse aziende e con i diversi strumenti che vorranno. Spark è lo strumento per big data più richiesto ora, in grado di gestire immensi set di dati con velocità. Sii onesto se non hai esperienza con gli strumenti richiesti, ma dai un'occhiata anche alle descrizioni dei lavori e guarda quali strumenti vengono visualizzati: ti consigliamo di investire per familiarizzare con loro.

Q28: Scegli un algoritmo. Scrivi lo pseudo-codice per un'implementazione parallela. Risposta: Questo tipo di domanda dimostra la tua capacità di pensare in parallelo e come potresti gestire la concorrenza nelle implementazioni di programmazione che si occupano di big data. Dai un'occhiata a framework di pseudocodice come Peril-L e strumenti di visualizzazione come Web Sequence Diagrams per aiutarti a dimostrare la tua capacità di scrivere codice che rifletta il parallelismo.

Q29: Quali sono alcune differenze tra un elenco collegato e un array? Risposta: Un array è una raccolta ordinata di oggetti. Un elenco collegato è una serie di oggetti con puntatori che indicano come elaborarli in sequenza. Un array presuppone che ogni elemento abbia la stessa dimensione, a differenza dell'elenco collegato. Un elenco collegato può crescere più facilmente in modo organico: un array deve essere predefinito o ridefinito per la crescita organica. Mescolare un elenco collegato implica cambiare i punti diretti a dove, nel frattempo, mescolare un array è più complesso e richiede più memoria.

Q30: Descrivi una tabella hash. Risposta: Una tabella hash è una struttura di dati che produce un array associativo. Una chiave viene mappata su determinati valori tramite l'uso di una funzione hash. Sono spesso usati per attività come l'indicizzazione del database. Q31: Quali librerie di visualizzazione dei dati utilizzi? Cosa ne pensi dei migliori strumenti di visualizzazione dei dati? Risposta: Ciò che è importante qui è definire le tue opinioni su come visualizzare correttamente i dati e le tue preferenze personali quando si tratta di strumenti. Gli strumenti popolari includono ggplot di R, seaborn e matplotlib di Python e strumenti come Plot.ly e Tableau.

D32: Date due corde, A e B, della stessa lunghezza n, trova se è possibile tagliare entrambe le corde in un punto comune tale che la prima parte di A e la seconda parte di B formino un palindromo. Risposta: Riceverai spesso domande su algoritmi standard e strutture dati come parte del processo di colloquio come ingegnere di apprendimento automatico che potrebbe sembrare simile a un colloquio di ingegneria del software. In questo caso, questo deriva dal processo di intervista di Google. Esistono diversi modi per verificare la presenza di palindromi: un modo per farlo se si utilizza un linguaggio di programmazione come Python è invertire la stringa e verificare se è ancora uguale alla stringa originale, ad esempio. La cosa a cui prestare attenzione qui è la categoria di domande che puoi aspettarti, che sarà simile a domande di ingegneria del software che approfondiscono la tua conoscenza di algoritmi e strutture di dati . Assicurati di essere totalmente a tuo agio con la lingua che preferisci per esprimere quella logica. Q33: In che modo le chiavi primarie ed esterne sono correlate in SQL? Risposta: La maggior parte degli ingegneri dell'apprendimento automatico dovrà avere dimestichezza con molti formati di dati diversi. SQL è ancora uno dei principali utilizzati. La tua capacità di capire come manipolare i database SQL sarà qualcosa che molto probabilmente dovrai dimostrare. In questo esempio, puoi parlare di come le chiavi esterne ti consentono di abbinare e unire le tabelle sulla chiave primaria della tabella corrispondente, ma altrettanto utile è spiegare come penseresti di impostare le tabelle SQL e di interrogarle.

Q34: Come si confrontano XML e CSV in termini di dimensioni? Risposta: In pratica, XML è molto più dettagliato dei CSV e occupa molto più spazio. I CSV utilizzano alcuni separatori per classificare e organizzare i dati in colonne ordinate. XML utilizza i tag per delineare una struttura ad albero per le coppie chiave-valore. Spesso riavrai XML come un modo per semi-strutturare i dati dalle API o dalle risposte HTTP. In pratica, ti consigliamo di importare dati XML e provare a elaborarli in un CSV utilizzabile. Questo tipo di domanda mette alla prova la tua dimestichezza con la manipolazione dei dati in formati di dati a volte disordinati.

D35: Quali sono i tipi di dati supportati da JSON? Risposta: questo mette alla prova la tua conoscenza di JSON, un altro popolare formato di file che si avvolge con JavaScript. Esistono sei tipi di dati JSON di base che puoi manipolare: stringhe, numeri, oggetti, array, booleani e valori nulli.

Q36: Come costruiresti una pipeline di dati? Risposta: le pipeline di dati sono il pane quotidiano degli ingegneri dell'apprendimento automatico, che prendono modelli di scienza dei dati e trovano modi per automatizzarli e ridimensionarli. Assicurati di conoscere gli strumenti per creare pipeline di dati (come Apache Airflow) e le piattaforme in cui puoi ospitare modelli e pipeline (come Google Cloud o AWS o Azure). Spiega i passaggi necessari in una pipeline di dati funzionante e parla della tua esperienza reale nella creazione e nel ridimensionamento in produzione. Domande del colloquio sull'apprendimento automatico: specifiche per azienda/settore Queste domande di intervista sull'apprendimento automatico trattano di come implementare le tue conoscenze generali sull'apprendimento automatico in base ai requisiti di un'azienda specifica. Ti verrà chiesto di creare casi di studio e ampliare la tua conoscenza dell'azienda e del settore per cui ti stai candidando con le tue capacità di apprendimento automatico.

Q37: Quali pensi siano i dati più preziosi nella nostra attività? Risposta: Questa domanda o domande simili cercano davvero di metterti alla prova su due dimensioni. Il primo è la tua conoscenza del business e del settore stesso, nonché la tua comprensione del modello di business. Il secondo è se è possibile scegliere in che modo i dati sono correlati ai risultati aziendali in generale e quindi come applicare tale pensiero al contesto dell'azienda. Ti consigliamo di ricercare il modello di business e porre buone domande al tuo reclutatore e iniziare a pensare a quali problemi aziendali probabilmente vorranno risolvere di più con i loro dati.

Q38: Come implementeresti un sistema di raccomandazione per gli utenti della nostra azienda? Risposta: Molte domande di questo tipo di interviste sull'apprendimento automatico comporteranno l'implementazione di modelli di apprendimento automatico per i problemi di un'azienda. Dovrai ricercare in modo approfondito l'azienda e il suo settore, in particolare i fattori di reddito che l'azienda ha e i tipi di utenti che l'azienda assume nel contesto del settore in cui si trova.

Q39: Come possiamo utilizzare le tue capacità di apprendimento automatico per generare entrate? Risposta: Questa è una domanda difficile. La risposta ideale dimostrerebbe la conoscenza di ciò che guida l'azienda e di come le tue abilità potrebbero essere correlate. Ad esempio, se stavi intervistando per la startup di streaming musicale Spotify, potresti notare che le tue capacità nello sviluppo di un modello di raccomandazione migliore aumenterebbero la fidelizzazione degli utenti, il che aumenterebbe quindi le entrate a lungo termine. Le metriche di avvio di Slideshare collegate sopra ti aiuteranno a capire esattamente quali indicatori di performance sono importanti per le startup e le aziende tecnologiche mentre pensano alle entrate e alla crescita.

Q40: Cosa ne pensi del nostro attuale processo di elaborazione dei dati? Risposta: Questo tipo di domanda richiede che tu ascolti attentamente e fornisca feedback in modo costruttivo e perspicace. Il tuo intervistatore sta cercando di valutare se saresti un membro prezioso del loro team e se cogli le sfumature del motivo per cui alcune cose sono impostate come sono nel processo dei dati dell'azienda in base alle condizioni specifiche dell'azienda o del settore. Stanno cercando di vedere se puoi essere un pari intellettuale. Agire in accordo con. Questa serie di domande del colloquio sull'apprendimento automatico tenta di valutare la tua passione e il tuo interesse per l'apprendimento automatico. Le risposte giuste serviranno come testimonianza del tuo impegno a essere uno studente permanente nell'apprendimento automatico.

D41: Quali sono gli ultimi documenti sull'apprendimento automatico che hai letto? Risposta: Tenere il passo con l'ultima letteratura scientifica sull'apprendimento automatico è un must se vuoi dimostrare interesse per una posizione di apprendimento automatico. Questa panoramica del deep learning in Nature da parte degli stessi rampolli del deep learning (da Hinton a Bengio a LeCun) può essere un buon documento di riferimento e una panoramica di ciò che sta accadendo nel deep learning e del tipo di documento che potresti voler citare.

Q42: Hai esperienza di ricerca nell'apprendimento automatico? Risposta: in relazione all'ultimo punto, la maggior parte delle organizzazioni che assumono per posizioni di machine learning cercherà la tua esperienza formale sul campo. Documenti di ricerca, co-autori o supervisionati da leader del settore, possono fare la differenza tra l'essere assunti e non. Assicurati di avere un riassunto della tua esperienza di ricerca e documenti pronti e una spiegazione per il tuo background e la mancanza di esperienza di ricerca formale se non lo fai.

D43: Quali sono i tuoi casi d'uso preferiti dei modelli di machine learning? Risposta: Il thread di Quora di seguito contiene alcuni esempi, come alberi decisionali che classificano le persone in diversi livelli di intelligenza in base ai punteggi del QI. Assicurati di avere in mente alcuni esempi e descrivi cosa ti ha colpito. È importante dimostrare interesse per il modo in cui viene implementato l'apprendimento automatico.

Q44: Come ti avvicineresti al concorso "Premio Netflix"? Risposta: Il Premio Netflix è stato un famoso concorso in cui Netflix ha offerto $ 1.000.000 per un migliore algoritmo di filtraggio collaborativo. La squadra che ha vinto, chiamata BellKor, ha avuto un miglioramento del 10% e ha utilizzato un insieme di metodi diversi per vincere. Una certa familiarità con il caso e la sua soluzione aiuterà a dimostrare che hai prestato attenzione all'apprendimento automatico per un po'.

D45: Da dove vengono solitamente reperiti i set di dati? Risposta: Le domande del colloquio sull'apprendimento automatico come queste cercano di entrare nel vivo del tuo interesse per l'apprendimento automatico. Qualcuno che è veramente appassionato di apprendimento automatico avrà realizzato progetti collaterali da solo e avrà una buona idea di quali fantastici set di dati sono disponibili. Se te ne mancano, dai un'occhiata a Quandl per i dati economici e finanziari e alla raccolta di set di dati di Kaggle per un altro fantastico elenco.

Q46: In che modo pensi che Google stia preparando i dati per le auto a guida autonoma? Risposta: Domande del colloquio di apprendimento automatico come questa mettono davvero alla prova la tua conoscenza dei diversi metodi di apprendimento automatico e la tua inventiva se non conosci la risposta. Google sta attualmente utilizzando recaptcha per ottenere dati etichettati su vetrine e segnali stradali. Stanno anche basandosi sui dati di allenamento raccolti da Sebastian Thrun su GoogleX, alcuni dei quali sono stati ottenuti dai suoi studenti laureati alla guida di passeggini sulle dune del deserto!

Q47: Come simuleresti l'approccio adottato da AlphaGo per battere Lee Sedol a Go? Risposta: AlphaGo ha battuto Lee Sedol, il miglior giocatore umano di Go, in una serie al meglio di cinque, è stato un evento davvero fondamentale nella storia dell'apprendimento automatico e del deep learning. L'articolo di Nature sopra descrive come ciò è stato ottenuto con "la ricerca dell'albero di Monte-Carlo con reti neurali profonde che sono state addestrate dall'apprendimento supervisionato, dai giochi di esperti umani e dall'apprendimento per rinforzo dai giochi di auto-gioco".

Q48: Cosa ne pensi del modello GPT-3 e OpenAI? Risposta: GPT-3 è un nuovo modello di generazione del linguaggio sviluppato da OpenAI. È stato contrassegnato come eccitante perché con pochissime modifiche nell'architettura e una tonnellata di dati in più, GPT-3 poteva generare quelli che sembravano essere pezzi di conversazione simili a quelli umani, fino a includere opere di dimensioni novelle e la capacità di creare codice da elementi naturali linguaggio. Ci sono molte prospettive su GPT-3 su Internet: se si presenta in un'ambientazione di intervista, preparati ad affrontare questo argomento (e argomenti di tendenza simili) in modo intelligente per dimostrare che segui gli ultimi progressi nell'apprendimento automatico.

D49: Quali modelli alleni per divertimento e quale GPU/hardware usi? Risposta: Tali domande del colloquio di apprendimento automatico verificano se hai lavorato su progetti di apprendimento automatico al di fuori di un ruolo aziendale e se comprendi le basi su come utilizzare risorse per i progetti e allocare il tempo della GPU in modo efficiente. Aspettati che domande come questa provengano da manager che assumono che sono interessati a ottenere un maggiore senso dietro il tuo portafoglio e cosa hai fatto in modo indipendente.

D50: Quali sono alcune delle tue API preferite da esplorare? Risposta: se hai lavorato con origini dati esterne, è probabile che tu abbia alcune API preferite che hai utilizzato. Puoi riflettere qui sui tipi di esperimenti e pipeline che hai eseguito in passato, insieme a come pensi alle API che hai utilizzato in precedenza.

D51: In che modo pensi che il calcolo quantistico influirà sull'apprendimento automatico? Risposta: Con il recente annuncio di ulteriori scoperte nell'informatica quantistica, la domanda su come questo nuovo formato e modo di pensare attraverso l'hardware serva da utile proxy per spiegare l'informatica classica e l'apprendimento automatico e alcune delle sfumature hardware che potrebbero creare alcuni algoritmi molto più facile da fare su una macchina quantistica. Dimostrare alcune conoscenze in quest'area aiuta a dimostrare che sei interessato all'apprendimento automatico a un livello molto più elevato rispetto ai semplici dettagli di implementazione.

Ci auguriamo che l'elenco delle domande del colloquio sull'apprendimento automatico di questo post del blog ti aiuti a prepararti per il tuo prossimo colloquio sull'apprendimento automatico.

Parte 2 dell Articolo

Prepararsi per un colloquio non è facile: c'è una notevole incertezza riguardo alle domande del colloquio sulla scienza dei dati che ti verranno poste. Non importa quanta esperienza lavorativa o quale certificato di scienza dei dati possiedi, un intervistatore può buttarti via con una serie di domande che non ti aspettavi.

Durante un colloquio di scienza dei dati, l'intervistatore porrà domande su un'ampia gamma di argomenti, che richiedono sia una forte conoscenza tecnica che solide capacità comunicative da parte dell'intervistato. Le tue abilità statistiche, di programmazione e di modellazione dei dati saranno messe alla prova attraverso una varietà di domande e stili di domande progettati intenzionalmente per tenerti in piedi e costringerti a dimostrare come operi sotto pressione.

La preparazione è la chiave del successo quando si intraprende una carriera nella scienza dei dati e ciò include il processo di intervista.

Questa guida contiene tutte le domande del colloquio sulla scienza dei dati che dovresti aspettarti quando fai un colloquio per una posizione come scienziato dei dati.

Come già immaginiamo, avrai letto e capito le domande e le risposte nella prima parte dell'articolo. In questa seconda parte abbiamo suddiviso le domande dell'intervista per i data scientist in sei diverse categorie: statistica, programmazione, modellazione, comportamento, cultura e risoluzione dei problemi.

Statistica
Programmazione
1. Generale
2. Big Data
3. Pitone
4. R
5. SQL
Modellazione
Comportamentale
Cultura
Risoluzione dei problemi

1. Domande sulla statistica dei Colloqui Per Data Scientist

Il calcolo statistico è il processo attraverso il quale i data scientist acquisiscono dati grezzi e creano previsioni e modelli. Senza una conoscenza avanzata delle statistiche è difficile avere successo come scienziato dei dati: di conseguenza, è probabile che un buon intervistatore cercherà di sondare la tua comprensione dell'argomento con domande di intervista sulla scienza dei dati orientate alla statistica. Preparati a rispondere ad alcune domande statistiche fondamentali come parte del tuo colloquio sulla scienza dei dati.

Ecco alcuni esempi di domande statistiche rudimentali che abbiamo trovato:

Qual è il teorema del limite centrale e perché è importante?
- “Supponiamo di essere interessati a stimare l'altezza media tra tutte le persone. La raccolta di dati per ogni persona nel mondo è impossibile. Anche se non possiamo ottenere una misurazione dell'altezza da tutta la popolazione, possiamo comunque campionare alcune persone. La domanda ora diventa: cosa possiamo dire dell'altezza media dell'intera popolazione data un singolo campione. Il teorema del limite centrale risponde esattamente a questa domanda.

Che cos'è il campionamento? Quanti metodi di campionamento conosci?
- "Il campionamento dei dati è una tecnica di analisi statistica utilizzata per selezionare, manipolare e analizzare un sottoinsieme rappresentativo di punti dati per identificare modelli e tendenze nell'insieme di dati più ampio in esame".

Cos'è la regressione lineare? Cosa significano i termini valore p, coefficiente e valore r-quadrato? Qual è il significato di ciascuna di queste componenti?
- Una regressione lineare è un buon strumento per una rapida analisi predittiva: ad esempio, il prezzo di una casa dipende da una miriade di fattori, come le sue dimensioni o la sua posizione. Per vedere la relazione tra queste variabili, abbiamo bisogno di costruire una regressione lineare, che preveda la linea di miglior adattamento tra di loro e possa aiutare a concludere se questi due fattori hanno o meno una relazione positiva o negativa.

Quali sono le ipotesi richieste per la regressione lineare?
- Ci sono quattro ipotesi principali: 1. Esiste una relazione lineare tra le variabili dipendenti e i regressori, il che significa che il modello che stai creando si adatta effettivamente ai dati, 2. Gli errori o i residui dei dati sono normalmente distribuiti e indipendenti l'uno dall'altro, 3. C'è una multicollinearità minima tra variabili esplicative e 4. Omoscedasticità. Ciò significa che la varianza attorno alla retta di regressione è la stessa per tutti i valori della variabile predittore.

Che cos'è un'interazione statistica?
- "Fondamentalmente, un'interazione è quando l'effetto di un fattore (variabile di input) sulla variabile dipendente (variabile di output) differisce tra i livelli di un altro fattore".

Che cos'è il bias di selezione?
- “Il bias di selezione (o 'campionamento') si verifica in un senso 'attivo', quando i dati del campione che vengono raccolti e preparati per la modellazione hanno caratteristiche che non sono rappresentative della vera popolazione futura di casi che il modello vedrà. Cioè, la distorsione di selezione attiva si verifica quando un sottoinsieme di dati viene sistematicamente (cioè non casualmente) escluso dall'analisi".

Qual è un esempio di set di dati con una distribuzione non gaussiana?
- "La distribuzione gaussiana fa parte della famiglia di distribuzioni Exponential, ma ce ne sono molte di più, con lo stesso tipo di facilità d'uso, in molti casi, e se la persona che esegue l'apprendimento automatico ha solide basi statistiche, possono essere utilizzati ove appropriato”.

Qual è la formula di probabilità binomiale?
- "La distribuzione binomiale consiste nelle probabilità di ciascuno dei possibili numeri di successi su N prove per eventi indipendenti che hanno ciascuno una probabilità di π (la lettera greca pi) di verificarsi."

2. Domande sulla Programmazione dei Colloqui Per Data Scientist

Per testare le tue capacità di programmazione, i datori di lavoro in genere includono due domande specifiche per il colloquio sulla scienza dei dati: ti chiederanno come risolveresti i problemi di programmazione in teoria senza scrivere il codice, e poi offriranno anche esercizi di lavagna per codificare sul posto . Per questi ultimi tipi di domande, forniremo alcuni esempi di seguito, ma se stai cercando una pratica approfondita per risolvere le sfide di codifica, visita HackerRank . Con una filosofia "impara facendo", ci sono sfide organizzate attorno a concetti fondamentali comunemente testati durante le interviste.

2.1 Generale

Con quali linguaggi e ambienti di programmazione ti trovi più a tuo agio a lavorare?
Quali sono alcuni pro e contro del tuo software statistico preferito?
Parlami di un algoritmo originale che hai creato.
Descrivi un progetto di scienza dei dati in cui hai lavorato con un componente di programmazione sostanziale. Cosa hai imparato da quell'esperienza?
Contribuisci a progetti open source?
Come puliresti un set di dati in (inserire la lingua qui)?
Mi parli del coding che hai fatto durante il tuo ultimo progetto?

2.2 Big Data

Quali sono i due componenti principali del framework Hadoop?
- Il file system distribuito Hadoop (HDFS), MapReduce e YARN..

Spiega come funziona MapReduce nel modo più semplice possibile.
- “MapReduce è un modello di programmazione che consente l'elaborazione distribuita di grandi set di dati su cluster di calcolo di hardware di base. Hadoop MapReduce esegue prima la mappatura che comporta la divisione di un file di grandi dimensioni in parti per creare un altro insieme di dati.

Come ordineresti un ampio elenco di numeri?
Supponiamo che ti venga fornito un set di dati di grandi dimensioni. Quale sarebbe il tuo piano per affrontare i valori anomali? Che ne dici di valori mancanti? E le trasformazioni?

2.3 Python

Quali moduli/librerie conosci di più? Cosa ti piace o non ti piace di loro?
In Python, come viene gestita la memoria?
- In Python, la memoria è gestita in uno spazio heap privato. Ciò significa che tutti gli oggetti e le strutture dati si troveranno in un heap privato. Tuttavia, il programmatore non potrà accedere a questo heap. Invece, l'interprete Python lo gestirà. Allo stesso tempo, l'API principale consentirà l'accesso ad alcuni strumenti Python per consentire al programmatore di iniziare a scrivere codice. Il gestore della memoria allocherà lo spazio dell'heap per gli oggetti Python mentre il Garbage Collector integrato riciclerà tutta la memoria che non viene utilizzata per aumentare lo spazio dell'heap disponibile.

Quali sono i tipi di dati supportati in Python?
- “I tipi di dati integrati (o standard) di Python possono essere raggruppati in diverse classi. Attenendosi allo schema gerarchico utilizzato nella documentazione ufficiale di Python, si tratta di tipi numerici, sequenze, insiemi e mappature.

Qual è la differenza tra una tupla e un elenco in Python?
- "Oltre al fatto che le tuple sono immutabili, c'è anche una distinzione semantica che dovrebbe guidarne l'utilizzo."

2.4 R

Quali sono i diversi tipi di algoritmi di ordinamento disponibili nel linguaggio R?
- Esistono algoritmi di ordinamento per inserimento, bolla e selezione. Leggi di più qui .

Quali sono i diversi oggetti dati in R?
- “Gli oggetti R possono memorizzare valori come diversi tipi di dati principali (indicati come modalità nel gergo R); questi includono numerici (interi e doppi), caratteri e logici. .

Quali pacchetti conosci di più? Cosa ti piace o non ti piace di loro?
Come si accede all'elemento nella 2a colonna e 4a riga di una matrice denominata M?
- “Possiamo accedere agli elementi di una matrice usando la parentesi quadra [metodo di indicizzazione. È possibile accedere agli elementi come var[row, column]."

Qual è il comando utilizzato per memorizzare oggetti R in un file?
- salva (x, file="x.Rdata")
Qual è il modo migliore per utilizzare insieme Hadoop e R per l'analisi?
- “Hadoop e R si completano abbastanza bene in termini di visualizzazione e analisi dei big data. Ci sono quattro modi diversi di usare insieme Hadoop e R."
Come si divide una variabile continua in diversi gruppi/ranghi in R?
Scrivi una funzione in linguaggio R per sostituire il valore mancante in un vettore con la media di quel vettore.

2.5 SQL

Spesso, le domande SQL sono basate su casi, il che significa che un datore di lavoro ti incaricherà di risolvere un problema SQL per testare le tue abilità da un punto di vista pratico. Ad esempio, potresti ricevere una tabella e chiederti di estrarre i dati rilevanti, quindi filtrare e ordinare i dati come meglio credi e infine riportare i risultati. Se non ti senti pronto per farlo in un'ambientazione di intervista, Mode Analytics ha una deliziosa introduzione all'uso di SQL che ti insegnerà questi comandi attraverso un ambiente SQL interattivo.

Qual è lo scopo delle funzioni di gruppo in SQL? Fornisci alcuni esempi di funzioni di gruppo.
- Le funzioni di gruppo sono necessarie per ottenere statistiche riassuntive di un set di dati. COUNT, MAX, MIN, AVG, SUM e DISTINCT sono tutte funzioni di gruppo.

Dimmi la differenza tra inner join, left join/right join e union.
- "In un diagramma di Venn il join interno è quando entrambe le tabelle hanno una corrispondenza, un join sinistro è quando c'è una corrispondenza nella tabella di sinistra e la tabella di destra è nulla, un join destro è l'opposto di un join sinistro e un full join è tutti i dati combinati.

Cosa fa UNION? Qual è la differenza tra UNION e UNION ALL?
- "UNION rimuove i record duplicati (dove tutte le colonne nei risultati sono uguali), UNION ALL no."

Qual è la differenza tra SQL e MySQL o SQL Server?
- “SQL sta per Structured Query Language. È un linguaggio standard per l'accesso e la manipolazione dei database. MySQL è un sistema di gestione di database, come SQL Server, Oracle, Informix, Postgres, ecc."

Se una tabella contiene righe duplicate, il risultato di una query visualizza i valori duplicati per impostazione predefinita? Come eliminare le righe duplicate dal risultato di una query?
- Sì. Un modo per eliminare le righe duplicate con la clausola DISTINCT.

3. 2. Domande sulla Modellazione dei Colloqui Per Data Scientist

La modellazione dei dati è il luogo in cui un data scientist fornisce valore per un'azienda. Trasformare i dati in informazioni predittive e utilizzabili è difficile, parlarne con un potenziale datore di lavoro lo è ancora di più. Esercitati a descrivere le tue esperienze passate costruendo modelli: quali sono state le tecniche utilizzate, le sfide superate e i successi ottenuti nel processo? Il gruppo di domande di seguito è progettato per scoprire tali informazioni, nonché la tua formazione formale sulle diverse tecniche di modellazione. Se non riesci a descrivere la teoria e le ipotesi associate a un modello che hai utilizzato, non lascerà una buona impressione.

Dai un'occhiata alle domande seguenti per esercitarti. Non tutte le domande saranno rilevanti per il tuo colloquio: non ci si aspetta che tu sia un maestro di tutte le tecniche. L'uso migliore di queste domande è familiarizzare di nuovo con le tecniche di modellazione che hai imparato in passato.

Parlami di come hai progettato un modello per un datore di lavoro o cliente passato.
Quali sono le tue tecniche di visualizzazione dei dati preferite?
Come rappresentereste efficacemente i dati con 5 dimensioni?
In che modo k-NN è diverso dal clustering di k-medie?
- k-NN, o k-nearest neighbors è un algoritmo di classificazione, dove k è un numero intero che descrive il numero di punti dati vicini che influenzano la classificazione di una data osservazione. K-means è un algoritmo di clustering, dove k è un numero intero che descrive il numero di cluster da creare dai dati forniti.

Come creeresti un modello di regressione logistica?
Hai usato un modello di serie storica? Capisci le correlazioni incrociate con i ritardi?
Spiega la regola 80/20 e parlami della sua importanza nella convalida del modello.
- "Le persone di solito tendono a iniziare con una divisione dell'80-20% (80% set di allenamento - 20% set di test) e suddividere ancora una volta il set di allenamento in un rapporto dell'80-20% per creare il set di convalida". Leggi di più qui .

Spiega cosa sono la precisione e il richiamo. Come si relazionano alla curva ROC?
- Recall descrive quale percentuale di veri positivi è descritta come positiva dal modello. La precisione descrive la percentuale di previsioni positive corrette. La curva ROC mostra la relazione tra richiamo del modello e specificità: la specificità è una misura della percentuale di veri negativi descritti come negativi dal modello. Il richiamo, la precisione e il ROC sono misure utilizzate per identificare l'utilità di un determinato modello di classificazione. Leggi di più qui .

Spiegare la differenza tra i metodi di regolarizzazione L1 e L2.
- “Un modello di regressione che utilizza la tecnica di regolarizzazione L1 è chiamato Lasso Regression e il modello che utilizza L2 è chiamato Ridge Regression. La differenza fondamentale tra questi due è il termine di rigore".

Che cos'è l'analisi della causa principale?
- “Tutti noi temiamo quell'incontro in cui il capo chiede 'perché le entrate sono diminuite?' L'unica cosa peggiore di quella domanda è non avere risposte! Ci sono molti cambiamenti che accadono nella tua azienda ogni giorno e spesso vorrai capire esattamente cosa sta guidando un determinato cambiamento, specialmente se è inaspettato. Comprendere le cause alla base del cambiamento è noto come analisi delle cause principali".

Cosa sono le collisioni di tabelle hash?
- "Se l'intervallo dei valori delle chiavi è maggiore della dimensione della nostra tabella hash, cosa che di solito è sempre così, allora dobbiamo tenere conto della possibilità che due record diversi con due chiavi diverse possano eseguire l'hashing sullo stesso indice della tabella. Esistono diversi modi per risolvere questo problema. Nella lingua delle tabelle hash, questa soluzione implementata viene definita risoluzione delle collisioni".

Che cos'è un test esatto?
- "In statistica, un test esatto (significativo) è un test in cui tutte le ipotesi, su cui si basa la derivazione della distribuzione della statistica test, sono soddisfatte rispetto a un test approssimativo (in cui l'approssimazione può essere fatta il più vicino possibile desiderato rendendo la dimensione del campione sufficientemente grande). Ciò risulterà in un test di significatività che avrà un tasso di falso rifiuto sempre uguale al livello di significatività del test. Ad esempio, un test esatto al livello di significatività del 5% a lungo termine rifiuterà le ipotesi nulle vere esattamente il 5% delle volte.

Secondo te, cosa è più importante quando si progetta un modello di apprendimento automatico: prestazioni del modello o accuratezza del modello?
Qual è un modo in cui gestiresti un set di dati sbilanciato che viene utilizzato per la previsione (ad esempio, classi molto più negative rispetto a classi positive)?
Come convalideresti un modello che hai creato per generare un modello predittivo di una variabile di risultato quantitativa utilizzando la regressione multipla?
Ho due modelli di accuratezza e prestazioni computazionali comparabili. Quale dovrei scegliere per la produzione e perché?
Come affronti la scarsità?
È meglio dedicare cinque giorni allo sviluppo di una soluzione accurata al 90 percento o 10 giorni per una precisione al 100 percento?
Quali sono alcune situazioni in cui un modello lineare generale fallisce?
Pensi che 50 piccoli alberi decisionali siano migliori di uno grande? Come mai?
Quando modifichi un algoritmo, come fai a sapere che le tue modifiche sono un miglioramento rispetto al non fare nulla?
È meglio avere troppi falsi positivi o troppi falsi negativi?

4. Comportamento e Personalità

I datori di lavoro adorano le domande comportamentali. Rivelano informazioni sull'esperienza lavorativa dell'intervistato e sul suo comportamento e su come ciò potrebbe influenzare il resto del team. Da queste domande, un intervistatore vuole vedere come un candidato ha reagito a situazioni in passato, quanto bene può articolare quale fosse il suo ruolo e cosa ha imparato dalla sua esperienza.

Esistono diverse categorie di domande comportamentali che ti verranno poste:

Lavoro di squadra
Comando
Gestione dei conflitti
Risoluzione dei problemi
Fallimento

Prima del colloquio, annota esempi di esperienze lavorative relative a questi argomenti per rinfrescare la memoria: dovrai ricordare esempi specifici per rispondere bene alle domande. Quando ti viene chiesto di un'esperienza precedente, assicurati di raccontare una storia. Essere in grado di creare in modo conciso e logico una storia per dettagliare le tue esperienze è importante. Ad esempio: "Mi è stato chiesto X, ho fatto A, B e C e ho deciso che la risposta era Y".

Naturalmente, se puoi evidenziare le esperienze che hanno a che fare con la scienza dei dati, queste domande rappresentano una grande opportunità per mostrare un risultato unico come scienziato dei dati di cui potresti non aver discusso in precedenza.

Ecco alcuni esempi di questo tipo di domande/richieste:

Raccontami di una volta in cui hai preso l'iniziativa.
Raccontami di una volta in cui hai dovuto superare un dilemma.
Raccontami di una volta in cui hai risolto un conflitto.
Raccontami di una volta in cui hai fallito e cosa hai imparato da essa.
Parlami di (un lavoro nel tuo curriculum). Perché hai scelto di farlo e cosa ti piace di più?
Parlami di una sfida che hai superato mentre lavoravi a un progetto di gruppo.
Quando incontravi un compito noioso e noioso, come lo affronteresti e ti motiveresti a portarlo a termine?
Cosa hai fatto in passato per rendere soddisfatto/felice un cliente?
Cosa hai fatto nel tuo precedente lavoro di cui sei davvero orgoglioso?
Cosa fai quando la tua vita personale sta sconfinando nella tua vita lavorativa?

5. Cultura

Se un datore di lavoro ti fa una domanda in questo elenco, sta cercando di avere un'idea di chi sei e di come ti adatteresti all'azienda. Stanno cercando di valutare da dove viene il tuo interesse per la scienza dei dati e per la società di assunzione. Dai un'occhiata a questi esempi e pensa a quale sarebbe la tua migliore risposta, ma tieni presente che è importante essere onesti con queste risposte. Non c'è motivo per non essere te stesso. Non ci sono risposte giuste a queste domande, ma le risposte migliori vengono comunicate con sicurezza.

Quali data scientist ammiri di più? Quali startup?
Cosa pensi che renda un buon data scientist?
Come ti sei interessato alla scienza dei dati?
Fornisci alcuni esempi di "migliori pratiche" nella scienza dei dati.
Qual è l'ultimo libro/articolo di data science che hai letto? Qual è l'ultima conferenza / webinar / classe / workshop / formazione sul data mining a cui hai partecipato?
Qual è un progetto su cui vorresti lavorare nella nostra azienda?
Quali abilità uniche pensi di portare alla squadra?
Quali dati vorresti acquisire se non ci fossero limitazioni?
Hai mai pensato di creare la tua startup? Intorno a quale idea/concetto?
Cosa possono dirmi i tuoi hobby che il tuo curriculum non può?
Quali sono le tue prime 5 previsioni per i prossimi 20 anni?
Cosa hai fatto oggi? O cosa hai fatto questa settimana/la scorsa settimana?
Se vincessi un milione di dollari alla lotteria, cosa faresti con i soldi?
Qual è una cosa in cui credi che la maggior parte delle persone non crede?
Con quali tratti della personalità ti sbatti?
Di cosa (al di fuori della scienza dei dati) sei appassionato?

6. Risoluzione dei problemi

Gli intervistatori, a un certo punto durante il processo di intervista, vorranno testare la tua capacità di risoluzione dei problemi attraverso domande di intervista sulla scienza dei dati. Spesso questi test verranno presentati come una domanda aperta: come faresti X? In generale, quella X sarà un'attività o un problema specifico dell'azienda con cui ti stai candidando. Ad esempio, un intervistatore di Yelp potrebbe chiedere a un candidato come creerebbe un sistema per rilevare le recensioni false su Yelp .

Alcuni suggerimenti rapidi: non aver paura di fare domande. I datori di lavoro vogliono mettere alla prova le tue capacità di pensiero critico e porre domande che chiariscano i punti di incertezza è una caratteristica che ogni data scientist dovrebbe avere. Inoltre, se il problema offre l'opportunità di mettere in mostra le tue capacità di codifica sulla lavagna o di creare diagrammi schematici, sfruttalo a tuo vantaggio. Mostra abilità tecniche e aiuta a comunicare il tuo processo di pensiero attraverso una diversa modalità di comunicazione. Condividi sempre il tuo processo di pensiero: il processo è spesso più importante dei risultati stessi per l'intervistatore.

Come trovare una soluzione per identificare il plagio?
Quanti voti “utili” riceverà una recensione di Yelp?
Come rilevi i singoli account a pagamento condivisi da più utenti?
Stai per inviare un milione di email. Come si ottimizza la consegna? Come ottimizzi la risposta?
Hai un set di dati contenente 100.000 righe e 100 colonne, con una di queste colonne che è la nostra variabile dipendente per un problema che vorremmo risolvere. Come possiamo identificare rapidamente quali colonne saranno utili per prevedere la variabile dipendente. Identifica due tecniche e spiegamele come se avessi 5 anni.
Come riconosceresti le recensioni fasulle o gli account Facebook fasulli utilizzati per scopi errati?
- Questa è un'opportunità per mostrare la tua conoscenza degli algoritmi di apprendimento automatico; in particolare, algoritmi di analisi del sentimento e analisi del testo. Mostra la tua conoscenza del comportamento fraudolento : quali sono i comportamenti anormali che possono essere visti in genere da account fraudolenti?
Come eseguiresti il raggruppamento su un milione di parole chiave univoche, supponendo che tu abbia 10 milioni di punti dati, ciascuno composto da due parole chiave e una metrica che misura la somiglianza di queste due parole chiave? In primo luogo, come creeresti questa tabella di 10 milioni di punti dati?
Come ottimizzeresti un web crawler per funzionare molto più velocemente, estrarre informazioni migliori e riassumere meglio i dati per produrre database più puliti?

Conclusione

Non esiste un unico modo "migliore" per prepararsi a un'intervista sulla scienza dei dati, ma si spera che, esaminando queste domande comuni per i data scientist, sarai in grado di entrare nelle tue interviste in modo ben praticato e sicuro. Se hai suggerimenti per domande, faccelo sapere nei commenti! Buona fortuna.

INTELLIGENZA ARTIFICIALE ITALIA

Questa piattaforma è il punto di riferimento in Italia completamente dedicato al mondo dell' Intelligenza Artificiale

200 Domande e Risposte al Colloqui Per Data Scientist e Data Engineer

Domande e Risposte dei Colloqui Per Data Scientist

Parte 2 dell Articolo

1. Domande sulla statistica dei Colloqui Per Data Scientist