שאלות נפוצות, תשובות מומלצות וטיפים מקצועיים
בניתי מודל חיזוי נטישת לקוחות באמצעות XGBoost. עבדתי על דאטה של 2 מיליון לקוחות, ביצעתי feature engineering מקיף, והמודל הגיע ל-AUC של 0.89. זה אפשר לחברה לצמצם נטישה ב-25%.
עשיתי הרבה דברים עם Python ו-machine learning.
תלוי בסוג הבעיה ובכמות החוסרים. אם החוסר אקראי ומתחת ל-5%, אני משתמש ב-imputation. אם יש דפוס לחוסר, זה עצמו יכול להיות feature. תמיד מתחיל עם EDA מקיף לפני שמחליט על גישה.
מוחק שורות עם ערכים חסרים.
אני אסביר regularization: זה כמו שאומרים למודל ׳אל תהיה יותר מדי בטוח בעצמך׳. במקום שילמד בעל פה את הדאטה, אנחנו מוסיפים עלות על מורכבות, כך שהוא מוצא את הכללים הפשוטים והחזקים.
Regularization זה L1 ו-L2 penalty על ה-loss function.
אני מתחיל מהבנת הבעיה העסקית — classification, regression, clustering? בודק את גודל ואיכות הדאטה, ומתחיל עם מודלים פשוטים כ-baseline. מתקדם למודלים מורכבים רק אם יש שיפור מוצדק ביחס ל-interpretability.
אני תמיד משתמש ב-deep learning כי זה הכי מתקדם.
שיטת STAR: Situation, Task, Action, Result — הדרך הטובה ביותר לענות על שאלות התנהגותיות.
צוות המכירות טען שמודל הניקוד שלנו לא מדויק וגורם לבזבוז זמן על לידים לא רלוונטיים
הייתי צריך לבדוק את טענות הצוות, לשפר את המודל ולשמור על אמון הצוותים העסקיים
ניתחתי את הפערים בין תחזיות לתוצאות, גיליתי drift בדאטה, הכנסתי features חדשים מ-CRM ובניתי מודל משופר עם monitoring אוטומטי
דיוק המודל עלה ב-30%, שיעור ההמרה של הלידים שהועברו למכירות עלה ב-45%, והצוות חזר לסמוך על המערכת
היה מוכן לאתגרי קידוד — pandas, SQL, ולפעמים אלגוריתמים
הכן 2-3 פרויקטים עם תוצאות עסקיות מדידות
רענן סטטיסטיקה בסיסית: hypothesis testing, distributions, p-values
דע להסביר מושגים מורכבים בצורה פשוטה — זה מה שמבדיל
הכר את ה-tech stack של החברה: Spark? Airflow? dbt? Cloud platform?
הכן שאלות על תהליך הפיתוח: איך מודלים עוברים לפרודקשן?
לא לדעת להסביר את הבחירות שעשית — ׳זה עבד, אז השתמשתי בזה׳
חוסר הבנה בסטטיסטיקה בסיסית
להתמקד רק בטכנולוגיה בלי הבנה עסקית
לא להכיר את ההבדלים בין גישות מודלינג שונות
להציג רק עבודה עצמאית בלי שיתוף פעולה
לבוש קז׳ואל דומה לתעשיית הטכנולוגיה. ג׳ינס נקי וחולצה מכופתרת או חולצת פולו. חברות פיננסיות או ייעוץ — קצת יותר רשמי.
כמעט תמיד. צפו למטלת בית (ניתוח דאטה ובניית מודל) או live coding ב-SQL/Python. חלק מהחברות שולחות take-home של 4-8 שעות.
שניהם. צריך להבין את התיאוריה כדי לקבל החלטות נכונות, אבל המראיינים רוצים לראות שאתה יודע ליישם ולהגיע לתוצאות בפרקטיקה.