- 447
- 0
- 0
Як стати data scientist?
Кількість даних росте з кожним днем. Їхню масу потрібно не тільки десь зберігати, чому в найближчі роки може посприяти розвиток технології блокчейну. Ці дані ще й треба аналізувати — і той, хто вмітиме робити це якісно, буде на коні.
Сьогодні у загальних рисах розкажемо що таке data science, чим займаються ці спеціалісти, чим вони корисні та скільки заробляють в Україні у 2023 році.
Хто такий data scientist
Data Scientist (дослідник даних, далі просто DS) це той, хто працює з big data. Big data — це загальна назва для величезних об’ємів даних, які не є структурованими. Це може бути що завгодно: метеодані за певний період часу, результати спортивних змагань за останні тридцять років, бази даних геномів мікроорганізмів тощо. Нам як арбітражникам цікаві такі речі як бази даних з клієнтами, статистика запитів у пошуковиках, дані про продажі. Біг дата може включати і це.

Структуризація цих даних вимагає специфічних знань та вміння користуватися певними інструментами.
Отже, дослідження даних це галузь, схрещена з кількох інших споріднених галузей та наук:
- комп’ютерних наук;
- математики та статистики;
- системного аналізу.
Тобто DS це щось на перетині Math та Dev (про необхідні навички програмування трохи нижче).
Отже:
Data scientist — це спеціаліст, який з величезного масиву даних вміє отримувати корисну інформацію: прогнозувати поведінку клієнта, пропрацьовувати стратегію утримання клієнта, оптимізувати рекламні канали, прогнозувати збої в роботі різних систем.
Ключове слово в цьому визначенні — це «прогноз». Вид прогнозу залежить успіх поставленої задачі. На виході DS повинен отримати прогнозну модель, себто програмний алгоритм, що знаходить для поставленої задачі оптимальне рішення.
Нижче — галузі, у яких дослідники даних нині є найбільш корисними та затребуваними.
Де може працювати data scientist

Відповідь: у диджиталізованих бізнесах, які мають справу з великою кількістю даних. Насамперед це такі сфери:
- Торгівля/рітейл. DS дозволяє аналізувати поведінку клієнтів, їхні звички та інтереси. А далі — персоналізувати рекомендації та акції, збільшуючи обсяги продажів. Це лише один з численних прикладів використання DS у сфері;
- Банківська сфера та фінанси. Дослідники даних можуть у цій сфері справді багато — від управління ризиками до поліпшення кібербезпеки. Та і взагалі, де може бути корисним data scientist, як не у царині цифр?
- IT та технології в цілому. Це сфера, з якою DS асоціюється в першу чергу. Тут актуальні аналіз великого обсягу автоматизація процесів даних, покращення роботи продуктів, робота нейромереж (оскільки big data — це сировина, на якій вчиться штучний інтелект) тощо.
- Медицина та біотехнології. Діагностика та прогнозування захворювань на основі даних пацієнта, розробка нових препаратів, аналітика клінічних досліджень та створення нових лікувальних протоколів тощо;
- Маркетинг та реклама. Тут використання DS перетинається з рітейлом: дослідження даних дозволяє якісніше сегментувати аудиторії та прогнозувати їхню поведінку. Також DS дозволяє оптимізувати рекламні канали, що може стати золотою жилою для арбітражників та таргетологів;
- Наука та дослідницька діяльність. Окрім очевидних переваг, DS дає можливість працювати із такими складними речами як сенсорні дані, генетичні послідовності тощо.
Але це не означає, що в інших сфери пасуть задніх: якщо потреба у дослідниках даних невисока у сфері, до прикладу, нерухомості, то це лише питання часу. Кількість даних збільшується невпинно, і потреба у людях, які вміють їх аналізувати, надалі буде тільки зростати.
Знання, навички та інструментарій для дослідника даних

Hard skills:
— Програмування. Python це обов’язково. Вміння працювати з деякими бібліотеками значно полегшить вам життя. Jupyter, SciPy, Matplotlib, Numpy — перетворюють пайтон з просто мови програмування на інструмент аналізу та візуалізації даних. Scikit-learn, TensorFlow, Keras — інструменти для аналізу даних, машинного навчання та навчання складних нейромереж;
— Математика. А саме лінійна алгебра (застосовується для розв’язання задач DS, а саме — для роботи з моделями, тренування нейромереж); матаналіз; прикладна математика;
— Статистика. Думка про те, що осягнути DS за допомогою самих лише готових бібліотечних рішень, є помилковою. Доведеться повторити (або засвоїти з нуля) статистичні властивості вибірки, валідацію даних, тестування натренованої моделі тощо.
Якщо ви зрозуміли цей жарт, то ви на правильному шляху
Моделі у контексті Data Science — це математичні та статистичні алгоритми, що їх використовують для аналізу даних, прогнозування майбутніх значень, класифікації об‘єктів, кластеризації тощо. Моделі можуть мати різний рівень складності — від звичайних статистичних методів до багатошарових інтелектуальних алгоритмів ML та AI.
Soft skills:
— Аналітичний склад розуму. Вміння ставити правильні питання, робити припущення та знаходити зв’язки між різними фактами та подіями;
— Критичне мислення. Об’єктивний аналіз питань, розуміння того які ресурси є критичними для вирішення того чи іншого питання. Вміння дивитись на проблему під різними кутами;
— Комунікативні навички. Вміння простими словами пояснювати бізнесу та його власникам зміст даних та їхнє значення для цього бізнесу. Вміння пояснити ланцюжок досліджень та припущень, які привели до того чи іншого висновку.
Жага до знань, розуміння сучасних бізнес-трендів та потреб бізнесу в цілому, проактивність задля завчасного виявлення проблем — все це про дослідників даних. Як бачите, софт-скіллз для DS важливі не менше ніж навички програмування або обізнаність у математиці.
Як стати data scientist

В першу чергу опанувати математичну базу, яку ми згадували вище. Без неї робити у професії нічого.
Потім пройдіть онлайн-курс: Datacamp, Coursera, Codecademy, Edureka. Хороша новина в тому, що на цьому етапі не потрібно знати код. Погана новина в тому, що вчити його все-таки доведеться.
Ці курси підходять як професіоналам для підвищення скілів, так і новачкам.
Переймаєтесь тим, що вас не візьмуть на роботу без досвіду створення проєктів? Створіть їх власноруч! Якщо ви проходитимете онлайн-курси, то створення відповідних проєктів буде чимось на кшталт диплома. Тож беріть їх в руки і йдіть до роботодавця.
Data Scientist: зарплата та перспективи професії
Якщо вірити даним Work.ua, то середня зарплатня DS в Україні у 2023 році складає…23500 гривень. Або приблизно 636$. Але ж ми з вами вже побачили скільки знань треба отримати та які специфічні сфери треба опанувати, аби стати хоча б джуном. Та й життєвий досвід редакції Affhub підказує, що ці цифри не зовсім відповідають дійсності. DOU у своєму дослідженні пише про середню зарплатню у $2500-2700 у 2022 році, і це вже більше схоже на правду. Так що свій раф на кокосовому отримає кожен DS. Як і можливість ходити у Pink Freud, не надто переймаючись цінами на коктейлі.
DS джун може розраховувати на $1000-1500. Але цифри залежатимуть від спеціалізації. Існує кілька спеціалізацій Data Scientist, про них нижче. Але варто мати на увазі, що цей поділ є умовним. Все залежить від комбінації навичок, які має той чи інший DS. Плюс все це відносно нові напрямки в айті, принаймні в Україні, тому аби гармонійно «войті в айті», потрібен солід бекграунд в одному\кількох інших напрямках.
Отже, про спеціалізації.
Спеціалізації Data Scientist
ML Engineer. Дослідник, який спеціалізується на машинному навчанні. Себто розгортає, тренує та підтримує його моделі (про моделі у DS див. вище). Задача ML Engineer — маючи великий об’єм неструктурованих даних, створювати моделі для розв’язання задач, які ставить замовник. Як висловилася одна зі спеціалісток, дотичних до цієї спеціалізації, ML Engineer мусить «багато експериментувати та аналізувати дані».
Інженери машинного навчання тісно взаємодіють із розробниками ПЗ.
Data Analyst. Відомий просто як «дата-аналітик». Препарує дані та знаходить в них корисне в першу чергу для бізнесу. Це саме ті питання, які можуть бути корисні і арбітражникам та маркетологам: скільки компанія заробила за останній тиждень/місяць? Чому впала активність користувачів, або навпаки зросла? Як покращити роботу додатку та які нововведення працюють, а які ні? Data Analyst у своїй роботі генерує гіпотези та тестує їх за допомогою A/B. Як і в принципі у всій царині DS, для початку кар’єри дата-аналітика університетського диплома може бути недостатньо. Точніше роботодавці дивляться не на нього, а, як ми вже зазначали, на наявні проєкти. А створення власних проєктів передбачає наполегливий самостійний ресьорч та непозбувну жагу до знань.
Data Engineer. Якщо не залазити у хащі айті-термінології, то дата-інженер це людина, яка робить великі обсяги даних доступними для інших спеціалістів — маркетологів, аналітиків тощо. DE забезпечує безперебійний потік даних від джерела до системи аналізу, розбудовує дизайн аналітичного сховища даних.
ML Researcher. Він же Machine Learning Researcher. Спеціаліст, що зосереджується на розробці нових моделей і алгоритмів машинного навчання — іншими словами, «дослідник машинного навчання», покращуючи сучасний стан машинного навчання. Якщо інженери зосереджені на практичному застосуванні навичок, то дослідники — це історія про теорію та інновації. Це ті, хто прокладає шлях для інженерів. Обидві ролі вимагають глибокого розуміння концепцій машинного навчання та навичок програмування, але фокус і обов’язки зовсім різні. Інженер з машинного навчання більше зосереджений на практичному застосуванні та виробничій готовності, в той час як дослідник з машинного навчання це про теоретичні досягнення та інновації.
Devops. Не можна сказати, що девопс-інженери є «підвидом» дослідника даних. Знову ж таки, це все для України нове, знання та навички цих спеціалістів часто перетинаються, як і сфері онлайн-реклами: ви можете почати свій шлях арбітражником/таргетолом, а згодом стати баєром. Отже, девопс це фах на перетині розробки та системного адміністрування, який слугує ефективності процесів поставки ПЗ. Перекладаючи на людську мову, головна задача DevOps — зробити розробку ПЗ передбачуваною, безпечною та ефективною. З цієї точки зору девопси стоять дещо осторонь від інших спеціалістів, про які йдеться у цьому матеріалі.
Висновки
Data scienctist — це спеціаліст, який обробляє та аналізує величезні об’єми даних та отримує за це хліб з маслом. Спеціалісти DS потрібні в першу чергу рітейлу, IT та маркетингу, але загалом їхніми послугами користуються всі бізнеси, які мають справу з великими об’ємами даних.
Аби цей хліб з маслом отримувати регулярно, дослідники даних повинні вміти в математику, статистику та програмування. І це не лише про знання з університету, а й про окремі онлайн-курси та постійне самовдосконалення. Спеціалізація DS буде визначатись пропорціями знань з цих трьох галузей, але наразі вона є скоріше умовною, ніж жорсткою.
- 447
- 0
- 0
- За рейтингом
- По порядку