НАУКА ПРО ДАНІ

Наука про дані (Data Science) - це область дослідження, яка поєднує в собі досвід предметної галузі, навички програмування та знання математики та статистики для отримання осмисленої інформації з даних.

. Фахівці з обробки та аналізу даних застосовують алгоритми машинного навчання до чисел, тексту, зображень, відео, аудіо та багато іншого для створення систем штучного інтелекту (ШІ) для виконання завдань, які зазвичай вимагають людського інтелекту. У свою чергу, ці системи генерують інформацію, яку аналітики та бізнес-користувачі можуть перетворити на відчутну цінність для бізнесу.

Наука про дані поєднує математику і статистику, спеціалізоване програмування, розширену аналітику, штучний інтелект і машинне навчання з конкретними предметними знаннями для прийняття рішень та стратегічного планування.

Сам термін Data Science «наука про дані» не новий, його значення та конотації з часом змінилися. Слово вперше з'явилося у 60-х роках як альтернативна назва статистики. Наприкінці 90-х фахівці в галузі комп'ютерних наук формалізували цей термін. Запропоноване визначення науки про дані розглядало її як окрему галузь із трьома аспектами: проектування даних, збір та аналіз. Потрібно було ще одне десятиліття, щоб цей термін почав використовуватись за межами академічних кіл.

Наука про дані використовує вивчення даних чотирма основними способами.

  1. 1. Описовий аналіз

Описовий аналіз спрямовано на дослідження даних з метою отримання уявлення у тому, що сталося чи що відбувається у середовищі даних. Він характеризується візуалізацією даних (кругові діаграми, гістограми, лінійні графіки, таблиці або згенеровані описи). Наприклад, служба бронювання авіаквитків може записувати такі дані, як кількість квитків, заброньованих щодня. Описовий аналіз виявить сплески бронювань, спади бронювань та місяці з високою ефективністю цієї послуги.

  1. 2. Діагностичний аналіз

Діагностичний аналіз – це глибоке чи детальне вивчення даних, аби зрозуміти, чому щось сталося. Він характеризується такими методами, як деталізація, виявлення даних, інтелектуальний аналіз даних та кореляції. Наприклад, служба польотів може деталізувати високопродуктивний місяць, щоб краще зрозуміти сплеск бронювання. Це може призвести до відкриття того, що багато клієнтів відвідують певне місто, щоб відвідати щомісячний спортивний захід.

  1. 3. Прогностичний аналіз

У прогностичному аналізі використовують статистичні дані, щоб робити точні прогнози закономірностей даних, які можуть виникнути в майбутньому. Для нього характерні такі методи, як машинне навчання, прогнозування, зіставлення зі зразком та прогнозне моделювання. У кожному з цих методів комп'ютери навчені аналізувати причинно-наслідкові зв'язки даних. Наприклад, група обслуговування польотів може використати науку про дані для прогнозування моделей бронювання рейсів на наступний рік на початку кожного року. Комп'ютерна програма або алгоритм можуть аналізувати минулі дані та прогнозувати сплески бронювань для певних напрямів у травні. Прогнозуючи майбутні потреби своїх клієнтів у поїздках, компанія може розпочати рекламу для цих міст із лютого.

  1. 4. Приписуючий аналіз

Наказує аналітику виводить прогностичні дані на новий рівень. Такий аналіз дозволяє не тільки передбачати, що може статися, а й пропонувати оптимальну реакцію цього результату. Таким чином, можна аналізувати потенційні наслідки різних варіантів вибору та рекомендувати найкращий план дій.

Основними базисами для фахівців Data Science є:

Штучний інтелект (ШІ) — область, присвячена створенню інтелектуальних систем, працюючих і діючих як люди. Він пов'язаний з використанням комп'ютерів для розуміння людського інтелекту, але з обов'язковими обмеженнями біологічно правдоподібними методами. Існуючі на сьогодні інтелектуальні системи мають дуже вузькі сфери застосування. Наприклад, програми, здатні обіграти людину в шахи, не можуть відповідати на запитання.

Машинне навчання (Machine Learning) - створення інструменту для отримання знань з даних. Моделі ML навчаються на даних самостійно або поетапно: навчання з вчителем на підготовленних людиною даних і без вчителя - робота зі стихійними, зашумленими даними.

Глибоке навчання (Deep Learning) — створення багатошарових нейронних мереж в областях, де вимагаютьється більш просунутий або швидкий аналіз, і традиційне машинне навчання не справляється. «Глубина» забезпечується деякою кількістю прихованих шарів нейронів у мережі, яка проводить математематичні обчислювання.

Великі дані (Big Data) — робота з більшим обсягом часто неструктурованих даних. Специфіка сфери - це інструменти і системи, здатні витримувати високі навантаження.

Таким чином, фахівців Data Science повинен:

• Знати достатньо про бізнес, щоб ставити доречні питання та визначати болючі точки бізнесу.

• Застосовувати статистику та інформатику та ділову хватку для аналізу даних.

• Використовувати широкий спектр інструментів та методів для підготовки та вилучення даних – від баз даних та SQL до інтелектуального аналізу даних та методів інтеграції даних.

• Витягувати корисні відомості з великих даних за допомогою прогнозної аналітики та штучного інтелекту, включаючи моделі машинного навчання, обробку природної мови та глибоке навчання.

• Писати програми, що автоматизують обробку даних та розрахунки.

• Наводити та надавати історії, які чітко доносять значення результатів до осіб, які приймають рішення, та зацікавлених осіб на кожному рівні технічного розуміння.

• Пояснювати, як можна використовувати результати для вирішення бізнес-завдань.

• Співпрацювати з іншими членами групи з обробки та аналізу даних, такими як аналітики даних та бізнес-аналітики, ІТ-архітектори, інженери з обробки даних та розробники додатків.

В даний час все більше і більше компаній усвідомлюють важливість Data Science. Незалежно від галузі чи розміру організації, які хочуть залишатися конкурентоспроможними в епоху великих даних, повинні ефективно розробляти та впроваджувати можливості обробки даних, інакше вони ризикують залишитися позаду.

Автори тексту:
Литвиненко В.І. -д.т.н., професор, завідувач кафедри Інформатики та комп'ютерних наук
Лур'є І.А. - к.т.н., доцент кафедри Інформатики та комп'ютерних наук