Наука о данных
Наука о данных (редко даталогия) – междисциплинарное научно-прикладное направление, изучающее проблемы анализа, обработки и представления данных в цифровой форме, методы обнаружения закономерностей в данных (осмысленной информации), извлечения знаний из данных для применения их в бизнесе; методы и средства разработки баз данных, баз знаний и др. Строгого определения этого термина не существует.

Для представления требований к специалисту в этой области часто используется диаграмма Венна, в которой навыки, требуемые специалисту, отображаются на пересечении сфер профессионального опыта в предметной области (substantive expertise), опыта в информационных технологиях, навыков алгоритмизации и программирования (hacking skills) и знания математической статистики.
В учебные курсы по науке о данных обычно входят такие дисциплины, как машинное обучение (МО, machine learning); системы управления базами данных (СУБД, DBMS); инженерия разработки программного обеспечения (software engineering, SE, SWE); анализ данных (intelligent data, data analysis) и вероятностный вывод (probabilistic inference); вероятностные модели, продвинутая статистика (advanced statistics) и предиктивная аналитика (predictive analytics). В дополнение к подобным курсам по науке о данных и по основам менеджмента обычно предусматриваются прикладные курсы по двум популярным и востребованным направлениям: финансово-технологический курс, включающий управление рисками, управление активами и производные финансовые инструменты, и консалтинговый курс, охватывающий обработку больших массивов данных (large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике и др. Таким образом, наука о данных – это широкое поле деятельности, которое включает в себя многие дисциплины.
Ученый, работающий в области науки о данных, специалист по данным, называемый также исследователем данных (data scientist), – это новая профессия, возникшая в начале 2010-х годов при становлении науки о данных как академической научной дисциплины и неоднократно отмечаемая как одна из самых привлекательных и перспективных в современном мире. Утверждается, что такие специалисты будут играть ключевую роль в организациях, которые смогут получать конкурентные преимущества благодаря квалифицированному анализу и извлечению закономерностей и знаний из данных, прежде всего в высокотехнологичных отраслях.
Существует широкий спектр инструментов, проприетарных и с открытым исходным кодом, с которыми работают исследователи данных, – это предметно-ориентированные библиотеки, системы, которые обрабатывают большие объемы данных, обеспечивают их визуализацию и моделирование. Разработка такого ПО – отдельный вид бизнеса.
Почему это важно для бизнеса?
Бизнес уже осознал ценность совокупности данных как долгосрочного нематериального актива, однако для эффективного использования данных необходимы соответствующие инструменты, а также высококвалифицированные аналитики и исследователи. Сравнительно молодая наука о данных быстро становится важнейшим направлением в организациях, которые собирают данные в интернете, владеют или имеют доступ к большим данным. Сдерживающий фактор – дефицит и высокая стоимость специалистов.