Большие данные: перспективы научно-технического сотрудничества России и Франции

О больших данных и перспективах российско-французского сотрудничества в этой области в начале декабря говорили участники научного семинара «Большие данные и решения на их основе». Семинар собрал на площадке университета около 50 участников из ведущих научно-исследовательских центров, университетов, государственных структур и ИТ-компаний России и Франции.

По определению компании IDC, «большие данные — новое поколению технологий, предназначенных для экономически эффективного извлечения полезной информации из очень больших объемов разнообразных данных путем высокой скорости их сбора, обработки и анализа». Сегодня возможности этих технологий и сферы их применения стремительно увеличиваются.

Тематика докладов затронула такие области, как медицина, психология, биология, экология, государственное управление, маркетинг, менеджмент.  

Большие данные в биологии и медицине

Об использовании технологий больших данных и интернета вещей в современных акустических методах исследований рассказал профессор Глотен Эрве из Центра развития науки и техники Франции (CNRS). В настоящее время методы, использующие ультразвуковые волны в самых различных приложениях (напр., при исследовании биологического разнообразия различных форм жизни) сталкиваются с проблемами, типичными при анализе больших данных: необходимость сбора информации от большого числа сенсоров, работающих в широком спектре частот в течение длительного времени, приводит к необходимости анализа значительных объёмов информации, непрерывно поступающей от датчиков в реальном времени. Это требует специфических методов обработки больших данных, разработки нового инструментария, позволяющего осуществлять сбор данных.

Особый интерес у исследователей сегодня вызывают возможности, которые предоставляют технологии больших данных для исследования активности головного мозга человека. О новой разработке в этом направлении рассказал заместитель директора Института математических проблем биологии РАН — филиала Института прикладной математики им. М.В. Келдыша РАН Михаил Устинин. Предложенный метод анализа функциональной томографии, основанный на магнитоэнцефалографии головного мозга, состоит в применении вычисления высокоточного преобразования Фурье на длительном многоканальном временном ряде и последующем анализе полученных спектральных компонент. При этом вся активность мозга может быть представлена как набор элементарных когерентных осцилляций. Предложенная методика позволяет с высокой точностью реконструировать временную зависимость и пространственную структуру активности мозга и открывает новые возможности для изучения корреляций между различными областями мозга. Учеными созданы предпосылки для создания нового метода медицинской диагностики, в котором при анализе индивидуальных магнитоэнцефалограмм можно моделировать и реконструировать функциональную структуру мозга человека.

В продолжение этой тематики проблемы применения больших данных в неврологии были рассмотрены в докладе Михаила Беляева (Сколтех).

Новые методы работы с большими данными

Успех технологий больших данных и возможность их использования неразрывно связаны с поиском новых математических моделей, методов и алгоритмов, технологических и программных решений.

Этим вопросам был посвящён целый спектр докладов.

В докладе директора Института динамики систем и теории управления имени В.М. Матросова Сибирского отделения РАН, академика РАН Игоря Бычкова и ведущего научного сотрудника Романа Федорова были представлены предложения по модернизации модели распределённых вычислений MapReduce, повышающие эффективность обработки больших данных в задачах определённого типа, таких как идентификация объектов в растровых изображениях, анализ метеорологических данных, моделирование загрязнения воздуха и др.

Доклад Дениса Насонова (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) посвящён новым алгоритмическим подходам к обработке больших данных, позволяющих значительно увеличивать их эффективность и производительность.

В докладе Дмитрия Ветрова (факультет компьютерных наук НИУ ВШЭ) представлены результаты исследований по модернизации алгоритмов машинного обучения для работы с большими данными, в частности глубинных нейронных сетей.

Новые модели и методы работы с большими данными были предложены в докладах Фуада Алекскерова (департамент математики НИУ ВШЭ), Михаила Посыпкина (ФИЦ «Информатика и управление» РАН), Олега Сухорослова (ИППИ РАН), Веры Шалаевой (Лаборатория информатики в Гренобле/Laboratoire d'Informatique de Grenoble), Артема Петросяна (Объединенный институт ядерных исследований).

Несколько докладов были объединены темой интеграции концепций открытых и больших данных. Проблема заключается в том, что недостаточно только открыть доступ к различным информационным источникам, необходимо предоставить пользователям эффективные инструменты работы с этими данными, позволяющие проводить их анализ, извлекать из этого большого объёма данных необходимые сведения. Результаты своих исследований по этой тематики представили Юрий Линьков и Михаил Парфентьев из Аналитического центра при Правительстве РФ, а также Арно Труссэ, представляющий консалтинговую компанию RILOS (Retail Intelligence Location Solutions). В своем докладе Арно Труссэ рассказал об использовании больших данных и методах моделирования покупательского поведения в области розничной торговли.

Большие данные в исследованиях космоса

Проекты по изучению космического пространства являются одними из самых сложных с точки зрения объема обрабатываемых данных. Марина Шацкая из Астрокосмического центра Физического института им. П.Лебедева РАН рассказала об использовании метода радиоинтерферометрии со сверхдлинными базами, получившими название «Радиоастрон» и «Миллиметрон». Суть метода заключается в объединении наблюдений, производимых несколькими радиотелескопами, находящимися на значительных расстояниях друг от друга. В уже успешно реализуемом проекте «Радиоастрон» один из радиотелескопов сейчас находится на околоземной орбите на удалении 330–360 тыс. километров от Земли. Проблема больших данных заключается здесь в необходимости непрерывной обработки информации, поступающей от телескопов и уже достигающей объёма в 120 терабайт в месяц. При этом общий объём хранимых данных, подлежащих анализу, составляет на сегодняшний день около 5000 терабайт. В новом проекте «Миллиметрон», над запуском которого сейчас работают сотрудники Астрокосмического центра вместе с коллегами из других стран, объёмы данных значительно вырастут, до сотен петабайт. Необходимость обработки такого количества информации заставляет создавать и использовать новые методики передачи, хранения и анализа больших данных.

Интересные приложения на основе больших данных были представлены докладчиками из российских и французских ИТ-компаний: КРОК, ФОРС, ИБС, ATOS IT Solutions and Services, Qwant.

Большие данные в анализе соцсетей

Одно из наиболее востребованных бизнесом приложений — анализ социальных сетей с целью сбора информации о профилях пользователей. Информация, находящаяся в открытом доступе, может значительно помочь компаниям в проведении маркетинговых акций, таргетировании рекламы, продвижении товаров и услуг. Новые знания, извлекаемые из социальных медиаресурсов с использованием методов анализа больших данных, способны повысить эффективность продаж, помочь приобрести новых и сохранить лояльностью старых клиентов, значительно сократить расходы на маркетинг. О новых интересных разработках в этой области, в частности о новых инструментах графического представления результатов анализа данных, рассказала Ольга Горчинская, представляющая отделение исследовательских проектов компании ФОРС. Николай Бутаков из Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики представил доклад, посвящённый изучению так называемых «критических явлений» в социальных сетях — резкого изменения в поведении группы пользователей или даже всей сети, с целью выявления предвестников таких явлений, оценки возможного развития ситуации и необходимого уровня вмешательства.

Филим Микаэли, представляющий компанию Qwant — разработчика одноимённой поисковой системы, популярной в Европе и особенно Франции, посвятил свой доклад проблеме информационной безопасности и неприкосновенности частной жизни. Возможно ли обеспечить защиту личных данных в интернете и социальных сетях?

Большие данные в ИТ-инфраструктуре предприятия, совершенствование управления бизнес-процессами — это темы, которые были рассмотрены в докладе Елены Корнышевой из Консерватории искусств и ремесел (Conservatoire National des Arts et Métiers). Эти вопросы сегодня являются одними из наиболее важных, так как аналитика больших данных является основой реализации концепции цифрового предприятия.

Концептуальный доклад Михаила Лугачева (ИБС) был посвящен влиянию больших данных на процессы новой информационной революции.

Прошедший семинар был одним из мероприятий 2016-го года, в котором отмечается 50 лет научно-технологическому сотрудничеству России и Франции.

О значении и перспективах этого сотрудничества на открытии семинара говорили проректор НИУ ВШЭ Иван Простаков, советник посла Франции по науке и технологиям Alexis Michel и Светлана Мальцева, руководитель Школы бизнес-информатики, инициатор проведения семинара.

Одной из основных задачей семинара являлось установление коммуникаций и развитие контактов между исследователями России и Франции, в том числе и для формирования предварительных предложений для совместных российско-французских заявок в российские и европейские научные фонды на финансирование научных проектов по тематике приложений больших данных. В этом отношении особый интерес участников вызвал доклад специалиста по международному научно-техническому сотрудничеству в Представительстве Европейского Союза в Российской Федерации Марины Быковой, посвящённый программе «Горизонт 2020».

Участники семинара выразили общее пожелание сделать семинар ежегодным и развить сотрудничество в формате совместных научно-исследовательских проектов.

Среди участников семинара с французской стороны была выпускница факультета бизнес-информатики (сейчас Школа бизнес-информатики) НИУ ВШЭ Дилара Хананнова, которая представляла компанию FactSet.

 

Дилара Хананнова

Я приняла участие в научно-практическом семинаре, представляя французское отделение международной компании FactSet. Приятно вернуться в родной университет в Школу бизнес-информатики состоявшимся специалистом компании, работающей в сфере аналитических информационных технологий на больших данных. Пять лет назад мне удалось получить работу в одной из старейших компаний на рынке технологий поддержки инвестиционных решений, при этом добиться собеседования мне удалось благодаря активной жизненной стратегии, а вот пройти интервью мне помогли знания и навыки, полученные во время обучения на бизнес-информатике в НИУ ВШЭ. Начался мой путь с интуитивного понимания перспективы ИТ-образования в сочетании с классическим экономическим образованием, которую я нашла в специальности «Бизнес-информатика», будучи школьницей. Глубокое понимание бизнес-систем, второй диплом в сфере финансовой аналитики и управление инновациями в сфере ИТ дали мне возможность стать постановщиком задач, точно понимающим потребности потребителей в сфере инструментов поддержки принятия инвестиционных решений. Сейчас я перешла на новый этап, когда я готова передавать свой опыт работы в сфере ИТ-технологий финансового анализа.

Эра больших данных привнесла возможности работы с данными глобальной сети, служащих дополнением к внутренним финансовым данным, обработка которых базируется на применении инструментов обработки закрытых данных. Анализ слабых сигналов и средства предписывающей аналитики остаются основой разработки информационных технологий поддержки принятия инвестиционных решений, поиска доминирующих инвестиционных стратегий. Мой доклад посвящен уникальным средствам визуальной аналитики графов большой размерности для решения, например, специфических задач по поиску объектов инвестиций, новым алгоритмам обработки финансовых данных для анализа цепочек создания добавленной стоимости.