Сегодня мы открыли новое направление по работе с «большими данными» — Yandex Data Factory. В рамках YDF компании, которые имеют дело с огромными массивами информации, смогут решать свои задачи с помощью технологий Яндекса.
Чёткого определения у понятия «большие данные» нет. Одно из первых описаний предложили в 2001 году — оно известно как принцип «трёх V». Данные называют большими, если они обладают тремя признаками: большой объём (volume), многообразие (variety) и скорость (velocity). Последнее означает, что данные постоянно обновляются и нуждаются в своевременной обработке.
С «большими данными» имеют дело практически в любой сфере бизнеса: от банковского дела до телекоммуникаций, от коммунального хозяйства до здравоохранения. Компании собирают и хранят множество информации: планы, отчёты, сведения о действиях клиентов, показания датчиков, настройки оборудования, характеристики продукции, видео с камер наблюдения. Эта информация объёмна, разнообразна и зачастую обновляется в режиме реального времени.
Умение анализировать «большие данные» даёт много преимуществ. Выявив закономерности в данных, банк, например, сможет определить, какие продукты предложить клиентам, а поставщик коммунальных услуг — предсказать аномальные всплески потребления горячей воды и подготовиться к ним. Сложность, однако, состоит в том, что для анализа «больших данных» — в силу их объёма и разнородности — необходимы специальные инструменты. Такие инструменты есть у Яндекса.
В число технологий, которые используются для анализа данных в Yandex Data Factory, входят метод машинного обучения Матрикснет, глубокие нейронные сети, распознавание образов и речи, рекомендательные системы. Все они были разработаны Яндексом для собственных нужд — и собственных данных. Матрикснет мы изначально создавали для составления формулы ранжирования в поиске — а потом он стал использоваться и для прогнозирования пробок в Яндекс.Картах, и для таргетинга рекламы в Яндекс.Директе, и для машинного перевода текстов с одного языка на другой в Яндекс.Переводе.
Со временем мы убедились, что наши алгоритмы могут применяться и в отраслях, не связанных с интернетом — так как они не анализируют содержание данных, а выявляют в них закономерности. Первым опытом применения технологий Яндекса в сторонних проектах стало сотрудничество с Европейским центром ядерных исследований (CERN). В частности, Матрикснет лёг в основу системы поиска редких событий — данных о столкновениях частиц — в эксперименте LHCb на Большом адронном коллайдере.
В Яндексе работают очень сильные специалисты по анализу данных. А кроме того, у нас есть система их подготовки. С 2007 года обучением в этой области занимается Школа анализа данных. В 2014 году Яндекс и Высшая школа экономики открыли факультет компьютерных наук, в состав которого входит департамент больших данных и информационного поиска.
Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов по обработке «больших данных» с компаниями-партнёрами. В частности, для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.
Услугами Yandex Data Factory могут воспользоваться как российские, так и зарубежные компании из разных отраслей. Подробности о Yandex Data Factory можно узнать на сайте проекта.
Яндекс открывает «Фабрику данных»
9 декабря 2014, 16:04