пресс-центр

Будь в курсе всех новостей

ОСТАВАЙТЕСЬ С НАМИ

Работа с Big Data: стартап строит базу данных с помощью GPU для визуализации мира Twitter

NVIDIA Blog NVIDIA Blog
NVIDIA Blog http://blogs.nvidia.com/blog/2013/11/20/juicing-big-data-startup-builds-gpu-database-to-visualize-the-world-on-twitter/

 

Одна из самых захватывающих демонстраций на конференции Supercomputing 2013 берет начало в одном из баров далекой сельской Сирии.

Map-D, стартап из Кембриджа, Массачусетс, с помощью GPU создал высокоскоростную базу данных и инструмент геопространственной визуализации, который может отслеживать более миллиарда твитов во всем мире и интерактивно проводить анализ практически неограниченного числа социально-экономических проблем.

Демонстрация компании Map-D, чье название означает “массивно параллельная база данных”, проходила на стенде NVIDIA, прямо за лекционным залом, и привлекла немало любопытных посетителей.

dmapflu-col9.jpg

Карта точек, карта интенсивности и временная диаграмма демонстрируют вспышку гриппа в декабре 2012 года на юге Америки.

Всего за несколько кликов можно отследить передвижение вируса гриппа по штатам Среднего Запада, построить карту интенсивности, отражающую, когда и где слово «грипп» использовалось в твитах за определенный период. Также можно отследить твиты про безжалостное шествие тайфуна Хайан в Южно-Китайском море и даже находить видео, демонстрирующие силу циклона в разные часы. Отношение общества, например, к речи президента Обамы также можно отследить за пару миллисекунд.

Map-D – приложение для анализа больших массивов данных, которое использует мощь параллельных вычислений GPU для ускорения анализа в 70-1000 раз по сравнению с CPU. Приложение было создано двумя технологами-самоучками с гуманитарным образованием и тягой к удаленным уголкам Земли.

Страсть к путешествиям свела их в одном непредсказуемом месте – далеком баре сельской Сирии, где они встретились за стаканом гранатового сока. Потом судьба свела их еще раз, но уже на занятиях по ближневосточному законодательству в Гарварде.

MapDCofounders-col9.jpg

Тодд Мостак (Todd Mostak), которому сейчас 30 лет, начал работу над проектом, когда искал взаимосвязи между 40 миллионами твитов, отправленных во время весеннего восстания в Египте, для своей магистерской работы по Ближнему Востоку. Тодд начал работу над проектом во время посещения занятий по составлению баз данных по соседству с MIT.

Другой соучредитель компании, 29-летний австралиец Том Грэхем (Tom Graham), юрист в области финансов, ранее проходивший практику в Гонконге, изучал проблему гражданского неповиновения на границе между Китаем и Северной Кореей до того, как вернулся в Гарвардскую Школу Права для изучения анализа больших массивов данных и связанных с интернетом проблем реформы законодательства.

По мере углубления в анализ на основе GPU Тодд построил базу данных, которая позволяла мгновенно обрабатывать сложные пространственные и цензовые данные. Впервые графические процессоры он применил, когда изучал OpenGL, разрабатывая в свободное время приложения для iPhone. Затем он изучил CUDA, используя обычные игровые GPU, которые значительно быстрее справлялись с обработкой данных, чем системы на базе CPU.

Сейчас система Map-D работает на базе недавно представленных вычислительных ускорителей NVIDIA Tesla K40, большой объем памяти которых (12ГБ) обеспечивает новый уровень возможностей. База данных Map-D полностью интегрирована в память многочисленных GPU и кластеров, она обрабатывает миллиарды базовых точек и интерактивно, всего за несколько миллисекунд, выводит результаты анализа в графическом виде.

В демонстрации Тодда Мостака и Тома Грэхема на SC13 анализировались твиты. Однако SQL база данных Map-D может работать с тем же успехом с любым другим массивом информации.

Пока в компании работают только два человека, но, очевидно, что это только начало. Map-D уже начали использовать в ряде коммерческих проектов, чтобы повысить их полезность для исследователей и аналитиков.

Среди них – аналитические проекты по контрактам правительства США, сотрудничество с правительством Саудовской Аравии в целях предотвращения несчастных случаев среди массовых паломников в Мекку, расширение маркетинговых возможностей для компаний, работающих в области социальных медиа.

Еще один проект Map-D связан с Национальной баскетбольной лигой и нацелен на улучшение подачи визуальной информации для миллионов фанатов. Одна из идей этого проекта заключается в составлении карты интенсивности, которая точно отражает, куда могла попасть в зоне страйка каждая из многих тысяч подач, сделанных в главной лиге.