Нов рекорд за сортиране на данни: 100 терабайта за 23 минути

Американският стартъп Databricks обяви в началото на тази седмица за поставяне на нов рекорд по скорост на сортиране на данни. Програмата Apache Spark е обработила масив от 100 терабайта данни само за 23 минути и сериозно превишава световния рекорд на Hadoop.

     : 100   23

Предишният рекорд бе постигнат от Yahoo чрез популярното приложение Hadoop MapReduce.Новото постижение е много ценно за информационните технологии и Интернет, и демонстрира бързия технологичен процес в областта Big Data. Hadoop отдавна се счита за най-голямото постижение в тази област, но сега ситуацията се промени.

     : 100   23

Една от първите компании, започнали още преди 10 години да използват Hadoop е Интернет-гигантът Google., който през 2009 година започна да използва други софтуерни инструменти, като например Dremel. Въпреки че Hadoop в момента се използва от Facebook, Twitter и eBay, новите алгоритми показват значително по-добра производителност при по-малко използвани ресурси.През 2011 година Google успя да сортира 1 петабайта данни само за 33 минути, но с използването на 8000 сървъра едновременно. Сортирането на Databricks използва само 206 виртуални машини в електронния облак EC2. Това е едно много добро постижение, от което със сигурност ще се възползват IT-гигантите.
Коментари
Все още няма коментари
Статистика
Прегледи 127
Коментари 0
Рейтинг
Добавена на14 Окт 2014
ИзточникKaldata

Тагове
Hadoop, Databricks