Нов рекорд за сортиране на данни: 100 терабайта за 23 минути
Американският стартъп Databricks обяви в началото на тази седмица за поставяне на нов рекорд по скорост на сортиране на данни. Програмата Apache Spark е обработила масив от 100 терабайта данни само за 23 минути и сериозно превишава световния рекорд на Hadoop.
Предишният рекорд бе постигнат от Yahoo чрез популярното приложение Hadoop MapReduce.Новото постижение е много ценно за информационните технологии и Интернет, и демонстрира бързия технологичен процес в областта Big Data. Hadoop отдавна се счита за най-голямото постижение в тази област, но сега ситуацията се промени.
Една от първите компании, започнали още преди 10 години да използват Hadoop е Интернет-гигантът Google., който през 2009 година започна да използва други софтуерни инструменти, като например Dremel. Въпреки че Hadoop в момента се използва от Facebook, Twitter и eBay, новите алгоритми показват значително по-добра производителност при по-малко използвани ресурси.През 2011 година Google успя да сортира 1 петабайта данни само за 33 минути, но с използването на 8000 сървъра едновременно. Сортирането на Databricks използва само 206 виртуални машини в електронния облак EC2. Това е едно много добро постижение, от което със сигурност ще се възползват IT-гигантите.