Google и Github публикуваха 3 TB файлове с Open Source код

Това са 2,8 милиона директории-хранилища, 3 TB свободен сорс код и метаданни 

Google  Github  3 TB   Open Source

Google съвместно с Github публикува в свободен вид за обществено ползване пълната и актуална база със всички Open Source хранилища чрез интерфейса BigQuery. Проверката за свободен лиценз се осъществява с помощта на API.

Колекцията Google BigQuery Public Datasets съдържа информация за над 2,8 милиона свободни хранилища, над 2 милиарда файлове, като обновяването на последните версии на този свободен софтуер добави още 163 милиона файлове. Обшият размер на тази база е около 3 TB.

Досега Github публикуваше архивите си със сорс-код в Github Archive. Сега това богатство е вече достъпно за качествено текстово търсене и анализ чрез опростени SQL запитвания. Github добави, че ще обновява информацията всяка седмица.

 

Google  Github  3 TB   Open Source

BigQuery е облачна услуга за интерактивен анализ на големи бази данни. Използването на BigQuery е съвсем лесно и става с помощта на обикновени API извиквания, като така не се налага кеширане и поточна обработка на данните в реално време. Тоест, с помощта на най-обикновено SQL запитване е възможно да се получи всякаква статистика по Github хранилищата. Като например, кое хранилище е най-популярно към днешен ден, през последната година, кой е най-популярният език за програмиране и т.н.

Пълноценното текстово търсене в толкова много сорс-код със сигурност ще помогне както на начинаещите, така и на професионалните програмисти.

Коментари
Все още няма коментари
Статистика
Прегледи 126
Коментари 0
Рейтинг
Добавена на01 Юли 2016
ИзточникKaldata

Тагове
Open, Source, Github