|
Това са 2,8 милиона директории-хранилища, 3 TB свободен сорс код и метаданни 
Google съвместно с Github публикува в свободен вид за обществено ползване пълната и актуална база със всички Open Source хранилища чрез интерфейса BigQuery. Проверката за свободен лиценз се осъществява с помощта на API. Колекцията Google BigQuery Public Datasets съдържа информация за над 2,8 милиона свободни хранилища, над 2 милиарда файлове, като обновяването на последните версии на този свободен софтуер добави още 163 милиона файлове. Обшият размер на тази база е около 3 TB. Досега Github публикуваше архивите си със сорс-код в Github Archive. Сега това богатство е вече достъпно за качествено текстово търсене и анализ чрез опростени SQL запитвания. Github добави, че ще обновява информацията всяка седмица. 
BigQuery е облачна услуга за интерактивен анализ на големи бази данни. Използването на BigQuery е съвсем лесно и става с помощта на обикновени API извиквания, като така не се налага кеширане и поточна обработка на данните в реално време. Тоест, с помощта на най-обикновено SQL запитване е възможно да се получи всякаква статистика по Github хранилищата. Като например, кое хранилище е най-популярно към днешен ден, през последната година, кой е най-популярният език за програмиране и т.н. Пълноценното текстово търсене в толкова много сорс-код със сигурност ще помогне както на начинаещите, така и на професионалните програмисти. |