Google и Github публикуваха 3 TB файлове с Open Source код
Google съвместно с Github публикува в свободен вид за обществено ползване пълната и актуална база със всички Open Source хранилища чрез интерфейса BigQuery. Проверката за свободен лиценз се осъществява с помощта на API.
Колекцията Google BigQuery Public Datasets съдържа информация за над 2,8 милиона свободни хранилища, над 2 милиарда файлове, като обновяването на последните версии на този свободен софтуер добави още 163 милиона файлове. Обшият размер на тази база е около 3 TB.
Досега Github публикуваше архивите си със сорс-код в Github Archive. Сега това богатство е вече достъпно за качествено текстово търсене и анализ чрез опростени SQL запитвания. Github добави, че ще обновява информацията всяка седмица.
BigQuery е облачна услуга за интерактивен анализ на големи бази данни. Използването на BigQuery е съвсем лесно и става с помощта на обикновени API извиквания, като така не се налага кеширане и поточна обработка на данните в реално време. Тоест, с помощта на най-обикновено SQL запитване е възможно да се получи всякаква статистика по Github хранилищата. Като например, кое хранилище е най-популярно към днешен ден, през последната година, кой е най-популярният език за програмиране и т.н.
Пълноценното текстово търсене в толкова много сорс-код със сигурност ще помогне както на начинаещите, така и на професионалните програмисти.