Набор данных событий GitHub
Набор данных содержит все события на GitHub с 2011 года по 6 декабря 2020 года, размер составляет 3,1 миллиардов записей. Размер скачиваемого файла - 75 ГБ, а для хранения в таблице с компрессией lz4 потребуется до 200 ГБ пространства на диске.
Полное описание набора данных, аналитика, инструкции по загрузке и интерактивные запросы опубликованы здесь.