J­P­L­ ­g­e­l­m­i­ş­ ­g­e­ç­m­i­ş­ ­e­n­ ­b­ü­y­ü­k­ ­P­D­F­ ­k­a­y­n­a­k­ ­a­r­ş­i­v­i­n­i­ ­y­a­r­a­t­t­ı­

J­P­L­ ­g­e­l­m­i­ş­ ­g­e­ç­m­i­ş­ ­e­n­ ­b­ü­y­ü­k­ ­P­D­F­ ­k­a­y­n­a­k­ ­a­r­ş­i­v­i­n­i­ ­y­a­r­a­t­t­ı­

NASA’nın Jet Propulsion Laboratuarları (JPL), interneti daha güvenli hale getirme çabalarını desteklemek amacıyla JPL veri bilimcileri tarafından en büyük  kamuya açık kaynak arşivini yarattı. PDF’lerin en büyük kamuya açık kaynak arşivi olan bu arşiv, DARPA’nın Safe Documents (SafeDocs) programının bir parçası. SafeDocs programı, PDF kullanıcılarının güvenlik ihtiyaçlarını gidererek amaçlayarak çevrimiçi tehditlerle mücadele ediyor. JPL, teknoloji için açık özellikler ve standartlar belirlemeyi amaçlayan kâr amacı gütmeyen PDF Association ile birlikte çalışarak bu tehlikelerle mücadele etmek için birkaç araç geliştirmeye başlamış.

Arşivin oluşturulması kolay bir görev olmadı. JPL ekibi, geniş bir PDF yelpazesini arşive dahil etmek için başlangıç noktası olarak Common Crawl adlı açık kaynaklı bir web tarama veri havuzunu kullandı. Temmuz ve Ağustos 2021 tarihleri arasında gerçekleştirilen taramada, arşive katılması için yaklaşık 8 milyon PDF belirlendi.

Common Crawl, her dosya için indirilen veriyi 1 megabaytla sınırlıyordu, bu da daha büyük dosyaların eksik olduğu anlamına geliyor. Ancak araştırmacılar kaynaklar üzerinde anlamlı çalışmalar yapabilmek için dosyaların kırpılmış değil tam versiyonlarına ihtiyaç duyuyorlar. Dosya boyutu sınırı, Common Crawl’dan doğrudan alınan tamamlanmış, kırpılmamış dosyaların sayısını 6 milyona çıkardı. Diğer 2 milyon PDF’i almak ve arşivin eksiksiz olduğundan emin olmak için JPL ekibi, eksik PDF’lerin web adreslerinden özel yazılım kullanarak tam dosyaları indiren özel bir yazılım geliştirdiler ve bunu kullandılar.

PDF’lerin oluşturulmasında kullanılan yazılım gibi çeşitli meta veriler, arşivle birlikte çıkarıldı. JPL ekibi ayrıca her PDF için kaynak web sitesinin sunucu konumunu belirlemek için ücretsiz ve kamuya açık bir coğrafi konumlandırma yazılımından da yararlandı. Tam veri seti yaklaşık 8 terabayt boyutunda ve bu türdeki en büyük kamuya açık özelliğini taşımakta.

Arşiv, sadece tehlikeli ve eksik dosyaları yanlışlıkla indirmemelerinde araştırmacılara yardımcı olmayacak. Örneğin, gizlilik araştırmacıları, kişisel bilgileri daha iyi korumak için dosya oluşturma ve düzenleme yazılımının nasıl iyileştirilebileceğini belirlemek için de bu dosyalara çalışabilecek. Yazılım geliştiriciler, kodlarında hataları bulmak ve eski sürümlerin yeni PDF sürümleriyle uyumlu olup olmadığını kontrol etmek için de bu dosyalara bakabilecekler.

Bu arşiv, Amazon Web Services’in Open Data Sponsorship Programı’nın bir parçası olan Digital Corpora projesi tarafından kamuya sunuluyor ve dosyalara kolayca indirilebilir sıkıştırılmış .zip formatında ulaşılabiliyor.

Popular Articles

Latest Articles