HTTrack ücretsiz (GPL, özgür/ücretsiz yazılım) ve kullanımı kolay bir çevrimdışı tarayıcı yardımcı programıdır.
İnternet’ten bir World Wide Web sitesini yerel bir dizine indirmenize, tüm dizinleri tekrar tekrar oluşturmanıza, HTML, resimler ve diğer dosyaları sunucudan bilgisayarınıza almanıza olanak tanır. HTTrack, orijinal sitenin göreli bağlantı yapısını düzenler. Tarayıcınızda “yansıtılmış” web sitesinin bir sayfasını açmanız yeterlidir ve siteyi çevrimiçi olarak izliyormuş gibi bağlantıdan bağlantıya göz atabilirsiniz. HTTrack ayrıca mevcut bir yansıtılmış siteyi güncelleyebilir ve kesintiye uğramış indirmelere devam edebilir. HTTrack tamamen yapılandırılabilir ve entegre bir yardım sistemine sahiptir.
git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=/usr && make -j8 && make install DESTDIR=/
İndirmeyi başlatmak için aşağıdan bir bağlantı seçin.
Sürüm | Çıkış Tarihi | İndirme Bağlantısı |
---|---|---|
3.49-2 | 20/May/2017 | WebHTTrack |
sudo pisi it -c system.devel
Aşağıdaki paket(ler) zaten kurulu ve yeniden kurulmayacak:
binutils g++ gcc glibc-devel
linux-headers
nano
openssl-11-devel openssl-devel zlib-devel
Aşağıdaki paketler kurulacak:
abireport autoconf automake
bash-completion-devel bison catbox
cmake dbus-devel diffstat
diffutils expat-devel fakeroot
file-devel flex flex-devel
gfortran glib2-devel gmp-devel
gobject-introspection-devel intltool libarchive-bin
libffi-devel libgcrypt-devel libgfortran
libgpg-error-devel libgudev-devel libpcre-devel
libtool-devel libxml2-devel m4
make meson mpc-devel
mpfr-devel nasm ncurses-devel
ninja pam-devel patch
pkg-config polkit-devel python-configobj
python-devel pyyaml quilt
readline-devel ruamel_yaml systemd-devel
texinfo util-linux-devel ypkg
HTTrack, bağlantılar gibi seçeneklerde bazı sınırlar belirler yani normal veri indirme sınırlıdır. (varsayılan olarak 25KB/sn).
Sınırları kaldırmanın sonuçlarını anlıyorsanız ve bunu yapmak için iyi bir nedeniniz varsa, şu argümanı kullanabilirsiniz:
PANIC! : Too many URLs : >99999
If your Gallery has a lot of images, HTTrack could quit with the error PANIC! : Too many URLs : >99999. Mine did, so I had to run it with the -#L1000000 argument so that it’ll then be limited to 1,000,000 URLs instead of the default 99,999. Run HTTrack
After all of this, I ran the httrack binary with the security (bandwidth, etc) limits disabled (–disable-security-limits) and used its wizard mode to set up the mirror. The URL to be archived was https://nuxx.net/gallery/, stored in an appropriately named project directory, with no other settings.
CAUTION: Do not disable security limits if you don’t have good controls around the site you are mirroring and the bandwidth between the two. HTTrack has very sane defaults for rate limiting when mirroring that keep its behavior polite, it’s not wise to override these defaults unless you have good control of the source and destination site.
When httrack begins it shows no progress on screen, so I quit with Ctrl-C, switched to the project directory, and ran httrack –continue to allow the mirror to continue and show status info on the screen (the screenshot above). The argument –continue can be used to restart an interrupted mirror, and –update can be used to freshen up a complete mirror.
Alternately, the following command puts this all together, without the wizard:
httrack https://site-name.com -W -O "Site" -%v --disable-security-limits -#L1000000