Httrack Web Site Copier

Linux 

 04 Nisan 2019 - Türkiye



Follow
Follow
Follow

3 dakikalık okuma

HTTrack ücretsiz (GPL, özgür/ücretsiz yazılım) ve kullanımı kolay bir çevrimdışı tarayıcı yardımcı programıdır.

HTTrack Website Copier

İnternet’ten bir World Wide Web sitesini yerel bir dizine indirmenize, tüm dizinleri tekrar tekrar oluşturmanıza, HTML, resimler ve diğer dosyaları sunucudan bilgisayarınıza almanıza olanak tanır. HTTrack, orijinal sitenin göreli bağlantı yapısını düzenler. Tarayıcınızda “yansıtılmış” web sitesinin bir sayfasını açmanız yeterlidir ve siteyi çevrimiçi olarak izliyormuş gibi bağlantıdan bağlantıya göz atabilirsiniz. HTTrack ayrıca mevcut bir yansıtılmış siteyi güncelleyebilir ve kesintiye uğramış indirmelere devam edebilir. HTTrack tamamen yapılandırılabilir ve entegre bir yardım sistemine sahiptir.

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=/usr && make -j8 && make install DESTDIR=/

İndirmeler


İndirmeyi başlatmak için aşağıdan bir bağlantı seçin.

Sürüm Çıkış Tarihi İndirme Bağlantısı
3.49-2 20/May/2017 WebHTTrack

Kuruluma Hazırlık


sudo pisi it -c system.devel

Aşağıdaki paket(ler) zaten kurulu ve yeniden kurulmayacak:
binutils          g++            gcc         glibc-devel
linux-headers
nano
openssl-11-devel  openssl-devel  zlib-devel

Aşağıdaki paketler kurulacak:
abireport                    autoconf          automake 
bash-completion-devel        bison             catbox 
cmake                        dbus-devel        diffstat 
diffutils                    expat-devel       fakeroot
file-devel                   flex              flex-devel
gfortran                     glib2-devel       gmp-devel
gobject-introspection-devel  intltool          libarchive-bin
libffi-devel                 libgcrypt-devel   libgfortran
libgpg-error-devel           libgudev-devel    libpcre-devel
libtool-devel                libxml2-devel     m4
make                         meson             mpc-devel
mpfr-devel                   nasm              ncurses-devel
ninja                        pam-devel         patch
pkg-config                   polkit-devel      python-configobj
python-devel                 pyyaml            quilt
readline-devel               ruamel_yaml       systemd-devel
texinfo                      util-linux-devel  ypkg

Hard Code Limitleri

HTTrack, bağlantılar gibi seçeneklerde bazı sınırlar belirler yani normal veri indirme sınırlıdır. (varsayılan olarak 25KB/sn).

Sınırları kaldırmanın sonuçlarını anlıyorsanız ve bunu yapmak için iyi bir nedeniniz varsa, şu argümanı kullanabilirsiniz:

PANIC! : Too many URLs : >99999

If your Gallery has a lot of images, HTTrack could quit with the error PANIC! : Too many URLs : >99999. Mine did, so I had to run it with the -#L1000000 argument so that it’ll then be limited to 1,000,000 URLs instead of the default 99,999. Run HTTrack

After all of this, I ran the httrack binary with the security (bandwidth, etc) limits disabled (–disable-security-limits) and used its wizard mode to set up the mirror. The URL to be archived was https://nuxx.net/gallery/, stored in an appropriately named project directory, with no other settings.

CAUTION: Do not disable security limits if you don’t have good controls around the site you are mirroring and the bandwidth between the two. HTTrack has very sane defaults for rate limiting when mirroring that keep its behavior polite, it’s not wise to override these defaults unless you have good control of the source and destination site.

When httrack begins it shows no progress on screen, so I quit with Ctrl-C, switched to the project directory, and ran httrack –continue to allow the mirror to continue and show status info on the screen (the screenshot above). The argument –continue can be used to restart an interrupted mirror, and –update can be used to freshen up a complete mirror.

Alternately, the following command puts this all together, without the wizard:

httrack https://site-name.com -W -O "Site" -%v --disable-security-limits -#L1000000


Son Değişim: 05 Haziran 2021

Paylaş:



En Yeni İçerikler