前言:
而今大家对“nginx无缝升级”大约比较重视,姐妹们都想要分析一些“nginx无缝升级”的相关文章。那么小编也在网摘上网罗了一些对于“nginx无缝升级””的相关内容,希望我们能喜欢,兄弟们一起来学习一下吧!更多互联网新鲜资讯、工作奇淫技巧关注【飞鱼在浪屿】(日更新)
当你想沿着记忆通道旅行,重温曾经喜欢的丢失的内容。
浏览爬虫具有这种巧妙的作用,即只需将所有内容都放在文件系统上,就可以偶然发现我当天错过的东西。
源代码在:
Wayback 机器下载器
从 Internet Archive Wayback Machine 下载整个网站。
安装
您需要在您的系统上安装 Ruby (>= 1.9.2) - 如果您还没有它。然后运行:
gem install wayback_machine_downloader
提示:如果遇到权限错误,则可能需要sudo在此命令前面添加。
基本用法
使用要检索的网站的基本 url 作为参数运行 wayback_machine_downloader(例如,):
wayback_machine_downloader这个怎么运作
它会将 Wayback Machine 上存在的每个文件的最新版本下载到./websites/example.com/. 它还将重新创建目录结构和自动创建index.html页面,以便与 Apache 和 Nginx 无缝协作。下载的所有文件都是原始文件,而不是 Wayback Machine 重写版本。这样,URL 和链接结构与以前相同。
高级用法指定保存文件的目录
-d, --directory PATH
可选的。默认情况下,Wayback Machine Downloader 将下载文件,./websites/后跟网站的域名。您可能希望使用此选项将文件保存在特定目录中。
例子:
wayback_machine_downloader --directory downloaded-backup/所有时间戳
-s, --all-timestamps
可选的。此选项将下载给定网站的所有时间戳/快照。它将使用每个快照的时间戳作为目录。
例子:
wayback_machine_downloader --all-timestamps Will download: websites/example.com/20060715085250/index.html websites/example.com/20051120005053/index.html websites/example.com/20060111095815/img/logo.png ...从时间戳
-f, --from TIMESTAMP
可选的。您可能希望提供一个 from 时间戳以将您的备份锁定到网站的特定版本。时间戳可以在常规 Wayback Machine 网站的 url 中找到(例如,https ://web.archive.org/web/20060716231334/http: //example.com)。也可以使用年(2006)、年+月(200607)等,可以和To Timestamp结合使用。然后,Wayback Machine Downloader 将仅获取指定时间戳或之后的文件版本。
例子:
wayback_machine_downloader --from 20060716231334到时间戳
-t, --to TIMESTAMP
可选的。您可能需要提供时间戳以将您的备份锁定到网站的特定版本。时间戳可以在常规 Wayback Machine 网站的 url 中找到(例如,https ://web.archive.org/web/20100916231334/http: //example.com)。也可以使用年(2010)、年+月(201009)等,可以和From Timestamp结合使用。然后,Wayback Machine Downloader 将仅获取指定时间戳或之前的文件版本。
例子:
wayback_machine_downloader --to 20100916231334确切网址
-e, --exact-url
可选的。如果您只想检索与提供的 url 完全匹配的文件,您可以使用此标志。它将避免下载任何其他内容。
比如你只想下载example.com的html主页文件:
wayback_machine_downloader --exact-url仅 URL 过滤器
-o, --only ONLY_FILTER
可选的。您可能想要检索特定类型(例如,.pdf、.jpg、.wrd...)或位于特定目录中的文件。为此,您可以提供--only带有字符串或正则表达式的标志(使用“/regex/”符号)来限制 Wayback Machine Downloader 将下载的文件。
例如,如果您只想下载特定文件中的文件my_directory:
wayback_machine_downloader --only my_directory
或者,如果您想下载所有图像而无需其他任何内容:
wayback_machine_downloader --only "/\.(gif|jpg|jpeg)$/i"排除 URL 过滤器
-x, --exclude EXCLUDE_FILTER
可选的。您可能想要检索不属于某种类型(例如,.pdf、.jpg、.wrd...)或不在特定目录中的文件。为此,您可以提供--exclude带有字符串或正则表达式的标志(使用“/regex/”符号)来限制 Wayback Machine Downloader 将下载的文件。
例如,如果你想避免下载里面的文件my_directory:
wayback_machine_downloader --exclude my_directory
或者,如果您想下载除图片以外的所有内容:
wayback_machine_downloader --exclude "/\.(gif|jpg|jpeg)$/i"将下载扩展到所有文件类型
-a, --all
可选的。默认情况下,Wayback Machine Downloader 将自身限制为以 200 OK 代码响应的文件。如果您还需要错误文件(40x 和 50x 代码)或重定向文件(30x 代码),您可以使用--all或-a标志,Wayback Machine Downloader 将在 200 个 OK 文件之外下载它们。它还将保留默认删除的空文件。
例子:
wayback_machine_downloader --all只列出文件而不下载
-l, --list
它只会显示要下载的文件及其快照时间戳和 URL。输出格式为 JSON。它不会下载任何东西。它对于调试或连接到另一个应用程序很有用。
例子:
wayback_machine_downloader --list要考虑的最大快照页面数
-p, --snapshot-pages NUMBER
可选的。指定要考虑的最大快照页数。计算平均每页 150,000 个快照。100 是默认的最大快照页面数,对于大多数网站来说应该足够了。如果您想下载非常大的网站,请使用更大的数字。
例子:
wayback_machine_downloader --snapshot-pages 300一次下载多个文件
-c, --concurrency NUMBER
可选的。指定要同时下载的多个文件的数量。允许显着加快网站的下载速度。默认是一次下载一个文件。
例子:
wayback_machine_downloader --concurrency 20使用 Docker 镜像
作为替代安装方式,我们有一个 Docker 镜像!以这种方式检索 wayback-machine-downloader Docker 镜像:
docker pull hartator/wayback-machine-downloader
然后,您应该可以使用 Docker 镜像下载网站。例如:
docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader
标签: #nginx无缝升级