博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于一个抓取网站图片脚本的解析
阅读量:3645 次
发布时间:2019-05-21

本文共 452 字,大约阅读时间需要 1 分钟。

//获取图片URL并保存到faceks.txtcurl "http://www.somewebsite.com/sitemap.xml" |grep -o "http://.*post/.\{14\}" |xargs curl -m 60 --retry 20 |grep "bigimgsrc" |grep -o "http://imglf.*.jpg" > somewebsite.txt//批量下载文件,不重复下载已有并且较新的文件wget -i somewebsite.txt -P faceks -t 10 -T 30 -N

其中grep -o代表的是精确匹配后面的正则表达。

xargs是将前面解析得到的结果进行批量执行。

curl -m 代表的是处理的最大时长。

grep是抓取符合正则的一行数据。

然后将抓到的所有图片链接写入somewebsite.txt。

wget -i是指从文件中按行读取url连接。

-N 代表的是只下载比本地新的文件。
-T 代表超时等待时间
-t 代表重试次数

转载地址:http://qhmyn.baihongyu.com/

你可能感兴趣的文章
Windows下如何查看一个process内有哪些thread
查看>>
机器人路径规划之动态窗口法
查看>>
多线程之线程安全(Thread Safety)
查看>>
多线程之简易注册验证程序
查看>>
多线程之基于积分法与欧拉恒等式法的圆周率计算及OMP优化
查看>>
语音信号处理 | 基于Hilbert-Huang变换的基音检测方法
查看>>
机器学习 | 使用TensorFlow搭建神经网络实现鸢尾花分类
查看>>
多线程之多核线上考试试题瞎解
查看>>
ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务解决
查看>>
JS: lastChild innerHTML为undefined
查看>>
栈的速度比堆快
查看>>
Oracle常用单行函数
查看>>
Oracle ORA-01031:权限不足
查看>>
adb环境变量配置
查看>>
Django框架介绍
查看>>
SQL的执行过程分析与Mysql的一些隐藏功能
查看>>
微服务面试题
查看>>
Mysql数据库的几个经典错误和解决方案(转)
查看>>
缓存击穿、缓存穿透、缓存雪崩的定义和解决方案
查看>>
odps + druid的简单搭配使用
查看>>