网络爬虫最终要的资源就是IP地址,尤其是在各大网站纷纷把自家数据当初看家宝贝的“大数据时代”。即使IP地址多了,爬虫改成分布式,管理那么多服务器上的爬虫也是够头疼的。一种方法就是配置代理服务器,爬虫只在几台机器是跑就可以啦。

配置多IP地址

Linux(以Ubuntu为例)配置单机多IP地址还是很简单的,编辑/etc/netword/interfaces文件即可:

auto eno1:90iface eno1:0 inet static
        address 192.168.8.90
        netmask 255.255.255.0
        gateway 192.168.8.1auto eno1:91iface eno1:91 inet static
        address 192.168.8.91
        netmask 192.168.8.255
        gateway 192.168.8.1

以上配置中,eno1是网卡的名字,eno1:90是配置在该网卡的一个虚拟网卡的名字,并给该虚拟网卡配置了IP:192.168.8.90。按照这个规则,可以给eno1这个网卡绑定很多IP,如果这些IP都是公网IP,就可以把它当配置成爬虫的多代理服务。

配置squid3多IP出口

机器有了多IP,如果不对squid做相应的配置,出口IP还只能是一个,其他IP都不能用得上。
编辑/etc/squid/squid.conf配置文件,做相应配置

acl ip_90 myip 192.168.8.90tcp_outgoing_address 192.168.8.90 ip_90

acl ip_91 myip 192.168.8.91tcp_outgoing_address 192.168.8.91 ip_91

以上配置就是对每个进来的IP的请求设置出口IP,从而达到一机多IP代理的实现。

原文来自:http://www.yunweipai.com/archives/13135.html

本文地址:https://www.linuxprobe.com/linux-squid-proxy.html编辑员:逄增宝,审核员:刘遄

本文原创地址:https://www.linuxprobe.com/linux-squid-proxy.html编辑:逄增宝,审核员:暂无