文章目录
- 15_代理
- 什么是代理?
- 分类
- 正向代理
- 为什么需要这多余的中间层呢?
- Go实现代理
- HTTP 隧道代理
- MITM 代理
- 透明代理
- 反向代理
- 如何在实际项目中实现代理?
- 如何访问代理服务器?
- 怎么选择代理地址?
15_代理
什么是代理?
代理是指在客户端和服务器之间路由流量的服务,用于实现系统安全、负载均衡等功能。
在爬虫项目中,代理服务器常常扮演着重要的角色,它能帮助我们突破服务器带来的限制和封锁,达到正常抓取数据的目的。
分类
-
方向
- 正向代理
- 反向代理
-
方式
- HTTP 隧道代理
- MITM 代理
- 透明代理
-
协议
- HTTP 代理
- HTTPS 代理
- SOCKS 代理
- TCP 代理
正向代理
正向代理会向一个客户端或一组客户端提供代理服务。
通常,这些客户端属于同一个内部网络。当客户端尝试访问外部服务器时,请求必须首先通过正向代理。
为什么需要这多余的中间层呢?
-
监控
-
请求与回复
-
鉴权
-
控制访问权限
-
隐藏客户端实际地址
- 隐藏了客户端的真实地址之后,正向代理可以绕过一些机构的网络限制,这样一些互联网用户就实现了匿名性。
-
Go实现代理
func main() {server := &http.Server{Addr: ":8888",Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {handleHTTP(w, r)}),}log.Fatal(server.ListenAndServe())
}func handleHTTP(w http.ResponseWriter, req *http.Request) {resp, err := http.DefaultTransport.RoundTrip(req)if err != nil {http.Error(w, err.Error(), http.StatusServiceUnavailable)return}defer resp.Body.Close()copyHeader(w.Header(), resp.Header)w.WriteHeader(resp.StatusCode)io.Copy(w, resp.Body)
}
func copyHeader(dst, src http.Header) {for k, vv := range src {for _, v := range vv {dst.Add(k, v)}}
}
在这个例子中:
-
代理服务器接受来自客户端的 HTTP 请求
-
通过 handleHTTP 函数对请求进行处理。
- 当前代理服务器获取客户端的请求
- 用自己的身份发送请求到服务器。
- 代理服务器获取到服务器的回复后
- 会再次利用 io.Copy 将回复发送回客户端。
代理服务器除了要在客户端与服务器之间搭建起一个管道,有时还需要处理一些特殊的 HTTP 请求头: hop-by-hop 请求头。
hop-by-hop: 不是给目标服务器使用的,它是专门给中间的代理服务器使用的。例如在 Go httputil 标准库中,就包含了如下 hop-by-hop 请求头:
var hopHeaders = []string{"Connection","Proxy-Connection","Keep-Alive","Proxy-Authenticate","Proxy-Authorization","Te","Trailer", "Transfer-Encoding","Upgrade",
}
代理服务器需要根据情况对 hop-by-hop 请求头做一些特殊处理,并在发送给目标服务器之前删除 hop-by-hop 请求头。
HTTP 隧道代理
在 HTTP 隧道技术中,客户端会在第一次连接代理服务器时给代理服务器发送一个指令,通常是一个 HTTP 请求。这里我们可以将 HTTP 请求头中的 method 设置为 CONNECT。
CONNECT example.com:443 HTTP/1.1
-
代理服务器收到该指令后,将与目标服务器建立 TCP 连接。
-
连接建立后,代理服务器会将之后收到的请求通过 TCP 连接转发给目标服务器。
因此,只有初始连接请求是 HTTP, 之后,代理服务器将不再嗅探到任何数据,它只是完成一个转发的动作。现在如果我们去查看其他开源的代理库,就会明白为什么会对 CONNECT 方法进行单独的处理了,这是业内通用的一种标准。
func main() {server := &http.Server{Addr: ":9981",Handler: http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {if r.Method == http.MethodConnect {handleTunneling(w, r)} else {handleHTTP(w, r)}}),}log.Fatal(server.ListenAndServe())
}func handleTunneling(w http.ResponseWriter, r *http.Request) {dest_conn, err := net.DialTimeout("tcp", r.Host, 10*time.Second)if err != nil {http.Error(w, err.Error(), http.StatusServiceUnavailable)return}w.WriteHeader(http.StatusOK)hijacker, ok := w.(http.Hijacker)if !ok {http.Error(w, "Hijacking not supported", http.StatusInternalServerError)return}// 我们通过 hijacker.Hijack() 拿到了客户端与代理服务器之间的底层 TCP 连接// 当调用 hijacker.Hijack() 拿到底层连接之后,hijackLocked 函数会为变量 hijackedv 赋值为 true。// Go HTTP 标准库会在不同的阶段检测到该变量是否为 true,如果为 true 将放弃后续标准库的托管处理。client_conn, _, err := hijacker.Hijack()if err != nil {http.Error(w, err.Error(), http.StatusServiceUnavailable)}go transfer(dest_conn, client_conn)go transfer(client_conn, dest_conn)
}func transfer(destination io.WriteCloser, source io.ReadCloser) {defer destination.Close()defer source.Close()// 通过 io.Copy 就简单地串联起了一个管道,实现了数据包在服务器与客户端之间的相互转发。// 在工业级代码中,我们一般会写一个 for 循环,控制每一次转发的数据包大小。io.Copy(destination, source)
}
这里,当探测到 HTTP 请求是 CONNECT 方法之后,handleTunneling 函数会进行特殊处理,建立与服务器的 TCP 连接。在之后,代理服务器会将数据包从服务器转发到客户端。
在 Go 标准库 httputil 中,有一段实现将 src 数据拷贝到了 dst 中的操作,你可以参考一下:
func (p *ReverseProxy) copyBuffer(dst io.Writer, src io.Reader, buf []byte) (int64, error) {if len(buf) == 0 {buf = make([]byte, 32*1024)}var written int64for {nr, rerr := src.Read(buf)if rerr != nil && rerr != io.EOF && rerr != context.Canceled {p.logf("httputil: ReverseProxy read error during body copy: %v", rerr)}if nr > 0 {nw, werr := dst.Write(buf[:nr])if nw > 0 {written += int64(nw)}if werr != nil {return written, werr}if nr != nw {return written, io.ErrShortWrite}}if rerr != nil {if rerr == io.EOF {rerr = nil}return written, rerr}}
}
MITM 代理
代理服务器还可以使用 HTTPS 来处理数据。意思是让代理服务器直接与目标服务器建立 HTTPS 连接,同时在客户端与服务器之间建立另一个 HTTPS 连接。
但是我们之前说过,HTTPS 天然阻止了这种中间人攻击,而要突破这种封锁就需要让客户端能够完全信任代理服务器颁发的证书,因此这种代理服务器也被称为 MITM(Man-In-The-Middle)。MITM 就像一个中间人,能够看到所有流过它的 HTTP 和 HTTPS 流量。这种方式是一些代理软件(例如 Charles)能够嗅探到 HTTPS 数据的原因。
透明代理
客户端需要感知到代理服务器的存在。但是还有一类代理,客户端不用感知到代理服务器,只需要直接往目标服务器中发送消息,通过操作系统或路由器的路由设置强制将请求发送到代理服务器中。
举一个例子,在我的 Mac 电脑上(Windows 类似)就可以设置系统代理。这样我在浏览器上发送的所有 HTTP/HTTPS 请求都会被转发到代理服务器的地址 127.0.0.1:8888 中。
而在 Linux 服务器中,我们可以使用 iptables、IPVS 等技术强制将请求转发到代理服务器上。
反向代理
与正向代理不同的是,反向代理位于服务器的前方,客户端不能直接与服务器进行通信,需要通过反向代理。我们比较熟悉的 Nginx 一般就是用于实现反向代理的。
反向代理可以带来下面几个好处。
- 负载均衡: 对于大型分布式系统来说,反向代理可以提供一种负载均衡解决方案,在不同服务器之间平均分配传入流量,防止单个服务器过载。如果某台服务器完全无法运转,可以将流量转发到其他服务器。
- 防范攻击: 配备反向代理后,服务器无需暴露真实的 IP 地址,这就让攻击者难以进行针对性攻击(例如 DDoS 攻击),同时,反向代理通常还拥有更高的安全性和更多抵御网络攻击的资源。
- 缓存代理: 服务器可以缓存(或临时保存)服务器的响应数据(即使服务器在千里之外),大大加快请求的速度。
- SSL 加密解密: 反向代理可以对客户端发出的 HTTPS 请求进行解密,对服务器发出的 HTTP 请求进行加密,从而节约目标服务器资源。
在 Go 语言中,实现反向代理非常简单,Go 语言标准库 httputil 中为我们提供了封装好的反向代理实现方式。下面是一个最简单的实现反向代理的例子。
func main() {// 初始化反向代理服务proxy, err := NewProxy()if err != nil {panic(err)}// 所有请求都由ProxyRequestHandler函数进行处理http.HandleFunc("/", ProxyRequestHandler(proxy))log.Fatal(http.ListenAndServe(":8080", nil))
}func NewProxy() (*httputil.ReverseProxy, error) {targetHost := "http://my-api-server.com"url, err := url.Parse(targetHost)if err != nil {return nil, err}// 生成了一个反向代理服务器// 参数是实际的后端服务器地址// 如果后端有多个服务器,那么我们可以用一些策略来选择某一个合适的后端服务地址,从而实现负载均衡策略。proxy := httputil.NewSingleHostReverseProxy(url)return proxy, nil
}// ProxyRequestHandler 使用代理处理HTTP请求
func ProxyRequestHandler(proxy *httputil.ReverseProxy) func(http.ResponseWriter, *http.Request) {return func(w http.ResponseWriter, r *http.Request) {proxy.ServeHTTP(w, r)}
}
httputil.NewSingleHostReverseProxy 内部封装了数据转发等操作。当客户端访问我们的代理服务器时,请求会被转发到对应的目标服务器中。httputil 对于反向代理的实现其实并不复杂,和我们之前介绍的正向代理的逻辑类似,主要包含了修改客户端的请求,处理特殊请求头,将请求转发到目标服务器,将目标服务器的数据转发回客户端等操作。感兴趣的同学可以查阅 httputil 源码中的核心方法 ReverseProxy.ServeHTTP。
// net/http/httputil/reverseproxy.go
func (p *ReverseProxy) ServeHTTP(rw http.ResponseWriter, req *http.Request)
如何在实际项目中实现代理?
在爬虫项目中使用代理时,我们可能使用了自己搭建的代理服务器,也可能使用了外部付费或免费的代理池。在这里,假设我们已经拥有了众多代理服务器地址,客户端应该如何实现对代理的访问呢?
这里面其实涉及到两个问题:
- 如何访问代理服务器。
- 选择代理的策略,在众多代理服务器中,怎样选择一个最合适的代理地址?
如何访问代理服务器?
Go HTTP 标准库为我们封装了代理访问的机制。在 Transport 结构体中,有一个 Proxy 函数用于返回当前应该使用的代理地址。
type Transport struct {Proxy func(*Request) (*url.URL, error)
}
当客户端准备与服务器创建连接时,会调用该 Proxy 函数获取 proxyURL,并通过 proxyURL 得到代理服务器的 IP 与端口,这就确保了客户端首先与代理服务器而不是与目标服务器建立连接。
func (t *Transport) connectMethodForRequest(treq *transportRequest) (cm connectMethod, err error) {cm.targetScheme = treq.URL.Schemecm.targetAddr = canonicalAddr(treq.URL)// 获取代理地址if t.Proxy != nil {cm.proxyURL, err = t.Proxy(treq.Request)}cm.onlyH1 = treq.requiresHTTP1()return cm, err
}func (t *Transport) dialConn(ctx context.Context, cm connectMethod) (pconn *persistConn, err error) {...conn, err := t.dial(ctx, "tcp", cm.addr())
}func (cm *connectMethod) addr() string {// 如果代理地址不为空,访问代理地址if cm.proxyURL != nil {return canonicalAddr(cm.proxyURL)}return cm.targetAddr
}
怎么选择代理地址?
这个代理地址的策略类似于调度策略,调度策略有很多,
- 轮询调度
- 加权轮询调度
- 一致性哈希算法
- …
我们可以根据实际情况进行选择。
轮询调度(RR,Round-robin)是最简单的调度策略,轮询调度的意思是让每一个代理服务器都能够按顺序获得相同的负载。
下面让我们在项目中用轮询调度来实现对代理服务器的访问。我们新建一个文件夹 proxy,负责专门处理代理相关的操作。然后新建一个函数 RoundRobinProxySwitcher 用于返回代理函数,稍后将代理函数注入到 http.Transport 中。代码如下:
// proxy.go
type ProxyFunc func(*http.Request) (*url.URL, error)func RoundRobinProxySwitcher(ProxyURLs ...string) (ProxyFunc, error) {if len(ProxyURLs) < 1 {return nil, errors.New("Proxy URL list is empty")}urls := make([]*url.URL, len(ProxyURLs))for i, u := range ProxyURLs {parsedU, err := url.Parse(u)if err != nil {return nil, err}urls[i] = parsedU}return (&roundRobinSwitcher{urls, 0}).GetProxy, nil
}type roundRobinSwitcher struct {proxyURLs []*url.URLindex uint32
}
// 取余算法实现轮询调度
func (r *roundRobinSwitcher) GetProxy(pr *http.Request) (*url.URL, error) {index := atomic.AddUint32(&r.index, 1) - 1u := r.proxyURLs[index%uint32(len(r.proxyURLs))]return u, nil
}
RoundRobinProxySwitcher 函数会接收代理服务器地址列表,将其字符串地址解析为 url.URL,并放入到 roundRobinSwitcher 结构中,该结构中还包含了一个自增的序号 index。
RoundRobinProxySwitcher 实际返回的代理函数是 GetProxy,这里使用了 Go 语言中闭包的技巧。每一次调用 GetProxy 函数,atomic.AddUint32 会将 index 加 1,并通过取余操作实现对代理地址的轮询。
接下来让我们使用这一策略,在模拟浏览器访问的结构体 BrowserFetch 中添加代理函数。
type BrowserFetch struct {Timeout time.DurationProxy proxy.ProxyFunc
}
更新 http.Client 变量中的 Transport 结构中的 Proxy 函数,将其替换为我们自定义的代理函数。
func (b BrowserFetch) Get(url string) ([]byte, error) {client := &http.Client{Timeout: b.Timeout,}if b.Proxy != nil {transport := http.DefaultTransport.(*http.Transport)transport.Proxy = b.Proxyclient.Transport = transport}...
}
在 Go http 标准库中,默认 Transport 为 http.DefaultTransport ,它定义了包括超时时间在内的诸多默认参数,并且实现了一个默认的 Proxy 函数 ProxyFromEnvironment。
var DefaultTransport RoundTripper = &Transport{Proxy: ProxyFromEnvironment,DialContext: defaultTransportDialContext(&net.Dialer{Timeout: 30 * time.Second,KeepAlive: 30 * time.Second,}),ForceAttemptHTTP2: true,MaxIdleConns: 100,IdleConnTimeout: 90 * time.Second,TLSHandshakeTimeout: 10 * time.Second,ExpectContinueTimeout: 1 * time.Second,
}
ProxyFromEnvironment 函数会从系统环境变量中获取 HTTP_PROXY、HTTPS_PROXY 等参数,从而根据不同的协议使用对应的代理地址。很多代理有从环境变量中读取这些代理地址的机制,这是我们有时通过修改环境能够改变代理行为的原因。
func FromEnvironment() *Config {return &Config{HTTPProxy: getEnvAny("HTTP_PROXY", "http_proxy"),HTTPSProxy: getEnvAny("HTTPS_PROXY", "https_proxy"),NoProxy: getEnvAny("NO_PROXY", "no_proxy"),CGI: os.Getenv("REQUEST_METHOD") != "",}
}
最后,我们在 main 函数中手动加入 HTTP 代理的地址,这样就可以正常地进行访问了(后面我们会将配置统一放入配置文件当中)。
我的电脑中开启了 127.0.0.1:8888 和 127.0.0.1:8889 两个代理地址,它们可以帮助我顺利地访问到谷歌网站。通过这种方式,我们隐藏了客户端的 IP,突破了服务器设置的一些反爬机制(例如客户端对某些 IP 有访问次数限制、白名单限制等。)
func main() {proxyURLs := []string{"http://127.0.0.1:8888", "http://127.0.0.1:8889"}p, err := proxy.RoundRobinProxySwitcher(proxyURLs...)if err != nil {fmt.Println("RoundRobinProxySwitcher failed")}url := "<https://google.com>"var f collect.Fetcher = collect.BrowserFetch{Timeout: 3000 * time.Millisecond,Proxy: p,}body, err := f.Get(url)if err != nil {fmt.Printf("read content failed:%v\\n", err)return}fmt.Println(string(body))
「此文章为3月Day15学习笔记,内容来源于极客时间《Go分布式爬虫实战》,强烈推荐该课程!/推荐该课程」