python爬虫如何处理需要多次跳转的url_设置allow_redirects参数监控重定向路径

默认自动跳转会吞掉中间路径,想看清重定向链,必须设 allow_redirects=False 并手动跟进

怎么拿到完整的重定向路径(history)

requests 默认把整个跳转链“消化”掉,只留最终响应。你看到的 response.url 是终点,response.history 是空列表——这不是没跳转,是它被自动处理了。

要观察跳转过程,第一件事就是关掉自动跳转:requests.get(url, allow_redirects=False)此时如果返回 301/302/307/308,r.status_code 就是那个跳转码,r.headers.get("Location") 就是下一个地址反复用新 URL 发起 allow_redirects=False 请求,自己拼出跳转链;别依赖 response.history,它只在 allow_redirects=True 时才记录注意:307 和 308 要求方法和 body 原样重发,不能简单改用 GET;若原始是 POST,手动跳转时得用 requests.post(new_url, data=r.request.body, headers=r.request.headers)

为什么手动跳转时容易漏掉 Cookie 或 Referer

浏览器跳转会带上下文,requests 默认不继承原始请求头(除了 Host 和 Connection),Set-Cookie 虽然会被 Session 自动存,但 Referer、User-Agent、X-Requested-With 这些全丢了。

每次手动发起新请求,都得显式传 headers,尤其是目标站校验 Referer 时:requests.get(new_url, headers={"Referer": old_url, "User-Agent": ua})别手动调 session.cookies.set(),让 requests 自己从 Set-Cookie 头解析;前提是没禁掉 allow_redirects,否则跳转响应里的 cookie 不会进 session检查 r.headers.get("Set-Cookie") 是否非空,空说明这步没下发新凭证,后续请求可能 401

如何避免手动跳转陷入无限循环

有些站点对异常会话返回 302 → 登录页 → 302 → 原链接,形成闭环。requests 默认最多跟 30 次,但卡住前已浪费大量时间。

立即学习“Python免费学习笔记(深入)”;

加计数器,比如最多手动跳 5 次:for i in range(5):,超出就 break 并报错记录每次跳转的 r.url,发现重复 URL(如两次都跳到 /login)立即终止检查跳转目标是否为 javascript: 或 data: 开头——这种不是 HTTP 重定向,requests 无法处理,得换 Playwright用 r.is_redirect 判断比查状态码更稳,它内部已涵盖所有重定向状态码

真正难的不是跳几次,而是每次跳转后该补什么头、该不该重发 body、cookie 是否已更新。这些细节不会出现在 response.history 里,得靠你盯着每一步的 r.headers 和 r.request 手动核对。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。