Clawlet:轻量级身份感知AI智能体框架的本地化部署与核心架构解析
2026/5/7 19:41:28
import requests headersvalue={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36 Edg/143.0.0.0' } url='https://search.bilibili.com/all?keyword=labubu&from_source=webtop_search&spm_id_from=333.1007&search_source=3&page=3&o=48' r=requests.get(url,headers=headersvalue) print(r.request.headers) print(r.url) print(r.status_code) print(r.text)首先,有一点很重要的,我之前一直以为爬取的内容是响应的text文本里的内容,其实不是的,text里的内容是服务器返回的原始内容,是没有经过处理的,我们要对text进行json解析,解析成字典或者是列表
明确这点的话,那我们找到合适的响应内容,能够解析成json格式的链接
像上面那样的,是我们需要的,找到以后就可以拿到网址(在标头里的请求url)
import requests headersvalue1= { 'User-Agent': '自己的', 'Referer': '自己的', 'Cookie':"自己的" } params1={'number':350} url1='https://api.bilibili.com/x/web-interface/popular/series/one' r1= requests.get(url1, headers=headersvalue1,params=params1) print(r1.status_code) print(r1.json() ) print("\n") headersvalue2={ "user-agent":"自己的", "Referer":"自己的", "Cookie":"自己的" } params2={'page_size':100,'page':1} url2='https://api.bilibili.com/x/web-interface/popular/precious' r2= requests.get(url2, headers=headersvalue2,params=params2) print(r2.status_code) print(r2.json() )