博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
百度搜索引擎取真实地址-python代码
阅读量:4315 次
发布时间:2019-06-06

本文共 972 字,大约阅读时间需要 3 分钟。

代码

def parseBaidu(keyword, pagenum):    keywordsBaseURL = 'https://www.baidu.com/s?wd=' + str(quote(keyword)) + '&oq=' + str(quote(keyword)) + '&ie=utf-8' + '&pn='    pnum = 0    while pnum <= int(pagenum):        baseURL = keywordsBaseURL + str(pnum*10)        try:            request = requests.get(baseURL, headers=headers)            soup = BeautifulSoup(request.text, "html.parser")            for a in soup.select('div.c-container > h3 > a'):                url = requests.get(a['href'], headers=headers).url                yield url        except:            yield None        finally:            pnum += 1

示例用法

import requestsfrom bs4 import BeautifulSoupheaders = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"}def parseBaidu(keyword, pagenum)def main():    for url in parseBaidu("keyword",10):        if url:            print(url)        else:            continue

转载于:https://www.cnblogs.com/Akkuman/p/6963141.html

你可能感兴趣的文章
InnoDB为什么要使用auto_Increment
查看>>
HDU 1087 Super Jumping! Jumping! Jumping!
查看>>
0007_初始模块和字节码
查看>>
[效率提升]如何管理好你的电脑文件
查看>>
C++实验二
查看>>
使用case语句给字体改变颜色
查看>>
JAVA基础-多线程
查看>>
面试题5:字符串替换空格
查看>>
JSP九大内置对象及四个作用域
查看>>
ConnectionString 属性尚未初始化
查看>>
MySQL基本命令和常用数据库对象
查看>>
poj 1222 EXTENDED LIGHTS OUT(位运算+枚举)
查看>>
进程和线程概念及原理
查看>>
Lucene、ES好文章
查看>>
android 生命周期
查看>>
jquery--this
查看>>
MySQL 5.1参考手册
查看>>
TensorFlow安装流程(GPU加速)
查看>>
OpenStack的容器服务体验
查看>>
BZOJ 1066 蜥蜴(网络流)
查看>>