python如何示例爬虫代码

来源：互联网 2024-10-15 15:40:38

python爬虫代码示例的方法：

1、urllib和BeautifuSoup

获取浏览器信息

from urllib import requestreq = request.urlopen("http://www.baidu.com")print(req.read().decode("utf-8"))

模拟真实浏览器：携带user-Agent头

立即学习“Python免费学习笔记（深入）”；

(目的是不让服务器认为是爬虫，若不带此浏览器信息，则可能会报错)

req = request.Request(url) #此处url为某个网址req.add_header(key,value)  #key即user-Agent，value即浏览器的版本信息resp = request.urlopen(req)print(resp.read().decode("utf-8"))

使用POST

导入urllib库下面的parse

from urllib import parse

使用urlencode生成post数据

postData = parse.urlencode([    (key1,val1),    (key2,val2),    (keyn,valn)])

使用post

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求resp.status  #得到请求状态resp.reason #得到服务器的类型

完整代码示例（以爬取维基百科首页链接为例）

#-*- coding:utf-8 -*-from bs4 import BeautifulSoup as bsfrom urllib.request import urlopen import reimport ssl#获取维基百科词条信息ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证#请求URL，并把结果用utf-8编码req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")#使用beautifulsoup去解析soup = bs(req,"html.parser")# print(soup)#获取所有href属性以“/wiki/Special”开头的a标签urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))for url in urllist:#去除以.jpg或.JPG结尾的链接if not re.search("\.(jpg|JPG)$",url["href"]):#get_test()输出标签下的所有内容，包括子标签的内容；#string只输出一个内容，若该标签有子标签则输出“noneprint(url.get_text()+"----->"+url["href"])# print(url)

2、存储数据到MySQL

安装pymysql

通过pip安装：

$ pip install pymysql

或者通过安装文件：

$ python setup.py install

使用

#引入开发包import pymysql.cursors#获取数据库链接connection = pymysql.connect(host="localhost",user = &#39;root&#39;,password = &#39;123456&#39;,db =&#39;wikiurl&#39;,charset = &#39;utf8mb4&#39;)try:#获取会话指针with connection.cursor() as cursor#创建sql语句sql = "ｉｎｓｅｒｔ into `tableName`(`urlname`,`urlhref`) values(%s,%s)"#执行SQL语句cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))#提交connection.commit()finally:#关闭connection.close()

3、爬虫注意事项

Robots协议（机器人协议，也称爬虫协议）全称是“网络爬虫排除协议”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。一般在主页面下，如https://en.wikipedia.org/robots.txt

Disallow：不允许访问allow：允许访问

python爬虫代码

本文地址：http://www.wztg.net/wenda/71830.html

免责声明：本站内容仅用于学习参考，信息和图片素材来源于互联网，如内容侵权与违规，请联系我们进行删除，我们将在三个工作日内处理。联系邮箱：chuangshanghai#qq.com（把#换成@）