python3的版本在写入文件时,编码当时如果用的utf - 8,中文其实是可以读得。用普通的文本编译器就行比如notepad + +,但是用 excel打开csv文件会出现中文乱码得情况,是因为python编码方式为utf - 8,但是是无BOM格式的,excel软件,其对于utf - 8编程 方式,只支持有BOM格式的,所以会出现中文乱码得问题。设置成utf - 8_sig就代表着有BOM格式的utf - 8的编程,excel就可以正常 显示中文了。
python3的版本在写入文件时,编码当时如果用的utf - 8,中文其实是可以读得。用普通的文本编译器就行比如notepad + +,但是用 excel打开csv文件会出现中文乱码得情况,是因为python编码方式为utf - 8,但是是无BOM格式的,excel软件,其对于utf - 8编程 方式,只支持有BOM格式的,所以会出现中文乱码得问题。设置成utf - 8_sig就代表着有BOM格式的utf - 8的编程,excel就可以正常 显示中文了。
response = requests.get(url)
response.status_code (状态码)
状态码的开头:1为正在查看;2为成功获取;3为重定向;4为网页不存在;5为服务器内部错误
response.content.decode('utf-8')
将代码转化为utf-8格式(中文正常显示)
可以用home键
这里的访问方式现在不适用,使用第二个网址更换参数不能达到获取json文件的目的
fixme 高亮
1.发起请求(HTTP)------>得到响应(HTML)
2.解析HTML,得到我们想要的数据
strip去掉空字符串
gb2312 decode 采用gbk
user-agent:用户代理,用户浏览器的表示
默认是python-requests,大部分网站访问不到
http://httpbin.org/get
decode哪个编码,可以看网页的charset
知乎 反爬虫
header
User-Agent
content.decode('utf-8')
Anaconda Prompt
切换环境
activate python_3.6_siki
pip
使用其他镜像
1)发起请求(HTTP指平时输入的网址)->得到响应(HTML指网页源代码信息)
1)resquest
2)解析HTML,得到我们想要的数据
1)正则
2)BS4 Beautiful Soup(重点讲解)
3)lxml
3)静态请求,动态请求
4)案例分析
youtube 不就是404网站吗?
proxies = {
'http':'128.199.81.100:44321'
}
https://www.52pojie.cn/thread-961836-1-1.html
3.静态请求,动态请求
4.案例
爬取同城约会
爬取siki学院上所有的图片
一些找
#请求
Get
网址直接显示在地址栏里
post
请求的时候会隐藏参数,一般用于登录和注册,或者填写内容提交
import
activate