Requests网络爬虫

一、实验说明

1. 教学目标

1)requests库入门。

2)了解robots协议

3)能利用requests爬取简单网页

2. 知识点

requests库、robots协议。

3. 案例背景

每个人都希望有个随身秘书, AI技术的发展让这个人类梦想变得愈加可期,比如Apple的Siri、Microsoft的小冰、中国的图灵机器人等。借助于大数据和人工智能应用技术,人机对话变得非常有趣,而且实用性大大增强。本案例通过图灵机器人的网络编程接口API,用不足50行的python语言代码,即可设计实现一个简易的人机智能会话机器人,小有成就感。

 

二、实验内容

1. 根据需要安装相应的库

2. requests库安装测试

requests安装成功之后,可以通过下面代码检测是否安装成功。

 

3.HTTP协议

​ HTTP是一个基于“请求与响应“模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识,具体格式如下:

http://host:port[path]

HTTP协议对资源的操作

4. requests库的get方法

crawler-get

说明:

5.爬取网页的通用框架

 

运行结果如下:

crawler-baidu

6. requests库的7个主要方法

7. 网络爬虫引发的问题

crawler-jd

8. Requests库实例

(1)百度搜索全代码

百度搜索的关键词接口为:http://www.baidu.com/s?wd=keyword

 

(2)IP地址归属地的自动查询

利用www.ip138.com查询IP地址归属地