网络爬虫之提取

一、实验说明

1. 教学目标

1)Beautiful Soup库入门。

2)信息组织与提取方法

3)中国大学排名爬虫

2. 知识点

Beautiful Soup库、信息组织与提取方法。

二、实验内容

1. 根据需要安装相应的库

2. Beautiful Soup库安装测试

演示HTML页面地址:http://211.87.176.89/problemC/demo.html

页面内容如下:

crawler1

页面源代码如下:

 

用Requests库获取demo.html源代码,代码如下:

 

显示结果如下:

.crawler2

可以看出来,仅仅由requests获取的页面内容,显示的结果不清晰。引入Beautiful Soup库的代码如下:

 

显示结果如下:

crawler3

3.Beautiful Soup库解释器

 

4. BeautifulSoup类的基本元素

crawler4

 

5.基于bs4库的HTML内容遍历

crawler5

 

显示结果如下

 

6. 基于bs4库的HTML格式输出

7. 信息的标记

8.信息的提取

9.软科中国最好大学排名定向爬虫

​ 最好大学网(www.zuihaodaxue.cn)每年都会根据人才培养、科学研究、服务社会和国际化等指标对教育部公布的全国普通高等学校进行排名。现在的任务需求是,输入大学排名的URL链接,输出大学排名信息(排名,大学名称,总分)。其中软科中国最好大学排名2017版(http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html)前20排名如下图:

crawler6

在网页上点击鼠标右键,查看网页源代码:

crawler6

爬取的结果预期如下:

crawler8

 

实现步骤:

第一步:从网络上获取大学排名网页内容,getHTMLTest()

第二步:提取网页内容中信息到合适的数据结构,fillUnivList()

第三步:利用数据结构展示并输出结果,printUnivList()

 

具体实现代码如下:

 

运行效果如下:

crawler9