当前位置：首页 > 核心训练 > 正文

爬虫核心训练

cysgjj
核心训练
2024-11-15
2

具体什么是“爬虫“？零基础成为一个“爬虫”难度大吗？

具体什么是“爬虫“？零基础成为一个“爬虫”难度大吗？

爬虫的本质是模拟人访问浏览器的行为，获取信息与数据的手段，是一种将人的行为自动化的过程。

这个过程的核心其实就是向网站服务器发送请求,接受网站服务器返回的响应,提取返回的响应内容中的信息.

用个例子来说,

（图片来源网络，侵删）

你走进一个小酒馆,找到一个座位坐下,然后高喊一声:"小二,来两斤牛肉,一壶老酒."这就是请求.听到你的请求后,不一会儿就把你要的牛肉和酒端上来了.这就是响应.你把盘子里的牛肉抓起来开口吃,这就是爬虫的爬取行为.

爬虫就是重现这个过程的程序.

至于,零基础入门爬虫难度这个问题,其实还是那句话"难者不会,会者不难".任何新知识都是从不会到会的.从不会到会的过程,最重要的就是实践.只有你开始实践,就会发现爬虫的入门也并非有多难.重要的是学起来投入进去，把代码码起来，刚开始可能有很多困惑，但是写多了，在不断的尝试过程中，自然慢慢就理解入门了。本人也是零基础开始学的爬虫,以前也没学过编程,只是出于兴趣,开始学python,然后就接触到了爬虫,然后慢慢学了urllib,requests,pyquery,bs4等爬虫库,实践爬一些网站数据和图片.所以,学爬虫还是要学一门语言.然后运用这门语言去编写一个爬虫程序,去解决你的日常中的小问题,慢慢培养兴趣,自然就有进步了.

（图片来源网络，侵删）

下面就python写的一个简单爬虫的例子

import requests

import re

（图片来源网络，侵删）

from bs4 import BeautifulSoup as bs

爬虫是伴随互联网的兴起而来的，以前很早的互联网，比如曾经的雅虎，你能想象给别人看的网页都是人工后台一个个给弄上去的吗。就跟今天的一些内容网站，比如悟空问答一样，用户给一个个补录上去，让大家看的。

但是搜索引擎不行，互联网的内容简直太多了，软件是摩尔定律级别，网页就更不说了。如果靠人工，根本不可能搞定这么多东西。就产生了很多算法，比如深度优先，广度优先等，尽量的去抓取别人的网页和内容。这其中也有很多的规则，并不是什么内容都允许抓取的。比如百度的爬虫，一般叫百度蜘蛛spider。爬取规则，你偶尔会看到自己项目中也会有类似robots.txt这样文件，就是爬虫规则。你可以写明不允许爬取，正常的蜘蛛是不应该再来抓取你的内容的。

一般我们能看到的，被爬取的内容都是明网，还有子网，***，你可以自己搜索了解一下。据说***的内容更多，更让人惊心动魄，被我们定义为非法的，“说是为了保护我们”，哎，就算是吧。

学爬虫，我们不需要搞到搜索引擎的级别，这个是谷歌，百度这种强搜索倾向的公司去搞的。一般来说，Python的这个框架Scrapy，就可以递归爬取内容，可以从它开始去学习如何爬取。零基础难度也不算大，但还是需要你花一些精力去研究的。我自己没去从事过爬取的岗位。现在厉害的人多了，你可以去从简单的实例开始，比如随便搜搜，‘我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言’，爬取网易云音乐，用Python解决租房问题等例子，都非常有趣，这些都是学习的好例子。