内容:
图/文:迷神
对Python的热爱,尤其是Python爬虫,常常让我们遇到图片验证码的困扰。本次,我们将模拟登陆古诗词网,一探其背后的秘密。
[插入图片:古诗词登陆界面]
首先,我们进行第一次的登陆尝试,并借助谷歌浏览器的调试工具,观察提交的参数。
[插入图片:提交参数截图]
我们发现,code
是验证码,email
是账号,pwd
是密码,from
为空,denglu
是固定的参数。而由于古诗词网使用的是.net程序,所以__VIEWSTATE
和__VIEWSTATEGENERATOR
每次登录都会变化,需要在登录界面获取。
[插入图片:核心参数截图]
现在,我们来看看突破图片验证码,模拟登陆古诗词网的核心代码。这主要涉及到获取两个参数以及验证码的识别。
[插入图片:核心代码截图]
这就是我们的全部内容。需要注意的是,验证码的识别成功率并不是100%,可能需要多次尝试。同时,我们可以使用s = requests.session()
来保持登录会话状态,这样在登录后,就可以随心所欲地进行操作了。
需要完整代码的,私信回复:古诗词,即可获取。
转载请注明来自海勃湾区刘松霖工作室,本文标题:《python爬虫突破图片验证码,模拟登陆古诗词网 》
百度分享代码,如果开启HTTPS请参考李洋个人博客