目录

充电学习中...

存档: 2019 年 10 月 (6)

爬虫应对IP封禁的一般性处理方法

原先发布在CSDN的文章:# 爬虫应对IP封禁的一般性处理方法

Fiddler教程系列

原先发布在CSDN # HTTP抓包利器Fiddler基础及进阶教程(一) # HTTP抓包利器Fiddler基础及进阶教程(二)---- 手机端抓包+强制全局代理 # HTTP抓包利器Fiddler基础及进阶教程(三)---- 修改请求和响应+FiddlerCore使用 # HTTP抓包利器Fiddler基础及进阶教程(四)----使用Fiddler破解离线版极验验证

突破前端debugger反调试

我原先在CSDN上发布的文章:突破前端debugger反调试

天眼查字体反爬应对

反爬场景 某些网站为了保护数据不被爬虫获取,会使用字体反爬来阻碍爬虫。具体的现象是用户肉眼看到的内容和接口返回是不同的。下面以一张GIF图展示天眼查的字体反爬: 可以看到,当取消了字体渲染的样式之后,页面的内容变了,而直接复制网页上的文本,得到的文字也是错误的。 搜索了一下,这个反爬技术还是有专利的: CN105812366A_服务器、反爬虫系统和反爬虫验证方法 分析过程 首先观察发现当取消字体渲染时,只有注册资本,成立时间,经营范围这三个字段的数据产生了变化,审查元素后可以看到,只有使用了"tyc-num lh24"类标签的元素才会应用字体渲染。知道是字体反爬后,目标页很明确了。抓包并过滤数据包,只显示字体文件,可以找到关键的字体。如下图: 从Chrome控制台的预览处可以看到,至少数字部分已经打乱。为了直观体现,这里找一张正常的字体进行对比。下面这张图是淘宝登录页面的字体预览: 下面借助百度的字体编辑工具,查看中文部分,工具地址 从之前的gif中我们可以看到,肉眼见到的"技"字是通过"商"字转换而来的,我们在工具中找到"技",注意这里要看图片框呈现出来的字体轮廓,不要直接去对.......

模拟浏览器采集的几种方式比较

该文章已经加密。

JsHook

JS标准内置对象 Object.defineProperty(document, 'cookie', { get: function() { console.log('getcookie'); debugger; return ""; }, set: function(value) { console.log('setcookie', value); debugger; return value; }, }); Everything-Hook 来源 // ==UserScript== // @name Everything-Hook // @namespace https://gitee.com/HGJing/everthing-hook/ // @updateURL https://gitee.com/HGJing/everthing-hook/raw/master/src/everything-hook.js // @version 0.5.9054 // @include * // @description it can hook everything // @author C.....