2019 年 10 月存档 -

目录

充电学习中...

存档： 2019 年 10 月 (6)

爬虫应对IP封禁的一般性处理方法

2019-10-29

原先发布在CSDN的文章:# 爬虫应对IP封禁的一般性处理方法

Fiddler教程系列

2019-10-29

原先发布在CSDN # HTTP抓包利器Fiddler基础及进阶教程(一) # HTTP抓包利器Fiddler基础及进阶教程(二)---- 手机端抓包+强制全局代理 # HTTP抓包利器Fiddler基础及进阶教程(三)---- 修改请求和响应+FiddlerCore使用 # HTTP抓包利器Fiddler基础及进阶教程(四)----使用Fiddler破解离线版极验验证

突破前端debugger反调试

2019-10-29

我原先在CSDN上发布的文章:突破前端debugger反调试

天眼查字体反爬应对

2019-10-29

反爬场景某些网站为了保护数据不被爬虫获取，会使用字体反爬来阻碍爬虫。具体的现象是用户肉眼看到的内容和接口返回是不同的。下面以一张GIF图展示天眼查的字体反爬: 可以看到，当取消了字体渲染的样式之后，页面的内容变了，而直接复制网页上的文本，得到的文字也是错误的。搜索了一下，这个反爬技术还是有专利的: CN105812366A_服务器、反爬虫系统和反爬虫验证方法分析过程首先观察发现当取消字体渲染时，只有注册资本，成立时间，经营范围这三个字段的数据产生了变化，审查元素后可以看到，只有使用了"tyc-num lh24"类标签的元素才会应用字体渲染。知道是字体反爬后，目标页很明确了。抓包并过滤数据包，只显示字体文件，可以找到关键的字体。如下图: 从Chrome控制台的预览处可以看到，至少数字部分已经打乱。为了直观体现，这里找一张正常的字体进行对比。下面这张图是淘宝登录页面的字体预览: 下面借助百度的字体编辑工具，查看中文部分，工具地址从之前的gif中我们可以看到，肉眼见到的"技"字是通过"商"字转换而来的，我们在工具中找到"技"，注意这里要看图片框呈现出来的字体轮廓，不要直接去对.......

模拟浏览器采集的几种方式比较

2019-10-28

该文章已经加密。

JsHook

2019-10-28

JS标准内置对象 Object.defineProperty(document, 'cookie', { get: function() { console.log('getcookie'); debugger; return ""; }, set: function(value) { console.log('setcookie', value); debugger; return value; }, }); Everything-Hook 来源 // ==UserScript== // @name Everything-Hook // @namespace https://gitee.com/HGJing/everthing-hook/ // @updateURL https://gitee.com/HGJing/everthing-hook/raw/master/src/everything-hook.js // @version 0.5.9054 // @include * // @description it can hook everything // @author C.....