天眼查字体反爬应对

2019-10-29

反爬场景

某些网站为了保护数据不被爬虫获取，会使用字体反爬来阻碍爬虫。具体的现象是用户肉眼看到的内容和接口返回是不同的。下面以一张GIF图展示天眼查的字体反爬:
在这里插入图片描述
可以看到，当取消了字体渲染的样式之后，页面的内容变了，而直接复制网页上的文本，得到的文字也是错误的。
搜索了一下，这个反爬技术还是有专利的:
CN105812366A_服务器、反爬虫系统和反爬虫验证方法

分析过程

首先观察发现当取消字体渲染时，只有注册资本，成立时间，经营范围这三个字段的数据产生了变化，审查元素后可以看到，只有使用了"tyc-num lh24"类标签的元素才会应用字体渲染。知道是字体反爬后，目标页很明确了。抓包并过滤数据包，只显示字体文件，可以找到关键的字体。如下图:
在这里插入图片描述
从Chrome控制台的预览处可以看到，至少数字部分已经打乱。为了直观体现，这里找一张正常的字体进行对比。下面这张图是淘宝登录页面的字体预览:

下面借助百度的字体编辑工具，查看中文部分，工具地址

从之前的gif中我们可以看到，肉眼见到的"技"字是通过"商"字转换而来的，我们在工具中找到"技"，注意这里要看图片框呈现出来的字体轮廓，不要直接去对unicode编码。
在这里插入图片描述
可以看到字体轮廓对应的unicode编码为"$5546"，将unicode转化为中文，得到结果,正是"商"字:

那么，整套的解决思路就有了，即: