分享一个解决淘宝防爬的方法 - 简书
文章推薦指數: 80 %
然而登录之后如果访问稍微频繁,就会出现滑块验证码(如下图所示),通过 ... 但是淘宝APP同样有严密的防护策略,常规的抓包手段无法拦截到APP和服务 ...
分享一个解决淘宝防爬的方法自2018年12月中旬之后,淘宝升级了反爬虫策略,淘宝Web版必须要登录之后才能使用搜索功能(直接搜索会被重定向到登录界面,登录之后才能看到搜索结果)。
然而登录之后如果访问稍微频繁,就会出现滑块验证码(如下图所示),通过验证码之后(滑块验证码可以使用pyautogui自动处理),可以继续访问。
但如果持续访问频繁,就会出现一种无法处理的滑块验证码(如下图所示,持续提示“哎呀,出错了,点击刷新再来一次”),拖动之后会提示“”。
由于这种机制的存在,导致采集效率低,一个淘宝账号每日仅能采集到5w条左右的商品,并且稳定性较差。
技术人员通过对比发现,手机淘宝APP版本并没有这种限制,不需要登录即可持续搜索,并且一个关键词能够看到的搜索结果条数也是4400条(和Web版一致)。
但是淘宝APP同样有严密的防护策略,常规的抓包手段无法拦截到APP和服务端的交互数据,而且APK也做了防护,反编译后只能看到有限的代码。
通过技术人员的攻关,终于实现了突破,目前已可以有效拦截到手机淘宝APP的应答数据,能够拿到搜索结果返回的完整JSON数据,从而可以提取到和淘宝Web版一样的信息(例如item_id,title,price,location,sold,commentCount,category,isB2c等等)。
如下所示,为截取的一个手机淘宝APP搜索返回的一个商品的JSON示例数据。
完整的采集过程分为两步:(1)通过adb模拟操作手机淘宝APP执行搜索和上滑翻页操作。
(2)拦截手机淘宝APP的应答数据,从中提取想要的信息如下图所示,为采集过程的一个截图(左侧是实时抓取到的数据,右侧是安卓模拟器窗口):
再附上一个完整的手机淘宝APP关键词搜索返回的JSON数据:taobao_app_searching_sample.json该方案有以下优点:(1)无需淘宝账号登录,节省淘宝账号购买开支,不担心被封号;(2)稳定可靠,采用淘宝手机APP数据源,不会轻易改版;(3)采集速度快,实测单台设备(可以采用模拟器,也可以采用真机),日均搜索采集量约20-30万条商品;(4)IP限制弱;了解更多分析及数据抓取可查看:http://cloud.yisurvey.com:9081//html/37be8794-b79e-4511-9d0a-81f082bac606.html本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。
如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
抽奖赞1赞赞赏更多好文
延伸文章資訊
- 1淘寶滑塊驗證碼的解決方法和接口 - 台部落
採集淘寶商品詳情遇到滑塊驗證碼的解決方法最近更新時間:2019年10月20 ... 注意此接口是通過HttpRequest方式過淘寶驗證碼攔截,並非模擬拖動驗證碼。
- 2淘宝打开店铺的时候老是出现验证码拦截,不知道怎么 ... - 知天下
淘宝打开店铺的时候老是出现验证码拦截,不知道怎么解决?(用手机怎么把淘宝店铺的名字(文字)复制黏贴下来,手机绝对有这个功能因为别人能我弄不成 ...
- 3为什么网页登录淘宝总是验证码拦截? - 知乎
为什么天猫/淘宝页面每 ...
- 4登陆淘宝如何取消验证码,淘宝验证码拦截-卖家资讯
淘宝怎么取消手机验证每次上淘宝登陆时候都需要手机验证码,对于有些朋友来说,这简直就是太麻烦,其实取消这样的功能也是有方法的。你不妨看看以下步骤: 1、在自己的 ...
- 5浏览个淘宝,一直提示验证码拦截。 - 360社区
共6 个关于浏览个淘宝,一直提示验证码拦截。的回复最后回复于2022-1-12 16:31. 评论. 直达楼层 ...