一个小运营用过的爬虫和自动化走过的那些路-班牛

一个小运营用过的爬虫和自动化走过的那些路

jinsihou金 636 2022-09-05

本文转载自网络公开信息

一个小运营用过的爬虫和自动化走过的那些路

写爬虫有很多很多方法，你可以看看这些。自动化操作其实多看一下自动化测试的内容，你会发现，就是一样的。第一代：

10年前的时候，我还只是一个学过几天C语言的学生，想要搞一个爬虫，就只能用C语言了。

当时的思路是通过cURL等工具下载好HTML代码，然后传入给程序，获取到自己想要数据。

技术点：dos下管道命令截取字符

代码：textclip.c

第二代：

使用CS版本截取字符串，原理和上一代一样，不再是命令行工具了，而且不需要其他程序配合。

程序：textClipCS.exe

第三代：

写一个html，利用js发起ajax请求，获取到数据，然后整理为需要的数据格式。

具体代码忘了存了，这个版本使用时间很短，优点在于使用浏览器操作，不受平台限制。

第三代2：

使用windows的批处理写自动化处理关键词，主要代码都是js，bat文件就是一个调用js文件的方式，不用html，更快捷。

优点：可以给很多人用，操作简单，但是要做好参数文件配置。

感兴趣的可以看看这个代码，虽然运行不了，但是原理是对的，当年用了很久。

代码：关键词-车型分析 - V1.2.bat

第四代：

还是使用js，但是放到了油猴脚本管理器里面，用浏览器运行，可以自动化的操作网页或者统计网页上的数据。

代码都很简单，可以自己看看，这儿有2个例子。

代码：聚划算搜索页面想买和付款数量金额统计.user.js

代码：速卖通自动点击评价.user.js

第五代：

在多年的数据整理中，返现最后都还是要用excel，那我为什么不用VBA来获取数据。

开始使用vba编程，获取数据，直接发起request求情，并解析数据，处理数据。

数据的请求和解析代码在这，具体的输出和分析处理就不透露了，我都还在用这些代码。

下面这个就是通过vba获取数据，分析淘宝的关键词的数据和搜索关键词的销量和价格，但是现在用不了，淘宝屏蔽了。

代码：HTTP请求与解析.bas

第六代：

后来发现很多网站都不能直接请求数据，会限制，只能通过webkit模拟浏览器来操作了，在上一代的基础上开始用webkit来模拟操作。

这一代也很短命，同时我也学了python，发现webkit功能太局限了，很多功能都不行。

第七代：

开始使用python，这效率，这效果，满意！

代码都很简单，就在下面，就是直接发起request，但是容易被限制访问。

代码：httpRequest.py

第七代2：

开始使用python配合浏览器来获取数据，并做好数据分析输出！

主要就是用了selenium操作浏览器，但是开始代码比较乱，后面借鉴了码栈的方法，开始做一些方法的优化，操作就简单多了。

当时淘宝已经开始大量限制爬虫了，整个过程都有完整的时间限制。

代码：webOper.py

第八代：

就是用码栈了，码栈刚出来的时候还只是阿里内部使用，公开后一切开起来都是很美好，但是没有用多久就各种限制，负责人承诺的一些东西也兑现不了。。就咩有然后了。

普通用户其实选择码栈不错，但是想要深入就难了，很多东西都被限制了。

第九代：

看着码栈被限制了，我就自己搞了一个看起来有点像的，很多朋友用了码栈就习惯了。

实际上就是在第七代python代码上加了一个GUI，浏览器相关的操作还是用selenium，基础GUI代码就是下面的这个，主要就是一个简单的数据操作窗口。

代码：GUI11.py

第十代：

面临特别大的数据分析的时候，excel就不行了，开始用python做分析工具，但是不是每个电脑都用python分析环境，所以就上了私人服务器。

写好分析模型，随时可以在网页上看数据。

http://kinrt.top:8081/

第十一代：

pyside版本来了，自己用webkit写了浏览器，各种模仿码栈的功能都是自己写的代码，用起来顺手多了。

selenium操作浏览器用久了就发现各种兼容性问题，还有自己想要拓展的功能基本上都不行，然后就下定决心写一个自己的浏览器。

这个版本核心就是浏览器这块的操作，比如截图，拦截ajax请求，伪装浏览器，设置代理，这些都是以前实现不了的。

关于拦截ajax请求的数据，就只有pyside1可以用QNetworkAccessManager获取记录数据，pyside2就不行了。

浏览器代码就在下面，喜欢的可以看一下。

代码：browser3.py

第十二代：

pyside2版本来了，webkit在操作淘宝等很多后台的时候都不能加载好页面，所以就只能升级到chrome内核了，放弃了很多原有功能。

样子和上一代差不多，但是代码改了很多，这个不方便透露。

第十三代：

编写浏览器插件，监控自定义链接发起的网络请求，并将数据解析为表格。

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表班牛的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

5大中国品牌在Amazon Business全球站点表现突出

636 2022-09-05

一个小运营用过的爬虫和自动化走过的那些路

掘金日本电商市场促销择时很重要

MercadoLibre势头正旺亚马逊加紧布局拉美市场

5大中国品牌在Amazon Business全球站点表现突出

最近发表

热评文章

淘宝11如何赠更多的喵糖？有哪些技巧？

京东必购码在哪儿?京东必购码获取攻略

关于新商业文明的四个准则是什么？

网页版客服系统（网站在线客服系统）

淘宝论坛（怎么进入，如何发帖，推广误区）

天猫红包使用规则（天猫红包使用规则是什么）