博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?...
阅读量:5145 次
发布时间:2019-06-13

本文共 666 字,大约阅读时间需要 2 分钟。

目录:

  

 

 

应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。

加群请输入暗号“数据采集”,否则不加

 

很久没有写博客了,一直在默默的学习,经常感到网上太多太多的技术分享都是入门级别的转载,想要找点核心的东西很难,真正掌握核心的企业和大牛都不愿透露哪怕一点点的思路,所以渐渐我就有了这个想法,希望能把核心的技术至少是思路能跟大家一起分享,一起探讨学习。

 

这是开篇,不废话,先发布一个目录列出我所想探讨的话题,征求一下大家的意见,看大家都对那些感兴趣,如果你认为有价值的话题没有列上去,请留言告诉我,有必要的话我会斟酌后加上。 

 

1.如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?

2.如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?

3.如何防止被封IP?悠着点采?重新拨号换IP?代理?云计算?...谁能提供终极方案? 

4.如何应对网站改变?改代码?改模版?智能定位?模拟人工?...如何随机应变?

5.大家都到云上去了?采集如何到云上去?

6.新一代数据采集系统架构设计

 

 暂列这几个,稍后看大家的兴趣再调整增补,因本人能力有限,虽在web数据采集领域奋战多年,却也不可能在web数据采集的各个方面都提供最牛逼的解决方案和思路,还请各位看官本着互相交流学习,一起进步成长的态度来批评指正,欢迎留言。 

 

转载于:https://www.cnblogs.com/keven1006/archive/2012/08/04/2622750.html

你可能感兴趣的文章
树莓派Android Things物联网开发:树莓派GPIO引脚图
查看>>
Database、User、Schema、Tables、Col、Row
查看>>
ckplayer网页播放器简易教程
查看>>
Android Studio 学习(六)内容提供器
查看>>
作业1:求500到1000之间有多少个素数,并打印出来
查看>>
for循环:用turtle画一颗五角星
查看>>
浅谈JavaScript中的eval()
查看>>
操作系统学习(七) 、保护机制概述
查看>>
矩阵快速幂---BestCoder Round#8 1002
查看>>
MySQL建表语句+添加注释
查看>>
性能优化的 ULBOX(收集-)
查看>>
NYOJ 212 K尾相等数
查看>>
transform属性
查看>>
列表 -- 增删改查(切片)
查看>>
【模板】堆排序
查看>>
DNS练习之正向解析
查看>>
[Leetcode][JAVA] LRU Cache
查看>>
硬件UDP读数AsynUdpClient
查看>>
本周内容
查看>>
sublime dockerfile 语法高亮
查看>>