金乌智能--数据抓取、数据采集、爬虫

让每个人都轻松拥抱爬虫技术,拥有大数据技术!

爬虫从精通到放弃

面试


Python爬虫岗位的话,面试一般有以下几个方面。

Python基础的方面,肯定要你熟练掌握的。

第一点: 网络方面

     1. TCP和UDP的去区别?

     2. Cookie和Session的区别?

     3. get和post的区别?

     4. 一次完整的网络请求的流程?

     5. 请简单的说一下三次握手和四次挥手?

     6. http常见请求头?

     7. http常用方法?

     8. 七层模型?

 

第二点: 数据库知识

  1. 说一下Mysql数据库存储的原理?
  2. 事务的特性?
  3. 数据库索引?
  4. 数据库优化查询效率?
  5. 如何对查询命令进行优化?
  6. Sql注入是如何产生的,如何防止?
  7. 优化数据库,提高数据库的性能?
  8. 爬取数据后,使用哪个数据库存储数据的,为什么?

第三点: 框架篇

  1. 列举你使用Python网络爬虫所用到的网络数据包?
  2. 列举你使用Python网络爬虫所用到的解析数据包?
  3. 你用到的爬虫框架和模块有哪些?说说它们的区别以及优缺点?
  4. 写爬虫是用多进程好,还是多线程好,为什么?
  5. 常见的反爬虫和应对方法?
  6. 验证码的解决?
  7. 爬取的数据量有多大,多久爬一次,是怎么存储的?

 

博文最后更新时间:


评论

  • 暂无评论

发表评论

博客统计

访问量:99574

博文总数:112 评论总数:0

原创112 翻译0 转载0