• Python爬虫实战(2):百度贴吧帖子

    Python爬虫实战(2):百度贴吧帖子

    上章节我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比...

    kavinkavin 2018.05.15 2308浏览 0
  • Python爬虫实战(1):爬取糗事百科段子

    Python爬虫实战(1):爬取糗事百科段子

    本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。好,现在我们尝试抓取一下糗事...

    kavinkavin 2018.05.15 2437浏览 0
  • 快速入门:十分钟学会Python

    快速入门:十分钟学会Python

    初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念。很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践...

    kavinkavin 2018.05.13 2251浏览 0
  • Python爬虫入门之Beautiful Soup的用法

    Python爬虫入门之Beautiful Soup的用法

    正则匹配稍有差池,那可能程序就处在永久的循环之中,如果对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便。1. Beautiful Soup的简介简单来说,Beautiful Soup...

    kavinkavin 2018.05.12 2326浏览 0
  • Python爬虫入门之正则表达式

    Python爬虫入门之正则表达式

    1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正...

    kavinkavin 2018.05.12 2366浏览 0