地下トキワ荘の4コマ漫画を集める

概要

週刊誌 SPA! の投稿コーナーに掲載されている4コマ漫画が Web でも公開されています。 それらをまとめてダウンロードするという需要のないコードを書きました。

コード

#!/usr/bin/python
# coding: UTF-8

import re
import requests

for p in xrange(1, 19):
    c1 = requests.get('http://nikkan-spa.jp/bakasai_tokiwa/page/' + str(p)).content
    for node in set(re.findall(r'http://nikkan-spa.jp/bakasai_tokiwa/[0-9]+?"', c1)):
        print node[:-1],
        try:
            c2 = requests.get(node[:-1]).content
            r2 = re.search(r'<div class="sectionImgB"><img src="/wp-content/uploads/(.*?)" width="300"></div>\n(.*?)\n', c2)
            r3 = re.search('.*/(.*)', '/' + r2.group(1))
            with open('./out/' + r3.group(1), 'wb') as f:
                raw = requests.get('http://nikkan-spa.jp/wp-content/uploads/' + r2.group(1)).content
                f.write(raw)
            print 'OK'
        except:
            print 'NG'
            pass