地下トキワ荘の4コマ漫画を集める
概要
週刊誌 SPA! の投稿コーナーに掲載されている4コマ漫画が Web でも公開されています。 それらをまとめてダウンロードするという需要のないコードを書きました。
コード
#!/usr/bin/python
# coding: UTF-8
import re
import requests
for p in xrange(1, 19):
c1 = requests.get('http://nikkan-spa.jp/bakasai_tokiwa/page/' + str(p)).content
for node in set(re.findall(r'http://nikkan-spa.jp/bakasai_tokiwa/[0-9]+?"', c1)):
print node[:-1],
try:
c2 = requests.get(node[:-1]).content
r2 = re.search(r'<div class="sectionImgB"><img src="/wp-content/uploads/(.*?)" width="300"></div>\n(.*?)\n', c2)
r3 = re.search('.*/(.*)', '/' + r2.group(1))
with open('./out/' + r3.group(1), 'wb') as f:
raw = requests.get('http://nikkan-spa.jp/wp-content/uploads/' + r2.group(1)).content
f.write(raw)
print 'OK'
except:
print 'NG'
pass