baobao
2/17/2013 - 3:46 AM

htmlをパースして、使用している画像を全てoutput.htmlに書き出すpythonスクリプト

htmlをパースして、使用している画像を全てoutput.htmlに書き出すpythonスクリプト

# -*- coding: utf-8 -*- 

import urllib2
from HTMLParser import HTMLParser

URL ="http://google.com"
OUTPUT="output.html"
urlList = []

class TestParser(HTMLParser):
	def __init__(self):
		HTMLParser.__init__(self)

	def handle_starttag(self,tagname,attribute):
		if tagname.lower() == "img":
			for i in attribute:
				if i[0].lower() == "src":
					imgurl = i[1];
					urlList.append(imgurl)
		show()

def show():
	str  = ""
	for imgUrl in urlList:
		url='<img src="' + imgUrl +'" />'
	#	print url
		str+=url
	#print str
	createFile(str)
	pass
def createFile(str):
	f = open(OUTPUT, "w")
	f.write(str)
	f.close()
	pass

if __name__ == "__main__":
	url = URL
	htmldata = urllib2.urlopen(url)
	parser = TestParser()
	parser.feed(htmldata.read())
	parser.close()
	htmldata.close()