python’s time:html parser

Nyoba-nyoba code dari Dive Into Python tentang html parser.
Code ini akan membuka dokumen html http://www.detik.com dan mengenali semua link di dalamnya.

import urllibfrom sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):
        self.urls = []

    def start_a(self, attrs):
        href = [v for k, v in attrs if k=='href']
        if href:

sock = urllib.urlopen("http://www.detik.com")
parser = URLLister()
for url in parser.urls: print url


2 thoughts on “python’s time:html parser

