Ben Python ile oldukça iyi değilim, bu yüzden ayrıntılar önemsiz olduğunda sözde kod yeterli olacaktır. eyaletteki kiliselerin salyangoz posta adresleri için net Tarama hakkında gitmek nasıl - Beni göreve başlamak edin. Böyle 123 Eski Batı Yolu 3. Eski Lyme İl MD 01234 gibi bir tek astar ulaştıktan sonra, muhtemelen yeterince deneme yanılma ile apt Şehir, İl Caddesi, numara, ayrıştırmak olabilir. Benim sorundur - online beyaz sayfalar kullanırsanız, o zaman ben vb tüm HTML önemsiz, HTML tabloları, reklamlar başa nasıl? Ben onların telefon numarasını gerek olduğunu sanmıyorum, ama zarar vermez - Hep bir kez çözümlenen dışarı atabilir. Çözümünüz yarı manuel olsa bile (örneğin pdf kaydet, sonra açık akrobat, metin olarak kaydetme) - Hala onunla mutlu olabilir. Teşekkürler! Heck, ben bile Perl parçacıkları kabul edecek - Kendim çevirebilir.
Python kullanarak belirli bir durumdaki tüm kiliselerin bir listesini alma
Deneyin lynx --dump <url>web sayfaları indirmek için. Tüm zahmetli HTML etiketleri çıkışından elimden olacak ve sayfadaki tüm linkler birlikte görünecektir.
Sen kullanabilirsiniz motorize . Bir tarayıcı taklit bir piton kütüphane, yani beyaz sayfaları üzerinden (benzer elle ne kadar) sürünmek.
'Html önemsiz' piton ile başa çıkabilmek için bunun için de bir kütüphane bulunmaktadır: BeautifulSoup Size HTML dışına istediğiniz verileri almak için güzel bir yoldur (tabi o kadar hala Göreceksin, HTML hakkında biraz bilgi varsayar ) ayrıştırma ağacı gezinmek gerekiyor.
Güncelleme: Birden sayfalarını tıkladığınızda ne yapmanız gerektiği konusunda takip soruya şöyle. mechanize sadece bunu yapmak için bir kütüphanedir. ESP, onların örneklere yakından bakın. follow_link yöntemi. Ben 'klik' piton hızla gerçekleştirilebilir böylece, bir tarayıcı taklit söylediği gibi.
Ne yapmaya çalıştığını denir Kazıma veya web kazıma.
Bazı yaparsanız aramalar üzerine piton ve kazıma , sen bir listesini bulabilirsiniz araçları yardımcı olacaktır.
(Ben scrapy kullanılan hiç ama sitesi umut verici görünüyor var :)
Güzel Çorbası bir hayır beyin olduğunu. Burada başlamak olabilecek bir site http://www.churchangel.com/ . Onlar büyük bir liste var ve biçimlendirme çok düzenlidir - çeviri: Kurulum BSoup kazımak için kolay.
Eğer sadece bir coğrafi alanda kiliselerin adreslerine arıyorsanız Python komut, bu iş için en iyi aracı olmayabilir.
ABD nüfus sayımı coğrafi bilgi sistemleri ile kullanılmak üzere kiliselerin veri kümesi sağlar. Tüm bulgu ise xbir mekansal alanda yinelenen bir sorundur, bir GIS öğrenme yatırım yapın. Sonra birçok coğrafi görevler üzerinde ayı için Python becerilerini getirebilir.













