Ottenere un elenco di tutte le chiese in un certo stato con Python

voti
-3

Sono abbastanza buono con Python, in modo pseudo-codice sarà sufficiente quando i dettagli sono banali. Si prega di farmi iniziare il compito - come si fa andare su di strisciare la rete per gli indirizzi di posta lumaca di chiese nel mio stato. Una volta che ho un uno di linea, ad esempio 123 Old West Road # 3 Old Lyme Città MD 01234, probabilmente posso analizzare in Città, Provincia, Via, numero, apt con abbastanza prove ed errori. Il mio problema è - se uso le pagine bianche in linea, quindi come faccio a trattare con tutte le cianfrusaglie HTML, tabelle HTML, annunci, ecc? Non penso che ho bisogno di loro numero di telefono, ma non farà male - posso sempre buttare fuori una volta analizzato. Anche se la soluzione è a metà manuale (come ad esempio Salva in pdf, quindi aprire acrobata, salvare come testo) - potrei essere felice con lui ancora. Grazie! Diamine, io voglio nemmeno accettare frammenti di Perl - posso tradurre io stesso.

È pubblicato 14/12/2009 alle 23:29
fonte dall'utente
In altre lingue...                            


5 risposte

voti
2

Provare lynx --dump <url>per scaricare le pagine web. Tutti i tag HTML fastidiosi verranno eliminati dal l'uscita, e tutti i link dalla pagina verranno visualizzati insieme.

Risposto il 14/12/2009 a 23:36
fonte dall'utente

voti
2

Si potrebbe utilizzare Mechanize . Si tratta di una libreria Python che simula un browser, quindi si può strisciare attraverso le pagine bianche (in modo simile a ciò che si fa manualmente).

Al fine di affrontare il pitone 'html spazzatura' ha una libreria anche per questo: BeautifulSoup E 'un bel modo per ottenere i dati che si desidera fuori di HTML (ovviamente presuppone si conosce un po' di HTML, come si vedrà ancora hanno per navigare l'albero di analisi).

Aggiornamento: Per quanto riguarda la tua domanda di follow-up su come scegliere attraverso più pagine. Mechanize è una libreria di fare proprio questo. Date un'occhiata più da vicino i loro esempi, esp. il metodo follow_link. Come ho già detto che simula un browser, in modo da 'click' può essere realizzato rapidamente in pitone.

Risposto il 14/12/2009 a 23:42
fonte dall'utente

voti
2

Quello che stai cercando di fare è chiamato Raschiare o web scraping.

Se fate qualche ricerche su pitone e raschiatura , è possibile trovare un elenco di strumenti che vi aiuteranno.

(Non ho mai usato Scrapy, ma è sito sembra promettente :)

Risposto il 14/12/2009 a 23:46
fonte dall'utente

voti
2

Beautiful Soup è una bazzecola. Ecco un sito si potrebbe iniziare a http://www.churchangel.com/ . Hanno una lista enorme e la formattazione è molto regolare - traduzione: facile da installare BSoup per raschiare.

Risposto il 15/12/2009 a 00:17
fonte dall'utente

voti
1

script Python potrebbero non essere lo strumento migliore per questo lavoro, se siete solo alla ricerca di indirizzi delle chiese in un'area geografica.

Il censimento degli Stati Uniti fornisce una serie di dati di chiese per l'utilizzo con sistemi di informazione geografica. Se trovare tutto il xin una zona spaziale è un problema ricorrente, investire in apprendimento di una GIS. Poi si può portare le vostre abilità Python esercitate su molti compiti geografiche.

Risposto il 15/12/2009 a 00:34
fonte dall'utente

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more