Python-查天气(4)

  • 内容
  • 评论
  • 相关

天气网的城市代码信息结构比较复杂,所有代码按层级放在了很多xml为后缀的文件中。而这些所谓的“xml”文件又不符合xml的格式规范,导致在浏览器中无法显示,给我们的抓取又多加了一点难度。

首先,抓取省份的列表:

输出content1可以查看全部省份代码:

对于每个省,抓取城市列表:

输出content2可以查看此省份下所有城市代码:
1901|南京,1902|无锡,1903|镇江,...

再对于每个城市,抓取地区列表:

content3是此城市下所有地区代码:
190101|南京,190102|溧水,190103|高淳,...

最后,对于每个地区,我们把它的名字记录下来,然后再发送一次请求,得到它的最终代码:

name和code就是我们最终要得到的城市代码信息。它们格式化到字符串中,最终保存在文件里:

同时你也可以输出它们,以便在抓取的过程中查看进度:

评论

0条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注