爬取公司网络流量去年到今年的数据,对数据进行统计处理

每天的数据差不多是这样的:

抓取网页数据,进行保存:

import urllib
import time
import calendar
year_list=[2016]
month_list=[1,2,3,4,5,6,7,8,9,10,11,12]
for year in year_list:
    if year==2015:
        for month in month_list[6:]: 
            
            
            days=range(calendar.monthrange(year, month)[1]+1)[1:]
            for day in days:
                
                date1=str(year)+"-"+str(month)+"-"+str(day)
                date2=time.strptime(date1, "%Y-%m-%d")
                datestring=time.strftime("%Y-%m-%d",date2)
                url="https://myview.chinanetcenter.com/api/bandwidth-channel.action?u=howbuy&p=Howbuy123&date="+datestring
                filename = urllib.urlretrieve(url,filename="E:\\xml\\2015\\"+datestring+".xml") #modify path
                time.sleep(5)

    else:
        
            
        days=days=range(calendar.monthrange(year, 6)[1]+1)[7:]
        for day in days:
                
            date1=str(year)+"-"+str(6)+"-"+str(day)
            date2=time.strptime(date1, "%Y-%m-%d")
            datestring=time.strftime("%Y-%m-%d",date2)
            url="https://myview.chinanetcenter.com/api/bandwidth-channel.action?u=howbuy&p=Howbuy123&date="+datestring
            filename = urllib.urlretrieve(url,filename="E:\\xml\\2016\\"+datestring+".xml") #modify path
            time.sleep(5)

处理每天数据的平均值,最大值,最小值一直大于130的值统计处理,并且生成xls表格

import xml.dom.minidom
import urllib
import time
import calendar
import os
import xlrd
import xlwt
from xlwt import *
value_list=[]
datalist=[]
data=()

for path,dir,filenames in os.walk("E:\\zh\\"):#modify path
    print filenames
    print path
    print dir
    for filename in filenames:
        
        dom = xml.dom.minidom.parse("E:\\zh\\"+filename) #modify path
        root = dom.documentElement
        bands = root.getElementsByTagName(‘bandwidth‘)
    
        for i in range(bands.length):
        
            bandschild=bands[i]
            bandschildvalue=float(bandschild.firstChild.data)
            value_list.append(bandschildvalue)
        vmax=max(value_list)
        #average=reduce(lambda x,y: x+y, value_list)/len(value_list)
        average=sum(value_list)/len(value_list)    
        data=(filename.strip(".xml"),vmax,average)
        datalist.append(data)
        value_list=[]
        data=()
        file = xlwt.Workbook()
        table = file.add_sheet(‘tongji‘)
        for i in range(len(datalist)):
            daydate,daymax,dayv=datalist[i]
            table.write(i,0,daydate)
            table.write(i,1,daymax)
            table.write(i,2,dayv)
        file.save(‘E:\\mini6.xls‘) #modify path
import xml.dom.minidom
import urllib
import time
import calendar
import os
import xlrd
import xlwt
from xlwt import *
value_list=[]
datalist=[]
data=()

for path,dir,filenames in os.walk("E:\\zh\\2016\\"):#modify path
    
    for filename in filenames:
        
        dom = xml.dom.minidom.parse("E:\\zh\\2016\\"+filename) #modify path
        root = dom.documentElement
        bands = root.getElementsByTagName(‘bandwidth‘)
    
        for i in range(bands.length):
        
            bandschild=bands[i]
            bandschildvalue=float(bandschild.firstChild.data)
            
                
                
            value_list.append(bandschildvalue)
        #vmax=max(value_list)
        #average=reduce(lambda x,y: x+y, value_list)/len(value_list)
        #average=sum(value_list)/len(value_list)
        for ii in value_list:
            
            data=(filename.strip(".xml"),ii)
            datalist.append(data)
            data=()
        value_list=[]
       
        file = xlwt.Workbook()
        table = file.add_sheet(‘tongji‘)
        for iii in range(len(datalist)):
            daydate,daycount=datalist[iii]
            table.write(iii,0,daydate)
            table.write(iii,1,daycount)
            
        file.save(‘E:\\mini14.xls‘) #modify path

时间: 10-09

爬取公司网络流量去年到今年的数据,对数据进行统计处理的相关文章

26、自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱

自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱. 之所以选择这个相对朴实的爬虫项目,是因为天气每天都会有变化,那么在学完这一关之后,不出意外,你就可以在明早收到天气信息了.以此,亲身体验程序的作用. 你还可以把每日的天气和温馨的穿衣提示发送到你的恋人.家人.或朋友的邮箱里,这也是传递心意的一种方式. 总体上来说,可以把这个程序分成三个功能块:[爬虫]+[邮件]+[定时] 1 import requests 2 import time 3 import schedule 4 from

最简单的网络图片的爬取 --Pyhon网络爬虫与信息获取

1.本次要爬取的图片url http://www.nxl123.cn/static/imgs/php.jpg 2.代码部分 import requestsimport osurl = "http://www.nxl123.cn/static/imgs/php.jpg"root = "C:/Users/Niuxi/Desktop/pic/"#注意最后“/”带上path = root+url.split('/')[-1]try: if not os.path.exist

Python爬取爱奇艺【老子传奇】评论数据

# -*- coding: utf-8 -*- import requests import os import csv import time import random base_url = 'http://api-t.iqiyi.com/feed/get_feeds?authcookie=97RRnhwyZA35LUddm35Yh4x5m2Vv9DJtUOuFHAeFVinDJg17wOO5Em1Se5vGm2vqn8SoSb24&device_id=a35b964e5084125fb7d

厉害了!使用Python神不知鬼不觉爬取公司内部的ppt资料(勿做商业用途!)

在写爬虫的过程中遇到如下错误: 1 WinError 10061 - No Connection Could be made 解决方法: 1. 打开IE internet options 2. Connections -> Lan Setting 3. 勾上automatically detect settings 封装好的db操作 1 # -*- coding:utf-8 -*- 2 #__author__ = 'ecaoyng' 3 4 import pymysql 5 import tim

python网络爬虫第三弹(<爬取get请求的页面数据>)

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据值 1.爬取百度首页所有的数据值 import urllib.request import urllib.parse url = 'http://www.baidu.com' # 通过 URLopen

R 语言爬虫 之 cnblog博文爬取

Cnbolg Crawl a). 加载用到的R包 ##library packages needed in this case library(proto) library(gsubfn) ## Warning in doTryCatch(return(expr), name, parentenv, handler): 无法载入共享目标对象‘/Library/Frameworks/R.framework/Resources/modules//R_X11.so’:: ## dlopen(/Libr

Python 爬虫入门(三)—— 寻找合适的爬取策略

写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 目标网址:http://chanyouji.com/ 注意:这个网站会拦截IP,访问次数过多,IP会被封,所以,上节的IP代理就用到了. a).打开网页,可以看到这是一个游记类的网站,里面有很多人分享的游记.那我们就爬这些游记.说不定以后有时间出去玩的时候可以用到. b).点开其中一篇游记,可以看

python爬取B站千万级数据,发现了这些热门UP主的秘密!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

python爬虫入门 之 移动端数据的爬取

第七章 移动端数据的爬取 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 . 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据.设置断点.调试web应用.修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器. Fiddler