【python數據分析實戰】電影票房數據分析(二)數據可視化


在上一部分《【python數據分析實戰】電影票房數據分析(一)數據采集》 已經獲取到了2011年至今的票房數據,並保存在了mysql中。
本文將在實操中講解如何將mysql中的數據抽取出來並做成動態可視化。

圖1 每年的月票房走勢圖

第一張圖,我們要看一下每月的票房走勢,毫無疑問要做成折線圖,將近10年的票房數據放在一張圖上展示。

數據抽取:
采集到的票房數據是按天統計的,並且我們只看正常上映的和點映的,其他如重映等場次均不在本次統計內。
因此我們先對mysql中的數據releaseInfo字段進行篩選,然后根據上映年份和月份進行分組聚合,得到10年內每月的票房數據。
用sql取到數據后,再將不同年份的數據分別放入list中,原始數據是以"萬"為單位的str,這里我們折算為以"億"為單位的float。

構造圖像:
x軸數據為年份,
再分別將不同年份的票房數據添加到y軸中,
最后配置下圖像的屬性即可。

config = {...}    # db配置省略
conn = pymysql.connect(**config)
cursor = conn.cursor()
sql = '''
        select  substr(`date`,1,4) year, 
                substr(`date`,5,2) month, 
                round(sum(`boxInfo`),2) monthbox 
        from movies_data 
        where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='點映' ) 
        group by year,month order by year,month
      '''
cursor.execute(sql)
data = cursor.fetchall()
x_data = list(set([int(i[1]) for i in data]))
x_data.sort()
x_data = list(map(str, x_data))
y_data1 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2011']
y_data2 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2012']
y_data3 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2013']
y_data4 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2014']
y_data5 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2015']
y_data6 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2016']
y_data7 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2017']
y_data8 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2018']
y_data9 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2019']
cursor.close()
conn.close()


def line_base() -> Line:
    c = (
        Line(init_opts=opts.InitOpts(height="600px", width="1300px"))
            .add_xaxis(x_data)
            .add_yaxis("2011", y_data1)
            .add_yaxis("2012", y_data2)
            .add_yaxis("2013", y_data3)
            .add_yaxis("2014", y_data4)
            .add_yaxis("2015", y_data5)
            .add_yaxis("2016", y_data6)
            .add_yaxis("2017", y_data7)
            .add_yaxis("2018", y_data8)
            .add_yaxis("2019", y_data9)
            .set_global_opts(title_opts=opts.TitleOpts(title="月票房走勢"),
                             legend_opts=opts.LegendOpts(
                                 type_="scroll", pos_top="55%", pos_left="95%", orient="vertical"),
                             xaxis_opts=opts.AxisOpts(
                                 axistick_opts=opts.AxisTickOpts(is_align_with_label=True), boundary_gap=False, ),)
            .set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不顯示柱體上的標注(數值)
                             markline_opts=opts.MarkLineOpts(
                                 data=[opts.MarkLineItem(type_="max", name="最大值"), ]), )
            .extend_axis(yaxis=opts.AxisOpts(name="票房(億元)", position='left'),  # 設置y軸標簽顯示格式,數據+"人"
                              xaxis=opts.AxisOpts(name="月份"))
    )

    return c


line_base().render("v1.html")

有本圖可以看出:
1、近10年票房總數逐漸增長(當然這是廢話)
2、11-13年每月票房波動很小,幾乎沒有明顯的高峰檔期,最近兩年高峰檔期最為明顯,集中在春節、暑期和十一。

圖2 年票房總值、上映影片總數及觀影人次

第二張圖,我們要看一下票房、上映影片數和觀影人次 逐年的變化情況

數據抽取:
先篩選releaseInfo 為正常上映和首映的數據,
再按年份分組,也就是date字段的前4位,

  • 對當日票房字段進行sum聚合得到年度總票房;
  • 對movieId字段去重 並求得出現次數 即為上映的影片總數;
  • 場均人數 * 排片場次 是當日觀影人次,再用sum求得年觀影人次。

構造圖像:
因為三類數據的x軸都是年份,所以可放在一張圖上展示,為了觀察更直觀,將其中一項數據作成柱狀圖,另外兩項做成折線圖。

  • 1、先構造折線圖圖,將票房和影片數量添加為y軸數據,年份為x軸數據。
  • 2、因為票房和上映影片數 在做完單位換算后,值域基本相同,所以可以共用一個y軸,而觀影人次則需要使用單獨的y軸,
    所以要添加一個新的y軸,並分別指定這三項數據的y軸索引,即票房和上映影片數 使用默認的y軸索 引為0,而觀影人次使用后添加的y軸,索引為1。
  • 3、再構造柱狀圖,y軸數據為觀影人次,x軸數據依然為年份,並指定y軸索引為1
  • 4、最后,將柱狀圖和折線圖重疊輸出,再簡單調整一下圖像位置即可。
config = {...}    # db配置省略
conn = pymysql.connect(**config)
cursor = conn.cursor()
sql2 = '''select substr(date,1,4), 
                 round(sum(boxInfo)/10000,2), 
                 count(DISTINCT movieId), 
                 round(sum(avgShowView*showInfo)/100000000,2) 
            from movies_data 
            where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='點映' ) 
            GROUP by substr(date,1,4)'''
cursor.execute(sql2)
data2 = cursor.fetchall()
x_data2 = [i[0] for i in data2]
y_data2_1 = [i[1] for i in data2]
y_data2_2 = [i[2] for i in data2]
y_data2_3 = [i[3] for i in data2]
cursor.close()
conn.close()


def bar_base() -> Line:
    c = (
        Line()
            .add_xaxis(x_data2)
            .add_yaxis("總票房", y_data2_1, yaxis_index=0)
            .add_yaxis("上映電影總數", y_data2_2, color='LimeGreen', yaxis_index=0, )
            .set_global_opts(title_opts=opts.TitleOpts(title="年票房總值、上映影片總數及觀影總人次"),
                             legend_opts=opts.LegendOpts(pos_left="40%"),
                             )
            .extend_axis(
            yaxis=opts.AxisOpts(name="票房/數量(億元/部)", position='left'))
            .extend_axis(
            yaxis=opts.AxisOpts(name="人次(億)", type_="value", position="right",  # 設置y軸的名稱,類型,位置
                                axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), ))
    )

    bar = (
        Bar()
            .add_xaxis(x_data2)
            .add_yaxis("觀影人次", y_data2_3, yaxis_index=2, category_gap="1%",
                       label_opts=opts.LabelOpts(position="inside"))

    )

    c.overlap(bar)
    return Grid().add(c, opts.GridOpts(pos_left="10%",pos_top='20%'), is_control_axis_index=True)  # 調整位置


bar_base().render("v2.html")

本圖可以看出:
(2019年數據下滑是因為統計時 2019年剛到10月下旬,還沒有得到一年完整的數據。)
1、上映影片數增長幅度不大,票房和觀影人次漲幅相近,因此票房逐年增長的最主要原因是觀影人次的增長,年平均票價應該變化不大。

圖3 單片總票房及日均票房

影片的上映期長短不一,這也影響了影片的票房情況,所以這張圖我們要看一下單片總票房和日均票房的情況。

config = {...}    # db配置省略
conn = pymysql.connect(**config)

cursor = conn.cursor()
sql2 = '''select a.*,b.releasemonth from 
            (select movieid,
                    moviename,
                    round(sum(boxinfo)/10000,2) sumBox,
                    count(movieid) releasedays,
                    round(sum(boxinfo)/count(movieid)/10000,2) avgdaybox
            from movies_data 
            where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='點映' ) 
            group by movieid,moviename) a ,
            (select substr(date,5,2) releasemonth,movieId,movieName,releaseInfo from movies_data where releaseInfo='上映首日') b
        where a.movieid = b.movieid  order by sumBox desc'''
cursor.execute(sql2)
data3 = cursor.fetchall()
x_data3 = [i[1] for i in data3[:30]]  # 名稱
y_data3_1 = [i[2] for i in data3[:30]]  # 總票房
y_data3_2 = [i[4] for i in data3[:30]]  # 日均票房
y_data3_3 = [int(i[5]) for i in data3[:30]]  # 上映月份
cursor.close()
conn.close()


def bar_base() -> Line:
    c = (
        Bar(init_opts=opts.InitOpts(height="600px", width="1500px"))
            .add_xaxis(x_data3)
            .add_yaxis("影片總票房", y_data3_1, yaxis_index=0)
            # .add_yaxis("影片日均票房", y_data3_2, yaxis_index=1, gap='-40%')
            .set_global_opts(title_opts=opts.TitleOpts(title="單片總票房及日均票房"),
                             xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-45)),
                             datazoom_opts=opts.DataZoomOpts(), )
            .set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不顯示柱體上的標注(數值)
                             markpoint_opts=opts.MarkPointOpts(
                                 data=[opts.MarkPointItem(type_="max", name="最大值"),
                                       opts.MarkPointItem(type_="min", name="最小值"), ]),)
            .extend_axis(
            yaxis=opts.AxisOpts(name="億元", position='left'))
            .extend_axis(
            yaxis=opts.AxisOpts(name="億元", type_="value", position="right",  # 設置y軸的名稱,類型,位置
                                axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), ))
    )

    bar = (
      Bar(init_opts=opts.InitOpts(height="600px", width="1500px"))
            .add_xaxis(x_data3)
            # .add_yaxis("影片總票房", y_data3_1, yaxis_index=0)
            .add_yaxis("影片日均票房", y_data3_2, yaxis_index=2, gap='-40%')
            .set_global_opts(title_opts=opts.TitleOpts(title="單片總票房及日均票房"),)
            .set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不顯示柱體上的標注(數值)
                             markpoint_opts=opts.MarkPointOpts(
                                 data=[opts.MarkPointItem(type_="max", name="最大值"),
                                       opts.MarkPointItem(type_="min", name="最小值"), ]),
                             markline_opts=opts.MarkLineOpts(
                                 data=[opts.MarkLineItem(type_="average", name="平均值"), ]
                             ),)

    )

    c.overlap(bar)
    return Grid().add(c, opts.GridOpts(pos_left="5%", pos_right="20%"), is_control_axis_index=True)  # 調整位置


bar_base().render("v3.html")

可以看出有的電影雖然總票房一般,但是日均票房很高,說明上映時間不長但卻很火爆。
而對於總票房很高,但日均票房一般的影片,可能是由於上映時間較長,后期較低的上座率拉低了日均票房。
所以看一個影片的火爆程度,總票房只是一方面,在相同上映時間內的上座率變化趨勢也很重要。

圖4 單片票房及上映月份關系圖

本圖相當於圖一的補充,主要是看一下高票房的影片和上映時間的關系


def dayformat(i):
    mm = int(i[-2])
    dd = int(i[-1])
    mmdd = mm + dd/100*3.3
    return mmdd

config = {...}    # db配置省略
conn = pymysql.connect(**config)

cursor = conn.cursor()
sql2 = '''select a.*,b.releaseyear,b.releasemonth,b.releaseday from 
            (select movieid,
                    moviename,
                    round(sum(boxinfo)/10000,2) sumBox,
                    count(movieid) releasedays,
                    round(sum(boxinfo)/count(movieid)/10000,2) avgdaybox
            from movies_data 
            where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='點映' ) 
            group by movieid,moviename) a ,
            (select substr(date,1,4) releaseyear,
                    substr(date,5,2) releasemonth,
                    substr(date,7,2) releaseday,
                    movieId,
                    movieName,
                    releaseInfo 
                from movies_data where releaseInfo='上映首日') b
        where a.movieid = b.movieid  order by sumBox desc'''

cursor.execute(sql2)
data4 = cursor.fetchall()

x_data4 = [i for i in range(1, 13)]
y_data4_1 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2011']
y_data4_2 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2012']
y_data4_3 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2013']
y_data4_4 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2014']
y_data4_5 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2015']
y_data4_6 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2016']
y_data4_7 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2017']
y_data4_8 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2018']
y_data4_9 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2019']
cursor.close()
conn.close()

my_config = pygal.Config()  # 創建Config實例
my_config.show_y_guides = False  # 隱藏水平虛線
my_config.show_x_guides = True
xy_chart = pygal.XY(stroke=False, config=my_config)
xy_chart.title = '單片票房及上映月份關系圖'

xy_chart.add('2011', y_data4_1)
xy_chart.add('2012', y_data4_2)
xy_chart.add('2013', y_data4_3)
xy_chart.add('2014', y_data4_4)
xy_chart.add('2015', y_data4_5)
xy_chart.add('2016', y_data4_6)
xy_chart.add('2017', y_data4_7)
xy_chart.add('2018', y_data4_8)
xy_chart.add('2019', y_data4_9)


xy_chart.render_to_file("v4.svg")

上一部分《【python數據分析實戰】電影票房數據分析(一)數據采集》


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM