我用Python爬取美食網站菜譜並分析,真香!

這是鉅變的中國,人和食物,比任何時候走的更快。近日,J哥為了尋味中國,奔走於某五線城市的大街小巷,結果除了累,啥也沒尋到。

於是,J哥默默打開了各大美食網站,如豆果美食、下廚房、美食天下等。經過甄選,最終爬取了豆果網最新發布的中國菜系共3032個菜譜,然後清洗資料並做視覺化分析,試圖走上美食博主的康莊大道。

資料獲取

豆果美食網的資料爬取比較簡單,如果您對爬蟲感興趣,可以看一看。

豆果美食網

本次爬取的資料範圍為川菜、粵菜、湘菜等八個中國菜系,包含菜譜名、連結、用料、評分、圖片等欄位。限於篇幅,僅給出核心程式碼。

爬蟲核心程式碼

資料清洗

短短几分鐘就爬下了3032個菜譜資訊,為了方便視覺化分析,還需要對爬取的資料進行簡單清洗。

本文資料清洗主要用到Python的Pandas庫。

匯入資料

用pd。read方法匯入爬取到的菜譜資料,並新增列名。預覽資料如下:

刪除重複項

爬蟲過程中少量菜譜資料被重複抓取,需要用drop_duplicates方法刪除。

缺失值處理

透過info方法發現少量記錄含有缺失值,用dropna

方法刪除。

評分欄位清洗

爬取的評分欄位含有多餘的字串且為object型別,需要替換多餘字串並轉換為數字型別,方便後續計算。

新增用料數字段

為方便菜譜用料分析,需要根據用料欄位計算出每個菜譜的用料數量。由於用料欄位都是以逗號分隔,計算逗號數即可間接得到。

資料視覺化

本文資料視覺化主要

用到pyecharts庫,它能輕鬆實現酷炫的圖表效果。如果您對視覺化感興趣,

可檢視J哥往期原創文章

「資料視覺化分析系列」

,涉及地產、電商、招聘等各領域

菜譜評分分佈

玫瑰圖程式碼

菜譜評分分佈玫瑰圖

豆果美食網菜譜評分實行5分制。由上圖可知,4分以下的菜譜佔比不到2%,滿分菜譜高達32。6%,可見

使用者對中國菜系菜譜評價普遍較高

各菜系菜譜數量對比

餅圖程式碼

各菜系菜譜數量佔比餅圖

由上圖可知,川菜和粵菜菜譜數量較多,顯示出作為中國“八大菜系”成員的地位。湖北菜和清真菜菜譜數量較少,相對更為小眾。

各菜系評分對比

環狀圖程式碼

各菜系平均評分環狀圖

由上圖可知,各菜系評分非常接近,使用者平均評分都在4。6分以上。相對一致的評分,導致透過使用者評分來評價菜譜的可信度降低。

各菜系用料數量對比

柱狀圖程式碼

各菜系用料數量柱狀圖

由上圖可知,川菜和東北菜用料較足。川菜素有

取材廣泛、調味多、菜式多樣

等特點,雖然東北菜沒有排在傳統的“八大菜系”中,但豪邁熱情的東北人從不吝嗇菜餚裡的用料。

粵菜更注重菜品的原味鮮香,具有

清、鮮、爽、嫩、滑等特色,因此用料相對更少。清真

飲食風俗源於伊斯蘭教

,部分食材屬於禁忌物,因此用料也不多。

川菜用料分析

詞雲圖程式碼

川菜用料詞雲圖

由川菜用料詞雲圖可知,川菜主要用料包括花椒、豆瓣醬和幹辣椒。不怕辣的四川人喜好種植花椒,四川火鍋也因為有了花椒的加入更有吸引力,千千萬萬的海內外尋味者奔湧相隨。

很多小夥伴在學習python的時候總會遇到一些問題和瓶頸,沒有方向感,不知道該從哪裡入手去提升,對此我整理了一些資料,希望能夠去幫助到小夥伴們,可以關注小編,並在後臺私信小編:“資料”即可領取

宣告

1。本資料分析只做學習研究之用途,提供的結論僅供參考,美食的烹飪涉及的影響因素還有很多,請獨立思考;

2。作者對傳統美食文化了解甚微,相關描述可能存在不盡完善之處,請勿對號入座。

相關文章