爬虫豆瓣电影top250代码数据分析PPT
在本文中,我们将使用Python的requests库和BeautifulSoup库来爬取豆瓣电影top250的数据,并使用pandas库进行数据分析。首先...
在本文中,我们将使用Python的requests库和BeautifulSoup库来爬取豆瓣电影top250的数据,并使用pandas库进行数据分析。首先,我们需要导入所需的库:然后,我们定义一个函数来爬取豆瓣电影top250的数据:接下来,我们将使用定义的函数来获取豆瓣电影top250的数据,并使用pandas库进行数据分析:通过对电影的评分和导演进行基本的统计分析,我们可以得到以下结果:统计电影评分分布df['Rating'].hist()plt.title('Distribution of Movie Ratings')plt.xlabel('Rating')plt.ylabel('Frequency')plt.show()统计导演出现次数df['Director'].value_counts().sort_values(ascending=False).head(10)我们可以看到,豆瓣电影top250中,评分主要集中在8-10分之间,而导演中李安、卡梅隆、斯皮尔伯格等大牌导演的作品占据了相当一部分比例。接下来,我们可以对电影标题进行文本分析,以了解哪些词或短语在标题中出现频率较高:对电影标题进行文本分析from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer()X = vectorizer.fit_transform(df['Title'])top_terms = vectorizer.get_feature_names_out()[:10]print(pd.DataFrame(X.toarray(), columns=top_terms))