🧄Python探索性数据分析畅销书
Python | 探索性数据分析(EDA) | Pandas | NumPy | seaborn | Matplotlib | 自然语言工具包 | NLTK | scikit-learn | 数据集
探索性数据分析
探索性数据分析(EDA)是一种分析和调查数据集以了解数据特征的方法。在这个研究案例中,我们将使用来自 Kaggle 的数据集,亚马逊 2009-2019 年畅销书 50 强来制作一个简单的 EDA 故事 -2019)。 在此,我们想了解亚马逊畅销书的性质,以了解 2009-2019 年用户对阅读的偏好。
01234 Name 10-Day Green Smoothie Cleanse 11/22/63: A Novel 12 Rules for Life: An Antidote to Chaos 1984 (Signet Classics) 5,000 Awesome Facts (About Everything!) (Natio... Author J Smith Stephen King Jordan B. Peterson George Orwell National Geographic Kids User Rating 4.74.64.74.74.8 Reviews 17350205218979214247665 Price 82215612 Year 20162011201820172019 Genre Non Fiction Fiction Non Fiction Fiction Non Fiction
数据集
查看数据集示例,有许多与 2009 年至 2019 年在亚马逊销售的畅销书的标题和作者相关的信息。 除了标题和作者之外,数据中还有其他元素,例如用户评分、评论、价格、年份和书籍类型。
Count Mean Std Min 25%50%75% Max Price 55013.110.84071116105 Reviews 55011953.2811731.13374058858017253.2587841 User Rating 5504.610.223.34.54.74.84.9
Python 分析数据集
数值数据行为
简述:使用Python探索畅销图书的评价和评分,直方图显示。
#distribution type books that goes hits by year (fiction / non fiction )
df_books = df.groupby(['Genre','Year']).agg({'Name':'nunique'}).reset_index()
ax = sns.barplot(x="Year", y="Name", hue='Genre', data=df_books)
sns.set(rc={'figure.figsize':(15,9)})
ax.set(xlabel='Year', ylabel='Total Books')
autolabel(ax.patches, labels= df_books.Name, height_factor=1.02)
ax.legend(loc=1, bbox_to_anchor=(1.0,1.1))
plt.title('Distribution of Total Books by Genre per Year') # Set the title
简述:Python 呈现畅销图书的价格密度图。利用箱线图分析来查看畅销书价格和评级每年的均值和中位数分布。创建每年总评论的可视化。创建基于总评论的密集排名作者。使用词云探索畅销书的标题数据。
源代码和数据集
Last updated