🧄Python探索性数据分析畅销书
Python | 探索性数据分析(EDA) | Pandas | NumPy | seaborn | Matplotlib | 自然语言工具包 | NLTK | scikit-learn | 数据集
探索性数据分析
探索性数据分析(EDA)是一种分析和调查数据集以了解数据特征的方法。在这个研究案例中,我们将使用来自 Kaggle 的数据集,亚马逊 2009-2019 年畅销书 50 强来制作一个简单的 EDA 故事 -2019)。 在此,我们想了解亚马逊畅销书的性质,以了解 2009-2019 年用户对阅读的偏好。
数据集
查看数据集示例,有许多与 2009 年至 2019 年在亚马逊销售的畅销书的标题和作者相关的信息。 除了标题和作者之外,数据中还有其他元素,例如用户评分、评论、价格、年份和书籍类型。
Python 分析数据集
数值数据行为
简述:使用Python探索畅销图书的评价和评分,直方图显示。
#distribution type books that goes hits by year (fiction / non fiction )
df_books = df.groupby(['Genre','Year']).agg({'Name':'nunique'}).reset_index()
ax = sns.barplot(x="Year", y="Name", hue='Genre', data=df_books)
sns.set(rc={'figure.figsize':(15,9)})
ax.set(xlabel='Year', ylabel='Total Books')
autolabel(ax.patches, labels= df_books.Name, height_factor=1.02)
ax.legend(loc=1, bbox_to_anchor=(1.0,1.1))
plt.title('Distribution of Total Books by Genre per Year') # Set the title简述:Python 呈现畅销图书的价格密度图。利用箱线图分析来查看畅销书价格和评级每年的均值和中位数分布。创建每年总评论的可视化。创建基于总评论的密集排名作者。使用词云探索畅销书的标题数据。
源代码和数据集
PreviousAnaconda_Python视觉项目TensorFlow_scikit-learn和OpenCV及其Raspberry Pi雾计算NextD3交互式可视化Python自然语言工具包命名实体识别
Last updated
Was this helpful?