Data Science是一个专注于分析、整理和理解数据的领域,并利用统计学、机器学习和人工智慧等技术,以提取出有价值的知识或信号。这些知识或信号可以帮助企业或组织做出决策或改进产品或服务,或者帮助学术界更深入地研究某一特定领域。
例如,在零售业中,Data Science可以帮助企业了解产品的销售状况、顾客消费行为和趋势等,进而帮助企业制定更有效的营销策略和库存管理。在医疗领域中,Data Science可以帮助医生和研究人员更好地理解疾病发展和预测患者的疗效,以便制定更好的治疗方案。在社交媒体行业中,Data Science可以帮助公司更好地了解使用者的偏好和互动模式,从而设计更适合他们的服务。
总之,Data Science可以应用在各种不同的领域,通过数据分析和建模,分析并了解现象背后的规律,从而为企业或学术研究提供宝贵的洞察和启示。
答案:下方為 Python 程式碼示範:
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
#讀入鳶尾花資料集
X = load_iris().data
#使用 KMeans 演算法進行分群(4 組)
kmeans = KMeans(n_clusters=4, random_state=0).fit(X)
#列印出每個群組的中心點座標
print(kmeans.cluster_centers_)
答案:下方為 Python 程式碼示範:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
#讀入鳶尾花資料集
X = load_iris().data
#使用 KMeans 演算法進行分群(4 組)
kmeans = KMeans(n_clusters=4, random_state=0).fit(X)
#計算每個群組的平均值
means = [np.mean(X[kmeans.labels_ == i], axis=0) for i in range(kmeans.n_clusters)]
#計算每個群組的中位數
medians = [np.median(X[kmeans.labels_ == i], axis=0) for i in range(kmeans.n_clusters)]
#計算每個群組的標準差
std_dev = [np.std(X[kmeans.labels_ == i], axis=0) for i in range(kmeans.n_clusters)]
#列印出計算結果
print("群組平均值:\n", means)
print("群組中位數:\n", medians)
print("群組標準差:\n", std_dev)
答案:下方為 Python 程式碼示範:
import pandas as pd
#讀入鐵達尼號資料集
titanic = pd.read_csv('titanic.csv')
#計算男性生存率
male_survival = titanic.loc[titanic['Sex'] == 'male', 'Survived'].mean()
#計算女性生存率
female_survival = titanic.loc[titanic['Sex'] == 'female', 'Survived'].mean()
#將結果以百分比呈現
print("男性生存率:{:.2f}%".format(male_survival*100))
print("女性生存率:{:.2f}%".format(female_survival*100))
答案:下方為 Python 程式碼示範:
import pandas as pd
#讀入鐵達尼號資料集
titanic = pd.read_csv('titanic.csv')
#計算票價平均值
mean_fare = titanic['Fare'].mean()
#計算票價中位數
median_fare = titanic['Fare'].median()
#計算票價標準差
std_dev_fare = titanic['Fare'].std()
#取得票價的最大和最小值
min_fare = titanic['Fare'].min()
max_fare = titanic['Fare'].max()
#列印出計算結果
print("票價平均值:", mean_fare)
print("票價中位數:", median_fare)
print("票價標準差:", std_dev_fare)
print("票價最大值:", max_fare)
print("票價最小值:", min_fare)
答案:下方為 Python 程式碼示範:
import pandas as pd
#讀入測驗數據集
scores = pd.read_csv('scores.csv')
#選出男生中數學分數最高的 10 名
male_top_10 = scores.loc[scores['gender'] == 'male', 'math score'].nlargest(10)
#選出女生中數學分數最高的 10 名
female_top_10 = scores.loc[scores['gender'] == 'female', 'math score'].nlargest(10)
#計算男生的平均分數
male_mean = male_top_10.mean()
#計算女生的平均分數
female_mean = female_top_10.mean()
#列印出計算結果
print("男生數學分數前十名的平均分數:", male_mean)
print("女生數學分數前十名的平均分數:", female_mean)
以上皆為示範題目,請讀者自行思考和練習其他題目。