kaggle
Kaggle公司由联合创始人兼首席执行官LCDZC于2010年在墨尔本创立,主要为开发者和数据科学家提供举办机器学习竞赛、承载数据库、编写代码和共享的平台。 如今,kaggle已成为机器学习爱好者和学习者的必备网站,并有很多非常好的kernel和文章帮助机器学习和数据分析学习者快速成长。
房价预测
房价预测house prices )这场比赛已经成为国安格格尔队新人比赛中最受欢迎的比赛,目前有5700支球队参加。 足以体现这场比赛的魅力和竞争力,参加这次比赛主要需要做两个特点的工程,建立预测房价的回归模型。
数据介绍
整个数据包含2919个数据,其中包括1460个培训数据和1459个测试数据。 培训数据用于培训模型,测试数据用于评估模型的效果。 每个数据包含81个特征,特征包括字符型特征和数值型特征,而特征包括许多空值和一些异常值,从而也体现了这场比赛的难度。
评估标准我们需要利用训练数据建立回归模型,利用测试数据中的80个特征预测相应的房价。 评估标准采用均方根RMSE )预测房价与实际房价的log对数,计算公式如下
评价指标
提出预测结果后,系统根据该评价指标计算分数
排名
最近,在国安谷歌上突然发现得分为0.0的队伍增加了,通过学习的心情理解了一些事情。 我想看看这些大神是怎么做的
房价预测排名
代码
最终找到了在kaggle上取得0.0成绩的文章。 获得这个成绩的理由本来是因为数据泄露。 接下来共享相关代码
数据下载地址: https://www.ka ggle.com/prevek 18/Ames-housing-dataset
导入手册as PD
导入tqdm
#读取遗漏的数据
data=PD.read _ CSV ./data/Ames housing.CSV ) ) ) ) ) ) ) ) )。
DATA.drop[‘PID’],axis=1,inplace=True ) )。
#读取官方提供的数据
train _ data=PD.read _ CSV ./data/train.CSV ) ) ) ) ) )。
data.columns=train _ data.columns
test _ data=PD.read _ CSV ./data/test.CSV ) ) )。
submission _ data=PD.read _ CSV ‘ ./data/sample _ submission.CSV ‘ ) )
printdata: ,train:{} )、test: )、format )、data.shape、train_data.shape、test_data.shape
#删除丢失的数据
miss=test_data.isnull ).sum ) )。
miss=miss[miss 0]
DATA.dropmiss.index,axis=1,inplace=True ) )。
DATA.drop[‘electrical’],axis=1,inplace=True ) )。
test_data.dropnaaxis=1,inplace=True ) )。
test_data.drop[‘electrical’],axis=1,inplace=True ) )。
forIinTQDM.trange0,Len ) test_data ) :
forjinrange0,Len ) data ) :
forkinrange1,Len ) test_data.columns ) ) :
if test_data.iloc[i,k]==data.iloc[j,k]:
连续
else:
布雷克
else:
submission_data.iloc[i,1]=data.iloc[j,-1]
布雷克
submission _ data.to _ CSV submission.CSV )、index=False )
总结
上的代码只能用于娱乐,不建议学习。 如果真的想在这场比赛中取得好成绩,还是需要好好学习,做好数据分析,做好特色工程。
168飞艇6种不亏钱的方法 )、format )、data.shape、train_data.shape、test_data.shape
#删除丢失的数据
miss=test_data.isnull ).sum ) )。
miss=miss[miss 0]
DATA.dropmiss.index,axis=1,inplace=True ) )。
DATA.drop[‘electrical’],axis=1,inplace=True ) )。
test_data.dropnaaxis=1,inplace=True ) )。
test_data.drop[‘electrical’],axis=1,inplace=True ) )。
forIinTQDM.trange0,Len ) test_data ) :
forjinrange0,Len ) data ) :
forkinrange1,Len ) test_data.columns ) ) :
if test_data.iloc[i,k]==data.iloc[j,k]:
连续
else:
布雷克
else:
submission_data.iloc[i,1]=data.iloc[j,-1]
布雷克
submission _ data.to _ CSV submission.CSV )、index=False )
总结
上的代码只能用于娱乐,不建议学习。 如果真的想在这场比赛中取得好成绩,还是需要好好学习,做好数据分析,做好特色工程。