大三課堂測試總結20191113

2022-09-23 01:42:00 字數 1733 閱讀 1929

1、資料清洗:按照進行資料清洗,並將清洗後的資料匯入hive資料庫中。

2、資料處理:

·按照地市統計最受歡迎的top10課程 (ip)

·按照流量統計最受歡迎的top10課程 (traffic)

3、資料視覺化:將統計結果倒入mysql資料庫中,通過圖形化展示的方式展現出來。

本次測試的結果並不是很理想,hive裝的匆忙,導致在測試的時候啟動總是有問題,耽擱了很長的時間。

解答過程:

1.首先是對老師提供的資料進行清洗,通過我們可以看出

所以決定在map的過程中解決這三個事情,完成提取。

public

map將輸入中的value複製到輸出資料的key上,並直接輸出

else

string datayear=datatemp[2].substring(0,4);

string datatime=datatemp[2].substring(5,13);

string newdata=datayear+"-"+datatemp[1]+"-"+datatemp[0]+" "+datatime;

//traffic

string traffic=arr[3].replace(" ", "");

//**型別

string type=arr[4];

//id

string id=arr[5];

//整合key

//string sum="ip:"+arr[0]+",date:"+newdata+",day:"+arr[2]+",traffice:"+traffic+",type:"+type+",id:"+id;

string sum=arr[0]+","+newdata+","+arr[2]+","+traffic+","+type+","+id;

//只填寫key值,value值使用nullwrite型別代替

context.write(new

text(sum), nullwritable.get());

} }

然後再hdfs中檢視提取的結果:已經達到了要求

然後開啟hive,將hdfs上的檔案匯入到hive中。首先我們需要建立相應的表:

使用匯入語句(在匯入的過程中,hdfs上的檔案會因此被移走):load data inpath '/user/superman/input/newresult.txt' into table test1113 partition(create_time='2019-11-13');

檢視結果:

可以看到已經匯入到hive中。