本篇文章1088字,讀完約3分鐘

阿里云國(guó)際站經(jīng)銷商,主營(yíng)阿里云,騰訊云,華為云,亞馬遜aws,谷歌云gcp,微軟云az,免費(fèi)開戶,代充值優(yōu)惠大,聯(lián)系客服飛機(jī)@jkkddd

Kafka數(shù)據(jù)遷移MaxCompute最佳實(shí)踐

步驟一:準(zhǔn)備Kafka數(shù)據(jù)
您需要在Kafka集群創(chuàng)建測(cè)試數(shù)據(jù)。為保證您可以順利登錄EMR集群Header主機(jī),以及保證MaxCompute和DataWorks可以順利和EMR集群Header主機(jī)通信,請(qǐng)您首先配置EMR集群Header主機(jī)安全組,放行TCP 22及TCP 9092端口。
登錄EMR集群Header主機(jī)地址。
進(jìn)入EMR Hadoop控制臺(tái)。
在頂部導(dǎo)航欄,單擊集群管理。
在顯示的頁(yè)面,找到您需要?jiǎng)?chuàng)建測(cè)試數(shù)據(jù)的集群,進(jìn)入集群詳情頁(yè)。
在集群詳情頁(yè)面,單擊主機(jī)列表,確認(rèn)EMR集群Header主機(jī)地址,并通過(guò)SSH連接遠(yuǎn)程登錄。
創(chuàng)建測(cè)試Topic。
執(zhí)行如下命令創(chuàng)建測(cè)試所使用的Topic testkafka。
寫入測(cè)試數(shù)據(jù)。
執(zhí)行如下命令,可以模擬生產(chǎn)者向Topic testkafka中寫入數(shù)據(jù)。由于Kafka用于處理流式數(shù)據(jù),您可以持續(xù)不斷的向其中寫入數(shù)據(jù)。為保證測(cè)試結(jié)果,建議寫入10條以上的數(shù)據(jù)。
步驟二:在DataWorks上創(chuàng)建目標(biāo)表
在DataWorks上創(chuàng)建目標(biāo)表用以接收Kafka數(shù)據(jù)。
進(jìn)入數(shù)據(jù)開發(fā)頁(yè)面。
登錄DataWorks控制臺(tái)。
在左側(cè)導(dǎo)航欄,單擊工作空間列表。
單擊相應(yīng)工作空間后的數(shù)據(jù)開發(fā)。
右鍵單擊業(yè)務(wù)流程,選擇新建表 > MaxCompute > 表。
在彈出的新建表對(duì)話框中,填寫表名稱,并單擊新建。
步驟三:同步數(shù)據(jù)
新建獨(dú)享數(shù)據(jù)集成資源組。
由于當(dāng)前DataWorks的默認(rèn)資源組無(wú)法完美支持Kafka插件,您需要使用獨(dú)享數(shù)據(jù)集成資源組完成數(shù)據(jù)同步。詳情請(qǐng)參見新增和使用獨(dú)享數(shù)據(jù)集成資源組。
新建數(shù)據(jù)集成節(jié)點(diǎn)。
進(jìn)入數(shù)據(jù)開發(fā)頁(yè)面,右鍵單擊指定業(yè)務(wù)流程,選擇新建節(jié)點(diǎn) > 數(shù)據(jù)集成 > 離線同步。
在新建節(jié)點(diǎn)對(duì)話框中,輸入節(jié)點(diǎn)名稱,并單擊確認(rèn)。
在頂部菜單欄上,單擊轉(zhuǎn)化腳本圖標(biāo)。
在腳本模式下,單擊頂部菜單欄上的**圖標(biāo)。
后續(xù)步驟
您可以新建一個(gè)數(shù)據(jù)開發(fā)任務(wù)運(yùn)行SQL語(yǔ)句,查看當(dāng)前表中是否已存在從云消息隊(duì)列 Kafka 版同步過(guò)來(lái)的數(shù)據(jù)。本文以select * from testkafka為例,具體步驟如下:
登錄DataWorks控制臺(tái),單擊左側(cè)導(dǎo)航欄的數(shù)據(jù)建模與開發(fā) > 數(shù)據(jù)開發(fā),在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入數(shù)據(jù)開發(fā)。
在臨時(shí)查詢面板,右鍵單擊臨時(shí)查詢,選擇新建節(jié)點(diǎn) > ODPS SQL。
在新建節(jié)點(diǎn)對(duì)話框中,輸入名稱。

標(biāo)題:阿里云代理商賬號(hào)購(gòu)買,阿里云國(guó)際站

地址:http://www.tantricheartwheels.com/kfxw/64160.html