CDH設(shè)置HDFS靜態(tài)數(shù)據(jù)加密
CDH設(shè)置HDFS靜態(tài)數(shù)據(jù)加密
加密是使用數(shù)字密鑰對各種組件進(jìn)行編碼的過程,因此只有適當(dāng)?shù)膶?shí)體才能進(jìn)行解碼,然后查看,修改或添加到數(shù)據(jù)中。 CDH提供了加密機(jī)制來保護(hù)持久保存在磁盤或其他存儲介質(zhì)上的數(shù)據(jù)(以及在**上移動時的數(shù)據(jù))。
保護(hù)靜止數(shù)據(jù)通常意味著對存儲在磁盤上的數(shù)據(jù)進(jìn)行加密,并允許授權(quán)用戶和進(jìn)程在手頭的應(yīng)用程序或任務(wù)需要時解密數(shù)據(jù)。
對于靜態(tài)數(shù)據(jù)加密,必須分發(fā)和管理加密密鑰,應(yīng)定期旋轉(zhuǎn)或更改密鑰,并且許多其他因素使該過程復(fù)雜化。 Cloudera Navigator Key Trustee Server 使用的企業(yè)級密鑰存儲和管理系統(tǒng),它將加密密鑰與數(shù)據(jù)分離,從而確保即使未經(jīng)授權(quán)的用戶訪問存儲介質(zhì),數(shù)據(jù)也受到保護(hù)。它使您的集群能夠滿足最嚴(yán)格的數(shù)據(jù)安全規(guī)定。此外,Navigator密鑰托管服務(wù)器可以與硬件安全模塊(HSM)集成,為密鑰提供***別的安全性。
Navigator HSM KMS backed by Thales HSM Navigator HSM KMS backed by Luna HSM (上面三個需要認(rèn)證證書,我不用) 基于文件且受密碼保護(hù)的 Java KeyStore 使用Java keytool庫進(jìn)行加密 ?。。∽⒁猓哼@里特別說明一下 這部分**使用ip,不要使用hostname,之前使用的是hostname,導(dǎo)致后面有一步認(rèn)證過不去,注意一下。
hadoop hue配置文件怎樣設(shè)置加密密碼
ue是一個開源的Apache Hadoop UI系統(tǒng),最早是由Cloudera Desktop演化而來,由Cloudera貢獻(xiàn)給開源社區(qū),它是基于Python Web框架Django實(shí)現(xiàn)的。通過使用Hue我們可以在瀏覽器端的Web控制臺上與Hadoop集群進(jìn)行交互來分析處理數(shù)據(jù),例如操作HDFS上的數(shù)據(jù),運(yùn)行MapReduce Job等等。
oracle用PDB的管理用戶登錄后需要密碼
sqlplus sys@pdborcl assysdba ;這是12的那這個和11g 10g 的有什么區(qū)別?pdborcl 這個是連接串,不是pdb的表示符,所以輸入密碼是正常的。pdborcl 這個里配的是pdb的連接。
如何向 hadoop 導(dǎo)入數(shù)據(jù)
如何向 hadoop 導(dǎo)入數(shù)據(jù) 1.2 使用Hadoop shell命令導(dǎo)入和導(dǎo)出數(shù)據(jù)到HDFS 實(shí)驗(yàn)準(zhǔn)備 實(shí)例需要用到的數(shù)據(jù)-weblog_entries.txt 在namenode創(chuàng)建2個文件夾用來存放實(shí)驗(yàn)用的數(shù)據(jù) mkdir /home/data 1 mkdir /home/data_download1 將weblog_entries.txt上傳到namenode里的/home/data文件夾(我使用SecureFXPortable.exe 工具) 注:以下命令都是在namenode節(jié)點(diǎn)運(yùn)行的 實(shí)驗(yàn)過程 1.在HDFS中創(chuàng)建一個新的文件夾,用于保存weblog_entries.txt hadoop fs -mkdir /data/weblogs1 2.將weblog_entries.txt文件從本地文件系統(tǒng)**到HDFS剛創(chuàng)建的新文件夾下 cd /home/data1 hadoop fs -copyFromLocal weblog_entries.txt /data/weblogs1 3.列出HDFS上weblog_entries.txt文件的信息: hadoop fs –ls /data/weblogs/weblog_entries.txt 1 4.將HDFS上的weblog_entries.txt文件**到本地系統(tǒng)的當(dāng)前文件夾下 cd /home/data_download1 hadoop fs -copyToLocal /data/weblogs/weblog_entries.txt ./weblog_entries.txt 1 **用 ls 命令檢驗(yàn)下時候?qū)eblog_entries.txt 下載到本地 如何向oracle 10g數(shù)據(jù)庫導(dǎo)入數(shù)據(jù) Oracle 11g數(shù)據(jù)導(dǎo)入到10g 一、在11g服務(wù)器上,使用expdp命令備份數(shù)據(jù) 11g 導(dǎo)出語句:EXPDP USERID=\’facial/facial@orcl as sysdba\’ schemas=facialdirectory=DATA_PUMP_DIR dumpfile=test.dmp logfile=test.log version=10.2.0.1.0 二、在10g服務(wù)器上,使用impdp命令恢復(fù)數(shù)據(jù) 準(zhǔn)備工作:1.建庫2.建表空間3.建用戶并授權(quán)4.將test.dmp拷貝到10g的dpdump目錄下 –創(chuàng)建表空間 create tablespace TS_Facial datafile \’E:\\ORACLE\\PRODUCT\\10.2.0\\ORADATA\\ORCL\\Facial.DBF\’ size 500M autoextend on next 50M; –創(chuàng)建用戶 create user Facial identified by Facial default tablespace TS_Facial; –授權(quán)給用戶 grant connect,resource,dba to Facial; test.dmp 和 test.log 放在E:\\oracle\\product\\10.2.0\\admin\\orcl\\dpdump目錄下 10g 導(dǎo)入語句:IMPDP USERID=\’facial/facial@orcl as sysdba\’ schemas=facialdirectory=DATA_PUMP_DIR dumpfile=test.dmp logfile=test.log version=10.2.0.1.0 如何向mongodb分片集群導(dǎo)入數(shù)據(jù) 下載mongoDB(mongoDB****),筆者使用的是mongoDB 2.0.4的Linux 64-bit版本。 解壓:tar xzf mongo.tgz 默認(rèn)情況下,mongoDB將數(shù)據(jù)存儲在/data/db目錄下,但它不會自動創(chuàng)建該目錄,所以我們需要手動創(chuàng)建它: $ sudo mkdir -p /data/db/ $ sudo chown `id -u` /data/db 也可以使用–dbpath參數(shù)來指定別的數(shù)據(jù)庫目錄。
如果只是想在單機(jī)上測試一下mongoDB的話,非常簡單,首先啟動MongoDB server, $ ./mongodb-xxxxxxx/bin/mongod 在另外一個終端,連接到我們啟動的server: $ ./mongodb-xxxxxxx/bin/mongo > db.foo.save( { a : 1 } ) > db.foo.find() 如何向clementine12.0中導(dǎo)入數(shù)據(jù)庫數(shù)據(jù) 在resources找到database節(jié)點(diǎn)連上去就可以,之后按照你的用戶名和密碼填好就可以,但是在之前要配置數(shù)據(jù)庫。
如何向sql server2008中導(dǎo)入數(shù)據(jù)庫 打開SQL Server Management Studio,在對象資源管理器中,展開“SQL Server 實(shí)例”→“數(shù)據(jù)庫”→“MySchool”節(jié)點(diǎn),單擊鼠標(biāo)右鍵,選擇“任務(wù)”→“導(dǎo)出數(shù)據(jù)”命令。出現(xiàn)導(dǎo)入和導(dǎo)出向?qū)У臍g迎界面,單擊“下一步”按鈕,出現(xiàn)“選擇數(shù)據(jù)源”對話框,如圖 在“選擇數(shù)據(jù)源”對話框中設(shè)置如下選項(xiàng): 數(shù)據(jù)源:SQL Native Client 10.0。 服務(wù)器名稱:DC。 身份驗(yàn)證:Windows身份驗(yàn)證。
數(shù)據(jù)庫:MySchool。 單擊“下一步”按鈕,出現(xiàn)“選擇目標(biāo)”對話框,設(shè)置如下選項(xiàng)(如圖所示): 目標(biāo):平面文件目標(biāo)。 文件名:C:\\student.txt。
格式:帶分隔符。 單擊“下一步”按鈕,出現(xiàn)“指定表**或查詢”對話框,如圖所示。 在“指定表**或查詢”對話框中選中“**一個或多個表或視圖的數(shù)據(jù)”單選按鈕,單擊“下一步”按鈕,出現(xiàn)“配置平面文件目標(biāo)”對話框,如圖所示。
設(shè)置源表或源視圖為MySchool.dbo.student,單擊“下一步”按鈕。 在“保存并執(zhí)行包”對話框中選中“立即執(zhí)行”復(fù)選框,如圖所示,然后單擊“下一步”按鈕。 在如圖所示的對話框中單擊“完成”按鈕。
如圖所示,當(dāng)執(zhí)行完后,單擊“關(guān)閉”按鈕。 8 在Windows資源管理器中打開C:\\student.txt文件,驗(yàn)證導(dǎo)出的結(jié)果。 如何導(dǎo)入數(shù)據(jù) 工具/原料 sql2008 方法/步驟 登錄sql2008數(shù)據(jù)庫,其實(shí)其他版本的數(shù)據(jù)庫也是一樣的原理 使用windows賬戶登錄,登錄成功之后打開資源管理器窗口 在數(shù)據(jù)庫上單擊右鍵,選擇【新建數(shù)據(jù)庫】 在彈出的新建數(shù)據(jù)庫窗口中,輸入數(shù)據(jù)庫名字【test】然后點(diǎn)擊確定 數(shù)據(jù)庫【test】新建完成,在數(shù)據(jù)庫上單擊右鍵,選擇【任務(wù)】【導(dǎo)入數(shù)據(jù)】 彈出導(dǎo)入數(shù)據(jù)向?qū)?,選擇下一步 數(shù)據(jù)源選擇【Excel】,文件路徑選擇我們需要導(dǎo)入的文件 目標(biāo)數(shù)據(jù)庫選擇我們剛才新建的【test】數(shù)據(jù)庫,其他保存默認(rèn)不變,一直單擊【下一步】 勾選我們需要導(dǎo)入的Excel表,如圖所示,然后單擊下一步,完成 開始導(dǎo)入數(shù)據(jù),如圖所示,成功導(dǎo)入,點(diǎn)擊【關(guān)閉】 這樣我們就導(dǎo)入了Excel中的數(shù)據(jù) 如何從linux向dbeaver導(dǎo)入數(shù)據(jù) 1、右擊新建連接 2、選擇Oracle 3、將要填的數(shù)據(jù)都填好了,下拉框選sid,點(diǎn)測試,通過就ok了 4、狂點(diǎn)下一步,**完成。 注:無需安裝oracle客戶端。
只有這個dbeaver就可以,只是需要個驅(qū)動包這個不用說。不會加驅(qū)動可以追問 如何從EXCEL向MATLAB導(dǎo)入數(shù)據(jù) 首先把excel文件放在work文件夾里,假設(shè)文件名為a.xls。 然后在matlab命令窗口輸入a=xlsread(\’a.xls\’); 此時,a矩陣即為exel里對應(yīng)的數(shù)據(jù) 使用Matlab中的Excel Link就可以了。 如果使用Excel 2003版本,操作如下: 1 打開Excel。
2 在菜單欄中選擇工具→加載項(xiàng)→瀏覽。 3 在Matlab的安裝目錄下打開toolbox\\exlink文件夾,選擇EXCLLINK.XLA,點(diǎn)擊確認(rèn)。 4 自動回到加載項(xiàng)對話框后,確保對話框中有“Excel Link”,選中后點(diǎn)擊確認(rèn)按鈕即可,菜單欄中自動添加了Matlab加載項(xiàng)。 5 使用其中的putmatrix,既可以將數(shù)據(jù)導(dǎo)入到Matlab中。
如果使用Excel 2007版本,操作如下: 1 打開Excel。 2 點(diǎn)擊左上的office按鈕→Excel選項(xiàng)→轉(zhuǎn)到→加載項(xiàng)→瀏覽。 3 在Matlab的安裝目錄下打開toolbox\\exlink文件夾,選擇EXCLLINK.XLA,點(diǎn)擊確認(rèn)。
4 自動回到加載項(xiàng)對話框后,確保對話框中有“ExcelLink”,選中后點(diǎn)擊確認(rèn)按鈕即可,菜單欄中自動添加了Matlab加載項(xiàng)。 5 使用其中的putmatrix,既可以將數(shù)據(jù)導(dǎo)入到Matlab中。
大數(shù)據(jù)如何入門
首先我們要了解Java語言和Linux操作系統(tǒng),這兩個是學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ),學(xué)習(xí)的順序不分前后。
大數(shù)據(jù)
Java :只要了解一些基礎(chǔ)即可,做大數(shù)據(jù)不需要很深的Java 技術(shù),學(xué)java SE 就相當(dāng)于有學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)。
Linux:因?yàn)榇髷?shù)據(jù)相關(guān)軟件都是百科在Linux上運(yùn)行的,所以Linux要學(xué)習(xí)的扎實(shí)一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運(yùn)行環(huán)境和**環(huán)境配置,能少踩很多坑,學(xué)會shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。
還能讓你對以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
Hadoop:這是現(xiàn)在流行的大數(shù)據(jù)處理平臺幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個是必學(xué)的。Hadoop里面包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數(shù)據(jù)進(jìn)行處理計(jì)算的,它有個特點(diǎn)就是不管多大的數(shù)據(jù)只要給它時間它就能把數(shù)據(jù)跑完,但是時間可能不是很快所以它叫數(shù)據(jù)的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以后的Hbase也會用到它。
它一般用來存放一些相互協(xié)作的信息,這些信息比較小一般不會超過1M,都是使用它的軟件對它有依賴,對于我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學(xué)習(xí)完大數(shù)據(jù)的處理了,接下來學(xué)習(xí)學(xué)習(xí)小數(shù)據(jù)的處理工具mysql數(shù)據(jù)庫,因?yàn)橐粫bhive的時候要用到,mysql需要掌握到什么層度那?你能在Linux上把它安裝好,運(yùn)行起來,會配置簡單的權(quán)限,修改root的密碼,創(chuàng)建數(shù)據(jù)庫。這里主要的是學(xué)習(xí)SQL的語法,因?yàn)閔ive的語法和這個非常相似。
Sqoop:這個是用于把Mysql里的數(shù)據(jù)導(dǎo)入到Hadoop里的。當(dāng)然你也可以不用這個,直接把Mysql數(shù)據(jù)表導(dǎo)出成文件再放到HDFS上也是一樣的,當(dāng)然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。
Hive:這個東西對于會SQL語法的來說就是神器,它能讓你處理大數(shù)據(jù)變的很簡單,不會再費(fèi)勁的編寫MapReduce程序。
有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學(xué)會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者M(jìn)apReduce、Spark腳本,還能檢查你的程序是否執(zhí)行正確,出錯了給你發(fā)報警并能幫你重試程序,最重要的是還能幫你配置任務(wù)的依賴關(guān)系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態(tài)體系中的NOSQL數(shù)據(jù)庫,他的數(shù)據(jù)是按照key和value的形式存儲的并且key是**的,所以它能用來做數(shù)據(jù)的排重,它與MYSQL相比能存儲的數(shù)據(jù)量大很多。所以他常被用于大數(shù)據(jù)處理完成之后的存儲目的地。
Kafka:這是個比較好用的隊(duì)列工具,隊(duì)列是干嗎的?排隊(duì)買票你知道不?數(shù)據(jù)多了同樣也需要排隊(duì)處理,這樣與你協(xié)作的其它同學(xué)不會叫起來,你干嗎給我這么多的數(shù)據(jù)(比如好幾百G的文件)我怎么處理得過來,你別怪他因?yàn)樗皇歉愦髷?shù)據(jù)的,你可以跟他講我把數(shù)據(jù)放在隊(duì)列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優(yōu)化他的程序去了,因?yàn)樘幚聿贿^來就是他的事情。而不是你給的問題。
當(dāng)然我們也可以利用這個工具來做線上實(shí)時數(shù)據(jù)的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(比如Kafka)的。
Spark:它是用來彌補(bǔ)基于MapReduce處理數(shù)據(jù)速度上的缺點(diǎn),它的特點(diǎn)是把數(shù)據(jù)裝載到內(nèi)存中計(jì)算而不是去讀慢的要*進(jìn)化還特別慢的硬盤。特別適合做迭代運(yùn)算,所以算法流們特別稀飯它。它是用scala編寫的。
Java語言或者Scala都可以操作它,因?yàn)樗鼈兌际怯肑VM的。
什么是HDFS?
Hadoop分布式文件系統(tǒng)(HDFS)是指被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)(Distributed File System)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。
但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。
HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的。
HDFS是Apache Hadoop Core項(xiàng)目的一部分。HDFS有著高容錯性(fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。
HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實(shí)現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。