大學(xué)本科畢業(yè)論文(設(shè)計(jì))開(kāi)題報(bào)告
學(xué)院:計(jì)算機(jī)科學(xué)與技術(shù) 專業(yè)班級(jí):08計(jì)算機(jī)科學(xué)與技術(shù)B班
課題名稱 分布式存儲(chǔ)系統(tǒng)相關(guān)技術(shù)的研究
1.課題的研究目的和意義
現(xiàn)代信息總量在飛速增長(zhǎng)——每年增加的信息是歷史所有信息量的總和,因此對(duì)于存儲(chǔ)系
統(tǒng)的需求是:具有巨大容量、高可靠性、高可用性、高性能、動(dòng)態(tài)可擴(kuò)展性和易維護(hù)性等。
雖然隨著硬盤(pán)技術(shù)的發(fā)展,市場(chǎng)上普通硬盤(pán)容量不斷增大,但用戶在多數(shù)情況下未能充分利用他們的硬盤(pán),有大量的閑置存儲(chǔ)空間。而有的用戶需要存儲(chǔ)大量文件,卻苦于硬盤(pán)容量過(guò);而其他高性能的存儲(chǔ)設(shè)備的情況也是如此,如高性能RAID、NAS往往都有多余的存儲(chǔ)空間。
為前提,分布式存儲(chǔ)最初研究的正是將文件分散存儲(chǔ)到網(wǎng)絡(luò)的、愿意貢獻(xiàn)和分享多余的存儲(chǔ)空間的不同硬盤(pán)或其它存儲(chǔ)設(shè)備上,解決單個(gè)主機(jī)磁盤(pán)容量小,不足以存儲(chǔ)大量文件的缺陷。方法是把這些單機(jī)的硬盤(pán)或存儲(chǔ)設(shè)備看做存儲(chǔ)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)既提供自己的存儲(chǔ)空間給他人,也使用他人的存儲(chǔ)空間存儲(chǔ)數(shù)據(jù),最終達(dá)到充分合理利用局域網(wǎng)內(nèi)不同主機(jī)磁盤(pán)存儲(chǔ)空間的目的?偟膩(lái)說(shuō)就是用廉價(jià)的、閑散的資源完成大量的數(shù)據(jù)存儲(chǔ)和計(jì)算,一方面提高了資源的利用率,另一方面提高了存儲(chǔ)效率。分布式存儲(chǔ)的這些優(yōu)點(diǎn)使其得到
……(新文秘網(wǎng)http://m.jey722.cn省略892字,正式會(huì)員可完整閱讀)……
的可行性,在Napster 關(guān)閉之后,更多的P2P 文件共享系統(tǒng)迅速崛起,成為Internet 發(fā)展的一股巨大浪潮,其中最著名的是Gnutella[3]和KaZaA[3]。Gnutella 對(duì)Naspter 的體系結(jié)構(gòu)進(jìn)行了徹底的改變不再使用中心目錄服務(wù)器,轉(zhuǎn)而使用全對(duì)等結(jié)構(gòu):每個(gè)結(jié)點(diǎn)記錄多個(gè)其它結(jié)點(diǎn)的IP 地址(稱為“指針”),
這樣整個(gè)系統(tǒng)的拓?fù)渚统蔀橐粋(gè)由指針搭建起來(lái)的有向圖KaZaA 對(duì)Gnutella 做了進(jìn)一步改進(jìn)。KaZaA 獲得了比Gnutella 更高的穩(wěn)定性和搜索效率。
服務(wù)器幾乎都使用異步模式[4]工作,使用IOCP[5]以及NT5.0線程池[5]技術(shù)可以獲得最佳性能,而線程池的基礎(chǔ)是多線程[8]技術(shù)及線程同步[6]問(wèn)題。P2P分布存儲(chǔ)主要涉及文件分塊算法[7],文件的傳輸,文件的校驗(yàn),網(wǎng)絡(luò)傳輸效率的提高等問(wèn)題,因?yàn)榫W(wǎng)絡(luò)故障時(shí)有發(fā)生,是不可預(yù)料的。
當(dāng)今P2P主要面臨的新問(wèn)題是:節(jié)點(diǎn)數(shù)量大、動(dòng)態(tài)性高、異構(gòu)性強(qiáng),分布廣泛。
現(xiàn)在幾種分布式存儲(chǔ):
(1) Google文件系統(tǒng)(Google File System - GFS)[9],用來(lái)滿足Google迅速增長(zhǎng)的數(shù)據(jù)處理需求。GFS與過(guò)去的分布文件系統(tǒng)擁有許多相同的目標(biāo),例如性能,可伸縮性,可靠性以及可用性。然而,它的設(shè)計(jì)還受到應(yīng)用負(fù)載和技術(shù)環(huán)境觀察的影響,采取了完全不同的設(shè)計(jì)觀點(diǎn)。
① 組件失效不再被認(rèn)為是意外,而是被看做正常的現(xiàn)象。
② 按照傳統(tǒng)的標(biāo)準(zhǔn)來(lái)看,文件非常巨大,數(shù)G的文件非常尋常。
③ 在Google大部分文件的修改,不是覆蓋原有數(shù)據(jù),而是在文件尾追加新數(shù)據(jù)。
④ 應(yīng)用程序和文件系統(tǒng)API的協(xié)同設(shè)計(jì)提高了整個(gè)系統(tǒng)的靈活性。
(2) Memcached[10]是一個(gè)高性能的分布式的內(nèi)存對(duì)象緩存系統(tǒng),通過(guò)在內(nèi)存里維護(hù)一個(gè)統(tǒng)一的巨大的hash表,它能夠用來(lái)存儲(chǔ)各種格式的數(shù)據(jù),包括圖像、視頻、文件以及數(shù)據(jù)庫(kù)檢索的結(jié)果等。Memcached由Danga Interactive開(kāi)發(fā),用于提升LiveJournal.com訪問(wèn)速度的。LJ每秒動(dòng)態(tài)頁(yè)面訪問(wèn)量幾千次,用戶700萬(wàn)。Memcached將數(shù)據(jù)庫(kù)負(fù)載大幅度降低,更好的分配資源,更快速訪問(wèn)。
(3)Hadoop[11]分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSI*約束,來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開(kāi)始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開(kāi)發(fā)的。HDFS是Apache Hadoop Core項(xiàng)目的一部分。
①
② Storage Nodes 實(shí)際文件存放的地方。
2、 本課題的主要研究?jī)?nèi)容(提綱)和成果形式分布式存儲(chǔ)系統(tǒng)相關(guān)技術(shù)研究
第一章 緒論
第一節(jié) 課題研究的背景
第二節(jié) 主要研究?jī)?nèi)容
第二章 分布式系統(tǒng)關(guān)鍵技術(shù)
第一節(jié) 分布式系統(tǒng)模型簡(jiǎn)介
第二節(jié) 分布式系統(tǒng)基礎(chǔ)算法
第三節(jié) 本章小結(jié)
第三章 HADOOP整體架構(gòu)
第一節(jié) HADOOP核心組件概述
第二節(jié) HADOOP分布式文件系統(tǒng)(HDFS)
第三節(jié) 本章小結(jié)
第四章 數(shù)據(jù)存儲(chǔ)及計(jì)算模型
第一節(jié) 需求分析
第二節(jié) 設(shè)計(jì)思想
第三節(jié) 功能模塊
第四節(jié) 本章小結(jié)
第五章 數(shù)據(jù)及存儲(chǔ)計(jì)算模型部署
第一節(jié) 方案部署
第二節(jié) 結(jié)果分析
第三節(jié) 測(cè)試的截屏
第四節(jié) 本章小結(jié)
第六章 結(jié)論
第一節(jié) 結(jié)論
第二節(jié) 展望
參考文獻(xiàn)
致謝
附錄
成果形式:整個(gè)系統(tǒng),進(jìn)行配置并測(cè)試;一篇完整的
論文3、 擬解決的關(guān)鍵問(wèn)題:
一、 在實(shí)驗(yàn)室裝好Hadoop系統(tǒng)
二、 用linu*進(jìn)行配置
三、 對(duì)項(xiàng)目進(jìn)行測(cè)試
四、 完成全部論文
5、研究思路、方法和步驟:
思路:通過(guò)了解項(xiàng)目的背景和技術(shù)背景,了解相關(guān)技術(shù)和各種算法,了解Hadoop的整體架構(gòu),分布式存儲(chǔ)及其計(jì)算模型,對(duì)其模型進(jìn)行部署,最后進(jìn)行測(cè)試。
方法:一步一步來(lái),從小處著手,先整體了解整個(gè)項(xiàng)目,然后再一個(gè)一個(gè)細(xì)節(jié)的去實(shí)現(xiàn)它。
步驟:
理解文 1、 件系統(tǒng)的理論知識(shí);
(2) 熟悉現(xiàn)有幾種主流分布式文件系統(tǒng)的構(gòu)架 ……(未完,全文共4958字,當(dāng)前僅顯示2504字,請(qǐng)閱讀下面提示信息。
收藏《論文開(kāi)題:分布式存儲(chǔ)系統(tǒng)相關(guān)技術(shù)的研究》)