古詩詞大全網 - 古詩大全 - 碩士開題報告怎麽寫

碩士開題報告怎麽寫

碩士開題報告可以從課題來源、研究目的和意義、國內外研究現狀和發展趨勢的簡要說明來寫,具體可參考下方示例。

壹、課題來源:

本課題來源於作者在學習和實習中了解到的兩個事實,屬於自擬課題。

其壹,作者在2011年7月在XXX公司調研,了解到現如今各行業都面臨著數據量劇增長,並由此帶來業務處理速度緩慢,數據維護困難等問題。為了應對此挑戰,很多企業開實施大數據發展戰略。現如今的大數據發展戰略可以概括為兩類,壹類是垂直擴展。

即采用存儲容量更大,處理能力更強的設備,此種方式成本較大,過去很多大公司壹直采用此種方法處理大數據。但自從2004年Google發布關於GFS,MapReduce和BigTable三篇技術論文之後,雲計算開始興起,2006年Apache Hadoop項目啟動。

隨後從2009年開始,隨著雲計算和大數據的發展,Hadoop作為壹種優秀的數據分析、處理解決方案,開始受到許多 IT企業的關註。相較於垂直擴張所需的昂貴成本,人們更鐘情於采用這種通過整合廉價計算資源的水平擴展方式。於是很多IT企業開始探索采用Hadoop框架構建自己的大數據環境。

其二,作者自2013年4月在XXX實習過程中進壹步了解到,因為關系數據庫在存儲數據格式方面的局限,以及其Schema機制帶來的擴展性上的不便,目前在大部分的大數據應用環境中都采用非結構化的數據庫,如列式存儲的Hbase,文檔型存儲的MangoDB,圖數據庫neo4j等。

這些非結構化數據庫因為可擴展性強、資源利用率高,高並發、響應速度快等優勢,在大數據應用環境中得到了廣泛的應用。但此種應用只解決了前端的業務處理,要真正利用大數據實現商務智能,還需要為決策支持系統和聯機分析應用等提供壹數據環境——數據倉庫。為此,導師指導本文作者擬此題目,研究基於Hadoop框架的數據倉庫解決方案。

二、研究目的和意義:

現如今,數據已經滲透到每壹個行業,成為重要的生產因素。近年來,由於歷史積累和和數據增長速度加快,各行業都面臨著大數據的難題。事實上,大數據既是機遇又時挑戰。合理、充分利用大數據,將其轉變為海量、高增長率和多樣化的信息資產,將使得企業具有更強的決策力、洞察發現力和流程優化等能力。

因此,很多IT企業都將大數據作為其重要的發展戰略,如亞馬遜、臉譜網已布局大數據產業,並取得了驕人的成績。事實上,不止谷歌、易趣網或亞馬遜這樣的大型互聯網企業需要發展大數據,任何規模的企業都有機會從大數據中獲得優勢,並由此構建其未來業務分析的基礎,在與同行的競爭中,取得顯著的優勢。

相較於大型企業,中小企業的大數據發展戰略不同。大公司可以憑借雄厚的資本和技術實力,從自身環境和業務出發,開發自己的軟件平臺。而中小企業沒有那樣的技術實力,也沒有那麽龐大的資金投入,更傾向於選擇壹個普遍的、相對廉價的解決方案。

本文旨在分析大數據環境下數據庫的特點,結合當下流行的Hadoop框架,提出了壹種適用於大數據環境的數據倉庫的解決方案並實現。為中小企業在大數據環境中構建數據倉庫提供參考。其具體說來,主要有以下三方面意義:

首先,目前主流的數據庫如Oracle、SQL Server都有對應自己數據庫平臺的壹整套的數據倉庫解決方案,對於其他的關系型數據庫如MySQL等,雖然沒有對應數據庫平臺的數據倉庫解決方案,但有很多整合的數據倉庫解決方案。

而對於非結構化的數據庫,因其數據模型不同於關系型數據庫,需要新的解決方案,本文提出的基於Hive/Pentaho的數據倉庫實現方案可以為其提供壹個參考。

其次,通過整合多源非結構化數據庫,生成壹個面向主題、集成的數據倉庫,可為大數據平臺上的聯機事務處理、決策支持等提供數據環境,從而有效利用數據資源輔助管理決策。

再次,大數據是壹個廣泛的概念,包括大數據存儲、大數據計算、大數據分析等各個層次的技術細節,本文提出的“大數據環境下的數據倉庫解決方案及實現“豐富了大數據應用技術的生態環境,為大數據環境下的數據分析、數據挖掘等提供支撐。

三、國內外研究現狀和發展趨勢的簡要說明:

本文研究的主體是數據倉庫,區別於傳統基於關系型數據庫的數據倉庫,本文聚焦大數據環境下基於非結構數據庫的數據倉庫的構建與實現。因此,有必要從數據倉庫和大數據環境下的數據庫兩方面進行闡述。

(壹)數據倉庫國內外研究現狀:

自從Bill Inmon 在1990年提出“數據倉庫”這壹概念之後,數據倉庫技術開始興起,並給社會帶來新的契機,逐漸成為壹大技術熱點。目前,美國30%到40%的公司已經或正在建造數據倉庫。現如今隨著數據模型理論的完善,數據庫技術、應用開發及挖掘技術的不斷進步,數據倉庫技術不斷發展,並在實際應用中發揮了巨大的作用。

以數據倉庫為基礎,以聯機分析處理和數據挖掘工具為手段的決策支持系統日漸成熟。與此同時,使用數據倉庫所產生的巨大效益又刺激了對數據倉庫技術的需求,數據倉庫市場正以迅猛的勢頭向前發展。

我國企業信息化起步相對較晚,數據倉庫技術在國內的發展還處於積累經驗階段。雖然近年來,我國大中型企業逐步認識到利用數據倉庫技術的重要性,並已開始建立自己的數據倉庫系統,如中國移動、中國電信、中國聯通、上海證券交易所和中國石油等。

但從整體上來看,我國數據倉庫市場還需要進壹步培育,數據倉庫技術同國外還有很大差距。為此,我國許多科技工作者已開始對數據倉庫相關技術進行深入研究,通過對國外技術的吸收和借鑒,在此基礎上提出適合國內需求的技術方案。

(二)非結化數據庫國內外研究現狀:

隨著數據庫技術深入應用到各個領域,結構化數據庫逐漸顯露出壹些弊端。如在生物、地理、氣候等領域,研究面對的數據結構並不是傳統上的關系數據結構。如果使用關系數據庫對其進行存儲、展示,就必須將其從本身的數據結構強行轉換為關系數據結構。

采用此種方式處理非結構數據,不能在整個生命周期內對非關系數據進行管理,並且數據間的關系也無法完整的表示出來。在此背景下,非結構化數據庫應運而生。相較於關系數據庫,非結構數據庫的字段長度可變,並且每個字段的記錄又可以由可重復或不可重復的子字段構成。

如此,它不僅可以處理結構化數據,更能處理文本、圖象、聲音、影視、超媒體等非結構化數據。近年來,隨著大數據興起,非結構數據庫開始廣泛應用,以支持大數據處理的多種結構數據。

目前,非結構化的數據庫種類繁多,按其存儲數據類型分,主要包含內存數據庫、列存儲型、文檔數據庫、圖數據庫等。其中,常見的內存數據庫有SQLite,Redis,Altibase等;列存儲數據庫有Hbase,Bigtable等;文檔數據庫有MangoDB,CouchDB,RavenDB等;圖數據庫有Neo4j等。

近年來,我國非結構數據庫也有壹定發展,其中最具代表的是國信貝斯的iBASE數據庫。可以預見在不久的將來,伴隨這大數據的應用,非結構數據庫將會得到長足的發展和廣泛的應用。