四川中衛(wèi)北斗科技有限公司

在線咨詢
微信

微信掃一掃

長按二維碼關(guān)注微信加好友

王陽生:大數(shù)據(jù)時代數(shù)據(jù)中心建設(shè)與運(yùn)營管理探討

發(fā)布時間:2021-01-21 15:16

當(dāng)前背景下,推進(jìn)交通大數(shù)據(jù)發(fā)展已經(jīng)成為新時代交通運(yùn)輸信息化發(fā)展的核心內(nèi)容。大數(shù)據(jù)時代的數(shù)據(jù)中心應(yīng)該如何建設(shè)?又應(yīng)如何運(yùn)營?福建省高速公路信息科技有限公司運(yùn)營部主任王陽生在第22屆中國高速公路信息化大會上表達(dá)了自己的觀點(diǎn),他認(rèn)為,大數(shù)據(jù)時代數(shù)據(jù)中心建設(shè)需要包括電力系統(tǒng)保障、網(wǎng)絡(luò)系統(tǒng)保障、網(wǎng)絡(luò)與信息安全保障、虛擬化技術(shù)應(yīng)用、災(zāi)備系統(tǒng)應(yīng)用、配套系統(tǒng)應(yīng)用、智能化運(yùn)行監(jiān)測平臺。

電力系統(tǒng)保障

電力系統(tǒng)保障需要六套互相備份的電源接入供電保護(hù)方案。在日常運(yùn)維中需要做到以下幾點(diǎn):
  • 定期檢查、保養(yǎng)柴油發(fā)電機(jī)、應(yīng)急發(fā)電車;

  • 定期檢查外供電線路桿塔情況;

  • 定期檢查UPS運(yùn)行情況;

  • 定期檢查各柜供電線路情況。

網(wǎng)絡(luò)系統(tǒng)保障

專用網(wǎng)絡(luò)

  • 通信傳輸方面:數(shù)據(jù)中心作為全省的匯聚中心,使用自建的通信傳輸系統(tǒng),連接各地市級中心。

  • 網(wǎng)絡(luò)交換方面:數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò)系統(tǒng)主要采用集群與虛擬化的技術(shù)部署扁平化網(wǎng)絡(luò),以高效可靠的傳輸數(shù)據(jù)。

互聯(lián)網(wǎng)網(wǎng)絡(luò)

  • 互聯(lián)網(wǎng)出口配置帶寬管理設(shè)備按需對流量進(jìn)行管理,配合負(fù)載均衡設(shè)備更好的利用網(wǎng)絡(luò)帶寬。

  • 配置入侵檢測與防火墻等安全設(shè)備并做好相應(yīng)的安全策略以保障與互聯(lián)網(wǎng)對接的網(wǎng)絡(luò)安全。

網(wǎng)絡(luò)與信息安全保障

互聯(lián)網(wǎng)網(wǎng)絡(luò)

互聯(lián)網(wǎng)區(qū)所有安全設(shè)備都配置主模式且橋接到網(wǎng)絡(luò)中,所有設(shè)備都做了接口聯(lián)動。由外而內(nèi)首先經(jīng)過出口防火墻,在出口防火墻上做了大量的策略,只放行必要的業(yè)務(wù)、服務(wù)、端口和應(yīng)用,剩下的訪問全部拒絕;接著經(jīng)過入侵防御設(shè)備,入侵防御設(shè)備能夠過濾和抵擋各種網(wǎng)絡(luò)攻擊,并統(tǒng)計(jì)相關(guān)的數(shù)據(jù)。
WAF的作用就是網(wǎng)頁安全檢測、防網(wǎng)頁篡改;最后到達(dá)互聯(lián)網(wǎng)核心,在互聯(lián)網(wǎng)核心交換會將所有流量鏡像到天眼探針和分析平臺,進(jìn)行流量分析和攻擊分析。同時設(shè)置VPN設(shè)備和漏洞掃描設(shè)備確保授權(quán)訪問和定期掃描及時發(fā)現(xiàn)操作系統(tǒng)、中間件、數(shù)據(jù)庫、應(yīng)用系統(tǒng)漏洞。各網(wǎng)之間設(shè)置網(wǎng)閘物理隔離,設(shè)置必要的放行策略。

專用網(wǎng)絡(luò)

  • 數(shù)據(jù)中心還有綜合網(wǎng)、視頻網(wǎng)和收費(fèi)網(wǎng)三張專網(wǎng),且三張專網(wǎng)通過OTN設(shè)備連接各地市管理公司。

  • 三張專網(wǎng)的網(wǎng)絡(luò)拓?fù)浠疽恢?,這里以收費(fèi)網(wǎng)為例,收費(fèi)網(wǎng)已經(jīng)通過安全等保三級測評,所有安全設(shè)備都符合國標(biāo)要求。

  • 收費(fèi)網(wǎng)防火墻處于數(shù)據(jù)中心收費(fèi)網(wǎng)邊界,目前以堆疊主主橋接的方式接入網(wǎng)絡(luò)只放行相關(guān)的端口和業(yè)務(wù),其它一律拒絕訪問。

  • 收費(fèi)網(wǎng)VPN設(shè)備、漏掃設(shè)備、日志審計(jì)設(shè)備、數(shù)據(jù)庫審計(jì)設(shè)備、堡壘機(jī)、天眼探針和分析平臺旁掛到收費(fèi)網(wǎng)核心下,實(shí)現(xiàn)相關(guān)設(shè)備的功能,具體功能和作用和互聯(lián)網(wǎng)區(qū)安全設(shè)備一致。

  • 收費(fèi)網(wǎng)和綜合網(wǎng)之間也是通過網(wǎng)閘實(shí)現(xiàn)物理隔離。

虛擬化技術(shù)應(yīng)用

  • 數(shù)據(jù)中心采用服務(wù)器虛擬化技術(shù),通過提高物理服務(wù)器利用率,大幅度削減物理服務(wù)器購置需求、數(shù)量和運(yùn)營成本;

  • 通過利用服務(wù)器虛擬化中CPU、內(nèi)存、IO資源的動態(tài)調(diào)整能力實(shí)現(xiàn)對業(yè)務(wù)應(yīng)用資源需求的動態(tài)響應(yīng),提升業(yè)務(wù)應(yīng)用的服務(wù)質(zhì)量;

  • 實(shí)現(xiàn)更高的可用性和可靠性,以及資源優(yōu)化。

災(zāi)備系統(tǒng)應(yīng)用

相關(guān)業(yè)務(wù)應(yīng)用系統(tǒng)都部署運(yùn)行在虛擬化系統(tǒng)中的虛擬機(jī)之上。而用戶數(shù)據(jù)的存儲和管理則使用各類數(shù)據(jù)庫系統(tǒng)。
對數(shù)據(jù)中心的容災(zāi)需求總體來說分為兩大部分,即數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi),分別對數(shù)據(jù)中心進(jìn)行數(shù)據(jù)庫的容災(zāi)和虛擬化應(yīng)用的容災(zāi)。在容災(zāi)架構(gòu)中,建議同城雙中心有條件的異地雙中心的災(zāi)備方案。

配套系統(tǒng)應(yīng)用

配套系統(tǒng)應(yīng)用包括空調(diào)系統(tǒng)、消防系統(tǒng)、門禁系統(tǒng)、監(jiān)控系統(tǒng)、綜合布線、監(jiān)控室。

智能化運(yùn)行監(jiān)測平臺應(yīng)用

機(jī)房動環(huán)監(jiān)控平臺

機(jī)房環(huán)境監(jiān)控系統(tǒng)是一個綜合利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、通信技術(shù)、自動控制技術(shù)、新型傳感技術(shù)等構(gòu)成的計(jì)算機(jī)網(wǎng)絡(luò),提供集中管理監(jiān)控模式的自動化、智能化和高效率的技術(shù)手段,系統(tǒng)監(jiān)控對象主要是機(jī)房動力和環(huán)境設(shè)備等。
1、監(jiān)控內(nèi)容
配電系統(tǒng):主要對配電系統(tǒng)的三相相電壓、相電流、線電壓、線電流、有功無功、頻率、功率因數(shù)等參數(shù)和配電開關(guān)的狀態(tài)監(jiān)視進(jìn)行監(jiān)視。當(dāng)一些重要參數(shù)超過危險界限后進(jìn)行報警。
UPS電源:通過由UPS廠家提供的通訊協(xié)議及智能通訊接口對UPS內(nèi)部整流器、逆變器、電池、旁路、負(fù)載等各部件的運(yùn)行狀態(tài)進(jìn)行實(shí)時監(jiān)視,一旦有部件發(fā)生故障,機(jī)房動力環(huán)境監(jiān)控系統(tǒng)自動報警。系統(tǒng)中對于UPS的監(jiān)控一律采用只監(jiān)視,不控制的模式。
空調(diào)設(shè)備:通過實(shí)時監(jiān)控,能夠全面診斷空調(diào)運(yùn)行狀況,監(jiān)控空調(diào)各部件(如壓縮機(jī)、風(fēng)機(jī)、加熱器、加濕器、去濕器、濾網(wǎng)等)的運(yùn)行狀態(tài)與參數(shù),并能夠通過機(jī)房動力環(huán)境監(jiān)控系統(tǒng)管理功能遠(yuǎn)程修改空調(diào)設(shè)置參數(shù)(溫度、濕度、溫度上下限、濕度上下限等),以及對精密空調(diào)的重啟??照{(diào)機(jī)組即便有微小的故障,也可以通過機(jī)房動力環(huán)境監(jiān)控系統(tǒng)檢測出來,及時采取措施防止空調(diào)機(jī)組進(jìn)一步損壞。
機(jī)房溫濕度:在機(jī)房的各個重要位置,需要裝設(shè)溫濕度檢測模塊,記錄溫濕度曲線供管理人員查詢。一旦溫濕度超出范圍,即刻啟動報警,提醒管理人員及時調(diào)整空調(diào)的工作設(shè)置值或調(diào)整機(jī)房內(nèi)的設(shè)備分布情況。
漏水檢測:漏水檢測系統(tǒng)分定位和不定位兩種。所謂定位式,就是指可以準(zhǔn)確報告具體漏水地點(diǎn)的測漏系統(tǒng)。不定位系統(tǒng)則相反,只能報告發(fā)現(xiàn)漏水,但不能指明位置。系統(tǒng)由傳感器和控制器組成??刂破鞅O(jiān)視傳感器的狀態(tài),發(fā)現(xiàn)水情立即將信息上傳給監(jiān)控PC。測漏傳總器有線檢測和面檢測兩類,機(jī)房內(nèi)主要采用線檢測。
煙霧報警:煙霧探測器內(nèi)置微電腦控制,故障自檢,能防止漏報誤報。當(dāng)有煙塵進(jìn)入電離室會破壞煙霧探測器的電場平衡關(guān)系,報警電路檢測到濃度超過設(shè)定的閾值進(jìn)行報警。
視頻監(jiān)控:機(jī)房環(huán)境監(jiān)控系統(tǒng)集成了視頻監(jiān)控,圖像采用MPEG4視頻壓縮方式,集多畫面測覽、錄像回放、視頻遠(yuǎn)傳、觸發(fā)報警、云臺控制、設(shè)備聯(lián)動于一體,視頻系統(tǒng)還可與其他的輸入信號進(jìn)行聯(lián)動,視頻一旦報警,可同時與其它設(shè)備進(jìn)行聯(lián)動如雙鑒探頭、門磁進(jìn)行錄像。
門禁監(jiān)控:門禁系統(tǒng)由控制器、感應(yīng)式讀卡器、電控鎖和開門按鈕等組成(聯(lián)網(wǎng)系統(tǒng)外加通訊轉(zhuǎn)換器。讀卡方式屬于非接觸讀卡方式,系統(tǒng)對出人人員進(jìn)行有效監(jiān)控管理。
防雷系統(tǒng):通過開關(guān)量采集模塊來實(shí)現(xiàn)對防雷模塊工作情況的實(shí)時監(jiān)測,通常只有開和關(guān)兩種監(jiān)測狀態(tài)。
消防系統(tǒng):對消防系統(tǒng)的監(jiān)控主要是消防報警信號、氣體噴灑信號的采集,不對消防系統(tǒng)進(jìn)行控制。

應(yīng)用系統(tǒng)運(yùn)行監(jiān)測平臺

1、監(jiān)測目標(biāo)
監(jiān)測目標(biāo)主要包括對系統(tǒng)不間斷的實(shí)時監(jiān)控、實(shí)時反饋系統(tǒng)當(dāng)前狀態(tài)、保證服務(wù)可靠性安全性、保證業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。
 2、監(jiān)測流程
  • 數(shù)據(jù)采集:通過SNMP、Agent、ICMP、SSH、IPMI等協(xié)議對系統(tǒng)進(jìn)行數(shù)據(jù)采集。

  • 數(shù)據(jù)存儲:數(shù)據(jù)存儲在MySQL上,也可以存儲在其他數(shù)據(jù)庫服務(wù)。

  • 數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤分析故障時,能給我們提供圖形以及時間等相關(guān)信息,方面我們確定故障所在。

  • 數(shù)據(jù)展示:Web界面展示、移動APP。

  • 監(jiān)控報警:電話報警、郵件報警、短信報警、報警升級機(jī)制等。

  • 報警處理:當(dāng)接收到報警,我們需要根據(jù)故障的級別進(jìn)行處理,比如:緊急、一般等。根據(jù)故障的級別,配合相關(guān)的人員進(jìn)行快速處理。
3、監(jiān)測內(nèi)容
硬件監(jiān)控:早期我們通過機(jī)房巡檢的方式,查看硬件設(shè)備燈光閃爍情況判斷是否故障,這樣非常浪費(fèi)人力,并且是重復(fù)性無技術(shù)含量的工作。
系統(tǒng)監(jiān)控:通過服務(wù)器遠(yuǎn)程管理口IPMI等,對硬件詳細(xì)情況進(jìn)行監(jiān)控,并對CPU、內(nèi)存、磁盤、溫度、風(fēng)扇、電壓等設(shè)置報警設(shè)置報警閾值(自行對監(jiān)控報警內(nèi)容編寫合理的報警范圍) 。
應(yīng)用監(jiān)控:硬件監(jiān)控和系統(tǒng)監(jiān)控部署后,我們進(jìn)一步操作是需要登陸到服務(wù)器上查看服務(wù)器運(yùn)行了哪些服務(wù),都需要監(jiān)控起來。應(yīng)用服務(wù)監(jiān)控也是監(jiān)控體系中比較重要的內(nèi)容,例如:Oracle、MySQL、JBoss、Tomcat、Nginx、Redis、RabbitMQ等,相關(guān)的服務(wù)根據(jù)具體應(yīng)用系統(tǒng)部署情況都需要監(jiān)控起來。
網(wǎng)絡(luò)監(jiān)控:網(wǎng)絡(luò)監(jiān)控是我們構(gòu)建監(jiān)控平臺是必須要考慮的,作為下連各地市路段收費(fèi)站,上連接交通部聯(lián)網(wǎng)中心的聯(lián)網(wǎng)收費(fèi)系統(tǒng),需要時刻掌握各地市到數(shù)據(jù)中心機(jī)房的網(wǎng)絡(luò)狀態(tài)。尤其是針對移動支付、閩通寶、ETC門戶等使用場景,其互聯(lián)網(wǎng)出口多路由鏈路的網(wǎng)絡(luò)狀態(tài)都是我們需要重點(diǎn)關(guān)注的對象。
日志監(jiān)控:通常情況下,隨著系統(tǒng)的運(yùn)行,操作系統(tǒng)會產(chǎn)生系統(tǒng)日志,應(yīng)用程序會產(chǎn)生應(yīng)用程序的訪問日志、錯誤日志,運(yùn)行日志,網(wǎng)絡(luò)日志,我們對這些日志進(jìn)行收集、過濾、存儲、查詢、展示,通過日志監(jiān)控分析發(fā)現(xiàn)系統(tǒng)潛在問題。
安全監(jiān)控:安全監(jiān)控是數(shù)據(jù)中心系統(tǒng)監(jiān)控重中之重,我們主要通過接入第三方服務(wù)廠商,第三方廠商提供全面的漏洞庫,涵蓋服務(wù)、后門、數(shù)據(jù)庫、配置檢測、CGI、SMTP等多種類型。全面檢測主機(jī)、Web應(yīng)用漏洞自主挖掘和行業(yè)共享相結(jié)合第一時間更新0-day漏洞,杜絕最新安全隱患。
性能監(jiān)控:全面監(jiān)控網(wǎng)頁性能,DNS響應(yīng)時間、HTTP建立連接時間、頁面性能指數(shù)、響應(yīng)時間、可用率、元素大小等。網(wǎng)頁性能主要應(yīng)用在集團(tuán)公司外網(wǎng)門站、ETC門戶、協(xié)同辦公門戶、12122路網(wǎng)監(jiān)測系統(tǒng)等。
業(yè)務(wù)監(jiān)控:重要的業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,并設(shè)置閾值進(jìn)行告警通知。比如驛佳購服務(wù)區(qū)零售系統(tǒng):每分鐘產(chǎn)生多少訂單、每天有多少活躍用戶、每天有多少推廣活動、推廣活動引入多少用戶、推廣活動引入多少流量、推廣活動引入多少利潤等,重要指標(biāo)都可以加入業(yè)務(wù)監(jiān)控系統(tǒng)上,然后通過大屏展示。
3、監(jiān)測報警
監(jiān)測報警主要途徑是短信、郵件、微信等。
一般報警后故障如何處理,首先我們可以通過告警升級機(jī)制先自動處理,比如Nginx服務(wù)down了,可以設(shè)置告警升級自動啟動Nginx。但是如果一般業(yè)務(wù)出現(xiàn)了嚴(yán)重故障,我們通常根據(jù)故障的級別、業(yè)務(wù),來指派不同的運(yùn)維人員進(jìn)行處理。當(dāng)然不同業(yè)務(wù)形態(tài)、不同架構(gòu)、不同服務(wù)可能采用的方式都不同,這個沒有一個固定的模式套用。

掃一掃在手機(jī)上閱讀本文章

版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號-3    技術(shù)支持: 竹子建站