什么是敏感數(shù)據(jù)?企業(yè)是如何識(shí)別敏感數(shù)據(jù)的?
發(fā)布日期:2022/9/26 11:25:04 瀏覽量:
在以往的文章中,已經(jīng)給大家科普過(guò)了“什么是數(shù)據(jù)脫敏”,“數(shù)據(jù)脫敏”中的“敏”就是指“敏感數(shù)據(jù)”。但什么是敏感數(shù)據(jù)?數(shù)據(jù)處理者又是如何識(shí)別敏感數(shù)據(jù)的呢?
什么是敏感數(shù)據(jù)?
敏感數(shù)據(jù),是指泄漏后可能會(huì)給社會(huì)或個(gè)人帶來(lái)嚴(yán)重危害的數(shù)據(jù)。同時(shí),敏感數(shù)據(jù)又稱隱私數(shù)據(jù),包括所有不公開(kāi)或未分類(lèi)的信息,可能是組織需要保護(hù)的機(jī)密專(zhuān)有信息或因數(shù)據(jù)對(duì)組織的價(jià)值或組織為遵守現(xiàn)行法律法規(guī)而保護(hù)的人和其他類(lèi)型的數(shù)據(jù),例如個(gè)人身份信息(個(gè)人隱私數(shù)據(jù))、受保護(hù)的健康信息、專(zhuān)有數(shù)據(jù)等。
1、個(gè)人身份信息
包括個(gè)人隱私數(shù)據(jù),如姓名、身份證號(hào)碼、住址、電話、銀行賬號(hào)、郵箱、密碼、醫(yī)療信息、教育背景等;
2、受保護(hù)的健康信息
也包括企業(yè)或社會(huì)機(jī)構(gòu)不適合公布的數(shù)據(jù),如企業(yè)的經(jīng)營(yíng)情況,企業(yè)的網(wǎng)絡(luò)結(jié)構(gòu)、IP地址列表等;
3、專(zhuān)有數(shù)據(jù)
專(zhuān)有數(shù)據(jù)值得任何幫助組織保持競(jìng)爭(zhēng)優(yōu)勢(shì)的數(shù)據(jù)。比如,開(kāi)發(fā)的軟件代碼、產(chǎn)品的技術(shù)計(jì)劃、內(nèi)部流程、知識(shí)產(chǎn)權(quán)或商業(yè)秘密。
之所以要標(biāo)識(shí)“敏感數(shù)據(jù)”,是為了保護(hù)數(shù)據(jù)安全。而為了區(qū)分不需保護(hù)的數(shù)據(jù),受保護(hù)數(shù)據(jù)統(tǒng)稱為“敏感數(shù)據(jù)”。敏感數(shù)據(jù)只有一個(gè)標(biāo)準(zhǔn)來(lái)衡量,即數(shù)據(jù)的可見(jiàn)度或敏感度。即,數(shù)據(jù)是否要保護(hù)——數(shù)據(jù)的可見(jiàn)度,誰(shuí)可以訪問(wèn)(看)這個(gè)數(shù)據(jù)(數(shù)據(jù)敏感度)。
數(shù)據(jù)的可見(jiàn)度越低,數(shù)據(jù)的敏感程度(級(jí)別)越高。數(shù)據(jù)的可見(jiàn)度(敏感度)決定了在組織或企業(yè)內(nèi)部什么權(quán)限的人員可以訪問(wèn)其敏感數(shù)據(jù)。
也因此,為了敏感數(shù)據(jù)安全,數(shù)據(jù)處理者如企業(yè)要對(duì)敏感數(shù)據(jù)進(jìn)行脫敏,其目的在于通過(guò)隱藏敏感數(shù)據(jù),以防止這些數(shù)據(jù)被濫用,提高數(shù)據(jù)安全性和保密等級(jí),滿足數(shù)據(jù)安全管控要求。
正如此前對(duì)“數(shù)據(jù)脫敏”的介紹,敏感數(shù)據(jù)脫敏有兩種技術(shù)路線,一種是靜態(tài)脫敏,另外一種是動(dòng)態(tài)脫敏,再有可以通過(guò)數(shù)據(jù)資產(chǎn)梳理實(shí)現(xiàn)敏感數(shù)據(jù)發(fā)現(xiàn),將數(shù)據(jù)庫(kù)中的敏感數(shù)據(jù)進(jìn)行變形處理,以實(shí)現(xiàn)敏感數(shù)據(jù)防泄漏。
而且,根據(jù)操作對(duì)象不同,數(shù)據(jù)脫敏操作通常包括兩種形式,一種是結(jié)構(gòu)化數(shù)據(jù)脫敏,比如數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)文件等進(jìn)行靜態(tài)和動(dòng)態(tài)脫敏;另一種是非結(jié)構(gòu)化文檔脫敏,比如日常常見(jiàn)的Word、Excel、PowerPoint、TXT等文件進(jìn)行脫敏。
上述內(nèi)容闡述了“什么是敏感數(shù)據(jù)”,那么在數(shù)據(jù)流轉(zhuǎn)過(guò)程中,企業(yè)這樣的數(shù)據(jù)處理者是如何識(shí)別敏感數(shù)據(jù)的呢?
敏感數(shù)據(jù)識(shí)別是要發(fā)現(xiàn)系統(tǒng)中的敏感數(shù)據(jù)。在數(shù)據(jù)梳理的基礎(chǔ)上,在有限的識(shí)別范圍內(nèi),通過(guò)對(duì)敏感數(shù)據(jù)特征的分析,提煉出一套敏感數(shù)據(jù)特征庫(kù)。利用特征庫(kù)快速找出系統(tǒng)中的敏感數(shù)據(jù),為后續(xù)數(shù)據(jù)分類(lèi)分級(jí)奠定數(shù)據(jù)特征基礎(chǔ)。
目前,敏感數(shù)據(jù)識(shí)別一般有2種途徑:一是敏感數(shù)據(jù)智能識(shí)別,智能敏感數(shù)據(jù)識(shí)別技術(shù)主要應(yīng)用在文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)類(lèi)型中;二是人工識(shí)別,基于現(xiàn)有技術(shù),通過(guò)人工方式識(shí)別敏感數(shù)據(jù),由數(shù)據(jù)庫(kù)管理員根據(jù)個(gè)人經(jīng)驗(yàn)對(duì)敏感數(shù)據(jù)進(jìn)行查找和確定。
由于當(dāng)下的數(shù)據(jù)大都有容量大,較為復(fù)雜的特點(diǎn),而傳統(tǒng)的利用人工進(jìn)行梳理的速度較慢,遠(yuǎn)遠(yuǎn)不如利用機(jī)器進(jìn)行識(shí)別效率高,并且同一人在不同時(shí)間對(duì)同一數(shù)據(jù)可能有不同的判斷,不同人對(duì)相同的數(shù)據(jù)也有不同的判斷,所以這就會(huì)使敏感數(shù)據(jù)在識(shí)別時(shí)產(chǎn)生的結(jié)果具有差異性。
人工識(shí)別敏感數(shù)據(jù)耗時(shí)、耗力、耗資,在人工智能大發(fā)展的當(dāng)下,加之?dāng)?shù)據(jù)泄露和勒索軟件攻擊的數(shù)量將持續(xù)增長(zhǎng),大多數(shù)企業(yè)在保護(hù)敏感數(shù)據(jù)時(shí),會(huì)選擇智能識(shí)別。這使企業(yè)能夠主動(dòng)、大規(guī)模識(shí)別敏感數(shù)據(jù)和個(gè)人數(shù)據(jù)。一旦識(shí)別了這些數(shù)據(jù),企業(yè)就可以選擇編輯、刪除、加密或采取任何必要的措施進(jìn)行保護(hù),以確保數(shù)據(jù)不會(huì)落入“不良人”的手中。
而數(shù)據(jù)分級(jí)分類(lèi),則是將識(shí)別后的敏感數(shù)據(jù)進(jìn)行篩選,根據(jù)數(shù)據(jù)的價(jià)值、重要程度分門(mén)別類(lèi),根據(jù)數(shù)據(jù)使用過(guò)程中的敏感程度對(duì)數(shù)據(jù)進(jìn)行分級(jí),進(jìn)而為不同級(jí)別的數(shù)據(jù)提供不同程度的安全防護(hù)。
其中,數(shù)據(jù)分類(lèi)是指企業(yè)、組織的數(shù)據(jù)按照企業(yè)數(shù)據(jù)資產(chǎn)管理形式,對(duì)數(shù)據(jù)進(jìn)行劃分,這是個(gè)系統(tǒng)、復(fù)雜工程,更多的是與數(shù)據(jù)資產(chǎn)管理相關(guān);數(shù)據(jù)分級(jí)則是從數(shù)據(jù)安全、隱私保護(hù)和合規(guī)的角度進(jìn)行分級(jí)。
例如,按照客戶信息的敏感程度劃分為極敏感級(jí)、敏感級(jí)、較敏感級(jí)和低敏感級(jí)4個(gè)等級(jí),并根據(jù)分類(lèi)分級(jí)管控原則,確定不同敏感數(shù)據(jù)的安全管控要求及相應(yīng)的涉敏人員范圍。
敏感數(shù)據(jù)的識(shí)別與分類(lèi)分級(jí)是數(shù)據(jù)安全的核心內(nèi)容,通過(guò)對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行甄別,識(shí)別其中存在的敏感數(shù)據(jù),并對(duì)這些敏感數(shù)據(jù)進(jìn)行分類(lèi)定級(jí)處理,從而達(dá)到有針對(duì)性地對(duì)不同類(lèi)型的數(shù)據(jù)實(shí)現(xiàn)分類(lèi)保護(hù)。
另外,智能敏感識(shí)別包括三類(lèi)智能算法——基于相似度、非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí):
基于相似度算法可準(zhǔn)確檢測(cè)以文檔形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),例如 Word 與 PowerPoint 文件、PDF 文檔、財(cái)務(wù)、并購(gòu)文檔,以及其他敏感或?qū)S行畔ⅲ?
基于無(wú)監(jiān)督學(xué)習(xí)算法,人工無(wú)需打標(biāo)簽,進(jìn)行特征設(shè)計(jì)與提取,比如敏感圖像場(chǎng)景提取目標(biāo)關(guān)鍵點(diǎn)、文檔數(shù)據(jù)根據(jù)語(yǔ)義提取特征向量;
基于監(jiān)督學(xué)習(xí)算法則需收集一定數(shù)量的訓(xùn)練數(shù)據(jù)(如文檔、圖片),同時(shí)對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)簽,如敏感/非敏感標(biāo)簽(二分類(lèi)場(chǎng)景)。然后選擇相應(yīng)的監(jiān)督學(xué)習(xí)算法,如支持向量(SVM)、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等,再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練與調(diào)參。訓(xùn)練完成,將輸出的模型應(yīng)用在新的數(shù)據(jù)進(jìn)行智能識(shí)別與預(yù)測(cè),自動(dòng)化輸出數(shù)據(jù)類(lèi)型——敏感/非敏感數(shù)據(jù)。
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生