www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

實(shí)習(xí)報(bào)告 蒲公英文摘 > 范文大全 > 實(shí)習(xí)報(bào)告 >

政府大數(shù)據(jù)數(shù)據(jù)處理綜合解決方案

發(fā)布時(shí)間:2020-09-14 來(lái)源: 實(shí)習(xí)報(bào)告點(diǎn)擊：

　政府大數(shù)據(jù)處理綜合解決方案數(shù)據(jù)質(zhì)量的好壞決定了數(shù)據(jù)價(jià)值的高低。

　高質(zhì)量的數(shù)據(jù)可以保證數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)的質(zhì)量。

　高質(zhì)量的數(shù)據(jù)已成為組織最具價(jià)值的資產(chǎn)之一。

　交換、共享和開(kāi)放數(shù)據(jù)，同樣面臨數(shù)據(jù)質(zhì)量的問(wèn)題，高質(zhì)量的交換、共享和開(kāi)放數(shù)據(jù)不僅能保證數(shù)據(jù)應(yīng)用和服務(wù)的價(jià)值，還可以保障和提升組織的公信力。交換、共享和開(kāi)放政務(wù)數(shù)據(jù)，并保證數(shù)據(jù)的質(zhì) 量，是組織面臨的一個(gè)嚴(yán)肅課題。

　針對(duì)政務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全，浪潮提出了一套基于政務(wù) 數(shù)據(jù)的交換、共享、開(kāi)放的完整解決方案，功能包括數(shù)據(jù)檢測(cè)、數(shù)據(jù) 清洗、數(shù)據(jù)加工、數(shù)據(jù)脫敏等。

　1. 數(shù)據(jù)檢測(cè) 數(shù)據(jù)檢測(cè)是按一定規(guī)則對(duì)數(shù)據(jù)質(zhì)量的評(píng)估，浪潮對(duì)政務(wù)數(shù)據(jù)的梳理形成一套完整的數(shù)據(jù)元標(biāo)準(zhǔn)，依據(jù)數(shù)據(jù)元標(biāo)準(zhǔn)規(guī)范可以自動(dòng)的對(duì)大部分?jǐn)?shù)據(jù)字段做檢測(cè)規(guī)則設(shè)定，沒(méi)有自動(dòng)設(shè)定檢測(cè)規(guī)則的字段可以由人工設(shè)置，檢測(cè)結(jié)果會(huì)以數(shù)據(jù)檢測(cè)報(bào)告的形式輸出。

　基于政務(wù)數(shù)據(jù)的特點(diǎn)和格式規(guī)范，針對(duì)不同類(lèi)型的數(shù)據(jù)，會(huì)有不同的檢測(cè)規(guī)則。

　1.1. 數(shù)據(jù)標(biāo)準(zhǔn) 用于數(shù)據(jù)檢測(cè)、數(shù)據(jù)清洗的數(shù)據(jù)標(biāo)準(zhǔn)來(lái)源于政務(wù)數(shù)據(jù)的數(shù)據(jù)元標(biāo) 準(zhǔn)，由浪潮梳理、總結(jié)、歸納出的數(shù)據(jù)元標(biāo)準(zhǔn)對(duì)數(shù)據(jù)元對(duì)應(yīng)字段的長(zhǎng) 度、格式、字符類(lèi)型等字段標(biāo)準(zhǔn)做了定義。系統(tǒng)會(huì)根據(jù)政務(wù)數(shù)據(jù)元字段標(biāo)準(zhǔn)規(guī)范，對(duì)待檢測(cè)數(shù)據(jù)字段做智能分析和數(shù)據(jù)元匹配，與標(biāo)準(zhǔn)數(shù) 據(jù)元匹配成功的待處理字段即可以按照數(shù)據(jù)元標(biāo)準(zhǔn)做檢測(cè)、清洗等操作，對(duì)于沒(méi)有匹配成功的或不認(rèn)可自動(dòng)匹配的字段可以在系統(tǒng)自定義設(shè)定檢測(cè)規(guī)則。

　1 ?1 ?1• 字段類(lèi)型標(biāo)準(zhǔn) 通過(guò)對(duì)政府大數(shù)據(jù)的各類(lèi)數(shù)據(jù)字段的整理、歸納，整理出主要的數(shù)據(jù)字段類(lèi)型及定義情況。

　中文字符可以包含漢字（中、國(guó)……等）

　、字母字符（ a-z,A-Z ）

　和數(shù)字字符等字母字符特指字母字符（ a-z,A-Z ）

　數(shù)字字符數(shù)字字符（ 0 、 1 、 2 、 3 ……）

　數(shù)值數(shù)值型字母 + 數(shù)字字母和數(shù)字字符日期日期型，包含年、月、日信息時(shí)間時(shí)間型，包含時(shí)、分、秒信息字典含有數(shù)據(jù)字典的字段

　綜合含有各類(lèi)字符并具有一定格式的字段

　1 ?1 ?2• 字段格式標(biāo)準(zhǔn) 數(shù)據(jù)字段內(nèi)容格式標(biāo)準(zhǔn)采用了數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)，對(duì)字段的類(lèi)型、長(zhǎng)度、格式等通過(guò)字符予以標(biāo)識(shí)，表示格式和示例如下。標(biāo)準(zhǔn)數(shù)據(jù)字段目錄詳見(jiàn)附件。

　c 中文字符，可以包含漢字（中、國(guó)……等）

　、字母字彳（ a-z,A-Z ）和數(shù)字字符等 c12 固定 12 位字符（即 6 個(gè)漢字）長(zhǎng)度的中文字符 C..12 最多為 12 位字符（即 6 個(gè)漢字）長(zhǎng)度的中文字符 a 特指字母字符（ a-z,A-Z ）

　a3 固定長(zhǎng)度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符（ 0 、 1 、 2 、 3 ……）

　n3 固定長(zhǎng)度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 ， n2 數(shù)值型 , 小數(shù)點(diǎn)前最多為 5 位數(shù)字，小數(shù)點(diǎn)后保留 2 位數(shù)字, 總長(zhǎng)度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長(zhǎng)度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符

　d8 日期型，按年、月、日順序全數(shù)字表示，格式為 8 位定長(zhǎng)、全數(shù)字表示（ YYYYMM ）

　D 年用 4 位數(shù)字表示，月、日各用 2 位數(shù)字表示，彼此之間沒(méi)有分隔符，如 2002 年 12 月 25 日，應(yīng)表示為 20021225 t 時(shí)間型，按時(shí)、分、秒順序全數(shù)字表示，格式為 6 位定長(zhǎng)、全數(shù)字表示（ hhmmsS z 綜合性，可含有各種字符，且具有一定的格式。

　1.1.3• 約束條件標(biāo)準(zhǔn)

　字段約束是對(duì)數(shù)據(jù)集字段間邏輯關(guān)系分析，依據(jù)字段間的相互依存關(guān)系、約束關(guān)系來(lái)檢測(cè)字段內(nèi)容的準(zhǔn)確性。主要依存關(guān)系如下。

　導(dǎo)出字段 A 可由字段 X 導(dǎo)出歸并字段 A

　B ……可以歸并為字段 X 條件字段 A 滿足甲條件時(shí)，字段 X 內(nèi)容為一

　1.1.4• 數(shù)據(jù)目錄標(biāo)準(zhǔn) 浪潮針對(duì)政務(wù)數(shù)據(jù)目錄的梳理形成了一整套完整的標(biāo)準(zhǔn)體系，結(jié) 合字段類(lèi)型標(biāo)準(zhǔn)、格式標(biāo)準(zhǔn)、約束條件標(biāo)準(zhǔn)，形成數(shù)據(jù)目錄標(biāo)準(zhǔn)，數(shù) 據(jù)目錄標(biāo)準(zhǔn)中對(duì)其包含的數(shù)據(jù)字段的類(lèi)型、格式，數(shù)據(jù)字段之間的約束條件進(jìn)行預(yù)先定義，形成以數(shù)據(jù)目錄為單位的格式和約束標(biāo)準(zhǔn)。

　在對(duì)數(shù)據(jù)集進(jìn)行檢測(cè)時(shí)，如果可以建立數(shù)據(jù)集層面的匹配，則不僅可以對(duì)數(shù)據(jù)字段做細(xì)致的檢測(cè)，對(duì)數(shù)據(jù)的整體性也建立了檢測(cè)依據(jù)。

　1 ?1 ?5• 敏感數(shù)據(jù)標(biāo)準(zhǔn) 針對(duì)數(shù)據(jù)安全性，浪潮制定了敏感數(shù)據(jù)標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)包含敏感數(shù) 據(jù)的定義、敏感詞庫(kù)的定義、黑白名單的定義等。

　個(gè)人信息字段涉及個(gè)人敏感信息的數(shù)據(jù)字段法人信息字段涉及企業(yè)敏感信息的數(shù)據(jù)字段涉密信息字段涉及隱私的數(shù)據(jù)字段約束信息由多字段可以推導(dǎo)出敏感數(shù)據(jù)的情況敏感詞庫(kù) 含有敏感詞庫(kù)中內(nèi)容的數(shù)據(jù) 黑名單含有黑名單中內(nèi)容的數(shù)據(jù) 白名單含有白名單中內(nèi)容的數(shù)據(jù)

　12 檢測(cè)問(wèn)題 1.2.1• 字段檢測(cè)問(wèn)題明細(xì) F 面列出了不同類(lèi)型的數(shù)據(jù)字段與可能檢測(cè)出的數(shù)據(jù)質(zhì)量問(wèn)題的對(duì)應(yīng)情況

　中文字符字母字符數(shù)字字符數(shù) 值字母 + 數(shù) 字日期時(shí) 間字典綜合空值 V V V V V V V V V 含非標(biāo)準(zhǔn)字符 V V V V V

　V 含空格 V V V V V

　V

　含換行符 V V V V V

　V 含非標(biāo)準(zhǔn)特殊字符 V V V V V

　V 字符長(zhǎng)度超限 V V V V V

　V 值范圍超限

　 V V

　V V

　非字典項(xiàng)

　V

　不符合格式要求

　V

　V V

　V

　1.2.2• 約束檢測(cè)問(wèn)題明細(xì) 字段間的約束問(wèn)題需要根據(jù)具體數(shù)據(jù)字段情況進(jìn)行設(shè)定。

　如身份證與性別、年齡、出生日期的導(dǎo)出關(guān)系等。具體的約束檢測(cè)規(guī)則詳見(jiàn) 附件。

　1.2.3• 整體檢測(cè)問(wèn)題明細(xì) 整體檢測(cè)包括數(shù)據(jù)的完整性、一致性、時(shí)效性、唯一性等方面的檢測(cè)，數(shù)據(jù)整體檢測(cè)以浪潮梳理的政務(wù)數(shù)據(jù)目錄標(biāo)準(zhǔn)為依托，輔以完整性規(guī)范、一致性規(guī)范等標(biāo)準(zhǔn)。

　字段完整性問(wèn)題數(shù)據(jù)集是否含有某些關(guān)鍵字段記錄完整性問(wèn)題數(shù)據(jù)集記錄是否完整記錄致性問(wèn)題記錄中的值是否沖突，如合計(jì)項(xiàng)的值字段致性問(wèn)題字段中的值是否沖突，如合計(jì)項(xiàng)的值字段唯性問(wèn)題字段是否重復(fù) 記錄唯性問(wèn)題對(duì)關(guān)鍵字段檢測(cè)，是否含有重復(fù)記錄

　時(shí)效性問(wèn)題不同數(shù)據(jù)集時(shí)效要求的評(píng)測(cè) 1.2.4• 敏感問(wèn)題明細(xì)（安全性）

　基于數(shù)據(jù)安全性的檢測(cè)，針對(duì)數(shù)據(jù)中含有的敏感信息進(jìn)行檢測(cè) 含個(gè)人敏感信息字段涉及個(gè)人敏感信息的數(shù)據(jù)字段含法人敏感信息字段涉及企業(yè)敏感信息的數(shù)據(jù)字段含涉密信息字段涉及隱私的數(shù)據(jù)字段含約束敏感字段由多字段可以推導(dǎo)出敏感數(shù)據(jù)的情況含敏感詞含有敏感詞庫(kù)中內(nèi)容的數(shù)據(jù) 含黑名單數(shù)據(jù) 含有黑名單中內(nèi)容的數(shù)據(jù) 含白名單數(shù)據(jù) 含有白名單中內(nèi)容的數(shù)據(jù)

　1.3.檢測(cè)方法 1.3.1• 依字段標(biāo)準(zhǔn)檢測(cè) 首先對(duì)待檢測(cè)字段做智能匹配，去匹配數(shù)據(jù)元標(biāo)準(zhǔn)中的標(biāo)準(zhǔn)數(shù)據(jù) 元，匹配成功后會(huì)依據(jù)匹配成功的數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行檢測(cè)。

　1.3.2. 自定義字段檢測(cè) 對(duì)于通過(guò)“依字段標(biāo)準(zhǔn)檢測(cè)”沒(méi)有匹配成功的或者匹配結(jié)果不滿意的字段可以修改或自定義字段格式標(biāo)準(zhǔn)，通過(guò)修改或自定義的字段格式標(biāo)準(zhǔn)進(jìn)行檢測(cè)。

　1.3.3. 依約束標(biāo)準(zhǔn)檢測(cè) 在系統(tǒng)中會(huì)依據(jù)對(duì)政務(wù)數(shù)量的標(biāo)準(zhǔn)和規(guī)范，設(shè)置一系列的數(shù)據(jù)字段約束條件，在完成待檢測(cè)字段與數(shù)據(jù)元的匹配后，會(huì)檢測(cè)該字段是否含有字段約束條件，并依

　據(jù)字段約束條件的相關(guān)規(guī)則進(jìn)行檢測(cè)。

　1.3.4. 自定義約束檢測(cè) 對(duì)于通過(guò) “依約束標(biāo)準(zhǔn)檢測(cè)” 沒(méi)有匹配成功的或者匹配結(jié)果不滿意的約束條件可以修改或自定義，通過(guò)修改或自定義的約束條件標(biāo)準(zhǔn) 進(jìn)行檢測(cè)。

　1.3.5. 依數(shù)據(jù)目錄標(biāo)準(zhǔn)檢測(cè)（整體性檢測(cè)）

　對(duì)于存在數(shù)據(jù)目標(biāo)標(biāo)準(zhǔn)的數(shù)據(jù)集，如果完成數(shù)據(jù)集層面的匹配，則可以依據(jù)完備的數(shù)據(jù)目錄標(biāo)準(zhǔn)進(jìn)行從數(shù)據(jù)字段細(xì)節(jié)，到數(shù)據(jù)字段間約束性，到數(shù)據(jù)整體性的完整檢測(cè)流程。

　1.3.6. 自定義整體性檢測(cè) 自定義整體性檢測(cè)可以設(shè)置數(shù)據(jù)集整體性檢測(cè)規(guī)則，依據(jù)自定義的整體性規(guī)則對(duì)數(shù)據(jù)集的整體性進(jìn)行檢測(cè)。

　1.4. 檢測(cè)報(bào)告對(duì)數(shù)據(jù)的檢測(cè)結(jié)果會(huì)以報(bào)告的形式輸入，檢測(cè)報(bào)告會(huì)詳細(xì)的描述檢測(cè)中出現(xiàn)的問(wèn)題以及問(wèn)題類(lèi)型，會(huì)對(duì)檢測(cè)問(wèn)題做統(tǒng)計(jì)和分析操作，檢測(cè)結(jié)果和分析結(jié)果會(huì)通過(guò)可視化圖表等方式展示。

　同時(shí)，對(duì)于檢測(cè) 出的問(wèn)題，可以通過(guò)清洗操作解決的會(huì)給出清洗建議，存在安全隱患的，會(huì)給出安全處理建議。

　1.4.1. 問(wèn)題描述

　問(wèn)題描述羅列出檢測(cè)中出現(xiàn)的各種問(wèn)題以及問(wèn)題的數(shù)量。

　1.4.2. 問(wèn)題分析問(wèn)題分析是對(duì)檢測(cè)中的問(wèn)題進(jìn)行分析和統(tǒng)計(jì)，并將分析和統(tǒng)計(jì)結(jié) 果以可視化的形式展現(xiàn)。

　1.4.3. 清洗建議清洗建議是針對(duì)可以進(jìn)行清洗的數(shù)據(jù)，給出的清洗建議。

　清洗建議中包括是否適合機(jī)器清洗、人工清洗、機(jī)器 + 人工清洗，包括適合的清洗方法，具體的數(shù)據(jù)清洗方法會(huì)在下一章節(jié)中列出。

　1.4.4. 加工建議加工建議是針對(duì)數(shù)據(jù)存在的整體性問(wèn)題提出的加工建議，加工建議中包括是否適合機(jī)器加工、人工加工、機(jī)器 + 人工加工，包括適合的加工方法，具體的數(shù)據(jù)加工方法在后面章節(jié)中列出。

　1.4.5. 脫敏建議脫敏建議是針對(duì)存在敏感性的數(shù)據(jù)提出的脫敏建議，具體的數(shù)據(jù) 脫敏方法在后面章節(jié)中列出。

　2. 數(shù)據(jù)清洗現(xiàn)實(shí)數(shù)據(jù)一般含有噪聲、格式錯(cuò)誤、數(shù)值超限、不完整、不一致等情況，數(shù)據(jù)清洗可以填補(bǔ)空缺數(shù)據(jù)、識(shí)別錯(cuò)誤、消除噪聲、糾正數(shù) 據(jù)中的不一致。數(shù)據(jù)清洗是基于數(shù)據(jù)檢測(cè)的結(jié)果對(duì)數(shù)據(jù)質(zhì)量做的提升工作。

　數(shù)據(jù)清洗中很多方法并不能完全正確的修復(fù)數(shù)據(jù)，所以一些數(shù)據(jù) 清洗方法只適用于準(zhǔn)確性要求不高的數(shù)據(jù)。

　以下數(shù)據(jù)清洗方法中，除特別提到由人工處理的，其它方法均可以由系統(tǒng)實(shí)現(xiàn)。

　2.1. 空缺值處理空缺值是指字段內(nèi)容是空缺的，根據(jù)空缺內(nèi)容字段的重要程度，可以選擇不同的清洗方式。

　2.1.1. 刪除記錄即刪除有空缺的記錄。

　可在設(shè)定好規(guī)則后由機(jī)器處理，情況包括：

　1 、某條記錄的某字段空缺時(shí)，刪除該條記錄； 2 、某條記錄的某幾個(gè)字段同時(shí)空缺，刪除該條記錄； 3 、某條記錄空缺值超過(guò) X 個(gè)時(shí)，刪除該條記錄； 4 、某條記錄空缺值超過(guò)總字段數(shù)的 Y% 時(shí)，刪除該條記錄。

　2.1.2. 人工填寫(xiě) 通常數(shù)據(jù)量較大的情況下，此種方式并不適合，在空缺值較少的情況可由人工填寫(xiě)。

　人工填寫(xiě)空缺值的優(yōu)點(diǎn)是經(jīng)過(guò)人為判斷，可以保證填充值的準(zhǔn)確度。

　2.1.3. 常量填充使用一個(gè)或若干個(gè)常量來(lái)填充空缺值，情況包括：

　1 、直接使用一個(gè)常量填充該字段所有空缺值； 2 、隨機(jī)從若干個(gè)常量中選擇一個(gè)填充。

　2.1.4. 統(tǒng)計(jì)填充對(duì)該字段中非空缺值進(jìn)行統(tǒng)計(jì)，根據(jù)統(tǒng)計(jì)結(jié)果來(lái)選擇空缺值填充內(nèi)容，情況包括：

　1 、對(duì)數(shù)值型數(shù)據(jù)，可以使用非空缺值的平均值、最大值、最小值、眾數(shù)、某分位數(shù)等做填充； 2 、對(duì)時(shí)間型（日期型）數(shù)據(jù)，可以使用非空缺值的平均時(shí)間（日期）、最近時(shí)間（日期）、最遠(yuǎn)時(shí)間（日期）等做填充； 3 、對(duì)字符型數(shù)據(jù)，可以對(duì)非空缺值分類(lèi)并統(tǒng)計(jì)出各類(lèi)別的數(shù) 量和占比，根據(jù)各分類(lèi)數(shù)量或占比的值選擇如最大量、最小量等做填充。

　2.1.5. 條件填充條件填充是依據(jù)該條記錄中其它非空字段的特點(diǎn)，設(shè)置關(guān)聯(lián)條件，對(duì)空缺值進(jìn)行填充。情況包括：

　（下面設(shè)定 A 字段為待填充的含空缺值字段， B 、 C••… 為其它關(guān)聯(lián)字段）

　1 、存在與 A 字段強(qiáng)關(guān)聯(lián)的 B 字段，通過(guò) B 字段推理出 A 字段的內(nèi)容，如學(xué)歷為研究生的大部分都通過(guò)了英語(yǔ)六級(jí)； 2 、存在與 A 字段具有約束關(guān)系的 B 字段，通過(guò) B 字段推導(dǎo)出

　A 字段內(nèi)容，如通過(guò)身份證號(hào)碼可以推導(dǎo)出年齡、出生日期、性別等字段。

　2.1.6. 分析填充分析填充通過(guò)數(shù)據(jù)統(tǒng)計(jì)、分析、挖掘等算法，來(lái)尋找空缺值最可能的值給予填充。分析填充需要人工設(shè)置分析方法并選擇分析字段，需要人工和計(jì)算器共同完成。情況包括：

　1 、關(guān)聯(lián)分析，使用關(guān)聯(lián)分析的挖掘方法分析數(shù)據(jù)，尋找出強(qiáng) 關(guān)聯(lián)的字段，根據(jù)強(qiáng)關(guān)聯(lián)字段關(guān)聯(lián)情況尋找最可能的值，當(dāng)數(shù)據(jù)字段具有強(qiáng)關(guān)聯(lián)時(shí)，此種方式有效。

　2 、聚類(lèi)分析，使用聚類(lèi)分析的挖掘方法分析數(shù)據(jù)，將非空數(shù) 據(jù)記錄聚類(lèi)成若干簇，根據(jù)簇中字段特點(diǎn)來(lái)選擇最可能的值。

　3 、回歸分析，使用回歸等數(shù)據(jù)挖掘方法，計(jì)算最可能的值，此種方式對(duì)數(shù)值型數(shù)據(jù)有效。

　2.1.7. 規(guī)則填充規(guī)則填充是指如果數(shù)據(jù)元標(biāo)準(zhǔn)、數(shù)據(jù)目錄標(biāo)準(zhǔn)中存在相應(yīng)的標(biāo)準(zhǔn) 規(guī)范，可以直接按照標(biāo)準(zhǔn)規(guī)范中的要求進(jìn)行填充。規(guī)則填充依據(jù)“條件填充”的規(guī)范，是事先定義好的標(biāo)準(zhǔn)。

　2.2. 違規(guī)值處理違規(guī)值問(wèn)題是指數(shù)據(jù)的格式不符合要求，或者含有格式要求外的字符，如姓名中出現(xiàn)阿拉伯?dāng)?shù)字。

　2.2.1. 刪除記錄即刪除含違規(guī)值記錄。

　可在設(shè)定好規(guī)則后由機(jī)器處理，適于刪除記錄操作的情況包括：

　1 、關(guān)鍵字段存在違規(guī)值，且無(wú)法恢復(fù)； 2 、編碼錯(cuò)誤導(dǎo)致存在大量違規(guī)值，且無(wú)法恢復(fù)； 2.2.2. 人工修改通常數(shù)據(jù)量較大的情況下，此種方式并不適合，在違規(guī)值較少的情況可由人工修改。

　人工修改違規(guī)值的優(yōu)點(diǎn)是經(jīng)過(guò)人為判斷，可以保證修正值的準(zhǔn)確度。

　2.2.3. 內(nèi)容清空即清空違規(guī)值字段內(nèi)容，當(dāng)作空缺值處理。

　2.2.4. 違規(guī)字符清除對(duì)于存在違規(guī)字符的數(shù)據(jù)，通過(guò)設(shè)置規(guī)則清理掉數(shù)據(jù)字段中的違規(guī)字符，而保留不違規(guī)字符，可直接將違規(guī)字符替換為空。適于違規(guī) 字符清理的操作包括如：

　1 、時(shí)間或日期型數(shù)據(jù)中含有如 “ （）”等違規(guī)字符； 2 、名字等字段中含有空格；

　3 、身份證號(hào)碼等字段中含有 X 以外的其它字母或字符;

　2.2.5. 違規(guī)字符替換對(duì)含有違規(guī)字符的內(nèi)容做違規(guī)字符替換，將違規(guī)字符替換為規(guī)則內(nèi)字符。

　1 、統(tǒng)一替換，將違規(guī)字符統(tǒng)一替換為某規(guī)則內(nèi)字符；

　2 、規(guī)則替換，不同違規(guī)字符對(duì)應(yīng)不同的規(guī)則內(nèi)字符； 3 、精確替換，設(shè)置匹配規(guī)則做精確替換，如“ & ”替換為“和”； 4 、模糊替換，設(shè)置匹配規(guī)則做模糊替換，如“ &*** （ * 代表其他字符）”替換為“和”。

　2.2.6. 字典匹配對(duì)于字典字段，填寫(xiě)的內(nèi)容不在字典項(xiàng)之內(nèi)，這種問(wèn)題可以歸為違規(guī)值，有些違規(guī)可能是因?yàn)樘顚?xiě)不規(guī)范造成的，如多寫(xiě)了或少寫(xiě)了一些字符，可以通過(guò)模糊匹配核心詞的方式來(lái)做處理：

　1 、模糊匹配，新增規(guī)則字典并設(shè)置匹配規(guī)則做模糊對(duì)應(yīng)； 2 、精確匹配，新增規(guī)則字典并設(shè)置匹配規(guī)則做精確對(duì)應(yīng)； 2.2.7. 規(guī)則修改按照數(shù)據(jù)字段標(biāo)準(zhǔn)和數(shù)據(jù)目錄標(biāo)準(zhǔn)或者設(shè)置條件約束規(guī)則，對(duì)含有違規(guī)值的內(nèi)容做修改。

　該種方式忽略當(dāng)前違規(guī)值，直接依據(jù)標(biāo)準(zhǔn)規(guī) 則或約束條件進(jìn)行修改處理。

　2.3. 噪聲值處理噪聲值是指數(shù)據(jù)內(nèi)容超出了字段要求的邏輯范疇，不符合常理。

　如人的年齡 190 歲、身高 10 米、體重 5 噸等錯(cuò)誤，可以通過(guò)一些降噪方式來(lái)處理。

　2.3.1. 刪除記錄即刪除含噪聲值記錄。可在設(shè)定好規(guī)則后由機(jī)器統(tǒng)一處理。

　2.3.2. 內(nèi)容清空

　依據(jù)字段要求的邏輯范疇，對(duì)噪聲值內(nèi)容做清空處理。

　2.3.3. 人工修改噪聲值通常數(shù)據(jù)量較大的情況下，此種方式并不適合，在噪聲值較少的情況可由人工修改。

　人工修改噪聲值的優(yōu)點(diǎn)是經(jīng)過(guò)人為判斷，可以保證修正值的準(zhǔn)確度。

　2.3.4. 修改規(guī)則數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況，如數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定的單位是米，而待檢測(cè)數(shù)據(jù)是按厘米保存的數(shù)據(jù)，數(shù)據(jù)單位的不一致會(huì)導(dǎo) 致檢測(cè)規(guī)則不符合實(shí)際數(shù)據(jù)情況，可以通過(guò)修改檢測(cè)規(guī)則的方式來(lái)處理，重新識(shí)別噪聲值。

　2.3.5. 數(shù)值轉(zhuǎn)換數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況，如數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定的單位是米，而待檢測(cè)數(shù)據(jù)是按厘米保存的數(shù)據(jù)。

　為了保證數(shù)據(jù)標(biāo)準(zhǔn)的權(quán) 威性，可以通過(guò)數(shù)值轉(zhuǎn)換的方式來(lái)做處理。如身高標(biāo)準(zhǔn)的單位是米，待處理數(shù)據(jù)的單位是厘米，則可以對(duì)待處理數(shù)值除以 100 ，另外還有貨幣或其他計(jì)量單位。此種方式一般需要人工分析和設(shè)置。

　2.3.6. 數(shù)據(jù)平滑對(duì)數(shù)值型數(shù)據(jù)含有的噪聲數(shù)據(jù)，可以通過(guò)數(shù)據(jù)平滑技術(shù)做處理。

　1 、近似填充，通過(guò)考察相近的值來(lái)平衡噪聲值，如選擇離噪聲值最近的正常值，將噪聲值修改為正常值，或者選擇離噪聲值較近的若干個(gè)正常值，將噪聲值修改為這些正常值的平均值等。數(shù)據(jù)量較大時(shí)適用； 2 、統(tǒng)計(jì)，基于統(tǒng)計(jì)的方法，如將噪聲值修改為正常值的平均值。數(shù)據(jù)量較

　小時(shí)適用； 3 、常量替換，將噪聲值替換為常量。

　2.4. 數(shù)據(jù)完整性處理為保證數(shù)據(jù)集的完整性和一致性，從整體出發(fā)，來(lái)做相應(yīng)的處理。

　數(shù)據(jù)完整性處理可以對(duì)重復(fù)字段、重復(fù)記錄、沖突字段做清洗處理，單對(duì)數(shù)據(jù)缺失的問(wèn)題無(wú)法處理，這需要從數(shù)據(jù)源出發(fā)尋找解決辦法。

　2.4.1. 字段排重重復(fù)字段是某若個(gè)字段表述的屬性是一樣，可以做排重處理。

　對(duì) 于重復(fù)字段，可以選擇保留某一字段，刪除其它重復(fù)的字段。

　1 、人工選擇，由人工選擇保留字段，刪除其它重復(fù)字段； 2 、依標(biāo)準(zhǔn)保留，依據(jù)數(shù)據(jù)目標(biāo)標(biāo)準(zhǔn)，保留完全符合數(shù)據(jù)目錄標(biāo)準(zhǔn)的字段； 3 、依質(zhì)量保留，根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)結(jié)果，保留數(shù)據(jù)質(zhì)量問(wèn)題最少的字段； 4 、順序保留，即按字段出現(xiàn)的順序，保留第一個(gè)字段或最后一個(gè)字段。

　2.4.2. 依關(guān)鍵字段的記錄排重針對(duì)某關(guān)鍵字段，每條記錄需要是唯一的，如果同一字段出現(xiàn)了多條記錄對(duì)應(yīng)，只需要保留其中一條即可。

　1 、人工選擇，由人工選擇保留記錄，刪除其它重復(fù)記錄； 2 、順序保留，即按記錄出現(xiàn)的順序，保留第一條記錄； 3 、條件保留，設(shè)置條件規(guī)則和約束字段，比如保留按時(shí)間屬

　性字段離當(dāng)前最近的 4 、以數(shù)據(jù)質(zhì)量保留，根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)結(jié)果，保留數(shù)據(jù)質(zhì)量問(wèn)題最少的記錄。

　2.4.3. 依重復(fù)度的記錄排重對(duì)比數(shù)據(jù)記錄的重復(fù)情況，達(dá)到一定要求的，即可排重。

　1 、完全重復(fù)，即兩條記錄完全一致，保留一條即可； 2 、不完全重復(fù)，設(shè)置若干比對(duì)字段，按比對(duì)字段完全一致的記錄，保留一條即可。

　2.4.4. 字段沖突處理對(duì)具有強(qiáng)約束關(guān)系的字段，可以以某字段作為標(biāo)準(zhǔn)，對(duì)其余字段做修改處理。如，身份證號(hào)字段與年齡、性別字段具有約束關(guān)系，可以以身份證號(hào)座位標(biāo)準(zhǔn)字段，在與年齡或性別字段沖突時(shí)，通過(guò)身份證號(hào)推導(dǎo)出正確的值。

　2.4.5. 記錄沖突處理對(duì)不同的記錄，記錄之間可能存在關(guān)聯(lián)關(guān)系，需要根據(jù)不同的問(wèn) 題情況做不同的處理。

　1 、統(tǒng)計(jì)錯(cuò)誤，如合計(jì)項(xiàng)的值不是列表項(xiàng)中值的和，需要人工分析處理和修改錯(cuò)誤值； 2 、邏輯錯(cuò)誤，如人員列表中，不同的人對(duì)應(yīng)了相同的駕駛證號(hào)，其中一條記錄一定是錯(cuò)的，需要人工分析處理和修改

　錯(cuò)誤值 3. 數(shù)據(jù)加工在完成數(shù)據(jù)清洗后，可以對(duì)清洗后的數(shù)據(jù)按需求做一定的加工處理，數(shù)據(jù)加工要求在不改變數(shù)據(jù)內(nèi)容和數(shù)據(jù)邏輯的前提下進(jìn)行。

　3.1. 數(shù)據(jù)集成數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)集合并成一個(gè)數(shù)據(jù)集的操作。

　數(shù)據(jù)集成可能會(huì)產(chǎn)生冗余數(shù)據(jù)或重復(fù)數(shù)據(jù)，需要再經(jīng)過(guò)數(shù)據(jù)檢測(cè)來(lái)查看數(shù)據(jù)問(wèn)題。

　3.1.1. 記錄合成將數(shù)據(jù)結(jié)構(gòu)一致或相近的數(shù)據(jù)集合成為一個(gè)大數(shù)據(jù)集。

　可能出現(xiàn) 的情況和加工方式包括：

　1 、結(jié)構(gòu)一致，將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后； 2 、結(jié)構(gòu)不一致，在數(shù)據(jù)集 A 中增加數(shù)據(jù)集 B 中的新字段，并將值均置為空，同時(shí)在數(shù)據(jù)集 B 中增加數(shù)據(jù)集 A 中的新字段，并將值均置為空，再將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后； 3 、記錄冗余處理，數(shù)據(jù)集拼接后，可能存在記錄重復(fù)、數(shù)據(jù) 沖突等問(wèn)題，需要經(jīng)過(guò)數(shù)據(jù)檢驗(yàn)來(lái)排除問(wèn)題。

　3.1.2. 字段聚合將具有相同關(guān)鍵字段的多個(gè)數(shù)據(jù)集，以關(guān)鍵字段（要求唯一）為主鍵，聚合成一個(gè)具有更多屬性字段的數(shù)據(jù)集。

　1 、設(shè)置主數(shù)據(jù)集，其它數(shù)據(jù)集以主數(shù)據(jù)集為依托進(jìn)行聚合，最終聚合的記錄與主數(shù)據(jù)集記錄數(shù)對(duì)應(yīng)； 2 、不設(shè)置主數(shù)據(jù)集，對(duì)多個(gè)數(shù)據(jù)集的主鍵拼接排重，最終聚合的記錄是多個(gè)數(shù)據(jù)集的并集； 3 、字段冗余處理，字段聚合后，可能存在字段重復(fù)、數(shù)據(jù)沖突等問(wèn)題，需要經(jīng)過(guò)數(shù)據(jù)檢驗(yàn)來(lái)排除問(wèn)題。

　3.2. 數(shù)值平滑數(shù)據(jù)平滑主要針對(duì)數(shù)值型數(shù)據(jù)，除了可以用來(lái)消除檢測(cè)出的噪聲數(shù)據(jù)，還可以分析符合檢測(cè)要求的數(shù)據(jù)值中存在的噪聲。

　3.2.1. 數(shù)值分箱分箱方法通過(guò)考察周?chē)闹祦?lái)做平滑處理。

　數(shù)值被劃分到若干個(gè) 箱中，每個(gè)箱內(nèi)的數(shù)據(jù)可以統(tǒng)一取平均值或邊界值。

　3.2.2. 數(shù)值聚類(lèi) 通過(guò)聚類(lèi)可以發(fā)現(xiàn)異常數(shù)據(jù)，相似或相鄰的數(shù)據(jù)聚合在一起形成了各個(gè)聚類(lèi)集合，位于聚類(lèi)集合之外的數(shù)據(jù)，可以被認(rèn)為是異常數(shù)據(jù)，可以做刪除或者修改的操作。

　3.2.3. 數(shù)值回歸可以利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。

　例如，線性回歸需要找到適

　合兩個(gè)變量字段的擬合直線，使得一個(gè)字段可以預(yù)測(cè)另一個(gè)字段。

　多線性回歸則涉及兩個(gè)以上的字段。

　通過(guò)擬合函數(shù)平滑數(shù)據(jù)并去除異常數(shù)據(jù)。

　3.3. 數(shù)據(jù)變換按需求將已有字段內(nèi)容變換成其它形式。

　3.3.1. 依規(guī)則變換依據(jù)一定的標(biāo)準(zhǔn)（或字典）將數(shù)據(jù)轉(zhuǎn)換成其它形式。如：

　0 對(duì)應(yīng) 未知、 1 對(duì)應(yīng)男、 2 對(duì)應(yīng)女等，依據(jù)對(duì)應(yīng)規(guī)則做相應(yīng)的變換。

　3.3.2. 數(shù)據(jù)概化用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象。如年齡字段，可以從 0 、 1 、2 、 3 、 4 、 5 ……這樣的數(shù)值屬性映射到較高層概念，如兒童、少年、青年、中年、老年…… 3.3.3. 單位轉(zhuǎn)換根據(jù)數(shù)據(jù)單位及單位間的轉(zhuǎn)換規(guī)則轉(zhuǎn)換數(shù)值，如人民幣轉(zhuǎn)換為美元、英尺轉(zhuǎn)換為公尺等等。

　3.3.4. 數(shù)據(jù)下鉆對(duì)數(shù)據(jù)進(jìn)行匯總和聚集操作。例如，可以聚集日數(shù)據(jù)，計(jì)算出月和年數(shù)據(jù)。

　3.3.5. 數(shù)據(jù)規(guī)范化

　將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍內(nèi)，如 -1.0~1.0 或 0.0~1.0 。

　3.4. 分拆合并對(duì)已知字段做分拆、合并等操作，轉(zhuǎn)換成新的字段。

　3.4.1. 直接分拆從字段中分拆其中的部分直接生產(chǎn)新的數(shù)據(jù)字段，如從地址信息中分拆出城市名稱(chēng)。

　1 、從左往右分拆出 X 位； 2 、從右往左分拆出 X 位； 3 、從第 M 位開(kāi)始，分拆出 X 位； 3.4.2. 分拆變換分拆字段中的部分內(nèi)容并做一定的轉(zhuǎn)化，如提取身份證號(hào)中的性別位并轉(zhuǎn)化為性別字段。

　3.4.3. 字符添加在字段中添加特定的字符。

　1 、在開(kāi)頭添加字符； 2 、在結(jié)尾添加字符； 3 、在第 X 位添加字符； 4 、在某固定字符前（后）添加字符。

　3.4.4. 直接合并將多個(gè)字段直接合并為一個(gè)字段。

　3.4.5. 變換合并將字段進(jìn)行轉(zhuǎn)換后再合并為一個(gè)字段。

　4. 數(shù)據(jù)脫敏數(shù)據(jù)脫敏指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形，實(shí)現(xiàn) 敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣，就可以在開(kāi)發(fā)、測(cè)試和其它非生產(chǎn) 環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。

　4.1. 定義敏感數(shù)據(jù) 敏感數(shù)據(jù)又稱(chēng)隱私數(shù)據(jù)，常見(jiàn)的敏感數(shù)據(jù)有 : 姓名、身份證號(hào)碼、地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類(lèi) （如賬戶查詢(xún)密碼、取款密碼、登錄密碼等）

　、組織機(jī)構(gòu)名稱(chēng)、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。平臺(tái)提供敏感數(shù)據(jù)定義功能，可以人工定義敏感數(shù)據(jù)。

　一般可分為替換算法和生成算法兩大類(lèi)。

　替換算法即將需要脫敏的部分使用定義好的字符或字符串替換，生成類(lèi)算法則更復(fù)雜一些，要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則，即是 “看起來(lái)很真實(shí)的假數(shù)據(jù) ”。

　4.2. 可恢復(fù)脫敏一般的脫敏規(guī)則分類(lèi)為可恢復(fù)與不可恢復(fù)兩類(lèi)。

　可恢復(fù)類(lèi)，指脫敏后的數(shù)據(jù)可以通過(guò)一定的方式，可以恢復(fù)成原來(lái)的敏感數(shù)據(jù)，此類(lèi) 脫敏規(guī)則主要指各類(lèi)加解密算法規(guī)則。

　可恢復(fù)脫敏遵循下面兩個(gè)原則：

　盡可能的為脫敏后的應(yīng)用 , 保留脫敏前

　的有意義信息；最大程度上防止黑客進(jìn)行破解。

　4.2.1. 替換如統(tǒng)一將女性用戶名替換為 A ,對(duì)內(nèi)部人員可以完全保持信息完整性，但易破解。

　4.2.2. 重排如序號(hào) 12345 重排為 54321 ，按照一定的順序進(jìn)行打亂，很像“替換”，可以在需要時(shí)方便還原信息，但同樣易破解。

　4.2.3. 加密如編號(hào) 12345 加密為 23456 ，安全程度取決于采用哪種加密算法，一般根據(jù)實(shí)際情況而定。

　4.3. 不可恢復(fù)脫敏不可恢復(fù)類(lèi)，指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能恢復(fù)出。脫敏方法示例。

　4.3.1. 刪除直接刪除敏感字段。

　4.3.2. 截?cái)?如 13811001111 截?cái)酁?138 ，舍棄必要信息來(lái)保證數(shù)據(jù)的模糊性，是比較

　常用的脫敏方法，但往往對(duì)生產(chǎn)不夠友好。

　4.3.3. 掩碼如 123456 -> 1xxxx6 ，保留了部分信息，并且保證了信息的長(zhǎng)度不變性，對(duì)信息持有者更易辨別，如火車(chē)票上的身份信息。

　4.3.4. 日期偏移取整 20130520 12:30:45 -> 20130520 12:00:00 ，舍棄精度來(lái)保證原始數(shù) 據(jù)的安全性，一般此種方法可以保護(hù)數(shù)據(jù)的時(shí)間分布密度。

　4.3.5. 隨機(jī)化按一定規(guī)則將數(shù)據(jù)值替換為隨機(jī)值。

　5. 數(shù)據(jù)標(biāo)準(zhǔn) 數(shù)據(jù)標(biāo)準(zhǔn)是基于對(duì)政務(wù)數(shù)據(jù)的梳理，整理出數(shù)據(jù)元對(duì)應(yīng)的數(shù)據(jù)字段的格式標(biāo)準(zhǔn)。不同字段對(duì)應(yīng)的數(shù)據(jù)元可以由系統(tǒng)自動(dòng)識(shí)別和匹配，

　同時(shí)也可以做自定義設(shè)定。平臺(tái)自動(dòng)識(shí)別和匹配的格式標(biāo)準(zhǔn)也可以根據(jù)實(shí)際需求做個(gè)性化的設(shè)置和調(diào)整。

　5.1. 數(shù)據(jù)格式分類(lèi)和規(guī)范數(shù)據(jù)字段內(nèi)容格式規(guī)范采用了數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)，表示格式如下 c 中文字符，可以包含漢字（中、國(guó)……等）

　、字母字彳（ a-z,A-Z ）和數(shù)字字符等 c12 固定 12 位字符（即 6 個(gè)漢字）長(zhǎng)度的中文字符 C..12 最多為 12 位字符（即 6 個(gè)漢字）長(zhǎng)度的中文字符 a 特指字母字符（ a-z,A-Z ）

　a3 固定長(zhǎng)度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符（ 0 、 1 、 2 、 3 ……）

　n3 固定長(zhǎng)度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 ， n2 數(shù)值型 , 小數(shù)點(diǎn)前最多為 5 位數(shù)字，小數(shù)點(diǎn)后保留 2 位數(shù)字, 總長(zhǎng)度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長(zhǎng)度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符

　d8 日期型，按年、月、日順序全數(shù)字表示，格式為 8 位定長(zhǎng)、全數(shù)字表示（ YYYYMM ）

　D 年用 4 位數(shù)字表示，月、日各用 2 位數(shù)字表示，彼此之間沒(méi)有分隔符，如 2002 年 12 月 25 日，應(yīng)表示為 20021225 t 時(shí)間型，按時(shí)、分、秒順序全數(shù)字表示，格式為 6 位定長(zhǎng)、全數(shù)字表示（ hhmmsS z 綜合性，可含有各種字符，且具有一定的格式。

　52 標(biāo)準(zhǔn)字段目錄 5 ?2 ?1 ? 自然人屬性 521.1. 姓名標(biāo)準(zhǔn)字段名姓名匹配字段名人名 | 名字 | 企業(yè)法人定義在公安戶籍管理部門(mén)正式登記注冊(cè)、人事檔案中正式記載的中文姓氏名稱(chēng) 默認(rèn)檢測(cè)規(guī)則 1 、 C..30 2 、不應(yīng)存在空格和特殊字符可選清洗規(guī)則 1 、不處理（該字段為輔字段項(xiàng)時(shí)推薦）

　2 、刪除記錄（該字段為主字段項(xiàng)時(shí)推存）

　5212 身份證號(hào)碼標(biāo)準(zhǔn)字段名身份證號(hào)碼匹配字段名公民身份號(hào)碼（男）

　1 公民身份號(hào)碼（女）

　1 身份證定義公民身份證的號(hào)碼默認(rèn)標(biāo)準(zhǔn) 1 、 an15 2 、 an18 邏輯檢測(cè) 1 、格式說(shuō)明：

　15 位身份證號(hào)碼組成：

　ddddddyymmddxxs 共 15 位。其中：dddddd 為 6 位的地方代碼，根據(jù)這 6 位可以獲得該身份證號(hào)所在地； yy 為 2 位的年份代碼，是身份證持有人的出身年份， mm為 2 位的月份代碼，是身份證持有人的出身月份， dd 為 2 位的日期代碼，是身份證持有人的出身日，這 6 位在起組成了身份證持有人的出生日期； xx 為 2 位的順序碼，這個(gè)是隨機(jī)數(shù)； s 為 1 位的性別代碼，奇數(shù)代表男性，偶數(shù)代表女性。

　18 位身份證號(hào)碼組成：

　ddddddyyyymmddxxsp 共 18 位。

　年份代碼由原來(lái)的 2 位升級(jí)到 4 位,最后一位為校驗(yàn)位，其它部分和 15 位號(hào)碼相同。

　2 、校驗(yàn)規(guī)則：

　1 ）十七位數(shù)字本體碼加權(quán)求和公式：

　S = Sum（Ai * Wi）

　其中 i = 0, ... , 16, 先對(duì)前 17 位數(shù)字的

　權(quán)求和， Ai 表示第 i 位置上的身份證號(hào)碼數(shù)子值， Wi 表示第 i 位置上的加權(quán)因子 ( Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ) 2) 計(jì)算模：

　Y 二

　mod(S, 11) 3) 通過(guò)模得到對(duì)應(yīng)的校驗(yàn)碼：

　Y: 0 1 2 3 4 5 6 7 8 9 10 對(duì)應(yīng)校驗(yàn)碼 :1 0 X 9 8 7 6 5 4 3 2 也就是說(shuō)，如果得到余數(shù)為 1 則最后的校驗(yàn)位 p 應(yīng)該為對(duì)應(yīng)的 0• 5213 性別標(biāo)準(zhǔn)字段名性別匹配字段名

　定義人的基本生理特征默認(rèn)標(biāo)準(zhǔn) C..6 標(biāo)準(zhǔn)變換 0 對(duì)應(yīng)未知； 1 對(duì)應(yīng)男； 2 對(duì)應(yīng)女； 9 對(duì)應(yīng)未說(shuō)明值域未知；男；女；未說(shuō)明

　5214 民族標(biāo)準(zhǔn)字段名民族匹配字段名

　定義個(gè)人所屬的、經(jīng)國(guó)家認(rèn)可在公安戶籍管理部門(mén)登記注冊(cè)

　的民族名稱(chēng)。

　默認(rèn)規(guī)則 C..10 標(biāo)準(zhǔn)變換 1 、見(jiàn)民族代碼表中代碼與名稱(chēng)的對(duì)應(yīng) 2 、不含“族”字與含“族”字對(duì)應(yīng) 值域見(jiàn)民族代碼表民族代碼表

　代碼名稱(chēng) 代碼名稱(chēng) 1 漢族 29 柯?tīng)柨俗巫?2 家古族 30 土族 3 回族 31 達(dá)斡爾族 4 藏族 32 仫佬族 5 維吾爾族 33 羌族 6 苗族 34 布朗族 7 彝族 35 撒拉族 8 壯族 36 毛難族 9 布依族 37 仡佬族 10 朝鮮族 38 錫伯族 11 滿族 39 阿昌族 12 侗族 40 普米族 13 瑤族 41 塔吉克族 14 白族 42 怒族 15 土家族 43 烏孜別克族

　16 哈尼族 44 俄羅斯族 17 哈薩克族 45 鄂溫克族 18 傣族 46 德昂族 19 黎族 47 保安族 20 傈僳族 48 裕固族 21 佤族 49 京族 22 畬族 50 塔塔爾族 23 高山族 51 獨(dú)龍族 24 拉祜族 52 鄂倫春族 25 水族 53 赫哲族 26 東鄉(xiāng)族 54 門(mén)巴族 27 納西族 55 珞巴族 28 景頗族 56 基諾族 99 其他民族

　521.5. 血型標(biāo)準(zhǔn)字段名血型匹配字段名

　定義人員的血型默認(rèn)規(guī)則 an..2 標(biāo)準(zhǔn)變換含“型”與不含“型”相對(duì)應(yīng) 值域 A ; B ; AB; O

　5216 年齡標(biāo)準(zhǔn)字段名年齡匹配字段名

　定義人員的年齡默認(rèn)規(guī)則 n..3

　5 ?2 ?2 ? 時(shí)間屬性時(shí)間屬性包括日期型和時(shí)間型，日期型字段要求符合 GB/T 7408 中的日歷日期， YYYYM MDD 為基本格式， YYYY-M M-DD 為擴(kuò)展格式 522.1. 日期標(biāo)準(zhǔn)字段名日期匹配字段名

　定義日期默認(rèn)規(guī)則 d8, YYYYM MDD! 基本格式標(biāo)準(zhǔn)變換 YYYY-M M-DD YYYY /MM/DD

　5222 已發(fā)生日期標(biāo)準(zhǔn)字段名已發(fā)生日期匹配字段名出生日期定義當(dāng)前日期之前的日期默認(rèn)規(guī)則 1 、 d8, YYYYMMD 為基本格式 2 、不超過(guò)當(dāng)前日期

　標(biāo)準(zhǔn)變換 YYYY-M M-DD YYYY /MM/DD

　5 ?2 ?3• 位置屬性 5.2.4• 數(shù)值屬性 5.3. 字段約束標(biāo)準(zhǔn) 梳理數(shù)據(jù)并可自定義添加。

相關(guān)熱詞搜索：數(shù)據(jù)處理解決方案政府

熱點(diǎn)文章閱讀

落實(shí)防止干預(yù)司法“三個(gè)規(guī)定” 2020-09-24
疫情防控考試題（附答案） 2020-07-06
落實(shí)防止干預(yù)司法“三個(gè)規(guī)定” 2020-09-24
成都市19區(qū)(市)縣黨委常委名單 2020-07-30
對(duì)照先進(jìn)典型身邊榜樣存問(wèn)題 2020-10-12
加強(qiáng)網(wǎng)絡(luò)意識(shí)形態(tài)工作重要性及 2020-09-13
銀行助力打贏疫情防控攻堅(jiān)戰(zhàn)簡(jiǎn) 2020-09-23
社區(qū)矯正短篇思想?yún)R報(bào) 2020-08-23
2021年村級(jí)換屆選舉 2020-08-10
繼續(xù)教育考試,牢記黨宗旨,堅(jiān)持 2020-07-20

版權(quán)所有 蒲公英文摘 www.newchangjing.com