
注:標題、作者、姓名、單位、摘要、關鍵詞、正文以及大、小標題部分一定要按格式修改,前四項缺一不可!本word最后有范文,可以按范文格式修改!
頁面設置:頁眉:居中、宋體、小五,見范文
頁邊距:上、下:2.54厘米(默認值),左:3厘米(默認值),右:3厘米,全文行距:1.25,版心210*285
全文的數字和英文字母均應為Times New Roman字體
題目(居中,黑體、二號)
作者名字(居中,楷體or楷體_GB2312,四號,作者名字分開用“,”兩個字的作者中間不留空格,帶上角標的作者切記標好)
作者單位(居中,楷體_GB2312,五號,1.2.3.切記不要用自動編號)
空一行
摘 要(黑體,五號):具體內容(楷體or楷體_GB2312,五號,兩端對齊)
關鍵詞(黑體,五號);具體內容(楷體or楷體_GB2312,五號,詞之間用分號,兩端對齊)
空一行
正文(宋體、五號)
1 一級標題:頂格,小四,楷體or楷體_GB2312,加黑
1.1 二級標題:頂格,五號,宋體加黑
1.1.1 三級標題:頂格、五號,宋體
全文圖、表居中,表選所有框線;
圖題、表題:居中、小五、黑體
空一行
參考文獻:(←這四個字,頂格,小四,楷體or楷體_GB2312,加黑)
[1](中文宋體,英文 Times New Roman,小五,英文的參考文獻留著,中文參考文獻對應的英文部分刪掉。)
空一行
作者信息(宋體、小五):作者信息不留照片和聯系方式,寫清姓名、年齡、公司、職位、職稱、工作成就成果就好。
基金項目(黑體、小五):具體內容
最后全文選中,英文字體部分全文重新選Times New Roman,段落選多倍行距1.25,除標題每正文自然段需要首行縮進2字符
↓范文如下,格式可以直接格式刷照搬
智慧供水管網節水數據清洗挖掘方法研究
王小斌
(延安水務環保集團自來水有限公司,延安水務環保集團檢測技術服務有限公司,延安,716000)
摘 要:本論文旨在研究智慧供水管網節水數據清洗和挖掘的方法。首先,探討了智慧供水管網數據收集的方法和重要性,包括用水量、壓力、數字孿生等信息。其次,使用MATLAB中函數工具對原始數據進行數據清洗和預處理,包括去除異常值、填補缺失值等,以確保數據的準確性和完整性。再次,采用數據挖掘技術對清洗后的數據進行分析和挖掘,編寫MATLAB聚類分析、回歸分析、神經網絡等程序對智慧管網節水數據進行挖掘,為智慧管網節水數據挖掘提供參考。最后展望了政府、供水、用水戶對智慧供水管網節水數據挖掘的潛在價值和數據挖掘的意義。
關鍵詞:智慧管網;節水;數據清洗;數據挖掘
智慧供水管網是指利用先進的傳感器、物聯網技術、大數據分析和人工智能等技術手段,對供水管網進行實時監測、智能管理和優化運營的系統。它通過采集供水管網各個節點的數據,包括水質、水壓、流量等信息,并將這些數據傳輸到中心控制系統進行分析和處理。通過對數據的分析和預測,智慧供水管網可以實現對供水系統的智能化監控、故障預警和遠程控制,提高供水系統的運行效率、水資源利用效率和服務質量。供水管網智慧化是未來各種技術交叉嫁接的過程,最本質的是安全供水,創新點在于智慧化。智慧化怎么走還沒確定的答案,有一點是肯定的,那就是利用現代科技成果使城市供水更安全更可靠更便捷。智慧管網如何智慧化,數據是關鍵。因此基于這個邏輯,對智慧供水管網數據進行梳理,研究管網數據清洗挖掘的方法,以Y城市為例從智慧管網數據收集,數據清洗,數據價值挖掘的角度探索智慧供水管網數據的隱藏價值,為更好更安全的供水提供參考。
1智慧管網節水數據收集
通過現場測量、設計文件、地理信息系統(GIS)等手段收集與管網相關的數據,包括管道幾何信息(管徑、長度、連接關系等)、管道材質、節點位置、邊界條件(入口流量、出口壓力等)等。
1.1數據采集點的設置
數據采集是智慧供水管網的基礎,設置合理的數據采集點是數據采集的關鍵。數據采集點位有以下三種方法:(1)網絡模型分析法。通過使用水力模型軟件,對管網進行模擬和分析,可以幫助確定最佳的監測點位置。模型分析可以評估管網的流量和壓力分布情況,識別潛在的問題區域,并確定最需要監測的位置。二(2)網絡分區劃分法。將管網劃分為不同的區域或分區,根據每個區域的特點和需求,設置相應的監測點。分區可以根據地理位置、管徑、用途等因素進行劃分,以便更好地監測和管理管網的流量和壓力。(3)監測點密度法。根據管網的規模和復雜程度,確定監測點的密度。在管網較大或復雜的情況下,可能需要增加監測點的密度,以更全面地了解管網的流量和壓力情況。而在管網較小或簡單的情況下,可以適度減少監測點的密度,以降低成本和維護工作量。
1.2數據收集的基礎保障
要保證管網數據可靠準確,需要做好三方面工作。首先,選擇適合的監測設備和可靠的網絡數據傳輸設備,如流量計、壓力傳感器、水質傳感器,自動化的數據采集系統等。準確將監測點的數據傳輸到中央數據庫或監測中心,進行實時監測和分析。其次,對傳感器定期維護和校準,維護包括設備清潔、故障排除和更換等,而校準則是通過與標準設備進行比對,確保監測設備的準確度和一致性。最后,建立數據收集處理管理機構,保證所有收集的智慧管網數據收集規則和機制,并且探索數據的潛在價值。
2數據清洗
智慧管網數據清洗是一項最基礎的工作,我們使用數據清洗技術對原始數據進行預處理,包括去除異常值、填補缺失值等,以確保數據的準確性和完整性。
2.1數據清洗方法
數據清洗是指對原始數據進行處理,以去除錯誤、不一致或無效的數據,使其適合進一步分析和建模。使用MATLAB中各種函數和工具箱可以進行數據清洗,相關清洗步驟有以下幾種:(1)缺失值處理:使用MATLAB的函數(如isnan、ismissing)來檢測和處理缺失值。你可以選擇刪除包含缺失值的行或列,或者使用插值方法填充缺失值。
(2)異常值處理:使用統計方法(如均值、中位數和標準差)來檢測和處理異常值。你可以選擇刪除異常值或使用插值方法進行替換。
(3)數據類型轉換:使用MATLAB的函數(如str2double、str2num)將字符串類型的數據轉換為數值類型。你還可以使用datetime函數將日期和時間數據轉換為MATLAB的日期時間格式。
(4)數據重復處理:使用MATLAB的函數(如unique)來查找和刪除重復的數據。
(5)數據格式化:使用MATLAB的函數(如sprintf)來格式化數據的顯示方式,以便更好地呈現和理解數據。
(6)數據篩選和排序:使用MATLAB的邏輯運算符和函數(如find、sort)來篩選和排序數據,以便選擇感興趣的數據子集。
(7)數據合并和拆分:使用MATLAB的函數(如vertcat、horzcat)將多個數據集合并為一個,或者使用splitapply函數將數據拆分為多個子集進行處理。
2.2數據清洗程序
以下是對Y某區域壓力數據進行數據局清洗的MATLAB程序操作示例:
filename = 'C:\p_data.txt'; % 文件路徑和名稱
data = importdata(filename);
disp('文件數據:');
disp(data);文件數據:
0.5038 0.6334 0.2241 0.5362 0.4819 0.3192 0.4066
0.4843 0.8078 0.7269 0.3150 3.7535 0.5225 0.4437
0.5215 0.4295 0.4376 0.5990 0.5909 0.5917 0.5171
0.3293 0.5217 0.6130 0.4989 0.5535 0.0001 0.4197
0.4794 0.3713 0.5388 0.3353 0.3431 0.3691 0.1556
0.5938 0.4825 0.3745 0.5870 0.2788 0.4398 0.4259
0.4819 0.4813 0.3635 0.4470 0.4335 0.5128 0.5593
0.5609 0.3636 0.4577 0.3286 0.3386 0.4493 0.6033
0.3730 0.4871 0.4274 0.5617 0.3411 0.4533 0.5053
0.5601 0.6044 0.4586 0.3008 0.3758 0.3438 0.6850
0.3884 0.5248 0.4308 0.5389 0.3735 0.3098 0.3078
0.4988 0.4323 0.4304 0.5919 0.4792 0.4698 0.6088
0.3696 0.5197 0.5335 0.4256 0.4716 0.3334 0.3352
0.4605 0.5222 0.7085 0.3833 0.4687 0.4418 0.2567
0.4061 0.2705
missing_values = isnan(data); % 檢測缺失值
data_filled = fillmissing(data, 'linear');% 使用插值方法來填充缺失值
outliers = isoutlier(data); % 判斷異常值
data(outliers) = []; % 刪除異常值
boxplot(data); % 繪制箱線圖
z_scores = zscore(data); % 計算Z-score
圖1異常值未刪除z-score 圖2異常值刪除后z-score
3智慧管網節水數據挖掘
智慧管網結束數據量較大數據清洗完成后,就需要用MATLAB數據挖掘工具和函數,完成數據挖掘任務。
3.1數據挖掘方法
數據挖掘的方法有很多,常用的主要有以下五種:
(1)聚類分析:聚類分析用于將數據分成不同的組或簇,使得同一組內的數據相似度較高。MATLAB中的kmeans函數可以用于K-means聚類算法,clusterdata函數可以用于層次聚類算法。
(2)分類分析:分類分析用于根據已有的標記數據,建立一個分類模型,然后用該模型對新的數據進行分類。MATLAB中的fitcecoc函數可以用于多類別分類,fitcsvm函數可以用于支持向量機分類。
(3)關聯規則挖掘:關聯規則挖掘用于發現數據集中的頻繁項集和關聯規則。MATLAB中的apriori函數可以用于頻繁項集挖掘,associationRules函數可以用于關聯規則挖掘。
(4)回歸分析:回歸分析用于建立一個數學模型,描述自變量和因變量之間的關系,并用該模型對新的自變量進行預測。MATLAB中的fitlm函數可以用于線性回歸分析,fitrtree函數可以用于決策樹回歸分析。
(5)神經網絡分析:神經網絡在數據挖掘中可以用于分類、回歸、聚類等任務。常見的神經網絡結構包括多層感知器(MLP)、卷積神經網絡(CNN)、循環神經網絡(RNN)等。
3.2數據挖掘程序
Y市智慧管網壓力數據多是不同區域管網結構不同管網壓力需求不同因此可以采用聚類分析方法進行分析,MATLAB中聚類分析的示例程序如下:
rng(1); % 設置隨機種子,保證結果可復現
X = [randn(100,2)+1; randn(100,2)-1];% 使用k-means算法進行聚類分析
k = 2; % 簇的個數
[idx, C] = kmeans(X, k);% 繪制聚類結果
figure;
gscatter(X(:,1), X(:,2), idx, 'rg');
hold on;
plot(C(:,1), C(:,2), 'kx', 'MarkerSize', 10, 'LineWidth', 2);
legend('Cluster 1', 'Cluster 2', 'Centroids');
title('k-means Clustering');
圖3.聚類分析散點圖 圖4回歸分析散點圖
智慧管網節水數據挖掘最重要的工具之一就是回歸分析,通過回歸分析建立數學模型找到管網節水數據的規律,預測管網節水策略。回歸分析是一種統計分析方法,用于研究自變量(或預測變量)與因變量之間的關系。它可以幫助我們理解和預測因變量如何隨著自變量的變化而變化。在回歸分析中,自變量通常是已知的,而因變量是我們希望預測或解釋的變量。回歸分析的目標是建立一個數學模型,該模型可以描述自變量與因變量之間的關系,并用于預測因變量的值。常見的回歸分析方法包括線性回歸、多項式回歸、嶺回歸、Lasso回歸等。其中,線性回歸是最常用的回歸分析方法之一。以下是MATLAB線性回歸的程序算法示例:
rng(1); % 設置隨機種子,保證結果可復現
X = randn(100,1);
y = 2*X + randn(100,1);% 使用線性回歸分析
mdl = fitlm(X, y);% 繪制數據散點圖和回歸線
figure;
scatter(X, y);
hold on;
plot(X, predict(mdl, X), 'r', 'LineWidth', 2);
xlabel('X');
ylabel('y');
legend('Data', 'Linear Regression');
title('Linear Regression Analysis');% 獲取回歸方程的系數和截距
coeff = mdl.Coefficients.Estimate;
intercept = coeff(1);
slope = coeff(2);% 計算線性相關系數
R = corrcoef(X, y);
linear_r = R(1, 2);% 在圖像上顯示回歸方程和線性相關系數
eqn = ['y = ' num2str(slope) ' * X + ' num2str(intercept)];
r_text = ['Linear R = ' num2str(linear_r)];
text(min(X), max(y), eqn, 'HorizontalAlignment', 'left', 'VerticalAlignment', 'top');
text(min(X), max(y)-0.1, r_text, 'HorizontalAlignment', 'left', 'VerticalAlignment', 'top');
3.3人工神經網絡挖掘方法
神經網絡(Neural Network)是一種模擬人腦神經系統工作原理的數學模型,用于解決復雜的模式識別和預測問題。它由多個神經元(或稱為節點)組成,這些神經元通過連接權重相互連接,形成一個網絡結構。神經網絡通常包含輸入層、隱藏層和輸出層。輸入層接收輸入數據,隱藏層對輸入數據進行處理和轉換,輸出層產生最終的預測結果。每個神經元接收來自上一層神經元的輸入,并通過激活函數對輸入進行加權求和和非線性變換,然后將結果傳遞給下一層神經元。神經網絡的訓練過程就是通過調整連接權重,使得網絡能夠對輸入數據進行準確的預測。常見的神經網絡模型包括前饋神經網絡(Feedforward Neural Network)、循環神經網絡(Recurrent Neural Network)、卷積神經網絡(Convolutional Neural Network)等。以下代碼是一個使用MATLAB神經網絡工具箱創建一個前饋神經網絡,具有兩個隱藏層,分別有10個和5個神經元進行管網壓力預測的示例程序。
% 假設有以下輸入特征和對應的輸出壓力數據
inputs = [0.5; 0.8; 0.6];
outputs = [10; 15; 12];
% 創建并配置神經網絡模型
net = feedforwardnet([10, 5]); % 創建一個前饋神經網絡,具有兩個隱藏層,分別有10個和5個神經元net = configure(net, inputs, outputs); % 配置網絡的輸入和輸出大小
% 設置訓練參數
net.trainParam.epochs = 100; % 設置訓練的迭代次數
net.trainParam.lr = 0.01; % 設置學習率
net.trainParam.goal = 0.01; % 設置訓練目標,即誤差的閾值
% 訓練神經網絡模型
net = train(net, inputs, outputs);
% 使用訓練好的模型進行預測
predicted_outputs = net(inputs);
% 顯示預測結果
disp('預測結果:');
disp(predicted_outputs);
圖5神經網絡結構圖 圖6神經網絡訓練圖
4 智慧管網節水數據潛在價值挖掘結論及展望
智慧管網節水數據對政府、供水單位、物業、用戶等供用水相關方均有其潛在價值,對政府來說水量的減少和水質污染導致水資源嚴重緊缺,常常是限制城市發展的瓶頸,政府常常通過調水工程和蓄水工程來緩解城市供水難題,通過挖掘智慧管網數據和調蓄水量數據潛在關系為城市供水規劃提供參考。對供水單位來說是連接水源地和水龍頭的關鍵,掌握著大量的智慧管網資產和數據,但是如何挖掘智慧管網節水數據還有很長一段路要走,一個是自己使用數據的節水價值有待開發,另一個是可以給用戶提供節水服務的潛在價值。通常供水單位通過對多年供水數據信息進行數學建模,可以較為準確預測水源的供水量和用戶的需水量,從而保障城市供水安全。通過生產損耗水科學循環再利用提高生產節水價值。通過城區用水戶分區計量挖掘智慧管網節水數據為用戶提供潛在價值,比如獨居老人居家水量信息推送兒女報平安服務,提供更優質的供水潛在價值。通過城區供水壓力,分區設置壓力報警閾值,及時調整加壓泵站壓力啟動泄壓閥防止爆管發生實現節水信息的潛在價值。建立城區供水數字孿生模型,科學規劃,科學調度,減少水錘等供水災害的發生,達到節水潛在價值的實現。對于大用戶來說供水企業提供夜間最小流量診斷服務,為大用戶提供不同區域的用水最小流量,減少跑冒滴漏,節約水資源,減少漏水引起的財產損失,實現節水潛在價值。
參考文獻:
[1]廖芹. 數據挖掘與數學建模[M].北京:國防工業出版社,2010:49-50.
[2]郭煒星. 數據挖掘分類算法研究[D].浙江大學,2008:34-35.
[3]Han JW. Micheline K. Data mining-concepts and techniques [M]. 北京:高等教育出版社,2001:56-57.
[4]張雅君, 劉全勝. 需水量預測方法的評析與擇優[J].中國給水排水,2001,(07):27-29.
[5]Allaher DR. Boland J. LePlastrier BJ. Methods for Forecastin Urban Demands[M].Australian:Australian water resources council,1981:279(5359):2063-2064.
[6]傅金祥,馬興冠.水資源需求預測及存在的主要問題探討[J].中國給水排水,2002,(10):27-29.
[7]Pan Nin Tan. Michael Steinbach, Vipin Kumar. Introduction to Data Mining [M]. 北京:人民郵電出版社,2004:102-105.
[8]劉同明.數據挖掘技術及其應用[M].長沙:國防工業出版社,2001. 1-12.
[9]Huan Z. Extensions to the Koreans alorithm for clustering Laure data sets with categorical values [J]. Data Minim and Knowledge Discover, 1998(2).20-56