Phân tích zonal statistics, nội suy, tính diện tích từ dữ liệu raster.
Zonal statistics
Zonal statistics là một kỹ thuật phân tích trong GIS dùng để tính toán các giá trị thống kê của một lớp raster dựa trên các vùng (zone) xác định từ lớp vector hoặc raster khác. Đây là công cụ rất hữu ích khi bạn cần tóm tắt thông tin raster theo khu vực hành chính, vùng địa lý, hoặc phân loại đất.
Các thống kê phổ biến:
Thống kê Ý nghĩa Mean (trung bình) Giá trị trung bình trong vùng Sum (tổng) Tổng giá trị các pixel trong vùng Count Số lượng pixel hợp lệ Min / Max Giá trị nhỏ nhất / lớn nhất Standard deviation (std) Độ lệch chuẩn Majority / Minority Giá trị xuất hiện nhiều nhất / ít nhất Median Trung vị Range Khoảng biến thiên (Max - Min) Ví dụ ứng dụng thực tế:
| Bài toán | Raster input | Zone input | Output |
|---|---|---|---|
| Tính dân số theo vùng hành chính | Raster dân số | Bản đồ hành chính vector | Cột dân số ở mỗi vùng hành chính |
| Tính nhiệt độ trung bình theo tỉnh | Raster nhiệt độ | Bản đồ ranh giới tỉnh | Bảng / lớp vector có cột “mean” |
| Diện tích đất rừng theo huyện | Raster land cover | Huyện (polygon) | Tổng số pixel loại rừng |
| Độ dốc trung bình của lưu vực sông | Raster slope | Lưu vực (catchment) | Trung bình độ dốc mỗi lưu vực |
Thực hành: tính dân số cấp tỉnh năm 2020 dựa trên dữ liệu raster
Dữ liệu thực hành
- Ranh giới hành chính cấp tỉnh (trước sáp nhập 7/2025): provincial level boundary (gadm41_VNM_1.shp) ở trong file *.zip (9 MB) này: https://geodata.ucdavis.edu/gadm/gadm4.1/shp/gadm41_VNM_shp.zip
- Dữ liệu dân số (population count per pixel) từ WorldPop unconstrained (163 MB). Giá trị pixel là tổng số người được đếm trong phạm vi mỗi pixel:
https://data.worldpop.org/GIS/Population/Global_2000_2020/2020/VNM/vnm_ppp_2020_UNadj.tif
Các bạn có thể dùng các dữ liệu dân số khác đã học ở Bài 10
Các bước tiến hành
- Mở các lớp vnm_ppp_2020_UNadj.tif và gadm41_VNM_1.shp.
- Dùng Processing Toolbox: Gõ chữ “zonal statistics” vào ô search ở Processing Toolbox panel bên phía tay phải.
- Xác lập các tham số như ảnh dưới
- Input layer: gadm41_VNM_1.shp
- Raster layer: vnm_ppp_2020_UNadj.tif
- Statistics to calculate: như đã đề cập về dữ liệu WorldPop, giá trị mỗi pixel là số người sống trên pixel đó. Mục tiêu của chúng ta là tính tổng dân số trong mỗi phạm vi tỉnh. Do đó, chúng ta cần chọn tham số thống kê là tổng (Sum) để ra lệnh cho QGIS tính tổng giá trị tất cả các pixel trong phạm vi mỗi polygon của lớp gadm41_VNM_1.shp.
- Đặt tên cho file đầu ra.

Thiết lập tham số chạy zonal statistics

Thực hành / Homework: Tính dân số cấp tỉnh sử dụng các dữ liệu dân số raster phổ biến khác
- Download dữ liệu dân số năm 2020 từ các nguồn sau:
- Join bảng thuộc tính của gadm41_VNM_1.shp với dữ liệu thống kê dân số 2020 cung cấp bởi Cục thống kê (GSO)
- Chụp ảnh màn hình bảng thuộc tính của gadm41_VNM_1.shp sau khi đã tính số liệu dân số từ 3 nguồn WorldPop, Facebook HRPD, GHS-POP và liên kết với số liệu thống kê từ GSO.
- Nguồn dữ liệu nào có kết quả gần với số liệu thống kê nhất?
Nội suy
Khái niệm nội suy
- Nội suy (Interpolation) là một kỹ thuật dùng để ước lượng giá trị tại các vị trí chưa có dữ liệu dựa trên các điểm dữ liệu đã biết.
- Về khía cạnh địa không gian, nội suy là quá trình tạo ra một bề mặt liên tục (thường là raster) từ một tập hợp các điểm có giá trị thuộc tính đã biết (thường là shapefile dạng điểm).
- Ví dụ: từ 100 trạm quan trắc mưa rải rác, bạn muốn tạo bản đồ lượng mưa liên tục trên toàn vùng.
- Ứng dụng của nội suy:
Lĩnh vực Ứng dụng nội suy Khí tượng Tạo bản đồ nhiệt độ, lượng mưa Địa chất - Thủy văn Độ mặn, mức nước ngầm, ô nhiễm đất Địa hình - DEM Tạo mô hình địa hình từ điểm độ cao Môi trường Chất lượng không khí, NO₂, bụi mịn… Nông nghiệp Độ ẩm đất, pH đất, năng suất
Các phương pháp nội suy
| Phương pháp | Đặc điểm chính | Ưu điểm | Nhược điểm | Khi nào dùng |
|---|---|---|---|---|
| Inverse Distance Weighting (IDW) | Giá trị phụ thuộc vào khoảng cách – càng gần càng ảnh hưởng nhiều | Dễ dùng, nhanh | Có thể bị “nhọn” quanh điểm đo | Dữ liệu rải đều |
| Kriging | Phức tạp hơn, có mô hình hóa cấu trúc không gian (semivariogram) | Chính xác, có độ tin cậy | Phức tạp, cần hiểu thống kê | Phân tích môi trường, địa chất |
| Spline | Tạo bề mặt mượt mà, đảm bảo trơn liên tục | Mượt mà | Có thể vượt quá giá trị thực | Độ cao, địa hình |
| Natural Neighbor | Dựa trên thuật toán Voronoi – kết quả mượt và tự nhiên | Tự nhiên, không vượt giá trị | Không có dự đoán bên ngoài rìa | Dữ liệu khí hậu, sinh học |
| TIN | Dùng tam giác hóa các điểm và nội suy trong từng tam giác | Giữ nguyên các điểm gốc | Không tạo raster liên tục đẹp | Mô hình địa hình chi tiết |
Lưu ý khi sử dụng nội suy
- Số lượng và phân bố điểm đầu vào ảnh hưởng rất lớn đến kết quả.
- Không nên nội suy cho khu vực quá xa các điểm đo (vì sai số cao).
- Một số phương pháp (như Kriging) cần hiểu thống kê không gian để áp dụng đúng.
Thực hành: Nội suy sự phân bố xâm nhập mặn tại đồng bằng sông Cửu Long năm 2021
- Xâm nhập mặn (saline intrusion) là hiện tượng nước mặn (nồng độ muối từ 4‰) từ biển xâm nhập sâu vào nội địa theo các sông, kênh rạch, làm tăng độ mặn của nước mặt và nước ngầm, gây ảnh hưởng đến nông nghiệp, nước sinh hoạt và hệ sinh thái.
Những nguyên nhân nào gây ra xâm nhập mặn?
- Có nhiều nguyên nhân gây ra xâm nhập mặn:
- Tự nhiên:
- Địa hình thấp và có mạng lưới sông ngòi chằng chịt, thông thủy với biển.
- Mùa khô kéo dài, ít mưa, dẫn đến dòng chảy từ thượng nguồn yếu.
- Thủy triều từ Biển Đông và Biển Tây dâng cao vào mùa khô.
- Nhân sinh:
- Suy giảm dòng chảy sông Mekong do thủy điện và khai thác nước ở thượng nguồn.
- Biến đổi khí hậu: mực nước biển dâng, hạn hán gay gắt hơn.
- Sụt lún đất do khai thác nước ngầm quá mức.
- Tự nhiên:
- Hậu quả của xâm nhập mặn
Lĩnh vực Tác động 🌾 Nông nghiệp Giảm năng suất lúa, trái cây chết, đất bị mặn hóa 💧 Nước sinh hoạt Thiếu nước ngọt, nhiều vùng phải dùng nước mặn lợ 🐟 Thủy sản Ảnh hưởng môi trường nuôi cá, tôm nước ngọt 🌱 Hệ sinh thái Thay đổi cấu trúc rừng ngập mặn, vùng đất ngập nước
Dữ liệu thực hành
- Dữ liệu từ một số trạm đo mặn ở ĐBSCL, nguồn OpenDevelopmentMekong Vietnam: Saline Intrusion in the Southern Region, Vietnam in 2021 and in 2022

Tuy nhiên, dữ liệu này là dữ liệu csv phi không gian. Không có tọa độ vị trí của trạm đo mặn. Chúng ta cần lấy vị trí của các trạm đo mặn ở văn bản sau: Quyết định số 289/QĐ-TTg của Thủ tướng Chính phủ: Phê duyệt Quy hoạch mạng lưới trạm khí tượng thủy văn quốc gia thời kỳ 2021 - 2030, tầm nhìn đến năm 2050
Đây là dữ liệu mặn sau khi tích hợp vị trí tọa độ trạm đo mặn, có thêm 2 cột tọa độ X và Y:

Dữ liệu xâm nhập mặn đã tích hợp thêm tọa độ X và Y Ranh giới đất liền của khu vực ĐBSCL (không bao gồm các đảo, quần đảo): download
Các bước thực hành nội suy
Dữ liệu Saline Intrusion in the Southern Region, Vietnam in 2021 and in 2022 bao gồm giá trị đo xâm nhập mặn 10 ngày một lần đo, từ tháng 1 đến tháng 3 của 2 năm 2021 và 2022. Trong bài thực hành này chỉ sử dụng dữ liệu của năm 2021 như ảnh trên đã trình bày.
Mở dữ liệu xâm nhập mặn đã tích hợp tọa độ trạm đo bằng cách Add Delimited Text như đã thực hành ở Bài 2.


Lưu lớp vị trí trạm thành file shp tên là: salinization_2021.shp.

Bảng thuộc tính của salinization_2021.shp Chúng ta sẽ dùng công cụ IDW Interpolation để nội suy phân bố xâm nhập mặn 10 ngày cuối tháng 3 năm 2021, tức là cần chọn trường 21/03 - 31. Từ Processing Toolbox, gọi IDW Interpolation. Xác lập các tham số như ảnh:
- Cần ấn nút dấu + để hộp bên dưới ghi nhận Vector layer và Interpolation attribute
- Tham số Distance coefficient P: kiểm soát mức độ ảnh hưởng của các điểm gần và xa tới giá trị nội suy. Để giá trị mặc định.
Giá trị PẢnh hưởng P = 1Trọng số giảm chậm theo khoảng cách. Các điểm xa vẫn có ảnh hưởng đáng kể. Bề mặt mượt. P = 2Thường dùng mặc định. Trọng số giảm mạnh hơn. Các điểm gần có ảnh hưởng rõ rệt hơn. P > 2Trọng số giảm rất nhanh. Chỉ các điểm gần mới có ảnh hưởng lớn. Bề mặt trở nên nhấp nhô, “nhiễu” hơn. P → ∞Chỉ điểm gần nhất có ảnh hưởng → gần giống nearest neighbor. - Extent: Chọn extent của lớp diện tích đất liền ĐBSCL.
- Output raster size: để pixel size khoảng 250m.


- Clip raster nội suy theo file ranh giới đất liền ĐBSCL bằng Clip Raster by Mask Layer:

Tạo contour để dễ phân tích kết quả. Sử dụng công cụ Contour Polygons:

Thiết lập tham số chạy contour polygon Kết quả chạy contour polygon. Ở những nơi không có dữ liệu, thì kết quả nội suy không đảm bảo sự chính xác. Ví dụ: trên thực tế, những vùng sâu trong đất liền như hightlight trên ảnh không bị xâm nhập mặn, tuy nhiên kết quả nội suy vẫn cho thấy giá trị xâm nhập mặn của vùng này ở mức 8-12 ‰. Do đó, khi số lượng dữ liệu hạn chế, kết quả nội suy cần phải được so sánh đối chiếu với các nguồn khác và cần được hiệu chỉnh bởi kiến thức chuyên gia.

Kết quả chạy contour polygon ](/onlinecourse/course/gis/11_analysis2/11_analysis2_interp11_hu_9dfc6dfa44928707.webp)
Bản đồ dự báo phân bố độ mặn khu vực ĐBSCL tháng 5/2020, nguồn: link
Tính diện tích dựa trên dữ liệu raster
Nhiều ứng dụng yêu cầu định lượng các diện tích sử dụng đất trong một khu vực. Các bộ dữ liệu sử dụng đất / thảm phủ mặt đất (LULC) được định dạng dưới dạng raster, trong đó mỗi pixel được gán một giá trị lớp. Các nhà phân tích GIS thường cần tạo báo cáo dựa trên dữ liệu này bằng cách tính diện tích theo lớp trong một khu vực nhất định. QGIS đi kèm với nhiều công cụ tích hợp để phục vụ mục đích này.
Phần này sẽ hướng dẫn cách tính diện tích các loại thảm phủ đất dựa trên QGIS ở phạm vi xã Định Hóa, Thái Nguyên (sau sáp nhập). Đây cũng là địa phương đã được lựa chọn để thực hành Bài 3 (hồ Bảo Linh).
Dữ liệu thực hành
Truy cập trang cung cấp dữ liệu thảm phủ đất ESA Worldcover. Download mảnh dữ liệu ESA_WorldCover_10m_2021_v200_N21E105.tif theo hướng dẫn ở Bài 10.
Downnload ranh giới xã Định Hóa, Thái Nguyên sau sáp nhập ở https://gis.vn/ban-do-hanh-chinh-viet-nam. Có thể download nhanh ở link này.
Chú ý: nguồn dữ liệu bản đồ hành chính này không phải được cung cấp từ cơ quan chức năng có thẩm quyền, do đó chỉ nên dùng với tính chất tham khảo.
Các bước thực hành
Clip dữ liệu theo ranh giới huyện Định Hóa bằng Clip Raster by Mask Layer, lưu file output là DinhHoa_LULC_.tif:

Clip dữ liệu theo ranh giới huyện Định Hóa bằng Clip Raster by Mask Layer 
Kết quả sau khi Clip Hiện tại, hệ tham chiếu tọa độ CRS của DinhHoa_LULC_.tif là EPSG:4326, đơn vị của CRS này là độ nên không phù hợp cho việc tính diện tích. Để việc tính diện tích được thực hiện đúng đắn, ta cần chuyển hệ tọa độ cho file DinhHoa_LULC.tif thành EPSG:3405 (VN-2000) bằng công cụ Warp (Reproject), lưu file ở tên mới DinhHoa_LULC_3405.tif :

chuyển CRS cho DinhHoa_LULC.tif Sử dụng công cụ Raster layer Unique values report, lưu Unique values table ở dạng *.gpkg với tên file là report.gpkg:

Thiết lập các tham số ở Raster layer Unique values report 
Kết quả sau khi tính diện tích thể hiện ở bảng thuộc tính của file report.gpkg Đổi trường value từ code LULC thành tên các loại hình sử dụng đất: mở Field Calculator và điền đoạn mã sau vào ô Expression:
CASE
WHEN "value" = 10 THEN 'Tree cover'
WHEN "value" = 20 THEN 'Shrubland'
WHEN "value" = 30 THEN 'Grassland'
WHEN "value" = 40 THEN 'Cropland'
WHEN "value" = 50 THEN 'Built-up'
WHEN "value" = 60 THEN 'Bare / sparse vegetation'
WHEN "value" = 70 THEN 'Snow and Ice'
WHEN "value" = 80 THEN 'Permanent water bodies'
WHEN "value" = 90 THEN 'Herbaceous wetland'
WHEN "value" = 95 THEN 'Mangroves'
WHEN "value" = 100 THEN 'Moss and lichen'
END


- Cuối cùng, đổi diện tích m2 thành diện tích tính theo ha, sử dụng Field Calculator:

Tính diện tích theo hecta 
Kết quả cuối cùng. Có thể lưu thành file excel để dùng làm bảng biểu hoặc vẽ biểu đồ phục vụ các báo cáo