View
9
Download
0
Category
Preview:
Citation preview
151
ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08
NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ
THÔNG MINH TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ
VÀ NHÀ Ở NĂM 2009
1. Cấp đề tài : Tổng cục
2. Thời gian nghiên cứu : 2007-2008
3. Đơn vị thực hiện : Trung tâm Tin học Thống kê
4. Chủ nhiệm đề tài : TS. Thiều Văn Tiến
PHẦN I
KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG
KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƢỚC
1. Công nghệ quét, nhận dạng
Công nghệ nhận dạng đã đƣợc cơ quan thống kê nhiều nƣớc áp dụng
trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập
tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh
dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ
nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công
nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition).
1.1. Công nghệ đọc, đánh dấu quang học (OMR)
Cách đây vài thập kỷ, rất nhiều nƣớc tiên tiến đã sử dụng công nghệ
nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều
tra. Đây là một bƣớc tiến quan trọng trong việc xử lý phiếu tự động nhƣng
việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao nhƣ:
phải có thiết bị đọc riêng, yêu cầu cao về chất lƣợng giấy và in phiếu, không
nhận dạng đƣợc các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự
đánh dấu v.v.
Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên
phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế
form thông thƣờng. Form thiết kế phải có các rãnh dọc theo mép của form,
chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đƣờng cắt
của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles”
152
nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ
hình ô văng đó cho từng phƣơng án trả lời một. Sau đó điều tra viên sẽ làm
kín ô có phƣơng án trả lời đúng thì máy Scan mới nhận dạng đƣợc. OMR
không thể nhận dạng chữ viết tay và chữ in.
Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR
và ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ
ICR và OCR.
1.2. Công nghệ nhận dạng ký tự quang học (OCR)
Công nghệ OCR là một bƣớc tiến mới so với công nghệ OMR bởi vì nó
có thể nhận dạng ký tự in trên giấy. Tuy tỷ lệ nhận dạng chính xác không
bằng công nghệ OMR nhƣng nó đỡ tốn kém hơn công nghệ OMR. Công
nghệ này chuyển hình ảnh chữ thành mã tƣơng ứng mà máy tính có thể đọc
đƣợc (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ
không thể nhận dạng đƣợc chữ viết tay. Đối với chữ in nó cũng chỉ có thể
nhận dạng một số loại fonts chuẩn nhƣ Times Roman và Arial.
1.3. Công nghệ nhận dạng ký tự thông minh (ICR)
Từ những năm 90 của thế kỷ trƣớc, công nghệ nhận dạng ký tự thông
minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể
đọc và nhận dạng đƣợc bởi công nghệ này bao gồm: các chữ in, chữ viết tay,
các ký tự đánh dấu hay đƣợc khoanh, mã vạch,... Các phiếu điều tra đƣợc
nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay đƣợc máy quét
(scanner) chuyển thành hình ảnh và sau đó đƣợc nhận dạng chuyển đổi thành
các chữ cái chữ số mà máy tính có thể xử lý đƣợc.
So với OMR, công nghệ ICR là một bƣớc tiến dài khi nó nhận dạng
đƣợc không chỉ các ký tự đánh dấu, mã vạch,... mà còn nhận dạng chữ viết
tay. Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR,
OCR, ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lƣợng
giấy, không đòi hỏi thiết bị chuyên biệt. Ngày nay ICR đƣợc sử dụng rộng rãi
ở rất nhiều nƣớc trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê
nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế
cách thức nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công
nghệ OCR và OMR (thƣờng đạt tỷ lệ lớn hơn 95%), nhƣng nó gần với thực tế
hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn.
153
2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra
thống kê của một số nƣớc
2.1. Kinh nghiệm của Thái Lan
Trƣớc năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự
thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu
tổng điều tra dân số năm 2000. Sau khi xử lý Tổng Điều tra Dân số năm
2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động
(Labour Force Survey), điều tra Hộ sản xuất (The Household Manufacturing
Survey), Tổng Điều tra Nông nghiệp năm 2003, v.v.
Số lƣợng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái
Lan là 16 triệu phiếu. Nếu nhập tin bằng bàn phím thời gian nhập tin kéo dài
12 tháng, trong khi sử dụng công nghệ quét, nhận dạng ký tự ICR chỉ mất 8
tháng (bằng 2/3 thời gian nhập tin bằng bàn phím).
Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra
dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm
tiến hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trƣớc khi gửi về NSO
tại Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc.
Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2
hệ thống:
- Hệ thống TELEform sử dụng phần mềm TELEform của TELEform
Cardiff Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition
(gồm các Module: TELEform Designer; TELEform Reader; TELEform
Verifier). Các thiết bị sử dụng trong hệ thống TELEform bao gồm 6 máy
scanner Fujitsu M4099D, 57 máy trạm và 02 máy chủ.
- Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang
Nga cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module
sau: Form Designer; Administration Satation; Recognition Satation;
Correction Station). Các thiết bị sử dụng trong hệ thống ABBYY bao gồm 4
máy scanner Fujitsu M4099D, 30 máy trạm và 01 máy chủ.
Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra:
- Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy
nhiên độ dai của giấy cần tốt hơn loại giấy thông thƣờng;
- Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trƣờng
hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân
biệt trang của các tập phiếu khác nhau.
154
- Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự
động, nửa thủ công;
- Tốc độ quét rất khác nhau, tuỳ thuộc vào số lƣợng ô trên một trang
phải nhận dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của
Thái Lan là 20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp
năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút);
- Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả
các ký tự nhận dạng dùng để tổng hợp đều phải bằng số;
- Để giảm khối lƣợng xác minh số liệu, điều tra viên/mã số viên phải
viết tƣơng đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không
đƣợc viết một cách cẩu thả, tuỳ tiện;
- Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần
mềm nhận dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ
không cần phải kiểm tra tất cả các ký tự;
- Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã
trên phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2
của Nhật Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại;
- Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần;
- Việc bảo quản phiếu để dùng cho ICR không quá phức tạp;
2.2. Kinh nghiệm của Philipin
Cơ quan thống kê Quốc gia Philipin (NSO) bắt đầu sử dụng công nghệ
ICR trong việc xử lý tổng điều tra dân số và nhà ở và sau đó tiếp tục sử dụng
công nghệ này trong xử lý tổng điều tra nông nghiệp và thủy sản 2002. Sau
đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong
xử lý tổng điều tra dân số 2000:
Phiếu điều tra đầu tiên đƣợc in màu nhƣng đã đƣợc cải tiến bằng cách
in đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu đƣợc in trên
giấy tốt, tiêu chuẩn tối thiểu 80gram/m2. Phiếu điều tra đƣợc đánh dấu
(mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill)
ký tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật.
NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data
Capture Center – DCC). Số lƣợng phiếu xử lý phải xử lý là 15,5 triệu. Thời
gian xử lý thực hiện theo ca, 2ca/ngày, 6 ngày/tuần. Thời gian xử lý 6 tháng.
Tổng số ngƣời dùng trong xử lý tổng điều tra dân số nhà ở năm 2000 là 146
ngƣời.
155
Tại mỗi Trung tâm xử lý, lập mạng LAN chạy trên hệ điều hành
Windows NT 4.0 với các thiết bị chính nhƣ: 01 máy chủ, 15 máy trạm (PC),
05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút. Riêng Trung tâm
tại Manila số máy quét nhiều hơn các Trung tâm còn lại. Tổng số máy quét
dùng trong xử lý là 22 máy.
Để sử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài
liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét và phần mềm
nhận dạng ký tự thông minh EYES & HANDS for FORMS. Phần mềm ICR mà
NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu
chỉnh (Data Verification) và chuyển đổi (Data Transfer/Generation).
Kinh nghiệm sử dụng công nghệ ICR của Philipin:
- Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trƣờng đánh
dấu (mark) và trƣờng viết tay (handwritten). Trong thiết kế, hạn chế trƣờng
ký tự chữ để tăng tỷ lệ nhận dạng đúng;
- Chất lƣợng in phiếu điều tra cần đảm bảo;
- Trung bình 1 máy quét đƣợc 30 trang (phiếu) trong một phút;
- Tỷ lệ nhận dạng của các trƣờng đánh dấu (mark) là cao. Tỷ lệ nhận
dạng của các trƣờng viết tay là thấp. Tỷ lệ nhận dạng chung là 90-95%;
- Những vùng dữ liệu dạng text (tên chủ hộ, địa chỉ hộ) thì kết quả chƣa
chắc khả quan. Trong mẫu ký tự tiếng Philipin có một ký tự nằm ngoài bảng
chữ cái Latinh hiện nay – ký tự ñ .Việc nhận dạng ký tự này cho kết quả chƣa
cao lắm;
- Tốc độ nhận dạng 3400-3500 phiếu/giờ, hiệu chỉnh 270-320 phiếu/giờ.
Do vậy, số lƣợng bản quyền module hiệu chỉnh của mỗi Trung tâm năm 2000
chỉ có 4 là không đủ mà cần khoảng 9-10.
2.3. Kinh nghiệm của Trung Quốc
Ở Trung Quốc, việc áp dụng công nghệ quét trong xử lý số liệu điều tra
thống kê đã đƣợc thực hiện từ những năm 90 của thế kỷ trƣớc. Năm 1990 sử
dụng công nghệ quét để xử lý số liệu điều tra của 19 triệu dân ở hai tỉnh Quý
Dƣơng và Trùng Khánh. Năm 1992 sử dụng công nghệ này cho xử lý điều tra
nông nghiệp. Năm 2000 áp dụng công nghệ quét để xử lý số liệu tổng điều tra
dân số và tổng điều tra nông nghiệp. Năm 2006 sử dụng công nghệ quét để
xử lý số liệu tổng điều tra nông nghiệp lần thứ 2.
156
Trong tổng điều tra dân số năm 2000, số lƣợng xử lý gấp 2 lần số lƣợng
năm 1990 nhƣng số lƣợng cán bộ và thời gian xử lý chỉ bằng 1/2 so với năm
1990 (năm 2000 sử dụng 5.000 cán bộ; xử lý trong 6 tháng).
- Bút viết chất lƣợng tốt (bút chì kim 2B do Thƣợng Hải sản xuất);
- Máy quét đã sử dụng là Kodak, Fujitsu M4097D tốc độ 40-80 tờ phút,
quét 2 mặt. Sử dụng 500 máy scanner, phân cho các tỉnh theo tỷ trọng dân số.
Riêng Bắc Kinh, Cục Thống kê nhà nƣớc chỉ cấp 01 Scanner nhƣng UBND
thành phố đã mua thêm 17 scanner;
- Giấy chất lƣợng tốt (90-100 gram/m2). Không cần in màu;
- Không cần đánh số phiếu (ID);
- Chữ Hán phải phiên thành mã số mới nhận biết đƣợc;
- Phiếu khổ A3 gấp làm đôi, ghim giữa trang A3 nên phải bóc ghim
trƣớc khi quét;
- Phần mềm xử lý do công ty Tử Quang (Trung Quốc) thiết kế nên
không phải mua phần mềm bên ngoài;
- Ghi phiếu còn khá nhiều lỗi vì vậy phải verify khá nhiều. Công tác
kiểm tra phiếu ở Trung tâm máy tính rất chặt chẽ. Mỗi lô phiếu có sai sót >
5% phải kiểm tra lại toàn bộ phiếu gốc;
- Để xử lý Tổng Điều tra Nông Nghiệp 2006, Trung Quốc mua máy
sanner và phần mềm mới;
Về sử dụng công nghệ quét trong xử lý điều tra thống kê, Trung Quốc
chủ yếu vẫn sử dụng công nghệ OCR và OMR. Công nghệ OMR đòi hỏi tiêu
chuẩn giấy phải tốt hơn, kỹ thuật in phải cao hơn, vì vậy Trung Quốc chủ yếu
sử dụng công nghệ OCR. Trung Quốc chƣa sử dụng công nghệ ICR. Trung
Quốc không có phần mềm riêng cho khâu thiết kế phiếu.
2.4. Kinh nghiệm của Lào
Trung tâm Thống kê Quốc gia Lào đã sử dụng công nghệ ICR trong xử
lý số liệu tổng điều tra dân số năm 2005. Sau đây là kinh nghiệm của Lào
trong việc sử dụng công nghệ ICR để xử lý Tổng điều tra Dân số năm 2005:
- Về giấy in: Giấy in phiếu hỏi không đƣợc bóng, trơn, giấy quá mỏng,
giấy bị bẩn; nên sử dụng giấy 80gram/m2. Không sử dụng giấy có carbon vì
sẽ gặp vấn đề khi quét.
- Chất lƣợng in: Tất cả các bảng hỏi đều phải sử dụng 1 loại máy in để
in. Chọn font chữ in là Arial hoặc OCR-B tối thiểu là size 10-12pt. Không
157
chọn chữ đậm và nghiêng. Không tạo đƣờng bao quanh các trƣờng là nét
mỏng. Nên chọn đƣờng bao có nét 1 hoặc 1.5 pt là tốt nhất. Những câu hỏi
mở phải có đƣờng kẻ ngăn cách giữa các ký tự. Đối với số có phần thập phân
phải có dấu phẩy để ngăn cách.
- Phiếu điều tra đƣợc đóng thành quyển. Tổng số có khoảng 25.000
quyển phiếu (mỗi quyển có thể ghi đƣợc 40 hộ với 400 ngƣời). Dân số Lào
năm 2005 khoảng 5.600.000 ngƣời.
- Trung tâm Thống kê Lào tổ chức xử lý điều tra tập trung. Có 35 ngƣời
làm xử lý điều tra với 4 bƣớc cơ bản: Kiểm tra, mã hoá, làm bảng kê (tick
off); Quét (Scanning); Hiệu chỉnh (Verify); Tổng hợp và phân tích số liệu.
- Số ngƣời làm công việc kiểm tra, mã hoá hoặc chép lại phiếu nếu
phiếu bẩn hoặc nhầu nát là 30 ngƣời, làm việc trong 3 tháng (20 ngƣời sẽ là
những ngƣời thực hiện hiệu chỉnh trong giai đoạn tiếp theo).
- Sử dụng 01 ngƣời chuyên đánh số thứ tự (mã Serial Number) cho tất
cả các phiếu (mã này đƣợc in trƣớc, chỉ việc dán vào quyển phiếu)
- Sử dụng 01 ngƣời điều khiển máy cắt gáy quyển phiếu trƣớc khi đƣa
vào scan (1 lần cắt đƣợc 5 quyển phiếu hỏi).
- Sử dụng 01 ngƣời điều khiển máy đọc mã serial number của quyển
phiếu bằng thiết bị đọc và phần mềm của ReadSoft. Phần mềm ghi lại ngày
đọc và trạng thái của phiếu. Sau đó ghi ra 1 tờ Tick off prepaced Bookets. Tờ
này ghi lại số serial number của quyển phiếu và số tờ phiếu đã sử dụng, số tờ
phiếu chƣa sử dụng của quyển phiếu. Sau đó bỏ tờ bìa của quyển phiếu và
thay vào đó là Tick off.
- Sử dụng 02 ngƣời điều khiển 2 máy quét. Trƣớc khi quét nhập vào số
của hộp bìa sẽ đựng phiếu sau khi quét. Tốc độ quét 56 tờ/1 phút. Một lần có
thể đƣa vào máy scanner 500 tờ. Trong quá trình quét chƣơng trình sẽ thống
kê số tick off và số hộ đã quét đƣợc. Quét 2 mặt một lúc.
- Thỉnh thoảng máy có bị giắt giấy và máy tự động dừng. Sau đó phải
cho máy nghỉ và vệ sinh làm sạch máy.
- Phải làm sạch máy hàng ngày bằng chất rửa và giấy lau riêng.
- Trên máy chủ thiết kế CSDL bằng SQL Server để chuyển số liệu từ
dạng text vào SQL. Và thủ tục đƣợc chạy hàng ngày. Những file text đã
chuyển đƣợc sẽ ghi sang một thƣ mục khác. Tên file text thể hiện ngày
chuyển.
- Sau khi chuyển vào SQL, dùng SPSS để phân tích số liệu.
158
Máy móc, thiết bị dùng cho xử lý đƣợc lắp đặt trong mạng LAN. Số lƣợng
thiết bị đã sử dụng nhƣ sau: 02 máy chủ; 02 máy quét (quét 2 mặt, tốc độ 56 tờ/
phút); 20 máy PC.
- Về phần mềm, Trung tâm Thống kê Lào sử dụng phần mềm Eyes &
Hands của công ty ReadSoft. Tiền thuê phần mềm Eyes & Hands là 16.000
USD/1 năm. Nếu năm sau sử dụng tiếp thì phải trả 6.000 USD/1 năm.
3. Một số vấn đề rút ra từ kinh nghiệm của các nƣớc đã sử dụng công
nghệ quét, nhận dạng ký tự trong xử lý số liệu thống kê
3.1. Lựa chọn công nghệ
Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều
tra, máy fax với tốc độ nhanh và tốn ít nhân lực. Hệ thống này sử dụng máy
quét để đọc phiếu điều tra hoặc tài liệu, và một phần mềm ứng dụng sẽ đọc
hoặc định dạng tự động dữ liệu hoặc chữ số ghi trên phiếu/tài liệu, sau đó
chuyển thông tin thành file dữ liệu mã ASCII (American Standard Code for
Information Interchange) để xử lý tiếp theo. Công nghệ quét, nhận dạng có
thể chia thành công nghệ quét, nhận dạng ký tự quang học (OCR), công nghệ
đọc đánh dấu quang học (OMR), công nghệ quét, nhận dạng ký tự thông
minh (ICR). Cho đến thời điểm hiện nay, trong các công nghệ nói trên, công
nghệ quét nhận dạng ký tự thông minh ICR là công nghệ tiên tiến nhất, đƣợc
sử dụng nhiều nhất trong việc xử lý điều tra thống kê. Do vậy, nghiên cứu áp
dụng công nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu
điều tra nói chung và trong xử lý số liệu Tổng Điều tra Dân số và nhà ở năm
2009 của Việt Nam là sự lựa chọn phù hợp.
3.2. Ưu điểm của công nghệ nhận biết ký tự thông minh
Sử dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý số liệu
điều tra có những ƣu điểm nhƣ: Rút ngắn thời gian xử lý, tăng độ chính xác,
hiệu suất cao, giảm giá thành.
Mặc dù công nghệ ICR có nhiều ƣu điểm đặc biệt khi xử lý các cuộc
điều tra quy mô lớn, nhƣng công nghệ này có những yêu cầu nhất định về
phiếu và ghi phiếu điều tra:
Về phiếu điều tra
- Thiết kế phiếu điều tra áp dụng công nghệ ICR trong xử lý phải đảm
bảo những yêu cầu nhất định để quét và nhận dạng đạt độ chính xác cao. Độ
cao, độ rộng của từng ô, khoảng cách giữa các ô phải đảm bảo để điều tra
viên có đủ khoảng trống để điền thông tin. Độ đậm, nhạt của đƣờng bao ô
cũng ảnh hƣởng đến kết quả nhận dạng. Tỷ lệ nhận dạng đúng ô điền ký tự và
159
ô đánh dấu là khác nhau, do vậy lựa chọn kiểu ô trong thiết kế cũng ảnh
hƣởng đến kết quả nhận dạng.
- Chất lƣợng in phiếu cũng ảnh hƣởng rất nhiều đến quá trình quét, nhận
dạng. Trƣớc hết kích thƣớc phiếu in phải đảm bảo chính xác. Việc in phiếu
điều tra ở những nhà in khác nhau có thể làm lệch vị trí của các ô, lệch kích
thƣớc của các ô, lệch kích thƣớc của phiếu dẫn đến việc nhận dạng sai.
Độ dày, mỏng của phiếu điều tra cũng ảnh hƣớng rất nhiều đến kết quả.
Yêu cầu giấy in phiếu điều tra phải đảm bảo tối thiểu 80 gram/m2. Việc bảo
quản phiếu điều tra cũng đòi hỏi khắt khe hơn. Phiếu điều tra cần phải giữ
khô, không quăn, không nhàu nát. Những phiếu bị quăn, nhàu nát hoặc bị ẩm
làm chậm quá trình quét phiếu.
Về ghi phiếu điều tra:
- Chất lƣợng ghi phiếu ảnh hƣởng rất nhiều đến kết quả áp dụng công
nghệ ICR trong xử lý. Để chất lƣợng ghi phiếu tốt, một vấn đề quan trọng
trong khi ghi phiếu điều tra là phải kiểm soát đƣợc chữ viết tay của điều tra
viên. Viết xấu và ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều
lỗi khi quét. Đặc biệt là trong tổng điều tra, một lực lƣợng lớn điều tra viên sẽ
tham gia, thƣờng khó kiểm soát đƣợc cách viết của họ. Do vậy, việc đào tạo
ghi phiếu điều tra phải đặc biệt quan tâm. Cần có mẫu ký tự chuẩn để đảm
bảo tỷ lệ nhận dạng cao. Khi lựa chọn điều tra viên, phải kiểm tra và loại bỏ
những điều tra viên ghi không đúng mẫu ký tự đã quy định.
- Để đảm bảo tỷ lệ nhận dạng cao, nét chữ khi điền phiếu phải đảm bảo
rõ ràng, không tẩy xóa. Độ rộng của nét chữ cũng ảnh hƣởng đến chất lƣợng,
do vậy ở các nƣớc đã áp dụng công nghệ ICR thƣờng sử dụng bút chì kim
chất lƣợng tốt.
PHẦN II
NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR
CỦA CÔNG TY READSOFT
Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu
công nghệ nhận dạng ký tự thông minh qua tài liệu của các nƣớc, thông tin
trên mạng Internet. Trong thời gian này và trƣớc đó, một số cán bộ của
TTTHTK tham gia các đoàn khảo sát các cơ quan thống kê nƣớc ngoài (Lào,
Hồng Kông, Thái Lan, Philippin) cũng thu thập đƣợc một số thông tin, kinh
nghiệm, có những hiểu biết nhất định về công nghệ này. Một số phần mềm
nhận dạng phiếu loại này đã đƣợc tìm hiểu nhƣ: hệ thống IFP (Intelligent
Form Procesing – Xử lý mẫu phiếu thông minh) của IBM, giải pháp của
160
Pearson do công ty FPT giới thiệu, ABBYY của Nga, Document for FORMS
của ReadSoft, TIS (Top Image System) của Israel,...
Việc lựa chọn phần mềm là rất khó khăn do thông tin các công ty cung
cấp phần lớn chỉ mang tính giới thiệu chung về giải pháp và do chúng ta chƣa
có kinh nghiệm gì và cũng không thể tìm kiếm chuyên gia tƣ vấn ở Việt Nam.
Việc lựa chọn Document for FORMS của ReadSoft dựa trên việc ReadSoft –
Eyes & Hands đã có tiếng trên lĩnh vực này, nhiều cơ quan thống kê các nƣớc
bạn đã sử dụng. ReadSoft cung cấp đầy đủ và nhanh chóng những thông tin
cần thiết và giá phần mềm là chấp nhận đƣợc cho việc thử nghiệm.
1. Công nghệ nhận dạng ICR của ReadSoft
ReadSoft FORMS 5.2 là phần mềm xử lý tự động phiếu (Form
Automation) của công ty ReadSoft (những phiên bản cũ của phần mềm này
đƣợc gọi là “Eyes & Hands for FORMS”). ReadSoft là một trong những công
ty hàng đầu trong lĩnh vực nhận dạng. ReadSoft bắt đầu đƣa ra thị trƣờng
công nghệ ICR từ năm 1991 và cho đến nay có rất nhiều khách hàng. Riêng
trong xử lý Tổng điều tra dân số, nhiều nƣớc trong khu vực đã sử dụng phần
mềm của ReadSoft nhƣ: Malaysia, Lào, Bangladesh, Philipin,...
ReadSoft FORMS 5.2 là phần mềm tích hợp tất cả các chức năng để xử
lý phiếu: định dạng FORM, quét (scan) phiếu, nhận dạng, kiểm tra số liệu,
chuyển đối dữ liệu, quản lý các lô phiếu và dữ liệu. Phần mềm có những khả
năng sau:
- Nhận dạng đƣợc các loại ký tự ICR (chữ viết tay), OCR (chữ
in/đánh máy), OMR (ký tự đánh dấu), mã vạch, (ngoài nhận dạng các ô
đánh dấu có thể lựa chọn ký tự khoanh tròn);
- Định dạng nhiều loại mẫu phiếu và xử lý đồng thời không cần
phân loại;
- Nhiều lựa chọn khác nhau cho việc kiểm tra số liệu;
- Kiểm tra số liệu theo khối (mass verify);
- Một số kiểm tra có thể thiết lập ngay trong phần mềm (không
cần lập trình) nhƣ: kiểm tra giá trị hợp lệ theo các khoảng xác định
hoặc so sánh với các bảng tham chiếu, cộng tổng số, một số dạng kiểm
tra logic giữa các trƣờng liên quan;
- Khả năng quản lý, kiểm soát lô tƣơng đối mềm dẻo;
- Mềm dẻo trong xác định tệp dữ liệu đầu ra;
161
- Quản lý ngƣời dùng và có khả năng đƣa ra thống kê ở mức
ngƣời dùng, thống kê về đầu ra cho ngƣời quản trị;
- Cho phép lập trình nhúng (built-in) trong các chức năng của
FORMS 5.2 bằng ngôn ngữ VBA;
- Cho phép tích hợp gắn kết với các chƣơng trình khác qua DDE,
DLL, ODBC, OLE, ActiveX;
- Quét màu, nhận dạng và lọc các ảnh;
- Nhập dữ liệu từ máy FAX hoặc Internet.
Phần mềm ReadSoft FORMS 5.2 có các module sau:
- Quản lý (Manager): thực hiện các chức năng nhƣ định dạng mẫu
phiếu, thiết lập thuộc tính cho các lô, cho các công đoạn trong quá
trình xử lý, thiết lập Job;
- Quét (Scan): thực hiện việc quét các lô phiếu thành dạng hình
ảnh;
- Nhận dạng (Interpret): thực hiện việc nhận dạng dữ liệu từ các
hình ảnh;
- Hiệu chỉnh (Verify): thực hiện việc nhập những dữ liệu không
nhận dạng đƣợc và kiểm tra dữ liệu;
- Chuyển đổi (Transfer): thực hiện chuyển đổi dữ liệu nhận dạng
và kiểm tra xong ra các tệp dữ liệu dạng Text.
2. Quản lý và định dạng Form trong phần mềm ReadSoft Form 5.2
Một trong những phần quan trọng trƣớc khi tiến hành quét phiếu điều
tra đó là vấn đề định dạng form cho phiếu điều tra. Trong phần mềm
ReadSoft Form 5.2, form là một tài liệu có cấu trúc bao gồm những khoảng
trống để chứa thông tin: Những câu hỏi, những ô để ghi dữ liệu, những ô
đánh dấu (checks)...Phiếu hỏi của một cuộc điều tra có thể nhiều tập phiếu
(có thể là một tờ hay nhiều tờ), mỗi form thể hiện 1 tờ phiếu trong một tập
phiếu điều tra đó, tờ phiếu có thể là 1 mặt hay 2 mặt.
Định dạng Form bao gồm việc định dạng các trƣờng định vị
(Adjustment fields) và định dạng các ô chứa thông tin trên phiếu. Để phân
biệt các tờ phiếu khác nhau ngƣời ta xác định các điểm làm mốc trên mỗi tờ
phiếu. Các điểm mốc này đƣợc gọi là điểm định vị (adjustment). Điểm định
vị có thể là một ký tự, một biểu tƣợng hay đƣờng giao nhau trên tờ phiếu
nhƣng phải là điểm duy nhất có trên tất cả các tờ phiếu. Sau khi xác định
điểm adjustment trên phiếu, điểm này sẽ xuất hiện trên phiếu có dạng hình
162
vuông và đƣợc lƣu vào cơ sở dữ liệu là một trƣờng. Nếu nhƣ trong một tập
phiếu điều tra có nhiều tờ phiếu khác nhau thì các điểm adjustment đƣợc sử
dụng trên từng tờ phiếu phải có các vị trí khác nhau để tránh nhầm lẫn giữa
các tờ phiếu với nhau trong quá trình nhận dạng. Có 2 kiểu xác định vị trí
mốc trên form (adjustment field) là chọn các điểm làm mốc và chọn các
đƣờng kẻ làm mốc. Khi tiến hành quét phiếu, phần mềm sẽ kiểm tra kích cỡ,
vị trí và hình dạng của các trƣờng adjustment trên form.
Để thu đƣợc thông tin trong phiếu, những trƣờng chứa các thông tin này
phải đƣợc định nghĩa: tên trƣờng, kiểu thông tin (ô số hay ô chữ; ô đánh dấu-
Check; trƣờng ảnh - Image và loại kiểu do ngƣời sử dụng định nghĩa).
Sau khi định dạng các form definition có trong tập phiếu, ngƣời ta phải
định nghĩa tập. Định nghĩa tập (set defintion) là việc thiết lập nhằm xử lý 2
hay nhiều form tạo thành một nhóm hợp lôgic. Cần phải chọn các form
definition để làm thành một set definition (thông thƣờng tất cả các tờ phiếu
trong một tập phiếu sẽ nằm trong set definition, hay một set bao gồm một tập
phiếu. Ví dụ với phiếu Lao động việc làm: Gồm nhiều tập phiếu, mỗi tập
phiếu gồm 6 tờ phiếu khác nhau. Khi đó 1 set là 1 tập phiếu gồm có 6 form –
6 tờ phiếu). Sau đó cần phải thiết lập set logic. Mỗi set logic đƣợc chọn khác
nhau sẽ quyết định thứ tự sắp xếp việc xử lý các form trong tập phiếu khi
thực hiện các quá trình scan, interpret, verify và transfer. Set logic là một
phần của set definition, nó định rõ form definition nào, bao nhiêu form và
trong đó trình tự các form xuất hiện trong set sẽ đƣợc xử lý nhƣ thế nào? Từ
đó đƣa ra thứ tự đúng cho các tờ phiếu trong 1 tập phiếu trong quá trình quét.
Ngoài ra set logic còn quyết định đến việc khi nào một set mới đƣợc bắt đầu
(gọi là set break).
Sau khi xác định đƣợc set definition, cần xác định job decription để
quản lý các công việc trong quá trình scan, verify, interpret và transfer. Job
decription: Quản lý tất cả các module scan, verify, interpret và transfer. Batch
là một nhóm các phiếu điều tra/bảng hỏi đƣợc chia theo một tiêu chí nào đó,
phụ thuộc vào thực tế của cuộc điều tra để xác định một batch cho phù hợp,
ví dụ phiếu điều tra đƣợc sắp xếp theo từng địa bàn thì có thể chọn batch là
một hoặc nhiều hơn một địa bàn (batch bao gồm nhiều set).
3. Quét phiếu trong phần mềm ReadSoft Form 5.2
Để quét phiếu, ngƣời ta phải thiết lập thuộc tính máy quét. Các thuộc
tính của máy quét sẽ đƣợc áp dụng đối với tất cả những form definition đƣợc
tạo ra sau thời điểm thiết lập máy quét, cho đến khi các thuộc tính này đƣợc
thiết lập lại. Chỉ những form definition có cùng thuộc tính về máy quét mới
163
có thể thực hiện trong cùng một Job của công đoạn quét phiếu (khi định
nghĩa các form definition của bảng hỏi có nhiều trang phiếu thì cần lƣu ý
chọn thuộc tính của máy quét trƣớc khi bắt đầu định nghĩa form để đảm bảo
các form definition có cùng thuộc tính máy quét). Các thuộc tính bao gồm
kích cỡ của phiếu; màu của ảnh sau khi quét; độ phân giải; độ sáng và độ
phân giải.
Ảnh sau khi quét có thể lƣu vào cơ sở dữ liệu hay vào từng tệp. Lƣu trữ
phiếu vào cơ sở dữ liệu phù hợp với hầu hết các phiếu điều tra nếu máy quét
nhanh, có cấu hình cao. Sau khi quét phiếu, các ô dùng để điền thông tin điều
tra đƣợc tách ra và ghi vào cơ sở dữ liệu ảnh của phần mềm. Khi đó, cơ sở dữ
liệu này sẽ đƣợc dùng để nhận dạng. Ngoài ra, thông tin của toàn bộ phiếu
cũng đƣợc ghi vào cơ sở dữ liệu. Lựa chọn này, yêu cầu dung lƣợng đĩa trống
ít nhất vì chỉ lƣu trữ những ô thông tin của phiếu. Tuy nhiên, kích cỡ của cơ
sở dữ liệu ảnh của phần mềm tăng rất nhanh nếu phiếu có nhiều ô thông tin,
dẫn đến làm chậm quá trình quét phiếu. Nếu chọn giải pháp lƣu trữ vào tệp,
sau khi quét phiếu, ảnh của mỗi form sẽ đƣợc lƣu vào từng tệp riêng biệt. Sau
đó, phần mềm sẽ sử dụng những tệp ảnh này thay vì sử dụng cơ sở dữ liệu
ảnh. Sau khi biên dịch nhận dạng (Interpret), các tệp chứa ảnh sẽ đƣợc xoá,
ngoại trừ trƣờng hợp ảnh đã đƣợc xuất ra tệp trong quá trình quét phiếu. Các
tệp ảnh này đƣợc lƣu trong thƣ mục đƣợc chỉ ra bởi đƣờng dẫn trong hộp
thoại Directories của tab Scan. Thông thƣờng, các tệp ảnh đen trắng sẽ có
định dạng là TIFF, tệp ảnh màu thƣờng có định dạng PNG. Tuy nhiên, định
dạng của tệp đƣợc chọn trong tab Export sẽ đƣợc áp dụng nếu có chọn xuất
ảnh. Hình thức lƣu trữ này sẽ làm tăng tốc độ quét phiếu nhƣng làm giảm tốc
độ nhận dạng phiếu.
4. Nhận dạng ký tự trong phần mềm ReadSoft Form 5.2
Phần mềm ReadSoft FORM 5.2 có thể nhận dạng đƣợc các ký tự in/đánh
máy (machine-printed characters), ký tự viết tay (handwritten characters), ký tự
đánh dấu (mark), các ký tự đƣợc khoanh tròn (circled), các ký tự bị gạch ngang
(crossed) hoặc các mã vạch (barcode). Phần mềm này cũng nhận dạng đƣợc các
ký tự đặc biệt của 25 ngôn ngữ trên thế giới. Tuy nhiên đối với ngôn ngữ
tiếng Việt, phần mềm này hiện chƣa thể nhận dạng đƣợc. Tốc độ nhận dạng
của các phiên bản khác nhau thì khác nhau, cả đối với nhận dạng ký tự in lẫn
ký tự viết tay. Phiên bản Interpret trong FORM 5.2 là Interpret 150 với tốc
độ nhận dạng 150 ký tự/1 giây.
Để bắt đầu một quá trình nhận dạng, việc đầu tiên là phải mở một job
nhận dạng nếu đã có hoặc tạo ra một job nhận dạng mới để chỉ rõ những form
nào sẽ đƣợc nhận dạng và nơi đặt các form đó ở đâu. Sau đó bắt đầu quá trình
164
nhận dạng bằng cách chọn nút Start trong menu Job. Thời gian thực hiện
nhận dạng ít hay nhiều phụ thuộc vào độ lớn các form đƣợc xử lý. Khi bắt
đầu nhận dạng, một hộp thông tin về tình trạng, ngày, giờ hiện tại xuất hiện.
Khi bắt đầu một job nhận dạng, các thông tin về tình trạng, ngày, thời
gian hiện tại, ngày và thời gian bắt đầu, thời gian thực hiện đƣợc xuất hiện
trong hộp Run Control. Biểu đồ thống kê hình cột cũng chỉ ra số lƣợng form
mỗi loại đã đƣợc nhận dạng. Một hộp Character Statistics cũng chỉ ra tổng số
các ký tự đƣợc kiểm tra, số lƣợng ký tự nhận dạng đƣợc chắc chắn, số lƣợng
ký tự không chắc chắn nhận dạng đƣợc, số lƣợng ký tự không nhận dạng
đƣợc, mức độ nhận dạng thành công (tỷ lệ phần trăm).
Khi kết thúc nhận dạng một form, thông tin về tình trạng kết quả nhận
dạng của form và các trƣờng của form đƣợc lƣu giữ trong cơ sở dữ liệu.
Thông thƣờng module nhận dạng đƣợc chạy tự động trên máy chủ. Có thể
nhận dạng ngay (cùng lúc với quét), hoặc chạy riêng sau khi quét.
5. Hiệu chỉnh dữ liệu trong phần mềm ReadSoft Form 5.2
Verify là công đoạn đƣợc thực hiện sau công đoạn nhận dạng dữ liệu từ
các hình ảnh (Interpret). Đây là công đoạn thực hiện việc nhập dữ liệu không
nhận dạng đƣợc, nhận dạng chƣa chắc chắn và kiểm tra dữ liệu. Đây cũng là
công đoạn tốn nhiều thời gian và nhân công nhất khi xử lý phiếu điều tra
bằng công nghệ Scanning. Ngƣời thực hiện Verify làm việc với từng Batch
một (một Batch có thể là một địa bàn tuỳ thuộc vào ngƣời thực hiện công
đoạn Scan qui định). Ngƣời Verify có thể gọi thực hiện, tạm dừng, kết thúc
một Batch. Một Batch đƣợc gọi là hoàn thành khi tất cả các ký tự cần nhận
dạng trên Batch đó đã đƣợc ngƣời thực hiện Verify chấp nhận.
Những ký tự (bao gồm cả chữ số và chữ cái) phần mềm không nhận
dạng đƣợc sẽ đƣợc chuyển thành dấu (*) để ngƣời thực hiện Verify nhập lại.
Những ký tự mà phần mềm nhận dạng không chắc chắn sẽ đƣợc phần mềm
tự gán một giá trị tạm thời nào đó, ngƣời thực hiện Verify phải kiểm tra và
sửa lại giá trị này. Ngƣời thực hiện verify phải căn cứ vào file ảnh và giá trị
nhận dạng hoặc bảng hỏi (trƣờng hợp chữ viết quá mờ không thể nhìn rõ trên
ảnh thì dùng bảng hỏi giấy) để nhập lại giá trị chính xác. Phần mềm ReadSoft
Form 5.2 cung cấp 2 chế độ verify: verify nhanh và verify thông thƣờng.
Sau khi ngƣời thực hiện Verify sửa xong tất cả các lỗi không nhận
dạng đƣợc và nhận dạng không chắc chắn, phần mềm cung cấp chức năng
kiểm tra số liệu theo từng lô. Phần mềm cho phép chọn bao nhiêu Form
(thông thƣờng một Form là 2 trang của một tờ phiếu) cho 1 lần kiểm tra.
Những kí tự phần mềm nhận dạng đƣợc (trừ những ký tự không nhận dạng
đƣợc và nhận dạng không chắc chắn đã đƣợc ngƣời thực hiện Verify sửa) của
165
các Form trong lƣợt Mass verify sẽ hiển thị ở đây để ngƣời thực hiện Verify
kiểm tra lại. Mass verify hiển thị số liệu theo dãy số từ 0 đến 9 và theo thứ tự
từ a đến z.
Trong trƣờng hợp phiếu ghi quá mờ, nhìn hình ảnh ngƣời thực hiện
Verify không thể khẳng định đƣợc giá trị đúng, phải tìm lại phiếu giấy để
nhập mà đặt số Form cho 1 lô quá nhiều thì việc tìm đi tìm lại một tờ phiếu là
có xảy ra, dẫn đến rất tốn thời gian và công sức. Những kí tự phần mềm nhận
dạng sai, ngƣời thực hiện Verify dùng con trỏ đánh dấu kí tự đó (đánh dấu
nhầm có để đánh dấu lại), phần mềm sẽ chuyển con trỏ đến đúng vị trí của kí
tự nhận dạng sai để ngƣời thực hiện Verify sửa lại.
Phần kiểm tra số liệu theo lô đòi hỏi ngƣời thực hiện phải quan sát thật
kỹ, không bỏ sót những kí tự nhận dạng sai. Hiện tại nhóm nghiên cứu chƣa
tìm thấy chức năng của phần mềm cho phép quay lại Mass verify khi phát
hiện ra còn kí tự nhận dạng sai chƣa đƣợc đánh dấu.
Công cụ của ReadSoft Form 5.2 chỉ cho phép thiết lập những kiểm tra
đơn giản nhƣ loại trƣờng, khoảng giá trị, cộng tổng... Việc thiết lập những
kiểm tra đơn giản trong ReadSoft Form 5.2 là không đáp ứng đƣợc đối với
các cuộc điều tra thống kê có những giá trị đặc biệt nhƣ không nhớ, không
biết, không xác định. Do vậy việc lập trình bằng các ngôn ngữ lập trình khác
để kiểm tra logic, chỉnh sửa số liệu là cần thiết. Để khắc phục các hạn chế
nêu trên cần phải nhúng các ngôn ngữ lập trình vào bên trong phần mềm
ReadSoft FORMS 5.2. Việc nhúng các ngôn ngữ lập trình trong chức năng
Scan có thể giúp việc kiểm tra logic giữa các câu hỏi trên các Form khác
nhau của cùng một tập phiếu hoặc ghi nhật ký công việc khi quét phiếu và
chuyển dữ liệu này vào cơ sở dữ liệu quản lý, thay cho công việc phải ghi
nhận nhật ký thủ công vào sổ ghi chép v.v.
6. Chuyển đổi dữ liệu trong phần mềm ReadSoft Form 5.2
Chuyển đổi dữ liệu (Transfer) là việc chuyển những dữ liệu đã đƣợc mã
hoá trong cơ sở dữ liệu của phần mềm Readsoft Form 5.2 thành những file dữ
liệu phẳng ra có cấu trúc dễ khai thác hơn theo các dạng khác nhau nhƣ :
Text, Doc, Excel, … Tuỳ ngƣời quản lý, tuỳ từng bài toán, tuỳ từng cách thức
mà ngƣời chuyển đổi có thể đƣa ra cấu trúc, dạng của file đầu ra hợp lý để
khi khai thác đƣợc dễ dàng thuận lợi.
166
PHẦN III
NGHIÊN CỨU VẤN ĐỀ THIẾT KẾ, IN VÀ GHI PHIẾU
ĐIỀU TRA KHI ÁP DỤNG CÔNG NGHỆ ICR TRONG XỬ LÝ
1. Thiết kế phiếu điều tra áp dụng công nghệ quét, nhận dạng
Để có thể dùng ICR trong Tổng điều tra dân số 2009, Vụ Thống kê Dân
số và Lao động (DSLĐ) đã phân công cán bộ tìm hiểu về công nghệ này. Vì
đây là lần đầu tiên tiếp cận công nghệ ICR, các cán bộ của Vụ DSLĐ bắt đầu
tìm hiểu trên internet từ thiết kế phiếu đến thiết bị và kinh nghiệm của các
nƣớc trong khu vực.
Công ty PEARSON NCS có bán phần mềm thiết kế phiếu dùng cho
công nghệ quét. Đại diện của Công ty đó ở Việt Nam đã dùng phần mềm
chuyên dụng của họ thiết kế thảo phiếu điều tra biến động dân số năm 2006.
Phiếu đƣợc thiết kế chuyên nghiệp, đẹp kèm theo số thứ tự của mỗi tập phiếu
ở từng trang. Nhƣng muốn in nhƣ vậy thì hoặc phải nhập máy điều khiển và
máy in chuyên dụng, hoặc in phiếu từ nƣớc ngoài gửi về. Đây là điều khó có
thể áp dụng. Vụ Dân số đã quyết định dùng Microsoft Word để thiết kế phiếu.
1.1. Thiết kế phiếu điều tra biến động dân số, nguồn lao động và KHHGĐ
1/4/2006
Thiết kế phiếu:
- Để tiến hành việc thử nghiệm công nghệ mới (scanning) trong xử lý số
liệu, phiếu điều tra năm 2006 đƣợc thiết kế bao gồm 2 loại với nội dung
tƣơng tự nhau, chỉ khác nhau ở cách ghi: Loại thứ nhất, với chất lƣợng giấy
in và thiết kế đặc biệt dành riêng cho tỉnh Bắc Ninh, dùng để thử nghiệm
cách ghi phiếu và ứng dụng việc xử lý bằng công nghệ mới; Loại thứ hai, với
chất lƣợng giấy và thiết kế chung cho 63 tỉnh/thành phố còn lại.
- Phiếu của Bắc Ninh đƣợc thiết kế với mã trả lời đi kèm các ô vuông
nhỏ hoặc các ô vuông to. Kích thƣớc các ô vuông là 2,5mm x 2,5mm đối với
ô vuông nhỏ và 5mm x 5mm đối với ô vuông to. Khoảng cách giữa các ô
vuông nhỏ là 1,5mm và không có khoảng cách giữa các ô vuông to.
- Phiếu đƣợc thiết kế trên khổ giấy A3, 2 mặt và có các nét cắt để có thể
cắt phiếu thành khổ A4 (nếu không thể scan bằng khổ A3 đƣợc).
- Các đƣờng bao quanh các ô vuông tƣơng đối đậm nét.
- Các dấu định vị to, đƣợc đặt tại các vị trí giống nhau đối với cả 2 mặt
phiếu và sát với các thông tin trên phiếu.
- Giấy in phiếu quá mỏng.
167
- Bút chì viết mờ.
Kết quả thử nghiệm:
Khi thực hiện, chỉ thực hiện thử nghiệm quét đƣợc 4 địa bàn (trong
tổng số 60 địa bàn) của Bắc Ninh. Nguyên nhân là do một số lỗi sau:
- Giấy in mỏng nên hay bị kẹt.
- Bút chì viết mờ, nên nhiều trƣờng hợp không nhận dạng đƣợc.
- Các ô đánh dấu sát nhau quá, nên điều tra viên đánh dấu ô này quá tay
một chút thì phần mềm có thể nhận dạng sang ô khác.
- Phiếu có màu không sáng rõ, nên nhiều trƣờng số không nhận dạng
đƣợc.
- Vì bút chì mờ và ảnh scan không rõ nên khi verify rất mất thời gian,
thậm chí phải tìm lại từng tờ phiếu.
- Các dấu định vị sát các thông tin của phiếu, nên có một vài dấu định vị
không có tác dụng. Đặc biệt các dấu định vị đƣợc đặt tại các vị trí giống nhau
đối với cả 2 mặt phiếu, nên phần mềm đã nhận dạng nhầm mặt 1 và 2 của tờ
phiếu.
- Máy scan có thể quét đƣợc phiếu khổ A3, 2 mặt.
1.2. Thiết kế phiếu điều tra biến động dân số và KHHGĐ 1/4/2007
Thiết kế phiếu:
- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động
và KHHGĐ 1/4/2006” của Bắc Ninh, năm 2007, Vụ Thống kê Dân số và Lao
động chỉ thiết kế 1 loại phiếu dùng chung cho 64 tỉnh/thành phố, nhƣng chỉ
chọn tỉnh Bắc Giang để thử nghiệm ghi phiếu và ứng dụng công nghệ quét
khi xử lý, các tỉnh còn lại vẫn nhập tin theo phƣơng pháp truyền thống.
- Phiếu “Điều tra biến động dân số và KHHGĐ 1/4/2007” đƣợc thiết kế
với mã trả lời đi kèm các ô nhỏ hoặc các ô to. Kích thƣớc các ô là 2,5mm x
2,5mm đối với ô nhỏ và 5mm x 6mm đối với ô to. Khoảng cách giữa các ô
nhỏ là 2,5mm và không có khoảng cách giữa các ô to.
- Phiếu đƣợc thiết kế trên khổ giấy A3, 2 mặt.
- Các đƣờng bao quanh các ô mảnh và nhỏ hơn.
- Các dấu định vị nhỏ, gọn và có khoảng cách vừa phải với các thông tin
trên phiếu.
- Giấy in phiếu dầy hơn năm 2006.
168
- Điều tra viên sử dụng bút chì kim để ghi phiếu.
Kết quả thử nghiệm:
Khi thử nghiệm, thực hiện quét đƣợc toàn bộ 60 địa bàn của Bắc Giang.
Kết quả nhƣ sau:
- Tốc độ quét nhanh, giấy ít bị kẹt.
- Số phiếu lỗi trong quá trình quét gần nhƣ không có.
- Tỷ lệ nhận dạng là 95%, số còn lại thì verify cũng rất nhanh.
1.3. Thiết kế phiếu điều tra lao động và việc làm năm 2007
Thiết kế phiếu:
- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động
và KHHGĐ 1/4/2006” của Bắc Ninh và phiếu “Điều tra biến động dân số và
KHHGĐ 1/4/2007”, Vụ Thống kê Dân số và Lao động đã thiết kế phiếu
“Điều tra lao động và việc làm năm 2007”, thử nghiệm ghi phiếu và ứng
dụng công nghệ quét cho cả 64 tỉnh/thành phố.
- Phiếu “Điều tra lao động và việc làm năm 2007” đƣợc thiết kế với mã
trả lời đi kèm các ô nhỏ hoặc các ô to. Kích thƣớc các ô là 3mm x 3mm đối
với ô nhỏ và 6mm x 8mm đối với ô to. Khoảng cách giữa các ô nhỏ là 3mm
và khoảng cách giữa 2 dòng có ô mã to là 2,5mm.
- Phiếu đƣợc thiết kế trên khổ giấy A3, đóng ghim ở giữa và phải cắt
phiếu thành khổ A4 trƣớc khi scan.
- Các đƣờng bao quanh các ô mảnh và nhỏ hơn.
- Tại các trang lẻ đều có thông tin định danh của hộ và việc ghi lại các
thông tin định danh này là bắt buộc đối với mỗi tờ phiếu.
- Các trang phiếu đều có dấu định vị nhỏ, gọn tại các vị trí khác nhau và
có khoảng cách vừa phải với các thông tin trên phiếu.
- Giấy in phiếu dầy hơn.
- Điều tra viên sử dụng bút chì kim để ghi phiếu.
Kết quả thử nghiệm:
Thử nghiệm quét toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ sau:
- Tốc độ quét nhanh, giấy ít bị kẹt.
- Số phiếu lỗi trong quá trình quét gần nhƣ không có.
169
- Tỷ lệ nhận dạng khoảng 97%, số còn lại thì verify cũng tƣơng đối
nhanh.
Từ kết quả trên, rút ra kết luận sau:
Có thể dùng Microsoft Word để thiết kế phiếu để áp dụng ICR
cùng với máy quét FUJITSU và phần mềm quét của công ty READSOFT
Thuỵ Điển.
Nếu tập phiếu có nhiều trang, in các thông tin định danh vào một
mặt của các trang khác nhau để có thể liên kết dữ liệu của cùng một tập
phiếu với nhau, hoặc liên kết dữ liệu của đối tƣợng khác nhau của cùng
một đơn vị điều tra.
Có thể dùng phiếu khổ A3 hoặc A4.
Giấy in có trọng lƣợng ít nhất là 80g/m2 và có độ dai thích hợp.
Việc bảo quản phiếu phải đƣợc quan tâm đặc biệt, tránh bị ẩm,
bị ngấm nƣớc, bị quăn mép. Chuyển phiếu từ địa phƣơng về Trung tâm
Tính toán phải đƣợc để trong hộp, không đƣợc để trong tải.
Nên dùng bút chì kim mềm 2B chất lƣợng tốt để ghi phiếu. Khi
ghi phiếu phải rõ ràng, nét viết phải liền, mẫu các chữ số nhƣ khuyến nghị
ở trang bìa của phiếu.
2. Ghi phiếu điều tra áp dụng công nghệ quét, nhận dạng
2.1. Cách ghi phiếu điều tra biến động dân số, nguồn lao động và KHHGĐ
1/4/2006
- Để tiến hành việc thử nghiệm công nghệ mới (scanning) trong xử lý số
liệu, phiếu điều tra năm 2006 đƣợc thiết kế bao gồm 2 loại với nội dung
tƣơng tự nhau, chỉ khác nhau ở cách ghi: Loại thứ nhất, với chất lƣợng giấy
in và thiết kế dành riêng cho tỉnh Bắc Ninh, dùng để thử nghiệm cách ghi
phiếu và ứng dụng việc xử lý bằng công nghệ mới; Loại thứ hai, với chất
lƣợng giấy và thiết kế chung cho 63 tỉnh/thành phố còn lại.
- Trong cuộc điều tra 2006 ở Bắc Ninh, điều tra viên đều sử dụng bút chì
mềm 2B để ghi phiếu điều tra. Nếu ghi sai, dùng tẩy để xoá đi thông tin sai,
sau đó ghi lại thông tin đúng.
Khi thực hiện, chỉ thực hiện thử nghiệm scan đƣợc 4 địa bàn (trong
tổng số 60 địa bàn) của Bắc Ninh. Nguyên nhân là do một số lỗi sau:
- Bút chì viết mờ, nên nhiều trƣờng hợp không nhận dạng đƣợc.
170
- Các ô đánh dấu sát nhau quá, nên điều tra viên đánh dấu ô này quá tay
một chút thì phần mềm có thể nhận dạng sang ô khác.
- Phiếu có màu không sáng rõ, nên nhiều trƣờng số không nhận dạng
đƣợc.
- Vì bút chì mờ và ảnh scan không rõ nên khi verify rất mất thời gian,
thậm chí phải tìm lại từng tờ phiếu.
2.2. Cách ghi phiếu điều tra biến động dân số và KHHGĐ 1/4/2007
- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động
và KHHGĐ 1/4/2006” của Bắc Ninh, năm 2007, Vụ Thống kê Dân số và Lao
động chỉ thiết kế 1 loại phiếu dùng chung cho 64 tỉnh/thành phố, nhƣng chỉ
chọn tỉnh Bắc Giang để thử nghiệm ghi phiếu và ứng dụng công nghệ quét
khi xử lý, các tỉnh còn lại vẫn nhập tin theo phƣơng pháp truyền thống.
- Với Bắc Giang, điều tra viên và đội trƣởng sẽ sử dụng bút chì và tẩy để
ghi thông tin vào phiếu. Loại bút chì đƣợc dùng là bút chì kim mềm 2B
0,5mm của Nhật hoặc của Đức. Cần viết sao cho nét chữ đều và rõ.
- Đối với các tỉnh không đƣợc chọn để thử nghiệm công nghệ quét, điều
tra viên sử dụng bút bi đen để ghi phiếu điều tra. Đội trƣởng sẽ thực hiện
công việc của mình bằng bút bi đỏ để đánh dấu những vị trí có sai sót, song
nếu muốn gạch chéo vào ô vuông nhỏ hoặc ghi thông tin vào ô vuông to, thì
cũng phải dùng bút bi đen.
Khi xử lý, scan đƣợc toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ
sau: tỷ lệ nhận dạng là 95%, số còn lại thì verify cũng rất nhanh.
2.3. Cách ghi phiếu điều tra Lao động và Việc làm năm 2007
- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động
và KHHGĐ 1/4/2006” của Bắc Ninh và phiếu “Điều tra biến động dân số và
KHHGĐ 1/4/2007”, Vụ Thống kê Dân số và Lao động đã thiết kế phiếu
“Điều tra Lao động và Việc làm năm 2007”, thử nghiệm ghi phiếu và ứng
dụng công nghệ quét cho cả 64 tỉnh/thành phố.
- Trong cuộc điều tra lao động và việc làm năm 2007, tất cả các tỉnh đều
thử nghiệm công nghệ quét, nên điều tra viên và Tổ trƣởng sẽ sử dụng bút chì
và tẩy để ghi thông tin vào phiếu. Loại bút chì đƣợc dùng là bút chì kim mềm
2B 0,7mm của Nhật hoặc của Đức. Cần viết sao cho nét chữ đều và rõ.
171
3. Lựa chọn điều tra viên
Những yêu cầu đặt ra ở phần trên cho thấy rằng lựa chọn điều tra viên
nhƣ thế nào đó để có thể hạn chế thấp nhất sai sót khi ghi phiếu là một trong
những quan tâm khi áp dụng công nghệ ICR.
Thực tế trong những thử nghiệm vừa qua cho thấy những vấn đề sau:
Khi sử dụng bút chì, có không ít điều tra viên viết rất mờ, máy
quét không thể nhận dạng đƣợc.
Khi sử dụng bút chì, trong trƣờng hợp viết sai, có những điều tra
viên không tẩy thông tin sai, mà chữa đè lên làm cho máy nhận dạng
sai hoặc không nhận dạng đƣợc.
Khi sử dụng bút chì, trong trƣờng hợp viết sai, có những điều tra
viên có dùng tẩy để tẩy thông tin sai, nhƣng tẩy không sạch, làm nét
viết trƣớc vẫn còn làm cho máy nhận dạng sai hoặc không nhận dạng
đƣợc.
Nhiều điều tra viên không tuân thủ đúng các hƣớng dẫn chuyển,
gây khó khăn cho việc xác minh (verify) số liệu. Nếu nhập tin bằng
phƣơng pháp truyền thống từ bàn phím, những ngƣời nhập tin có thể
đƣợc hƣớng dẫn để khắc phụ tình trạng này. Nhƣng với công nghệ ICR
thì không thể làm nhƣ vậy, việc khắc phục hiện tƣợng này rất mất công
sức và thời gian.
Trong các cuộc điều tra có phiếu thử nghiệm đề cập ở trên, điều tra viên
chủ yếu là các cán bộ thống kê cấp huyện. Phần còn lại là các cán bộ văn
phòng thống kê của cấp xã hoặc ngƣời địa phƣơng. Ngoại trừ điều tra thử lần
3 của Tổng điều tra dân số, tất cả điều tra viên là ngƣời của địa phƣơng. Nhƣ
vậy, có thể thấy rằng trình độ học vấn của các điều tra viên trong các điều tra
có phiếu trong các thử nghiệm đề cập ở trên cao hơn so với mức của các điều
tra viên trong Tổng điều tra, do số lƣợng điều tra viên của Tổng điều tra đƣợc
huy động cao gấp nhiều lần so với các điều tra mẫu đã quan sát.
Để chọn điều tra viên đáp ứng đƣợc đòi hỏi của công nghệ ICR, ngoài
trình độ học vấn và đủ sức khoẻ làm việc tối thiểu cần có, tính cẩn thận và
tính kỷ luật là ƣu tiên hàng đầu. Tính cẩn thận đảm bảo không viết quá ngoáy
để máy quét có thể nhận dạng đúng; bảo quản phiếu tốt để phiếu không bị
quăn mép gây tắc khi quét. Tính kỷ luật đảm bảo điều tra viên làm đúng theo
nhiệm vụ, yêu cầu quy định. Ví dụ, khi dùng bút chì, nếu viết sai, theo hƣớng
dẫn, cần phải tẩy sạch, thì phải làm đúng là tẩy sạch, không còn nét bút cũ.
172
Hoặc trong trƣờng hợp dùng bút bi, nếu ghi sai, theo hƣớng dẫn dùng băng
keo xoá thông tin trong ô, thì không đƣợc xoá toàn bộ ô.
Trong các cuộc điều tra mẫu vừa qua, có nhiều điều tra viên ghi mờ, làm
sai một cách hệ thống. Đến khi kết thúc điều tra mới phát hiện ra, đã phải tô
lại các chữ số trên phiếu điều tra. Khi tô lại, nét viết trƣớc không trùng với
nét viết sau, gây cho máy nhận biết sai hoặc không nhận biết đƣợc.
Đào tạo điều tra viên
Công tác đào tạo điều tra viên khi áp dụng công nghệ ICR cần đáp ứng
đƣợc những yêu cầu sau :
a) Thời gian đào tạo
Thời gian đào tạo phải đủ dài để có thể trang bị đầy đủ kiến thức cho
điều tra viên. Nói chung các khoá đào tạo do Trung ƣơng tổ chức thƣờng bố
trí đủ thời gian để có thể truyền đạt kiến thức cho điều tra viên. Tuy nhiên,
khi triển khai xuống cấp tỉnh, thời gian tập huấn thƣờng bị rút ngắn lại. Cán
bộ cấp dƣới thƣờng có kiến thức về điều tra ít hơn cán bộ cấp trên, nên thời
gian tập huấn cho cán bộ cấp dƣới phải nhiều hơn.
Trong Tổng điều tra, do số lƣợng điều tra viên nhiều nên công tác đào
tạo phải tiến hành theo nhiều cấp. Ví dụ, với Tổng điều tra dân số của nƣớc
ta, do số lƣợng cán bộ điều tra lớn (250 ngàn ngƣời), công tác đào tạo nghiệp
vụ điều tra thƣờng đƣợc tiến hành theo 3 cấp. Trung ƣơng tập huấn cho cấp
tỉnh; tỉnh tập huấn cho giảng viên cấp huyện; và cuối cùng, là giảng viên cấp
huyện tập huấn cho điều tra viên. Cần phải có cơ chế và biện pháp để giám
sát công tác đào tạo để thời gian tập huấn ở mỗi cấp đƣợc đảm bảo. Không
thể để thời gian tập huấn bị rút ngắn một cách tuỳ diện.
b) Tài liệu đào tạo
Tài liệu đào tạo phải đƣợc xây dựng đầy đủ. Trƣớc đây, tài liệu nghiệp vụ
điều tra thƣờng đƣợc chuẩn bị một loại gọi là “Sổ tay điều tra viên” hoặc tài liệu
“Hƣớng dẫn nghiệp vụ điều tra”. Có nghĩa rằng các cấp đào tạo dùng chung một
loại tài liệu. Điều đó có thể dẫn đến công tác đào tạo không hiệu quả.
Nhƣ đã nói ở trên, các đối tƣợng đào tạo ở mỗi cấp có trình độ khác
nhau. Vì vậy, đào tạo cái gì, nhƣ thế nào, chƣơng trình đào tạo ra sao … đối
với mỗi cấp phải đƣợc thiết kế khác nhau. Chƣơng trình đào tạo cần phải đề
cập chi tiết đến kế hoạch thời gian, buổi nào trình bày cái gì trong vòng bao
nhiêu lâu. Nhƣ vậy, nếu đào tạo 3 cấp, ngoài những tài liệu thông thƣờng nhƣ
“Sổ tay điều tra viên”, “Sổ tay giám sát viên”, phải xây dựng bổ sung các tài
liệu sau:
173
Hƣớng dẫn đào tạo cho giảng viên cấp tỉnh, tài liệu này giảng
viên trung ƣơng sử dụng khi đào tạo giảng viên cấp tỉnh; giảng viên cấp tỉnh
sử dụng khi đào tạo giảng viên cấp huyện.
Hƣớng dẫn đào tạo cho điều tra viên. Tài liệu này dùng cho
giảng viên cấp huyện khi đào tạo điều tra viên.
Lý do cần phải có tài liệu hƣớng dẫn đào tạo: giảng viên của cuộc điều
tra không phải là giảng viên chuyên nghiệp. Họ không có kinh nghiệm viết
giáo án. Tài liệu hƣớng dẫn đào tạo là giáo án để giảng viên sử dụng.
c) Công cụ đào tạo
Các công cụ đào tạo đóng vai trò rất quan trọng cho sự thành công
của công tác này. Không nên xem nhẹ công cụ đào tạo. Cũng không nhất
thiết phải dùng tất cả các công cụ đào tạo hiện đại. Đối với học viên trình độ
hạn chế, việc dùng power point thay cho dùng phấn và bảng chƣa hẳn đã là
biện pháp tốt. Mục đích của công tác đào tạo điều tra viên là sau khi kết
thúc khoá học, họ có khả năng phỏng vấn đƣợc đối tƣợng điều tra và ghi
đúng phiếu theo quy định. Vì vậy, ngoài việc phiếu điều tra đƣợc phát cho
học viên, cũng cần có một bản to treo trên lớp để học viên tiện theo dõi và
thực tập ghi phiếu.
d) Phương pháp đào tạo
Ngoài việc giảng viên truyền đạt kiến thức cho học viên, có một số biện
pháp sau nên đƣợc áp dụng:
Đóng kịch: một phƣơng pháp thƣờng đƣợc áp dụng trong trong đào tạo
điều tra viên là “đóng kịch”.
- Thực tập ghi phiếu tại địa bàn
Cần có thực tập một thời gian ở địa bàn để điều tra viên làm quen với tất
cả công đoạn của một cuộc phỏng vấn hộ, từ khâu nhỏ nhất (ví dụ nhƣ: chào
đối tƣợng điều tra, cảm ơn đối tƣợng điều tra) đến cách thức phỏng vấn. Việc
này nhằm làm cho điều tra viên không cảm thấy bỡ ngỡ khi thực thi nhiệm
vụ. Để làm đƣợc việc đó, ngƣời tổ chức lớp học cần liên hệ một khu vực dân
cƣ gần địa điểm tập huấn để học viên đi thực tập.
- Kiểm tra cuối khoá đào tạo
Cần tiến hành kiểm tra cuối khoá học. Việc này nhằm hai mục đích,
thứ nhất là xem còn những vấn đề gì học viên chƣa hiểu đúng để cuối khoá
giải đáp; thứ 2 là có thể đánh giá tƣơng đối chính xác năng lực của điều tra
174
viên nhằm chọn tổ trƣởng điều tra (những ngƣời có kết quả kiểm tra tốt) và
phát hiện những ngƣời không đủ khả năng đáp ứng đƣợc nhu cầu công việc.
Một vấn đề quan trọng là phải kiểm soát đƣợc chữ viết tay (tự dạng)
của điều tra viên. Viết xấu và ghi không đúng quy định vào phiếu điều tra sẽ
gây ra nhiều lỗi khi quét, khi xác minh số liệu. Đặc biệt là trong Tổng điều
tra, một lực lƣợng lớn điều tra viên sẽ tham gia, thƣờng khó kiểm soát đƣợc
cách viết của họ. Để điều tra viên có thể ghi phiếu đáp ứng đƣợc đòi hỏi của
công nghệ ICR, thì ngoài việc lựa chọn và đào tạo nhƣ đề cập ở trên, cần có
sự quyết tâm cao của các cấp lãnh đạo, phải có cơ chế giám sát chặt chẽ trong
quá trình điều tra. Công tác giám sát cần đƣợc coi trọng, tiến hành thƣờng
xuyên, mọi lúc mọi nơi để đảm bảo rằng các sai sót phải đƣợc phát hiện sớm
nhất có thể và đƣợc sửa chữa, uốn nắn ngay. Tránh tình trạng lỗi không phát
hiện kịp thời, để sai nhiều phiếu, việc sửa chữa tốn thời gian và có thể khó
đáp ứng đƣợc những yêu cầu của công nghệ ICR.
PHẦN IV
KẾT QUẢ THỬ NGHIỆM ÁP DỤNG CÔNG NGHỆ ICR
TRONG XỬ LÝ ĐIỀU TRA
1. Thử nghiệm công nghệ ICR với phiếu điều tra BĐDS năm 2006 của
tỉnh Bắc Ninh
Các công việc cụ thể đã tiến hành với việc thử nghiệm công nghệ ICR
với cho phiếu điều tra BĐDS 2006 nhƣ sau:
1.1. Nghiên cứu phần mềm, thiết lập hệ thống ứng dụng đối với phiếu điều
tra BĐDS 2006
Đối với mỗi phiếu điều tra để áp dụng công nghệ ICR của ReadSoft, cần
phải xây dựng một ứng dụng riêng cho mẫu phiếu bao gồm xác định đầu vào,
đầu ra và các tùy biến cho các chức năng xử lý để chuyển đầu vào thành đầu
ra theo yêu cầu. Trong đó, xác định đầu vào là quan trọng và tốn nhiều thời
gian nhất. Đấy chính là những mô tả, khai báo để hệ thống nhận ra một mẫu
phiếu, xác định các trƣờng cần nhận dạng và các thuộc tính đặc thù của
chúng. Nhiều tùy biến của trƣờng hoặc của Form tạo ra những ảnh hƣởng
không nhỏ đối với chất lƣợng nhận dạng và do vậy cần phải đƣợc chạy thử để
kiểm tra với các lựa chọn khác nhau.
Ứng dụng đƣợc xây dựng bằng cách sử dụng các công cụ trong phần
mềm ReadSoft FORMS 5.2. Đầu tiên, nhóm nghiên cứu đã thiết kế một ứng
dụng với một mẫu phiếu đƣợc in ra máy tính. Tờ phiếu in đƣợc photocopy
thành mấy chục bản và đƣợc cán bộ phòng CSDL tự điền thông tin bằng cách
chép lại số liệu từ phiếu điều tra chính thức. Mục đích của thử nghiệm đầu
175
tiên này là tiếp tục với mẫu form đã định dạng cùng với chuyên gia trong
những ngày đào tạo, xác định chất lƣợng nhận dạng với các cách điền phiếu
với mức độ cẩn thận khác nhau, với các loại bút và cách viết khác nhau. Tuy
nhiên, thử nghiệm đầu tiên này có kết quả rất thấp vì rất nhiều tờ phiếu bị loại
do hệ thống không xác định đƣợc (tỷ lệ có thể lên tới 20%). Có thể rút ra kết
luận rằng, các tờ phiếu photocopy, và tƣơng tự là với các phiếu có chất lƣợng
in thấp thì không thể áp dụng công nghệ ICR đƣợc.
Mẫu phiếu thứ hai đƣợc thử là mẫu phiếu chính thức điều tra BĐDS
2006 của tỉnh Bắc Ninh (năm 2006 phiếu điều tra BĐDS của tỉnh Bắc
Ninh đƣợc thiết kế riêng và in riêng khác biệt so với các tỉnh còn lại). Ứng
dụng với mẫu phiếu này đã đƣợc xây dựng một cách hoàn chỉnh hơn, với
đầy đủ các thuộc tính, lựa chọn và đƣợc chạy thử với nhiều thay đổi lựa
chọn khác nhau. Với việc chạy thử đƣợc qua toàn bộ quy trình các địa bàn
điều tra tỉnh Bắc Ninh, có thể coi việc xây dựng ứng dụng ICR với điều tra
này đã hoàn thành.
Một ứng dụng đƣợc xây dựng với chỉ các công cụ của phần mềm
ReadSoft FORMS 5.2 là cũng đã có thể thực hiện việc xử lý phiếu điều tra.
Tuy nhiên trong phần lớn trƣờng hợp những ứng dụng nhƣ vậy bị hạn chế
rất nhiều.
Hạn chế rõ ràng nhất là trong việc kiểm tra số liệu nhận dạng đƣợc.
Những công cụ của ReadSoft FORMS 5.2 chỉ cho phép thiết lập những
kiểm tra đơn giản nhƣ loại trƣờng, loại chữ số, khoảng xác định, cộng
tổng,...Nhƣng việc kiểm tra tổng thiết lập bằng phần mềm cũng không áp
dụng đƣợc cho phần lớn những điều tra thống kê vì số liệu điều tra thƣờng
có những giá trị đặc biệt nhƣ không biết, không xác định. Đối với những
nƣớc điều tra viên có trình độ cao, tuân thủ nghiêm các quy định ghi phiếu
họ có thể thỏa mãn với những kiểm tra của phần mềm, và do vậy họ không
cần lập trình bằng các ngôn ngữ khác để bổ sung thêm các kiểm tra logic.
Ví dụ nhƣ trong tổng điều tra dân số của Lào không có các kiểm tra viết
thêm, nhiều nƣớc khác các kiểm tra lập trình bổ sung rất tối thiểu. Nếu còn
có những lỗi logic sót lại sau nhận dạng và kiểm tra, số liệu sẽ đƣợc làm
sạch bằng các chƣơng trình hiệu chỉnh tự động.
Đối với số liệu điều tra thống kê của Việt Nam, do các lỗi logic để lại
khá lớn, việc hiệu chỉnh tự động sẽ không đảm bảo chất lƣợng, có thể làm sai
lệch số liệu. Do vậy việc phải kiểm tra và sửa chữa trực tiếp là rất cần thiết.
Nếu chƣơng trình kiểm tra logic viết cho số liệu đầu ra của hệ thống ICR thì
sẽ là một chƣơng trình viết theo kiểu truyền thống của các chƣơng trình kiểm
tra logic lâu nay chúng ta vẫn viết và việc lập trình khá đơn giản. Tuy nhiên
176
nếu làm nhƣ vậy, sẽ phát sinh thêm một công đoạn kiểm tra trực tiếp các tờ
phiếu (dạng hình ảnh), tốn kém thời gian, nhân công. Đó là lý do tại sao phải
viết các chƣơng trình kiểm tra logic nhúng đƣợc vào bên trong và chạy đồng
thời với các module của hệ thống ReadSoft FORMS. Các chƣơng trình viết
kiểu “nhúng” này làm cho trong quy trình xử lý chỉ có một công đoạn kiểm
tra, mỗi tờ phiếu đƣợc kiểm tra cùng lúc theo mọi khía cạnh: những trƣờng
không nhận dạng đƣợc, nhận dạng sai, sai các thuộc tính/các thiết lập đã xác
định bởi phần mềm FORMS cũng nhƣ những kiểm tra logic viết bằng các
ngôn ngữ lập trình bên ngoài.
Chƣơng trình kiểm tra logic số liệu điều tra BĐDS trong hệ thống ICR
FORMS đƣợc viết bằng Visual Basic. Chƣơng trình kiểm tra logic viết trong
hệ thống này đã đƣa vào tất cả những kiểm tra cần thiết tƣơng đƣơng với
những quy định kiểm tra đã viết trong chƣơng trình nhập tin và chƣơng trình
kiểm tra logic trong hệ thống nhập tin truyền thống. Ngoài ra, chƣơng trình
kiểm tra logic viết cho hệ thống ICR còn phải bổ sung thêm rất nhiều kiểm
tra để đảm bảo cấu trúc dữ liệu, các bƣớc nhảy có đúng hay không. Nguyên
nhân là do trong các phần mềm thiết kế chƣơng trình nhập tin những vấn đề
này hệ thống có những cơ chế đơn giản để đảm bảo những vấn đề này, còn
trong dữ liệu trong hệ thống ICR trƣớc khi chuyển đổi ra ngoài là những ô
điền dữ liệu rời rạc.
1.2. Thực hiện việc chạy thử nghiệm với phiếu điều tra BĐDS, nguồn lao
động và KHHGĐ 2006
Số phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc
Ninh thực sự đƣợc chạy hoàn chỉnh quy trình quét và nhận dạng, kiểm tra
không lớn, chỉ có 8 địa bàn. Tuy vậy trong quá trình thử nghiệm, phiếu đƣợc
thực hiện rất nhiều lần để thử nghiệm các phƣơng án lựa chọn, bổ sung dần
chƣơng trình kiểm tra cho đến lúc hoàn thiện.
Phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 đƣợc thiết kế khi
TCTK chƣa có phần mềm, chƣa có bất cứ kinh nghiệm nào nên chƣa thực sự
phù hợp. Các khâu in phiếu, chất lƣợng giấy, nhất là vấn đề điền phiếu của tỉnh
Bắc Ninh đều không đạt yêu cầu do vậy việc thực hiện đặc biệt khó khăn.
Trong công đoạn quét phiếu, việc chuẩn bị đƣa phiếu vào máy quét mất
thời gian do phải dở từng tờ phiếu ra và xếp lại (các tờ phiếu đều bị gấp đôi
do khi hƣớng dẫn cho điều tra viên TCTK chƣa có máy và cả chƣa thu xếp
đƣợc tiền mua máy scanner, phải tính đến khả năng dùng các máy scanner
thông thƣờng cỡ A4). Các phiếu để trong hộp cứng riêng từng địa bàn nên
các góc không bị quăn/rách nhƣng do phải dở ra vuốt lại nên việc dỗ thẳng
177
đều tập phiếu cũng mất thời gian. Nhƣng khó khăn nhất là việc phiếu dễ bị
kẹt/bị rách do giấy mỏng, và có thể do phiếu để khá lâu nên bị ẩm. Các phiếu
bị rách phải gỡ ra chép lại và trong một số trƣờng hợp chỗ rách làm mất
thông tin không thể khôi phục lại đƣợc.
Một vấn đề thƣờng xuyên gặp phải khi quét phiếu năm 2006 là rất nhiều
tờ phiếu hệ thống không định dạng ra đƣợc (dựa trên các trƣờng điều chỉnh
xác định các góc phiếu, xác định đúng từ phiếu, trang nào của phiếu). Lý do
có thể là:
- Do các trƣờng điều chỉnh xác định góc làm khuôn mỗi trang
phiếu năm 2006 đƣợc thiết kế là đƣờng không liền nét và chất lƣợng in
không đƣợc tốt, hoặc/và;
- Phiếu bị ẩm, bề mặt cong/lồi lõm, hoặc nếp gấp đã lâu làm nhăn
giấy nên các trƣờng điều chỉnh định vị bị xô lệch đi.
Khi gặp một tờ phiếu không định dạng đƣợc phải lấy lại địa bàn đã quét,
đếm phiếu và quét lại tập phiếu bắt đầu từ phiếu định dạng hỏng trở đi.
Khâu trục trặc, tốn kém thời gian nhất là việc kiểm tra (VERIFY) phiếu
đã quét và nhận dạng. Chất lƣợng ghi phiếu năm 2006 của Bắc Ninh đặc biệt
kém (so với yêu cầu của công nghệ) nên tỷ lệ nhận dạng đƣợc và trong các
trƣờng hệ thống coi là đã nhận dạng đƣợc thì nhận dạng sai rất nhiều và phải
sửa lại trong quá trình kiểm tra. Ngoài thiếu sót do ghi chữ số không gọn
đúng trong ô quy định, viết số không đúng theo mẫu chuẩn, tẩy xóa sửa chữa
phiếu chƣa tốt, còn một nguyên nhân gây ra sai sót cho nhận dạng nữa là nét
viết bút chì rất mờ nhạt, ảnh chữ số khi quét vào hệ thống không đọc đƣợc
hoặc các đƣờng nét bị đứt đoạn. Rất nhiều tờ phiếu khi thực hiện kiểm tra đối
chiếu lại với ảnh không thể nhìn thấy nét viết nào, thậm chí khi lục tìm phiếu
giấy thì cũng đọc rất khó khăn, chỉ số gắng phỏng đoán các chữ số. Vì những
nguyên nhân trên, thời gian để ngƣời thực hiện kiểm tra số liệu cho một địa
bàn khoảng trên 100 tờ phiếu lên đến 1-2 ngày.
Tóm lại, việc thực hiện đầy đủ qui trình quét và nhận dạng phiếu điều
tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc Ninh tuy gặp rất
nhiều khó khăn, không thực hiện đƣợc với số lƣợng lớn nhƣng đã đạt đƣợc
kết quả kiểm tra đƣợc toàn bộ hệ thống, ứng dụng, chƣơng trình đã thiết
lập và xây dựng, xác định quy trình áp dụng công nghệ và rút ra những
kinh nghiệm quý báu cho việc tiếp tục mở rộng thử nghiệm cho điều tra
BĐDS 2007.
Dữ liệu của những địa bàn phiếu Bắc Ninh đã hoàn chỉnh khâu quét,
nhận dạng, kiểm tra đƣợc chuyển đối thành tệp dữ liệu dạng text sử dụng các
178
công cụ chức năng của phần mềm ReadSoft FORMS. Tệp dữ liệu này đƣợc
chạy chƣơng trình so sánh với số liệu đã nhập tin in ra các khác biệt giữa hai
loại số liệu và sau đó đƣợc đem so sánh với phiếu gốc để xác định. Qua công
việc so sánh này, có thể khẳng định chất lƣợng số liệu của ICR tốt hơn nhiều
so với nhập tin từ bàn phím.
Do nhiều khó khăn xuất phát từ thiết kế phiếu, chất lƣợng giấy, in và
bảo quản phiếu, và nhất là từ khâu ghi phiếu nên việc quét và kiểm tra số liệu
nhận dạng bị kéo dài thời gian, tốn nhiều nhân lực hơn so với nhập tin bằng
bàn phím. Chính vì thế thử nghiệm này chƣa thể chứng minh đƣợc ƣu việt
của công nghệ mới nếu xét về thời gian và chi phí lao động. Để đạt đƣợc kết
quả tốt cho giải pháp này cần phải có thay đổi quan trọng trong tất cả các
khâu chuẩn bị điều tra và điều tra. Một kết quả quan trọng khác của thử
nghiệm với phiếu điều tra BĐDS 2006 là những kinh nghiệm quý báu rút ra
đƣợc để có những nhận thức, những thay đổi thích hợp với công nghệ ICR
trong mọi công đoạn trong điều tra. Trong thiết kế phiếu điều tra BĐDS
2007, nhiều thay đổi trong thiết kế cho phù hợp hơn với công nghệ nhận dạng
đã đƣợc áp dụng dựa trên những kinh nghiệm này.
2. Thử nghiệm công nghệ ICR trong xử lý Điều tra biến động Dân số và
KHHGĐ 1/4/2007, Điều tra Lao động Việc làm năm 2007
2.1. Thử nghiệm xử lý điều tra biến động dân số và KHHGĐ 1/4/2007
- Thử nghiệm với phiếu của tỉnh Bắc Giang (tỉnh đƣợc chọn áp dụng
công nghệ ICR). Quét đƣợc toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ
sau: Tốc độ quét nhanh, giấy ít bị kẹt; Số phiếu lỗi trong quá trình quét gần
nhƣ không có; Tỷ lệ nhận dạng khoảng 97%, số còn lại thì verify cũng tƣơng
đối nhanh.
- Trung tâm tiến hành thử nghiệm thêm 7 tỉnh khác không đƣợc tập huấn
cho việc áp dụng công nghệ Scaning, kết quả thử nghiệm nhƣ sau: Các tỉnh
này không viết bút chì mà viết bút bi cho nên nếu viết cẩn thận không tẩy xoá
thì việc nhận dạng và verify không tốn công sức nhiều vì ảnh rất rõ nét. Tuy
nhiên vì không tránh khỏi tẩy xoá nên số trƣờng không nhận dạng đƣợc do
bẩn khá nhiều, dẫn đến mất thời gian xoá số liệu thừa, giảm hiệu quả. Logic
các chỉ tiêu của phiếu không tốt nên mặc dù đã có chƣơng trình kiểm tra logic
trong quá trình verify nhƣng vì hạn chế của phần mềm cho các kiểm tra giữa
các tập phiếu nên lỗi còn sót lại sau quá trình transfer khá nhiều dẫn đến mất
rất nhiều công sửa số liệu
- Hệ thống đƣợc cài đặt với một máy chủ không đúng cấu hình mà đơn
thuần là một máy PC nên khi các máy verify (5 máy) cùng truy cập một lúc
179
thì hệ thống treo, hiện tƣợng này xảy ra nhiều lần dẫn đến sự cố chƣơng trình
logic không đƣợc kích hoạt nên để lại sai logic rất nhiều.
- Quá trình cài đặt và config hệ thống của kỹ sƣ lập trình phòng CSDL vì
chƣa có kinh nghiệm nên đã để hiện tƣợng chiếm quá nhiều dung lƣợng đĩa
cứng của máy chủ dẫn đến một phần nguyên nhân hệ thống máy bị treo ngoài
nguyên nhân server không đảm bảo cấu hình (Về sau này khi xử lý điều tra
Lao động việc làm lƣu quá nhiều ảnh trong Database mới xảy ra hiện tƣợng
treo máy quá nhiều, hỏi chuyên gia công ty ReadSoft chúng tôi mới biết)
2.2. Thử nghiệm xử lý điều tra lao động việc làm năm 2007
Điều tra lao động việc làm năm 2007 là cuộc điều tra đầu tiên do Tổng
cục Thống kê thực hiện. Cuộc điều tra đƣợc tiến hành vào thời điểm 1/7/2007
và cũng là cuộc điều tra chọn mẫu đƣợc tiến hành ở 64 tỉnh/thành phố.
Sau khi nghiên cứu nội dung điều tra, phạm vi điều tra, Trung tâm Tin
học thống kê thấy rằng đây là cơ hội thử nghiệm trên phạm vi rộng và để tất
cả các Cục Thống kê thử nghiệm các quy trình trong khâu điều tra (tập huấn
cho điều tra viên, cách ghi thông tin trên phiếu, bảo quản phiếu…)
Tuy nhiên để tránh rủi ro về thời gian xử lý, Trung tâm đã áp dụng cả 2
phƣơng án: Phƣơng án nhập tin bằng bàn phím và phƣơng án dùng máy quét.
Từ tháng 10/2007 các Cục Thống kê đã gửi phiếu điều tra về Trung tâm Tin
học chủ yếu qua đƣờng Bƣu điện. Trung tâm Tin học đã thực hiện các bƣớc
của quy trình xử lý và kết quả nhƣ sau:
Tỉnh đầu tiên có phiếu đƣợc tiến hành quét là Ninh Bình. Phiếu của
Ninh Bình đƣợc viết bằng bút chì thƣờng, không phải là chì kim nên phiếu
quá mờ, không nhận dạng đƣợc, verify quá tốn công sức. Về sau chúng tôi đã
phải chuyển các địa bàn đã cắt và quét rồi nhƣng quá mờ xuống nhập tin. Sau
đó chúng tôi có thông báo cho vụ Dân số biết để nhắc nhở các tỉnh viết mờ
phải xem xét lại trƣớc khi gửi phiếu. Rút kinh nghiệm Ninh Bình, các tỉnh
sau chúng tôi đã phân loại xem địa bàn nào viết rõ ràng và khả thi để làm
quét chúng tôi mới đƣa vào qui trình quét, còn không để nhập tin ngay từ
đầu. Nhờ có sự phân loại này mà công việc cũng hiệu quả hơn, verify nhanh
hơn nhiều
Tuy nhiên khi làm điều tra LDVL với qui mô lớn (64 tỉnh) đã có nhiều
vấn đề khó khăn trục trặc xảy ra:
- Máy PC làm Server không đảm bảo cấu hình nên hệ thống chậm
180
- Kỹ sƣ lập trình chƣa có nhiều kinh nghiệm nên config hệ thống và
chọn thuộc tính của Database chiếm quá nhiều dung lƣợng, không tự thu gọn
mà càng ngày càng phình ra, dẫn đến sự cố treo máy
- Đƣợc sự trợ giúp của dự án của UNFPA nên đã có Server thay, tuy
nhiên việc thay đổi hệ thống trong quá trình đang vận hành cũng gây nên
những khó khăn không nhỏ, công việc bị đình trệ đến hàng tuần. Tiếp theo
server lại phải đi bảo hành nhiều lần nên cũng phải đổi và config lại hệ thống
mất quá nhiều thời gian.
- Máy quét hỏng chƣa rõ nguyên nhân, chập chờn lúc đƣợc lúc không,
mặc dù đã mời chuyên gia của MITEC sang rất nhiều lần nhƣng do bản thân
họ cũng chƣa có kinh nghiệm xử lý nên rất mất thời gian và cho đến nay chƣa
tìm đƣợc nguyên nhân dẫn đến chậm tiến độ rất nhiều
- Qua vấn đề máy quét hỏng chúng tôi cũng nhận thấy vấn đề đặt ra là
để áp dụng cho Tổng điều tra dân số 2009 thì việc bảo hành bảo trì máy quét
là vô cùng quan trọng.
- Việc lập trình nhúng kiểm tra vào module verify còn khá nhiều hạn
chế nên khi verify đã gặp phải các lỗi nhƣ: Việc quay đi quay lại giữa các
trƣờng ảnh hƣởng đến việc lấy các biến giá trị để kiểm tra nên khi ngƣời
verify thực hiện thao tác quay giữa các form thì đã bỏ sót các kiểm tra hoặc
không thể nào đi qua đƣợc tập phiếu vì vi phạm logic (do lấy biến sai). Vấn
đề này TTTHTK sẽ nghiên cứu và cố gắng cải tiến trong đợt điều tra thử
nghiệm sau.
3. Thử nghiệm công nghệ ICR trong xử lý điều tra thử nghiệm lần 3
Tổng Điều tra Dân số và nhà ở
Điều tra thử lần ba của Tổng điều tra Dân số và Nhà ở (TĐT DSNƠ)
đƣợc tiến hành tại 4 tỉnh với tổng số phiếu điều tra đƣợc là 744 phiếu ngắn
(phiếu là 1 tờ A3 hai mặt) và 713 tập phiếu dài (mỗi phiếu gồm 6 tờ 12 trang
A4). Trung tâm Tin học Thống kê đã xử lý điều tra này bằng công nghệ quét
và nhận dạng ký tự thông minh (ICR). Việc xử lý phiếu này nhằm mục đích
đánh giá việc thiết kế phiếu, ghi phiếu, loại bút chì (chì thƣờng hay chì kim),
chƣơng trình xử lý bằng ICR và đánh giá từng công đoạn trong xử lý.
3.1. Thiết kế, xây dựng chương trình
Trong các đợt thử nghiệm xử lý phiếu bằng công nghệ ICR trong năm
2007 thực hiện với các xử lý thật mà kết quả đƣợc sử dụng chính thức và số
lƣợng phiếu cần xử lý lớn nên hệ thống chƣơng trình đƣợc viết theo nguyên
tắc: hầu hết tất cả mọi kiểm tra sửa chữa số liệu trực tiếp, đều tích hợp chung
181
trong 1 lần chạy. Nghĩa là ngƣời xác thực, kiểm tra số liệu thực hiện đồng
thời mọi công việc: nhập vào những dữ liệu hệ thống không nhận dạng đƣợc,
kiểm tra những dữ liệu hệ thống nhận dạng đƣợc nhƣng chƣa chắc chắn, xác
thực những dữ liệu bằng phƣơng pháp kiểm tra theo đống (mass verify), kiểm
tra và sửa các lỗi logic. Đây là cách thức phải làm đối với những xử lý thật sự
có khối lƣợng xử lý lớn bởi chỉ có nhƣ vậy mới đảm bảo tối ƣu chi phí nhân
công, thời gian xử lý. Tuy nhiên, cách làm này không thể có đƣợc thống kê
chính xác về số lỗi chia theo các loại: lỗi do hệ thống nhận dạng sai, lỗi do
ngƣời kiểm tra gây ra, lỗi do khâu điều tra ghi phiếu.
Trong đợt thử nghiệm này TTTHTK đã thực hiện theo phƣơng án
chƣơng trình ứng dụng ICR đƣợc xây dựng chỉ với những công cụ của phần
mềm ReadSoft, nghĩa là về mặt kiểm tra chỉ có những kiểm tra đơn giản nhƣ
kiểm tra khoảng xác định cho mỗi trƣờng (Range check), trƣờng bắt buộc
phải có số liệu hay không, nếu là trƣờng đánh dấu thì chỉ đƣợc đánh dấu 1
hay nhiều ô và một vài kiểm tra đơn giản khác. Việc xử lý đƣợc thực hiện 3
lần (riêng số lần quét phiếu có thể thực hiện nhiều lần hơn), mỗi lần tích hợp
các cách kiểm tra khác nhau và kết quả đầu ra đem so sánh từng phiếu, từng
trƣờng với nhau để xác định tỷ lệ nhận dạng, số lỗi các loại. Bên trong hệ
thống ICR, những ngƣời thực hiện hầu nhƣ để nguyên số liệu đã ghi trên
phiếu, chỉ sửa những trƣờng hợp ghi không rõ, ghi lệch ô. Tệp dữ liệu cuối
cùng đƣợc chạy qua một chƣơng trình kiểm tra in các lỗi logic để xác định
các kiểu sai sót do điều tra ghi phiếu. Với phƣơng án, trên các chƣơng trình
đƣợc viết hoàn toàn khác với những chƣơng trình đã viết cho các điều tra đã
xử lý bằng ICR trong năm 2007. Những khác biệt chủ yếu là chƣơng trình
viết trong hệ thống phần mềm ICR đơn giản hơn rất nhiều do không cần viết
các chƣơng trình “nhúng” vào để kiểm tra số liệu; Tạo lập nhiều ứng dụng
ICR khác nhau thay đổi các thuộc tính, các lựa chọn, tích hợp các công việc
khác nhau cho mỗi lần chạy; Viết thêm nhiều chƣơng trình kiểm tra bên
ngoài để so sánh số liệu, kiểm tra logic in lỗi.
Kinh nghiệm rút ra khi xây dựng ứng dụng là: Để đạt hiệu quả tốc độ
quét cao, giấy đỡ bị kẹt, các trang phiếu đỡ bị loại không nhận dạng đƣợc cần
cân nhắc khi thực hiện định dạng phiếu trong phần mềm ICR. Khi định dạng,
cần xem xét cẩn thận xem nên đặt giấy chiều đứng hay xoay ngang, mặt và
chiều giấy đặt vào là thuận tiện nhất cho ngƣời vận hành máy quét. Bởi vì
định dạng phiếu theo chiều nào thì khi quét đặt phiếu theo đúng chiều đó sẽ
đạt tốc độ quét cao hơn. Giấy đặt chiều ngang cho tốc độ quét cao hơn. Phía
lề phiếu đặt vào phía trong của máy quét không phải là phía phiếu bị cắt thì ít
gặp trƣờng hợp phiếu không nhận dạng đƣợc hơn.
182
3.2. Thực hiện xử lý
+) Tiếp nhận và chuẩn bị phiếu
Điều đáng nói nhất là việc sắp xếp phiếu không đúng yêu cầu cho xử lý
bằng ICR. Mặc dù trong cả 2 điều tra năm 2007 (điều tra BĐDS và LĐVL),
TTTH đã đƣa ra và nhắc nhở rất nhiều về yêu cầu sắp xếp phiếu là không
đƣợc gấp đôi từng tờ phiếu, không lồng/kẹp các phiếu/tập phiếu vào nhau
(của các hộ có nhiều tờ/tập phiếu). Tuy nhiên lần nay, cũng giống nhƣ với
tình trạng xảy ra trong năm 2007, tất cả các phiếu khổ A3 đều gập đôi từng từ
phiếu, phiếu khổ A4 thì lồng/kẹp vào nhau. Vấn đề này cần phải đƣợc giải
quyết trong TĐTDS 2009, bởi với khối lƣợng phiếu lớn việc phải mở ra từng
tờ phiếu, vuốt và ép phẳng lại nếp gấp sẽ rất tốn kém nhân công và làm chậm
lại toàn bộ quá trình xử lý.
+) Cắt phiếu
Việc cắt phiếu phải thực hiện đối với loại phiếu dài (điều tra mẫu) để
làm cho tập phiếu rời ra từng tờ. Nhƣ đã nói ở trên, đối với phiếu điều tra thử
lần 3 này, việc cắt phiếu gặp rất nhiều khó khăn. Do lần này phiếu thiết kế
theo phƣơng thẳng đứng chứ không xoay ngang nhƣ phiếu điều tra LĐVL
2007, phía lề phải cắt là chiều dài của phiếu nên chiều dài dao cắt chỉ có thể
cắt 1 tập phiếu mỗi lần chứ không thể cắt cùng lúc cắt 2 tập phiếu nhƣ điều
tra LĐVL. Lề phiếu lại quá nhỏ, chỉ cần khi dao cắt đẩy xô lệch các tập phiếu
chút ít là đã bị cắt lẹm vào các ô thông tin. Chính vì thế, ngƣời vận hành máy
cắt phải chia nhỏ lô phiếu (địa bàn), mỗi lần cắt chỉ đặt vào từ 12 đến 15 tập
phiếu. Thêm nữa máy cắt trong năm 2007 đã có lần gặp sự cố (dao cắt tự rơi
xuống khi không bấm nút điện) nên để tránh xảy ra tai nạn lao động một cách
đáng tiếc, phải sử dụng 2 lao động cho 1 máy cắt, một ngƣời đứng trƣớc máy
điều khiển, một ngƣời đứng phía sau đặt giấy và lấy giấy ra để tránh việc đƣa
tay qua phía dƣới dao cắt. Chính vì thế việc cắt phiếu đã chậm mà lại tốn
thêm nhân công.
Để cắt 704 tập phiếu 6 tờ 12 trang (phiếu dài) với 2 ngƣời phục vụ đã
mất 111 phút. Tính trung bình mỗi tập phiếu mất 0,1577 phút. Việc cắt phiếu
ảnh hƣởng nhất định đến tốc độ quét phiếu và chất lƣợng nhận dạng tờ phiếu.
Khi cắt phiếu quá chéo góc thì khi quét vào máy các tờ phiếu dễ bị không
nhận dạng đƣợc. Mặc dù các tờ phiếu khi cắt có thể bị xén nhiều ít miễn là
còn cách một khoảng nhỏ đến trƣờng định vị hoặc trƣờng thông tin nhƣng
trên thực tế nếu cùng một địa bàn (một lô phiếu) mà có độ rộng hẹp chênh
lệnh đáng kể (do các lần cắt khác nhau) thì khi quét hay bị kẹt giấy.
+) Quét phiếu (Scan)
183
Sau một vài lần thử số lƣợng phiếu đơn lẻ hoặc một vài địa bàn, hai lần
quét chính thức sau đây đƣợc thống kê thời gian. Quy trình quét cũng thay
đổi. Trong các thử nghiệm năm 2007, mỗi khi bị kẹt giấy hoặc tờ phiếu
không nhận dạng đƣợc do những lý do khác nhau, ngƣời thực hiện quét phiếu
đều dừng lại, xác định tờ phiếu hỏng, tìm tờ hỏng trong tập phiếu và quét tiếp
lại vào cùng lô (batch) địa bàn. Cách làm này dễ dàng hơn cho việc quản lý,
nhất là khi quản lý còn thủ công nhƣng không đảm bảo công suất tối đa cho
máy quét. Quy trình quét lần này theo nguyên tắc, ngƣời quét phiếu liên tục
quét phiếu không để máy quét dừng lại lâu, khi có lỗi vẫn chuyển sang tập
khác, một ngƣời khác sẽ tìm kiếm, xác định những tờ phiếu gặp trục trặc, tập
hợp lại để xử lý sau.
Một số thông số chính thiết lập cho module quét lần thử nghiệm này là:
Contract: 60, Light: 25, DPI: 300. Đối với phiếu ngắn khổ A3, mỗi phiếu là 1
tờ A3 hai mặt, tốc độ quét trung bình 1 phiếu là 1,1145 giây. Đối với phiếu
dài khổ A4, mỗi phiếu là 6 tờ 12 trang A4, tốc độ quét trung bình mỗi tờ là
1,48008 giây.
Nhận xét chung:
- Công việc quét phiếu lần này đạt đƣợc tốc độ quét phiếu cao hơn
những lần trƣớc và máy cũng không bị hỏng trong quá trình làm việc. Tuy
nhiên cũng phát sinh một số trục trặc: phiếu bị cắt lệch, máy cuốn nhiều tờ
cùng lúc làm kẹt giấy nhiều hơn và nhất là việc ảnh các trang phiếu bị lệch
chƣa xác định đƣợc chính xác nguyên nhân.
- Việc quét phiếu đóng thành tập khổ A4 khó khăn hơn rất nhiều so với
phiếu đơn rời từng tờ khổ A3. Các khó khăn đều xuất phát từ loại phiếu này:
máy cuốn nhiều tờ, kẹt giấy nhiều, mỗi khi bị kẹt giấy hoặc 1 phiếu không
nhận dạng đƣợc việc xử lý cũng tốn nhiều thời gian do việc phải liên kết các
tờ phiếu với nhau, khi hỏng 1 tờ phải xóa và làm lại cả tập, v.v...
- Mặc dù đặt giấy theo các chiều khác nhau hệ thống đều có thể xoay
phiếu về đúng vị trí nhƣng ngƣời vận hành máy quét cần đặt giấy theo đúng
chiều phiếu đã định dạng để đạt đƣợc tốc độ quét phiếu cao nhất.
- Khi đặt giấy vào khay của máy quét, phiếu càng đƣợc dỗ thẳng thì đỡ
xảy ra trƣờng hợp tờ phiếu không nhận dạng đƣợc.
- Tốc độ quét phụ thuộc vào nhiều yếu tố nhƣ: tốc độ tối đa của máy
quét, máy chủ, máy PC thực hiện công việc quét, kết nối giữa các máy, tốc
độ truy cấp CSDL, phần mềm quét phiếu và số lƣợng ô cần cắt thành từng
ảnh trên mỗi trang phiếu. Khi tính toán lập kế hoạch cho TĐTDS 2009 cần so
sánh phiếu thiết kế cuối cùng với các mẫu phiếu đã làm thử đồng thời đánh
184
giá ảnh hƣởng của đƣờng truyền và tốc độ truy cập CSDL khi có nhiều máy,
nhiều module khác nhau chạy đồng thời.
+) Nhận dạng (Interpret)
Công việc nhận dạng đƣợc thực hiện 3 lần, lần thứ nhất và hai đều thực
hiện với các ảnh của lần quét thứ nhất, lần thứ ba thực hiện với lần quét thứ
hai. Riêng với phiếu A4 còn có thêm một lần thực hiện nhận dạng cho 4 địa
bàn làm lại do lần thực hiện đầu tiên có quá nhiều tập phiếu không nhận dạng
đƣợc. Tốc độ thực hiện nhận dạng trung bình của 3 lần với phiếu ngắn (A3)
là 36,43 tờ/phút và với phiếu dài (A4) là 90,15 tờ/phút.
Một số thông số đã lựa chọn khi định nghĩa các mẫu phiếu ảnh hƣởng
đến kết quả nhận dạng nhƣ sau:
- Security: 5 (ở mức độ cân bằng giữa Security và Interpret). Với mức
độ an toàn của nhận dạng này thì sẽ bớt đi số lƣợng trƣờng không nhận dạng
đƣợc (nghĩa là phần lớn các trƣờng đều đã đƣợc gán giá trị nhận dạng),
nhƣng do thuộc tính xác thực theo đống/lô (Mass Verify) đƣợc chọn là kiểm
tra lại 100% các trƣờng ngay cả khi phần mềm đã coi là nhận dạng chắc chắn
nên vẫn đảm bảo độ an toàn chính xác cao nhất cho số liệu.
- Việc loại bỏ các vết bẩn (bôi quá bẩn) hoặc loại bỏ những vết mờ khi
điều tra viên tẩy xóa không hết thông tin với việc áp dụng thuộc tính Detect
Strikeout (phát hiện những trƣờng đã xóa) và Detect Noise (phát hiện các tạp
chất/vết bẩn) đƣợc thiết lập nhƣ sau: Với loại phiếu A3 viết bút chì thƣờng:
Detect Strikeout: 90%; Detect Noise 20%.
Với phiếu A4 viết bằng bút chì kim mờ hơn những thiết lập trên có thể
làm mất những thông tin ghi quá mờ nên không áp dụng, nghĩa là mọi dấu
vết gì phát hiện trong các ô phiếu đều đƣợc nhận dạng và đƣa ra cho ngƣời
kiểm tra xem xét.
- Tỷ lệ nhận dạng đƣợc tính trên tỷ lệ giữa những ô mà phần mềm nhận
dạng xác định chắc chắn dữ liệu đã số hóa (cả ô đánh dấu và ô ký tự) trên
tổng số ô có ghi thông tin cần phải nhận dạng. Những trƣờng phần mềm
không nhận dạng đƣợc hoặc đã nhận dạng nhƣng không chắc chắn là những
trƣờng mà ngƣời kiểm tra xác thực số liệu sẽ phải kiểm tra và nhập thông tin
vào. Tỷ lệ nhận dạng trung bình đƣợc đối với phiếu ngắn (A3) là 99,44 %,
phiếu dài (A4) là 99,52%.
Nhận xét về việc ghi phiếu: các phiếu của điều tra này có màu chì tƣơng
đối đậm, lên ảnh rõ, thuận lợi cho việc nhận dạng và cho ngƣời kiểm tra xác
thực dữ liệu, viết đúng vào các ô. Tuy nhiên chữ viết của nhiều phiếu vẫn còn
185
cẩu thả, việc tẩy các thông tin sai chƣa đƣợc cẩn thận, vẫn còn rất nhiều các
nét chì mờ và các nét chì còn lại này trở thành các ký tự không nhận dạng
đƣợc mà ngƣời kiểm tra số liệu sau này phải thực hiện thao tác xóa dữ liệu.
Trong điều tra thử nghiệm này, loại bút chì sử dụng phân biệt cho 2 loại
phiếu: bút chì thƣờng đƣợc sử dụng cho loại phiếu ngắn, bút chì kim sử dụng
cho loại phiếu dài. Từ tỷ lệ nhận dạng ta nhận thấy hầu nhƣ không có sự khác
biệt đáng kể về tỷ lệ nhận dạng giữa 2 loại phiếu dài và phiếu ngắn, hay nói
một cách khác, việc sử dụng bút chì kim hay bút chì thƣờng vỏ gỗ hầu nhƣ
không ảnh hƣởng đến tỷ lệ nhận dạng. Việc lựa chọn loại bút chì nào cần xác
định từ chính những ngƣời sử dụng: các điều tra viên và những ngƣời thực
hiện ký mã phiếu điều tra.
+) Xác thực và kiểm tra số liệu (Verify)
Đây là bƣớc kiểm tra, xác thực dữ liệu sau khi nhận dạng sử dụng lao
động thủ công. Đối với điều tra thử lần này không kết hợp các kiểm tra logic
phức tạp trong chức năng kiểm tra (Verify). Toàn bộ số liệu đƣợc tiến hành 2
lần kiểm tra, xác thực dữ liệu theo 2 cách khác nhau: lần thứ nhất bao gồm cả
kiểm tra theo lô ký tự (Mass Verify), lần thứ hai bỏ chức năng Mass Verify
trong kiểm tra. Do điều tra này có số lƣợng phiếu nhỏ, mỗi đợt tiến hành
Verify, mỗi ngƣời chỉ thực hiện một vài địa bàn nên tốc độ làm việc không
thể cao đƣợc. Thêm nữa đối với điều tra thật thì việc thực hiện Verify phải
thực hiện đồng thời tất cả các loại kiểm tra, bao gồm cả Mass Verify và kiểm
tra logic phiếu. Vì thế thống kê về tốc độ dƣới đây chỉ mang tính tham khảo:
Tốc độ Verify trung bình là 7,87 phiếu/phút (có cả mass verify) và 16,15
phiếu/phút (không có mass verify) đối với phiếu ngắn (A3); và là 1,58
phiếu/phút (có cả mass verify) và 5,09 phiếu/phút (không có mass verify) đối
với phiếu dài (A4).
Từ những thống kê trên đây ta có thể thấy, tỷ lệ nhận dạng đƣợc với
phiếu ĐT này khá cao từ 99,4 đến 99,5% . Hệ thống nhận dạng tính chung sai
gần 5 phần nghìn, số lỗi này có thể và phải đƣợc phát hiện và sửa chữa bởi
ngƣời kiểm tra xác thực dữ liệu với chức năng Mass Verify. Ngƣời thực hiện
kiểm tra xác thực dữ liệu còn để lại khoảng gần 0,3 phần nghìn ký tự sai.
Đƣơng nhiên những lỗi của hệ thống nhận dạng hay của ngƣời kiểm tra xác
thực dữ liệu có phần nguyên nhân từ việc ghi phiếu.
+) Chuyển đổi số liệu (Transfer)
Trong các thử nghiệm năm 2007, tốc độ chuyển đổi dữ liệu của các
phiếu điều tra chỉ gồm 1 tờ phiếu (điều tra BĐDS & KHHGĐ) có tốc độ khá
cao, nhƣng tốc độ thực hiện với phiếu điều tra là một tập nhiều tờ (điều tra
186
LĐVL) rất chậm. Tuy nhiên với việc nghiên cứu thay đổi cách thức cũng nhƣ
chƣơng trình chuyển đổi, tốc độ chuyển đổi số liệu đã tăng lên nhiều lần. Đối
với phiếu ngắn (A3) tốc độ chuyển đổi trung bình là 398,48 phiếu/phút; phiếu
dài (A4) tốc độ chuyển đổi trung bình là 95,36 phiếu/phút. Tốc độ này khá
cao một phần cũng do module Transfer đƣợc chạy ngay trên máy chủ.
+) Kiểm tra số liệu sau khi chuyển đổi
Các chƣơng trình kiểm tra logic đƣợc xây dựng và sử dụng để kiểm tra
phát hiện các lỗi sai logic, in ra biên bản kiểm tra và đem đối chiếu với phiếu
gốc. Tuy nhiên do trƣớc đó phiếu đã đƣợc chạy qua hệ thống nhận dạng
nhiều lần, so sánh với nhau và phát hiện các lỗi do hệ thống nhận dạng sai
hoặc do thiếu sót của ngƣời thực hiện kiểm tra xác thực dữ liệu nên các lỗi in
ra của các chƣơng trình này đều là lỗi ghi phiếu.
4. Những bài học kinh nghiệm từ thử nghiệm
4.1. Tổng kết chung về 4 đợt thử nghiệm công nghệ ICR trong năm 2007,
2008
Bốn đợt thử nghiệm công nghệ ICR trong năm 2007, 2008 đánh dấu
những bƣớc tiến bộ rất rõ rệt. Những đợt thử nghiệm sau với những kinh
nghiệm tích lũy đƣợc của đợt trƣớc luôn cho kết quả tốt hơn.
Đợt thử nghiệm đầu tiên với phiếu điều tra BĐDS 2006 của tỉnh Bắc
Ninh, việc thiết kế phiếu và điều tra thực hiện khi chƣa mua thiết bị, phần
mềm và chỉ đến đầu năm 2007 việc xử lý thử mới bắt đầu triển khai. Lần thử
nghiệm này có thể coi nhƣ chạy thử hệ thống, nghiên cứu công nghệ và lập
trình trong hệ thống, bƣớc đầu xác định quy trình xử lý. Đợt thử nghiệm này
có thể coi có kết quả là chứng minh đƣợc hệ thống đã đƣợc vận hành tốt, còn
việc xử lý phiếu thực sự không thành công. Phiếu không nhận dạng đƣợc cả
tờ phiếu hoặc từng trƣờng cụ thể có nhiều nguyên nhân: thiết kế phiếu, chất
lƣợng giấy và bảo quản phiếu, chất lƣợng in ấn, chất lƣợng ghi phiếu và cả
nguyên nhân lập trình chƣa có kinh nghiệm.
Đợt thử nghiệm thứ hai với phiếu điều tra BĐDS 2007 đã xử lý trọn vẹn
8 tỉnh: Bắc Giang, Bắc Ninh, Hải Phòng, Lào Cai, Tuyên Quang, Lai Châu,
Nam Định, Hà Nội. Với tỉnh Bắc Giang là tỉnh đã có dự kiến và chuẩn bị
trƣớc cho công nghệ, việc xử lý bằng công nghệ nhận dạng ICR đạt kết quả
khả quan. Bảy tỉnh còn lại kết quả thấp hơn và rất khác nhau giữa các tỉnh,
các tỉnh Hải Phòng, Hà Nội, Bắc Ninh chất lƣợng phiếu rất kém đối với yêu
cầu nhận dạng. Thời gian để kiểm tra xác thực dữ liệu cho 1 địa bàn dao động
rất lớn tùy theo chất lƣợng ghi phiếu: từ 25 phút đến 3-4 giờ cho 1 địa bàn
(khoảng 100-130 tờ phiếu A3), cá biệt có địa bàn lên tới 8-9 giờ. Tính bình
187
quân năng suất kiểm tra xác thực dữ liệu vẫn kém hơn so với nhập tin bàn
phím 15-20%.
Đợt thử nghiệm thứ ba thực hiện với phiếu điều tra Lao động việc làm
có kết quả tích cực hơn nữa. Dự kiến ban đầu là tất cả 64 tỉnh đều đƣợc xử lý
thử với công nghệ ICR: chọn những địa bàn viết rõ hơn để áp dụng công
nghệ mới nhằm có kiến nghị rõ ràng với từng tỉnh về chất lƣợng phiếu của họ
có đáp ứng yêu cầu của công nghệ hay không. Tuy nhiên, do số lƣợng bản
quyền cho việc kiểm tra xác thực dữ liệu hạn chế, nhất là chỉ có 1 máy quét
mà trong thời gian này máy có rất nhiều sự cố, không ổn định, thời gian xử lý
điều tra ngắn nên chỉ có 21 tỉnh đƣợc xử lý với công nghệ ICR (toàn bộ hoặc
một phần). Thời gian kiểm tra xác thực dữ liệu cho 1 địa bàn (180 đến trên
200 tờ A4) khoảng 15 đến 30 phút, nhanh hơn nhập tin bàn phím. Với đợt thử
nghiệm thứ ba này cho thấy khả năng rõ nét hơn việc giảm thời gian xử lý khi
áp dụng công nghệ nhận dạng ICR.
Đợt thử nghiệm thứ 4 thực hiện với phiếu điều tra thử nghiệm lần 3
của Tổng điều tra dân số và nhà ở. Số lƣợng phiếu điều tra thử nghiệm không
nhiều. Số phiếu điều tra đƣợc xử lý là 744 phiếu ngắn (phiếu là 1 tờ A3 hai
mặt) và 713 tập phiếu dài (mỗi phiếu gồm 6 tờ 12 trang A4). Do là điều tra
thử nghiệm nên các phiếu điều tra này rất giống với phiếu của TĐT DS
1/4/2009. Do vậy, những kinh nghiệm qua đợt thử nghiệm này sẽ rất có ích
cho xử lý TĐT DS 1/4/2009. Trong đợt thử nghiệm này, Trung tâm Tin học
Thống kê đã xử lý điều tra thử nghiệm lần 3 của TĐT DS 3 lần với những
thống kê chi tiết nhằm mục đích đánh giá việc thiết kế phiếu, ghi phiếu, loại
bút, chƣơng trình xử lý và đánh giá từng công đoạn trong xử lý.
4.2. Đánh giá công nghệ và khả năng áp dụng trong xử lý điều tra
Với những tiến bộ nhanh chóng của công nghệ trong những năm gần
đây, các phần mềm đƣợc cải tiến nâng cấp tốt lên với giá cả thích hợp, thiết
bị máy móc nhƣ máy quét, máy tính có giá giảm đáng kể làm cho việc áp
dụng công nghệ ICR trở nên khả thi hơn.
Sau khi nghiên cứu giải pháp công nghệ và phần mềm, với những kết
quả của thử nghiệm công nghệ ICR trong thời gian qua, có thể khẳng định
rằng việc xử lý phiếu tự động là có thể áp dụng đƣợc cho các điều tra thống
kê. Ngay cả các điều tra kinh tế cũng có khả năng áp dụng công nghệ này.
Tuy nhiên, việc áp dụng công nghệ ICR trong xử lý phiếu tự động đạt
hiệu quả mong muốn chỉ khi hàng loại yêu cầu đặt ra cho các khâu chuẩn bị
điều tra và điều tra đƣợc thực hiện nghiêm túc. Một số yêu cầu là đặc biệt
chặt chẽ, nghiêm ngặt, quyết định thành công hay thất bại của cuộc điều tra.
188
Những yêu cầu này đòi hỏi thay đổi quan trọng trong tƣ duy, cách thức thực
hiện công việc của tất cả các khâu, các công việc liên quan đến điều tra.
Nếu so sánh với phƣơng pháp nhập tin bằng bàn phím, công nghệ ICR
có những ƣu điểm sau đây:
a) Chất lượng dữ liệu nhập vào đảm bảo hơn rất nhiều.
Trƣớc hết khả năng nhập trùng hay bỏ sót là hầu nhƣ không thể xảy ra.
Xét trên góc độ quản lý của cả tập phiếu (một địa bàn) thì trong nhập tin bàn
phím, mỗi lô phiếu qua tay rất nhiều ngƣời: ngƣời nhập tin lần một, ngƣời
nhập tin lần hai (thông thƣờng trong các tổng điều tra thƣờng có một tỷ lệ
nhất định đƣợc nhập lần hai để giám sát chất lƣợng), ngƣời rút phiếu kiểm tra
logic (có thể thêm cả ngƣời sửa phiếu), ngƣời sửa lại số liệu. Số lƣợng ngƣời
tham gia vào các công việc này lại rất đông, nên dễ xảy ra nhầm lẫn lấy sai
tập phiếu, để tập phiếu sai chỗ từ vị trí chƣa nhập sang vị trí khác,... Trong
khi đó trong giải pháp ICR, phiếu chỉ đƣa vào máy scanner quét xong là có
thể coi nhƣ hết liên quan đến tập phiếu.
Xét trên góc độ từng tờ phiếu, trong trƣờng hợp nhập tin bằng bàn phím,
ngƣời nhập có thể bỏ sót, nhập trùng, nhƣng khi quét phiếu trên máy, máy
không thể bỏ sót tờ nào, còn khi kéo đúp 2 tờ thì hoặc xảy ra kẹt giấy hoặc tờ
phiếu không nhận dạng đƣợc và ngƣời điều khiển không thể bỏ qua không xử
lý. Tƣơng tự xét trên góc độ từng dòng/cột số liệu (một nhân khẩu), ngƣời
nhập có thể nhập trùng hoặc bỏ sót dòng/cột nhƣng hệ thống nhận dạng tự
động thì không thể xảy ra lỗi này.
Các lỗi sai ngẫu nhiên nhƣ khi nhập tin cũng bị loại trừ tối đa do mọi dữ
liệu ghi trên phiếu đã đƣợc hệ thống nhận dạng và mọi dữ liệu đều đƣợc kiểm
tra lại bằng chức năng kiểm tra theo từng loại ký tự (mass verify). Trong
nhập tin khi phiếu ghi có lỗi hoặc do nhập tin sai có thể làm sai lệch các bƣớc
nhảy dẫn đến có những số liệu bị bỏ qua không nhập vào. Trong hệ thống
ICR thì dữ liệu đã ghi/đánh dấu bất kỳ trên phiếu đều không thể bị bỏ qua,
trừ khi ngƣời nhập tin xóa từng ô số liệu khi quyết định rằng ngƣời ghi phiếu
đã điền thừa số liệu.
Cũng do các phiếu đƣợc lƣu giữ toàn bộ dƣới dạng các ảnh nên trong
những trƣờng hợp cần thiết có khả năng tìm kiếm, xem xét tra cứu lại từng
phiếu cụ thể. Ví dụ nếu nghi ngờ việc đánh ký mã có sai sót từ nhận thức/do
hƣớng dẫn tại địa phƣơng nào đó, có thể tra xét, kiểm tra lại các phiếu trong
khi nếu nhập tin từ bàn phím thì khả năng này là cực kỳ khó khăn.
b) Rút ngắn thời gian xử lý, giảm chi phí nhân công nhập tin nếu các điều
kiện về chất lượng phiếu được đảm bảo.
189
Việc có thể rút ngắn thời gian xử lý, giảm chi phí nhân công nhập tin
đƣợc hay không phụ thuộc hoàn toàn vào chất lƣợng phiếu, mà yếu tố quan
trong nhất là việc ghi phiếu.
c) Có thể giảm bớt chi phí kho/mặt bằng chứa phiếu, kệ/giá chứa phiếu và
cả nhân lực quản lý bảo quản phiếu
Các tập phiếu sau khi quét xong đã đƣợc lƣu giữ đầy đủ dƣới dạng ảnh.
Vì thế không nhất thiết phải lƣu giữ phiếu một thời gian dài nhƣ sau nhập tin.
Ngoài khu vực của máy quét, những ngƣời kiểm tra dữ liệu chỉ làm việc với
máy tính chứ không cần có các phiếu bên cạnh nên yêu cầu mặt bằng ít hơn,
giảm bớt các căng thẳng do thiếu mặt bằng làm việc trong các tổng điều tra.
Các tập phiếu không phải bàn giao, chuyển tiếp giữa các khâu khác nhau nên
không nhất thiết phải tổ chức các kệ/giá chứa phiếu cho dễ tìm kiếm, không
phải tổ chức bảo quản phiếu riêng theo từng công đoạn. Nhân công để bảo
quản, sắp xếp, bàn giao phiếu cũng giảm bớt đi rất nhiều.
d) Người lao động làm việc phong cách hiện đại, giảm căng thẳng
Với việc nhập tin từ bàn phím ngƣời nhập vừa phải giở phiếu, đọc thông
tin trên phiếu, gõ số liệu và kiểm tra trên màn hình (khi cần) với một tốc độ
rất cao. Còn nếu chất lƣợng ghi phiếu tốt thì ngƣời kiểm tra số liệu chỉ nhìn
lên màn hình và chủ yếu là xác nhận kết quả nhận dạng.
e) Có khả năng cung cấp sớm kết quả từng phần
Trong nhập tin từ bàn phím, kết quả tổng hợp chỉ có thể có đƣợc khi số
liệu đã nhập xong hoàn chỉnh, mà nhập số liệu lại là khâu kéo dài nhất. Việc
cung cấp sớm kết quả chỉ giải quyết đƣợc thông qua việc xử lý một cỡ mẫu
nào đó và công bố kết quả mẫu trƣớc, nghĩa là việc công bố sớm kết quả
bằng cách công bố từng phần bị giới hạn trong phạm vi lựa chọn hẹp.
Trong công nghệ quét và nhận dạng, ta có thể chia việc kiểm tra số liệu
nhận dạng thành những giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một
số trƣờng nhất định. Tổng chi phí nhân công cho kiểm tra số liệu tăng lên
không đáng kể, chủ yếu là phức tạp và tăng chi phí cho việc xây dựng ứng
dụng và lập trình. Điều này tạo khả năng cung cấp sớm kết quả theo từng
nhóm chỉ tiêu một cách mềm dẻo, hiệu quả. Nếu ta sử dụng giải pháp đánh
ký mã (mã dân tộc, nghề nghiệp, ngành,...) sau khi quét phiếu - đánh ký mã
trên hình ảnh các trƣờng mô tả, thực hiện trên máy tính chứ không phải trên
phiếu, và thực hiện ở giai đoạn sau thì lại càng có khả năng cung cấp rất sớm
một số chỉ tiêu cơ bản: dân số theo giới tính, độ tuổi, hôn nhân, trình độ,... do
có thể tạm bỏ qua thời gian cho việc đánh kỹ mã.
190
Tuy nhiên, việc áp dụng ICR cũng gặp rất nhiều khó khăn nhƣ:
- Kinh phí đầu tư ban đầu
Nếu nhƣ việc nhập tin từ bàn phím chỉ yêu cầu các máy PC cho nhập tin
có cấu hình tối thiểu thì công nghệ ICR đòi hỏi những máy chủ, máy tính cá
nhân có bộ nhớ trong và ngoài lớn, tốc độ xử lý cao. Các máy quét cũng phải
là những máy chuyên nghiệp có tốc độ công nghiệp cao, độ phân giải cao,
chất lƣợng tốt và nhiều chức năng bổ sung khác và do vậy chi phí cho máy
quét rất lớn.
Phần mềm xử lý phiếu tự động không chỉ gồm những động cơ/phƣơng
tiện nhận dạng mà bao gồm cả những chức năng tạo nên một quy trình xử lý
phiếu tự động. Đây là những phần mềm chuyên biệt, có số lƣợng khách hàng
ít ỏi và phần mềm thƣờng đƣợc bán nhƣ một một giải pháp chứ không nhƣ
một phần mềm thông thƣờng. Chính vì vậy giá phần mềm cao và cũng rất
khó lựa chọn đánh giá phần mềm.
- Chất lượng, hiệu quả của công nghệ quét, nhận dạng quyết định bởi
thiết kế phiếu, chất lượng giấy, chất lượng in phiếu và nhất là chất lượng ghi
phiếu.
Để đảm bảo tốc độ và chất lƣợng số liệu nhập vào, ngay cả việc nhập tin
từ bàn phím cũng có những đòi hỏi nhất định đối với phiếu điều tra. Nhƣng
dù sao, giải pháp nhập tin từ bàn phím vẫn rất “dễ tính” đối với phiếu điều
tra. Nhƣng với việc xử lý phiếu tự động bằng công nghệ quét và nhận dạng
thì những đòi hỏi đối với phiếu điều tra là đặc biệt ngặt nghèo. Một tập phiếu
chất lƣợng có kém đến đâu thì rút cục nó vẫn có thể nhập tin từ bàn phím
đƣợc cho dù thời gian để nhập tin/sửa phiếu có thể tăng lên vài lần so với
những tập phiếu khác. Nhƣng một tập phiếu kém có thể rách giấy không phục
hồi lại đƣợc số liệu, có thể hoàn toàn không nhận dạng đƣợc hoặc thời gian
kiểm tra/sửa số có thể tăng lên đến 15-20 lần.
- Xây dựng, thiết kế ứng dụng, lập trình tốn nhiều công sức hơn
Ngay cả khi cán bộ kỹ thuật, cán bộ lập trình đã đạt đƣợc những kỹ năng
cần thiết thì việc thiết kế một ứng dụng cho một mẫu phiếu điều tra cũng sẽ
tốn nhiều công lao động gấp rất nhiều lần so với giải pháp nhập tin bàn phím.
Chính vì thế giải pháp ICR chỉ có thể có hiệu quả kinh tế đối với những điều tra
lớn, hoặc những điều tra định kỳ có mẫu phiếu giữ ổn định trong thời gian dài.
4.3. Những vấn đề về giấy in, in và bút dùng cho điều tra viên
Để ứng dụng công nghệ ICR trong xử lý các cuộc điều tra thống kê, ở tất
cả các khâu trong quy trình điều tra thống kê phải đảm bảo yêu cầu rất cao về
191
kỹ thuật. Mục này chỉ đề cập đến việc lựa chọn giấy, in phiếu và bút ghi thông
tin trên phiếu điều tra.
a) Kinh nghiệm của các nƣớc
+) Về giấy in phiếu điều tra
Cho tới nay chƣa có cơ quan thống kê quốc gia nào đƣa ra tiêu chuẩn
chi tiết về giấy in phiếu điều tra (độ trắng, độ dày, độ cứng, độ đục, độ trong,
độ bền xé, chiều dài đứt, độ ẩm, độ hút nƣớc, độ kiềm, độ sần, độ nhám, độ
tro…) để ứng dụng công nghệ ICR mà chỉ có khuyến cáo chung là: Định
lƣợng > hoặc = 80 gram/m2, không quá bóng quá trơn, đủ độ dai.
+) Về việc in phiếu
Khuyến cáo của công ty cung cấp giải pháp phần mềm, kinh nghiệm của
các cơ quan thống kê bạn đều khuyến cáo rằng việc in phiếu cần lựa chọn nhà
in tốt nhất có thể, in tại một nơi và tốt nhất là in một lần (đợt) và cùng một
loại máy. Việc in ấn ngoài việc đảm bảo in sắc nét, các phiếu giống nhau
tuyệt đối còn phải không đƣợc có các vết “bẩn” khác từ máy in, các tờ phiếu
xén và đóng chính xác, loại bỏ tất cả những tờ có lỗi (nhăn giấy, xén lệch, in
lỗi,...). Nếu phiếu buộc phải in tại hơn một nơi hoặc in nhiều lần cần in thêm
ký tự phân biệt và phiếu in tại mỗi nơi cần đƣợc phân bổ theo khu vực, tránh
làm lẫn lộn.
+) Về bút để ghi thông tin trên phiếu
Về nguyên lý máy có thể nhận dạng đƣợc các ký tự viết bằng bút bi, bút
mực, bút chì... theo nguyên tắc viết chân phƣơng, rõ, sắc nét, và không viết
tràn ra các ô đã quy định. Tuy nhiên, trong khâu điều tra còn có sai sót cần
tẩy, xóa. Nếu mỗi lần tẩy, xóa lại phải chép lại thì rất tốn kém. Do vậy các
nƣớc khuyến cáo nên dùng bút chì mềm để ghi rõ nét và nếu có sai sót dùng
tẩy tẩy sạch và viết lại lần 2, lần 3... Nhƣ vậy, việc sử dụng bút bi hay bút chì
chỉ giải quyết 1 vấn đề là: Nếu dùng bút chì việc sửa các thông tin viết sai sẽ
rất đơn giản (tẩy sạch và viết lại). Nhƣng nếu dùng bút bi thì việc tẩy sạch
bằng mọi phƣơng pháp sẽ khó khăn hơn, thậm chí phải chép lại sẽ gây nhiều
tốn kém. Nếu dùng bút chì các nƣớc khuyến cáo dùng loại bút kim loại 2B
(đúng tiêu chuẩn đủ độ mềm để bảo đảm độ rõ, sắc nét khi viết).
b) Những kết quả thử nghiệm của Trung tâm Tin học
Sau đây là các phân tích về giấy in phiếu điều tra và bút ghi thông tin
trên phiếu qua các lần thử nghiệm.
+)Về giấy in và in phiếu
192
Theo khuyến cáo của các nƣớc sử dụng công nghệ ICR phải dùng
loại giấy 80 gram/m2. Nhƣng sử dụng giấy 80 gram/m2 thì chi phí sẽ rất cao,
do vậy Trung tâm Tin học thống kê khuyến cáo khi thử nghiệm chỉ sử dụng
loại giấy 70 gram/m2.
- Thử nghiệm lần 1: Vụ Thống kê Dân số & Lao động cho biết Vụ đã
yêu cầu nhà in in riêng phiếu cho tỉnh Bắc Ninh bằng loại giấy 70 gram/m2
không bóng. Tuy nhiên Vụ Thống kê Dân số & Lao động không giám sát và
cũng không có phƣơng tiện giám sát về tiêu chuẩn giấy. Do vậy khi đƣa vào
máy quét bị kẹt nhiều (có thể do giấy không đủ tiêu chuẩn nhƣng không có
phƣơng tiện kiểm tra) mặt khác cách ghi thông tin không chuẩn do vậy chỉ
quét đƣợc 4 địa bàn.
- Thử nghiệm lần 2: Do rút đƣợc kinh nghiệm thử nghiệm lần 1 nên
giấy in để thử nghiệm lần 2 đƣợc nhà in chú ý hơn, vì vậy cũng loại giấy 70
gram/m2 nhƣng máy chạy tốt hơn, tuy vẫn gặp hiện tƣợng kẹt, rách giấy.
- Thử nghiệm lần 3: Lần 3 đƣợc thử nghiệm với phạm vi rộng hơn (21
tỉnh). Chất lƣợng giấy xét về độ dầy, dai và chất lƣợng in khá tốt nên chạy
qua máy quét tốt. Tuy nhiên giấy có mặt quá trơn nhẵn, điều tra viên viết
quá mờ và nhiều tỉnh còn sử dụng không đúng loại bút chì theo yêu cầu nên
rất khó khăn cho việc nhận dạng và kiểm tra xác thực dữ liệu. Ngoài ra, việc
xén không hết giấy (các tờ phiếu trong tập vẫn còn có phần dính vào nhau)
làm cho máy quét kéo rách các tờ phiếu.
- Thử nghiệm lần 4,5: Khiếm khuyết về giấy có mặt quá trơn của lần 4
đƣợc lặp lại nhƣ của lần 3. Nhƣng lần 4 phát sinh lỗi mới là phiếu đóng thừa
trang (hãn hữu có trƣờng hợp thiếu trang), một số trang in sót để trắng, rất
nhiều phiếu có những chấm bẩn do khâu in phiếu rơi vào các ô ghi thông tin
nên mất nhiều thời gian để khắc phục.
Những kết luận từ các lần thử nghiệm:
- Dùng giấy in phiếu loại 70 gram/m2 không bóng nếu đạt đúng
chuẩn thì không gây khó khăn gì khi quét phiếu.
- Phải có tiêu chuẩn rõ ràng về giấy (các thông số kỹ thuật) khi
đặt các nhà in in phiếu.
- Phải có ngƣời giám sát để bảo đảm cùng loại giấy in và theo
đúng tiêu chuẩn đã cam kết.
+) Về bút ghi thông tin
Trong các thử nghiệm từ trƣớc tới nay, các phiếu đều sử dụng bút chì là
chính. Tuy nhiên việc thử nghiệm với bút bi cũng đã đƣợc thực hiện. Trong
193
lần thử nghiệm thứ hai, TTTHTK đã quét thử phiếu ĐTBĐ DS 2007 của 7
tỉnh viết bút bi nhƣng những tỉnh này chƣa hề đƣợc tập huấn về việc áp dụng
công nghệ scanning. Do việc ghi phiếu không cẩn thận, việc xóa bỏ /sữa chữa
thông tin tùy tiện nên việc nhận dạng và kiểm tra xác thực số liệu vô cùng
khó khăn.
Trong lần thử nghiệm thứ 5 Trung tâm khuyến cáo nên chọn 2 tỉnh thử
nghiệm dùng bút bi. Từ khuyến cáo này, Vụ Thống kê Dân số & Lao động đã
chọn tỉnh Yên Bái và Hƣng Yên dùng bút bi. Kết quả sử dụng bút bi nhƣ sau:
Phiếu của hai tỉnh này đƣợc quét tốt, không có tờ phiếu nào bị không định
dạng đƣợc do băng xóa làm dày lên mặt phiếu. Việc quét phiếu còn thuận lợi
ở chỗ phiếu không có bụi tẩy, bụi chì nên đỡ phải giũ sạch phiếu và không
phải vệ sinh máy nhiều nhƣ khi quét phiếu ghi bằng bút chì. Trong thử
nghiệm lần này, tỷ lệ nhận dạng của các tỉnh viết bằng các loại bút khác nhau
chênh lệch không đáng kể. Bút bi: Tỉnh Hƣng Yên tỷ lệ nhận dạng đƣợc
98,56%, tỉnh Hƣng Yên 98,09%; Bút chì: Tỉnh Bắc Giang tỷ lệ nhận dạng
đƣợc 98,19%, tỉnh Hải Dƣơng 96,17%. Việc kiểm tra xác thực dữ liệu của 2
tỉnh viết bút bi khá thuận lợi do ảnh nhìn rõ. Trong khi những tỉnh viết bút chì
nhiều khi khó khăn, thậm chí phải mang phiếu gốc ra để đối chiếu tìm lại dữ
liệu. Tuy việc quét phiếu và nhận dạng của 2 tỉnh viết bút bi rất thuận lợi
nhƣng vẫn cần phải cân nhắc kỹ hơn vì 2 tỉnh này trong các thử nghiệm trƣớc
đều chứng tỏ là 2 tỉnh làm tốt, các cán bộ tỉnh hƣớng dẫn, kiểm tra và giám
sát chặt chẽ. Nếu triển khai rộng rãi cần chú ý việc tập huấn, hƣớng dẫn sử
dụng băng xóa và có chỉ đạo, kiểm tra chặt chẽ.
PHẦN V
NGHIÊN CỨU, ĐỀ XUẤT QUY TRÌNH XỬ LÝ, CÁC NGUỒN LỰC
VÀ MÔ HÌNH TỔ CHỨC THỰC HIỆN XỬ LÝ TỔNG ĐIỀU TRA
DÂN SỐ VÀ NHÀ Ở 1/4/2009 ÁP DỤNG CÔNG NGHỆ ICR
Trên cơ sở những kinh nghiệm của 2 năm nghiên cứu, thử nghiệm công
nghệ ICR, nội dung của phần này sẽ trình bày những đề xuất về quy trình xử
lý, các nguồn lực và mô hình tổ chức thực hiện xử lý TĐT DS 1/4/2009 bằng
công nghệ ICR.
1. Quy trình xử lý điều tra áp dụng công nghệ ICR
1.1. Quy trình tổng thể
Dƣới đây là mô hình tổng thể quy trình xử lý TĐT DS
( Xem trang tiếp theo)
194
Phiếu cắt lỗi?
Cắt phiếu
(đ/v phiếu đóng tập)
Phiếu có thể
quét?
Giao nhận phiếu
Có
B
N
hậ
p
C
Có
Không
Không
GGGiiiaaaooo
nnnhhhậậậnnn
vvvààà
CCChhhuuuẩẩẩnnn
bbbịịị
sssốốố
llliiiệệệuuu
195
C
Quét phiếu
Phiếu lỗi không
định dạng đƣợc?
Nhận dạng tự động
Kiểm tra, xác thực
số liệu nhận dạng
Dữ liệu
không xác
định đƣợc
trên ảnh?
Xóa phiếu
/lô phiếu
Chuyển đổi dữ liệu
nhận dạng
D B
HHHệệệ
ttthhhốốốnnnggg
ppphhhầầầnnn
mmmềềềmmm
qqquuuéééttt
vvvààà
nnnhhhậậậnnn
dddạạạnnnggg
có
có
không
không
196
1.2. Quy trình chi tiết, yêu cầu đối với từng công đoạn xử lý
a) Giao nhận phiếu tại các Trung tâm xử lý
Công việc giao nhận cũng phải thực hiện những nhiệm vụ sau:
Đếm đủ số lƣợng phiếu nhận đƣợc: số lô phiếu (địa bàn điều tra)
và số phiếu mỗi lô;
B
Nhập tin
D
Tích hợp dữ liệu 2 hệ
thống scanning + nhập
tin
Kiểm tra logic +
sửa dữ liệu
Kiểm tra số liệu
nhập tin
Kiểm tra số lƣợng
Số lƣợng
(ĐB, tập, hộ)
đúng? B/C
Hiểu chỉnh tự động
Tổng hợp kết quả
HHHệệệ ttthhhốốốnnnggg nnnhhhậậậppp tttiiinnn
Phân phát/cung cấp
số liệu
XXXửửử
LLLýýý
SSSaaauuu
ĐĐĐọọọccc///
NNNhhhậậậppp
TTTiiinnn
Có
không
197
Kiểm tra mã định danh của địa bàn bao gồm cả mã đơn vị hành
chính các cấp và những mã khác chung cho cả địa bàn (ví dụ mã khu
vực thành thị nông thôn) và nhập thông tin về địa bàn đã tiếp nhận vào
hệ thống, bao gồm cả những thông tin dành cho quản lý (nhƣ ai nhận
phiếu, ngày giờ nhận phiếu,…);
Sắp xếp địa bàn vào kho phiếu.
Nếu các địa bàn điều tra chƣa dán mã vạch thì ngƣời nhận phiếu của các
trung tâm xử lý phải nhập thông tin vào hệ thống quản lý xác nhận địa bàn đã
đƣợc tiếp nhận phiếu và in mã vạch của địa bàn, dán lên bìa của tập phiếu.
Khi áp dụng công nghệ xử lý phiếu bằng scanning, việc giao nhận phải đảm
nhận thêm nhiệm vụ phát hiện sớm những phiếu không thể quét đƣợc để có
những sửa chữa phù hợp hoặc phải chuyển sang nhập tin bàn phím. Nghĩa là
cùng lúc với việc thực hiện đếm phiếu cần phát hiện và để riêng những phiếu:
Có lỗi in phiếu, Phiếu bị trắng trong nhìn xuyên sang mặt sau, Bị rách/thủng,
ố, bẩn, Phiếu là bản photo chứ không phải bản in (thƣờng có màu giấy khác).
Do việc chép lại những phiếu này rất mất thời gian nên chúng sẽ đƣợc
tách riêng và nhập tin bàn phím. Các phiếu đƣợc tách riêng ra nên theo trọn
hộ, nghĩa là một hộ có trên 1 phiếu nếu có phiếu nào tách sang nhập tin thì
phải lấy tất cả các phiếu của hộ. Hệ thống quản lý cũng cần đƣợc bổ sung
những thông tin về từng địa bàn dành cho việc quản lý luồng số liệu: số
lƣợng phiếu mỗi loại sẽ chuyển sang scanning hay nhập tin. Việc quản lý,
sắp xếp phiếu sẽ phức tạp hơn rất nhiều khi phiếu phân thành hai loại, thêm
nữa mỗi địa bàn có thể gồm cả hai phần: scanning và nhập tin bàn phím.
Trong trƣờng hợp này ngƣời kiểm tra phân loại phiếu ngoài việc nhập thông
tin vào hệ thống, phải ghi thêm số phiếu đã rút bớt chuyển sang nhập tin để
ngƣời quét phiếu có thông tin kiểm chứng khi có sai số chênh lệch.
b) Cắt phiếu
Việc xén các tập phiếu làm rời từng tờ phiếu cần phải thực hiện với
phiếu dài (phiếu mẫu) trong TĐT DS. Phiếu phải cắt phía lề đóng ghim hoặc
dán gáy. Nhiều tập phiếu có thể bị xếp lộn đầu hoặc lộn mặt nên trƣớc khi cắt
phải kiểm tra lại việc sắp xếp của tập phiếu, nếu không các phiếu bị xếp
ngƣợc sẽ bị xén vào phần thông tin không thể xử lý bằng scanning đƣợc nữa.
Mà ngay cả để tiếp tục nhập tin cũng phải dán lại các tờ phiếu bị cắt lẹm để
khỏi làm mất thông tin. Thận trong với các đoạn kim loại ghim phiếu, cắt
xong phải giũ sạch phiếu. Nếu để vật kim loại kẹp lẫn giữa tập phiếu sẽ làm
hỏng máy quét. Các tờ/tập phiếu hỏng cần tách riêng để chuyển sang nhập
tin, ghi số lƣợng phiếu đã rút bớt khỏi lô phiếu lên etiket địa bàn. Các phiếu
198
sau khi cắt phải giữ đúng thứ tự ban đầu, nhất là các tờ phiếu trong cùng một
tập phiếu phải đứng liền nhau và xếp tuần tự theo đúng số thứ tự trang.
c) Quét phiếu
Quy trình cụ thể cho quét phiếu phải đƣợc quy định và hƣớng dẫn chi
tiết và đƣợc tuân thủ đúng, bao gồm:
Trƣớc khi bắt đầu lô phiếu, phải đọc mã vạch của địa bàn. Chƣơng
trình sẽ kiểm soát xem lô phiếu chuẩn bị quét có hợp lệ không (địa bàn nằm
trong danh sách đã tiếp nhận phiếu nhƣng chƣa đƣợc quét). Nếu có thông báo
lỗi phải xác minh lại đã đọc đúng mã vạch hoặc chuyển cho bộ phần giao
nhận kiểm tra.
Phiếu đƣợc đặt vào theo thứ tự nào, theo chiều nào. Đối với loại phiếu
gồm nhiều tờ phiếu, phiếu phải đƣợc quét theo đúng thứ tự để chƣơng trình
kiểm soát đƣợc việc đầy đủ trọn vẹn của tập phiếu (logic set). Mặc dù phần
mềm xử lý phiếu có thể xoay chiều và lật lại tờ phiếu khi quét nhƣng tốc độ
quét khi đó bị ảnh hƣởng rõ rệt, do vậy phiếu phải đƣợc đặt vào khay theo
đúng chiều và đúng thứ tự.
Khi có lỗi kẹt giấy, sẽ có nhiều tờ phiếu đang nằm trong máy, phải
kiểm tra với ảnh đã quét xong để xác định chính xác phải bắt đầu quét tiếp từ
tờ phiếu nào.
Khi có lỗi phiếu không định dạng đƣợc, phải lập tức rút số phiếu trong
khay chứa phiếu ra ngoài rồi mới xác định nguyên nhận sự cố: phiếu bẩn,
rách, lỗi in hay đóng thừa/thiếu trang. Trong một số trƣờng hợp những tờ
phiếu không định dạng đƣợc trong lần quét đầu tiên có thể định dạng đƣợc
trong lần quét lại. Mỗi loại lỗi có thể có những ứng xử khác nhau (loại bỏ
trang phiếu thừa, quét lại hoặc rút phiếu lỗi chuyển sang nhập tin). Phải ghi
lại số phiếu rút ra nhập tin vào etiket địa bàn. Nếu phiếu điều tra chỉ có một
tờ (phiếu ngắn) việc xử lý sự cố đơn giản hơn, còn với phiếu dài nếu có tập
phiếu quét đƣợc dở dang, phải xóa tập phiếu này (xóa set) rồi quét tiếp số
phiếu còn lại vào cùng lô.
Khi kết thúc quét một lô phiếu, hệ thống kiểm tra số lƣợng phiếu quét
đƣợc so với số lƣợng giao nhận đã ghi trong cơ sở dữ liệu. Nếu chênh lệch sẽ
có thông báo cho cán bộ vận hành máy quét. Ngƣời vận hành kiểm tra với
tổng số trên etiket (xem ngƣời giao nhận có thể mắc lỗi không), kiểm tra xem
ngƣời cắt phiếu hoặc chính mình có rút bớt phiếu chuyển sang nhập tin
không. Nếu số lƣợng phiếu cộng thêm số đã rút bớt chuyển nhập tin khớp với
tổng số, ngƣời vận hành xác nhận số lƣợng, hệ thống sẽ coi số phiếu bị thiếu
199
là số lƣợng phiếu chuyển nhập tin (có thể cần phải nhập thông tin cho hệ
thống biết phiếu đƣợc rút ra từ khâu nào: cắt phiếu hay quét phiếu). Nếu
không, phải xác minh lại công việc của mình, kiểm tra xem có đọc đúng mã
vạch cần đọc không hoặc chuyển cho bộ phân giao nhận xác minh số lƣợng.
Việc xác minh chính xác số lƣợng một cách tự động bởi hệ thống có một khó
khăn do các phiếu rút bớt chuyển sang nhập tin có thể rút thành các lần khác
nhau tại các khâu khác nhau và không thể xác định đƣợc là khi chuyển sang
hệ thống nhập tin chúng đã nhập xong hết chƣa.
Máy quét cần phải đƣợc vệ sinh trung bình 2 giờ một lần. Tùy theo mức
độ bẩn của phiếu mà khoảng thời gian này có thể thay đổi.
d) Kiểm tra xác thực dữ liệu nhận dạng
Thông thƣờng đây là công đoạn tốn kém nhân lực nhất. Ngƣời thực hiện
phải nhập những trƣờng dữ liệu không nhận dạng đƣợc, nhập lại những
trƣờng hệ thống nhận dạng không chắc chắn (mức độ chắc chắn không đạt đủ
yêu cầu đƣợc xác định trƣớc bởi ngƣời phát triển ứng dụng cụ thể), kiểm tra
xác nhận tất cả những trƣờng đã nhận dạng bằng những công cụ của hệ
thống. Một số kiểm tra logic cũng đƣợc kết hợp trong công đoạn này đƣợc
viết bởi các lệnh chƣơng trình bổ sung hoặc các chƣơng trình “nhúng”. Chủ
yếu các kiểm tra logic trong giai đoạn này là những kiểm tra đơn giản mà
ngƣời thực hiện kiểm tra có thể xác định đƣợc dựa trên ảnh hoặc trên các
trƣờng thông tin liền kề hoặc là những kiểm tra nhằm xác định việc nhận
dạng có chính xác đúng nhƣ trên phiếu ghi hay không nhằm ngăn chặn việc
hệ thống nhận dạng sai hoặc ngƣời kiểm tra xác thực dữ liệu có sai sót.
2. Nguồn lực vật chất, nguồn nhân lực khi xử lý Tổng điều Tra Dân số và
Nhà ở 1/4/2009 áp dụng công nghệ ICR
2.1. Nghiên cứu, đề xuất nguồn lực vật chất khi ứng dụng công nghệ ICR
để xử lý Tổng điều tra dân số và nhà ở 1/4/2009
a) Các căn cứ dự tính
- Ƣớc lƣợng dân số ở thời điểm Tổng điều tra để tính ra số hộ, số phiếu
(phiếu dài, phiếu ngắn)
- Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế
- Các khuyến cáo của chuyên gia Öc
- Kết quả thí điểm công nghệ ICR 2007, 2008 ở Trung tâm Tin học TK
+) Ước lượng dân số ở thời điểm Tổng điều tra để tính ra số hộ, số
phiếu (phiếu dài, phiếu ngắn)
200
Theo Niên giám Thống kê năm 2006, dân số trung bình nƣớc ta năm
2006 là 84155,8 nghìn ngƣời (niên giám thống kê trang 39), mỗi năm tăng
trung bình 1049,5 nghìn ngƣời. Nhƣ vậy, năm 2007 là 85205,3 nghìn ngƣời,
năm 2008 là 86254,8 nghìn ngƣời, năm 2009 là 87304,3 nghìn ngƣời
Số nhân khẩu bình quân 1 hộ, theo kết quả điều tra biến động dân số,
nguồn lao động năm 2007 số nhân khẩu bình quân 1 hộ là: 4,09. Nhƣ vậy, tới
thời điểm điều tra cả nƣớc sẽ có 21346 nghìn hộ (87304,3 : 4,09)
+) Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế
Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế gồm 2
loại:
- Phiếu ngắn (điều tra toàn bộ) đƣợc thiết kế trên khổ giấy A3 in 2 mặt
cho 6 nhân khẩu
- Phiếu dài (điều tra mẫu) đƣợc thiết kế trên khổ giấy A4 gồm 6 tờ (12
trang) đóng thành cuốn cho 6 nhân khẩu
- Tỷ lệ điều tra mẫu đƣợc Vụ Thống kê Dân số và Lao động khẳng định
là 15%.
Trong thực tế theo kết quả Điều tra biến động dân số năm 2007 có 11%
số hộ có trên 6 ngƣời (phải dùng 2 phiếu). Nhƣ vậy, số phiếu thực sẽ = số hộ
thực tế nhân với 111%.Với các dữ kiện trên số phiếu, số tờ và số trang phiếu
đƣợc tính toán sơ bộ nhƣ sau:
Số phiếu (đã tính hộ 2 phiếu)
1000 P
Số tờ (đã tính hộ 2 phiếu)
1000P
Số hộ Chia ra: Chia ra:
(nghìn
hộ)
Tổng số Phiếu
ngắn A3
(85%)
Phiếu dài
A4
(15%)
Tổng số Phiếu
ngắn
A3
(85%)
Phiếu
dài
A4
(15%)
21 346 23 694 20140 3554 41464 20140 21324
b) Dự tính về thiết bị, phần mềm
Về thiết bị:
Để thực hiện Kế hoạch, trên cơ sở thử nghiệm chúng tôi sơ bộ dự tính
các thiết bị chính nhƣ sau
+) Máy quét (scanner)
201
Số lƣợng máy phụ thuộc 3 yếu tố: số lƣợng tờ phiếu; tốc độ máy quét;
số giờ làm việc /ngày, số ngày làm việc/tháng và số tháng dự tính để quét.
- Về số lƣợng tờ phiếu đã có ở bảng trong mục trƣớc
- Về tốc độ máy quét. Khi thực hiện quét, tốc độ của máy cũng chỉ đạt
60% tốc độ lý thuyết. Theo chúng tôi có thể dùng loại máy quét có tốc độ lý
thuyết 100 tờ A4/ phút, nhƣ vậy tốc độ thực (có tải) sẽ ở mức 55 tờ/phút cho
loại phiếu khổ A4 và 40 tờ/phút cho loại phiếu khổ A3. Ở Việt Nam sử dụng
bút chì, tẩy nên sẽ còn nhiều bụi bẩn, do vậy, theo chúng tôi, cứ sau 1 giờ 30
phút làm vệ sinh 1 lần, mỗi lần 6 phút. Vì vậy giờ máy chạy thực là 56
phút/giờ.
- Về số giờ làm việc trong ngày. Theo chúng tôi, để khai thác khả năng
của thiết bị, mỗi ngày sẽ làm việc 2 ca. Do cƣờng độ làm việc rất cao nên mỗi
ca chỉ làm việc 6 giờ, trong đó giờ vận hành máy quét thực là 5 giờ/ca (hay
10 giờ/ngày - đã trừ thời gian chuẩn bị và nghỉ giữa ca)
- Về số ngày làm việc trong tuần: 6/7 ngày (chỉ nghỉ ngày chủ nhật và
ngày lễ)
- Mục tiêu về thời gian quét. Kỳ tổng điều tra dân số 1/4/1999 tổ chức
nhập tin bằng bàn phím thì riêng khâu nhập tin thô mất 12 tháng. Cuộc Tổng
điều tra kỳ này chúng tôi đặt mục tiêu thời gian quét cần phấn đấu là 6 tháng
(180 ngày – 26 ngày chủ nhật, lễ = 154 ngày)
Từ các dữ kiện nêu trên có thể tính ra các dữ kiện để tính số máy quét
cần dùng là:
- Thời gian thực để quét hết số phiếu:
Phiếu ngắn: 20 140 000 tờ A3 : 40 tờ/phút = 503 500 phút
Phiếu dài: 21 324 000 tờ A4: 50 tờ/phút = 426 480 phút
---------------
Tổng cộng 929 980 phút
- Thời gian thực để 1 máy quét làm việc trong ngày (2 ca, mỗi ca 6 giờ,
mỗi giờ 56 phút đã trừ giờ dừng máy làm vệ sinh)
10 giờ x 56 phút/giờ = 560 phút
- Thời gian thực để 1 máy quét quét hết số phiếu – ngày
929 980 phút: 560 phút = 1661 ngày
202
- Để đạt mục tiêu quét trong 6 tháng số máy quét thực cần dùng là
1661 ngày : 154 ngày = 10, 8 máy
Tuy nhiên 10,8 máy theo tính toán nói trên là trong điều kiện máy vận
hành thông suốt. Trong thực tế, khi làm thử trên máy quét Fujitsu fi-5900C
thời gian máy có sự cố chiếm tỷ lệ khá lớn (Hiện TTTHTK và Công ty cung
cấp máy chƣa tìm ra nguyên nhân). Ngoài ra còn phải mất thời gian giải
quyết kẹt giấy, thời gian nhập thông tin về các địa bàn. Vì vậy, thời gian quét
chỉ đạt khoảng 70% thời gian vận hành của máy. Do vậy, cần trang bị 14
máy quét có tốc độ bằng hoặc lớn hơn 100 tờ A4/phút.
Để 14 máy thực hiện quét liên tục, những phiếu phải quét lại đƣợc
chuyển tới máy quét khác có tốc độ chậm hơn. Dự tính số lƣợng các phiếu
này không nhiều nên chỉ trang bị tại mỗi Trung tâm 01 máy quét tốc độ thấp.
+) Máy chủ
Số lƣợng máy chủ phụ thuộc vào khối lƣợng thông tin cần xử lý, tổ chức
xử lý và quy trình xử lý (quét phiếu, nhận dạng, sửa dữ liệu, chuyển đổi dữ
liệu, tổng hợp…). Theo tính toán của chúng tôi, để xử lý thông tin ở 3 TTTH
cần 9 máy chủ và chia thành 2 loại
- 3 Máy chủ mạnh: 02 máy cho 2 TTTH có khối lƣợng xử lý lớn, 01
máy dành riêng cho khâu tiếp nhận và tổng hợp thông tin
- 6 Máy chủ trung bình (mỗi Trung tâm 2 máy)
+) Máy trạm (PC)
Theo quy trình xử lý và để phục vụ 14 máy quét, số lƣợng máy PC cần
sử dụng khoảng 180 máy đƣợc phân chia theo chức năng nhƣ sau: 14 PC
dành để nhận thông tin từ máy quét, 10 PC phục vụ việc nhận dạng ký tự, 5
PC làm nhiệm vụ chuyển đổi dữ liệu, 77 PC dùng để sửa dữ liệu, 33 PC nhập
phiếu không nhận dạng đƣợc, 13 PC kiểm, sửa logic, 10 PC phục vụ khâu
chuẩn bị số liệu đầu vào, 5 PC quản lý dữ liệu, 10 PC phục vụ khâu lập trình
và test thử phần mềm, 3 PC dùng cho máy quét nhỏ để quét các phiếu lỗi.
Các PC sử dụng để xử lý lô có khối lƣợng lớn (quét, nhận dạng, chuyển
đổi) phải có tối thiểu 1GB RAM, tốt nhất là 2GB RAM. Tốc độ CPU của
những PC này cao nhất ở mức có thể. Cần có màn hình LCD 19’’ xoay đƣợc
180 độ để có thể hiển thị toàn bộ tờ phiếu khổ A3 với độ room 80-90%
+) Máy in
Cần 3 loại máy in cho toàn hệ thống:
- 3 Máy in nhanh để in kết quả tổng hợp
203
- 6 máy in thƣờng để in kiểm tra lỗi và các tài liệu thông thƣờng
- 1 máy in màu dùng để phát triển các sản phẩm kết quả tổng điều tra.
+) Máy cắt giấy
Do phiếu đƣợc đóng thành cuốn nên khi đƣa vào máy quét cần đƣợc cắt
rời. Kinh nghiệm cho thấy sử dụng máy cắt cỡ nhỏ (dao xén khoảng 65-
70cm) hiệu quả hơn vì thao tác nhanh hơn. Mỗi máy cắt sẽ phục vụ đƣợc 2
máy quét nhƣ vậy nếu sử dụng 14 máy quét thì cần sử dụng 7 máy cắt.
Nhƣng do xử lý ở 3 TTTH nên số lƣợng máy cắt cần thiết là 8 máy (TTTH
Hà Nội, TP HCM mỗi đơn vị 3 máy, Đà Nẵng 2 máy)
Ngoài những thiết bị trên, các thiết bị khác nhƣ máy in, thiết bị sao lƣu,
thiết bị mạng, v.v. cũng đƣợc dự tính trong bảng dự kiến phân bổ thiết bị cho
các Trung tâm.
+) Phụ tùng linh kiện thay thế
Phụ tùng linh kiện thay thế đƣợc tính trên cơ sở độ bền của linh kiện
mà nhà sản xuất thiết bị đã ghi trong catalog của thiết bị. Các linh kiện
thiết bị cần thay thế là các rulo kéo giấy của máy quét,.. Số lƣợng cụ thể
phụ thuộc vào từng loại máy cụ thể.
Phần mềm:
+) Phần mềm hệ thống
Hiện tại cả 3 TTTH đều sử dụng hệ điều hành Windows Server 2003
SP2 cho máy chủ, Windows XP cho máy trạm, sử dụng hệ quản trị CSDL
SQL Server 2003. Nhƣng từ nay đến năm 2009 cần xem xét và cập nhật
lại.
+) Phần mềm quét
Từ 2006 Trung tâm Tin học Thống kê khi thí điểm đã sử dụng phần
mềm Form 5.2 của Công ty ReadSoft Thụy Điển. Nếu tiếp tục mua phần
mềm của Công ty này cho xử lý TĐT DS 1/4/2009 là tốt nhất.
c) Dự kiến phân bổ thiết bị cho 3 Trung tâm Tin học
Xử lý tổng điều tra kỳ này sẽ do 3 Trung tâm Tin học trong ngành đảm
nhận. Trung tâm Tin học Thống kê đảm nhận 28 tỉnh từ Nghệ An trở ra,
Trung tâm Tin học khu vực III đảm nhận 16 tỉnh miền Trung, Tây nguyên và
Ninh Thuận; Trung tâm Tin học khu vực II đảm nhận 20 tỉnh còn lại. Theo cơ
cấu dân số các tỉnh năm 2006 (Niên giám thống kê 2006 trang 37, 38) thì cơ
cấu nhƣ sau: Các tỉnh do TTTHTK đảm nhận chiếm 44%, do TTTHKV III
đảm nhận chiếm 19,6%, TTTHKVII đảm nhận chiếm 36,4%
204
Ngoài ra, Trung tâm Tin học Thống kê Hà Nội còn đóng vai trò chỉ đạo
trong việc xây dựng chƣơng trình, nhận các file dữ liệu từ 2 Trung tâm còn
lại, tổng hợp theo kế hoạch và quản lý toàn bộ hệ thống xử lý. Dự kiến phân
bố thiết bị nhƣ sau:
Dự kiến phân bố thiết bị 3 Trung tâm Tin học
STT Tên thiết bị Tổng số TTTH TK TTTHTK III TTTHTK II
I Thiết bị
1 Máy Scanner
- Máy quét tốc độ cao 14 6 3 5
- Máy quét tốc độ thấp 3 1 1 1
2 Máy chủ
- Máy chủ mạnh 2 1 - 1
- Máy chủ trung bình 7 3 2 2
3 Máy PC 180 83 31 66
4 Máy in
- Máy in Laser tốc độ cao 3 3 - -
- Máy in Laser thƣờng 6 2 2 2
- Máy in Laser màu 1 1 - -
5 Lƣu điện UPS 10 KVA 4 2 1 1
6 Thiết bị mạng
- Switch Gigabit Ethernet 24 ports 14 6 3 5
- Path Panel 24 ports 11 5 2 4
- Tủ mạng 3 1 1 1
- Cáp mạng và vật tƣ khác (*)
8 Thiết bị Backup 3 1 1 1
8 Máy hút ẩm 10 4 2 4
9
Máy điều hòa nhiệt độ 24.000
BTU 26
13 5 8
10 Máy cắt 8 3 2 3
11 Máy Photocopy 1 1 - -
12 Linh kiện phụ tùng thay thế (**)
II Phần mềm
1 Phần mềm hệ thống
2 Phần mềm nhận dạng ICR
Ghi chú:
(*) Cáp mạng và vật tƣ khác đƣợc tính dựa trên vị trí lắp đặt cụ thể của mỗi LAN
(**) Phụ tùng linh kiện thay thế của máy quét tính trên cơ sở độ bền của linh kiện mà nhà
sản xuất thiết bị đã ghi trong catalog của thiết bị. Các linh kiện thiết bị cần thay thế là các rulo kéo
giấy của máy quét,.. Số lƣợng cụ thể phụ thuộc vào từng loại máy cụ thể
205
d) Mặt bằng lắp đặt thiết bị
Với phƣơng án xử lý tập trung ở 3 Trung tâm Tin học của ngành việc bố
trí mặt bằng để lắp đặt thiết bị là một vấn đề rất quan trọng. Trung tâm Tin
học Thống kê sẽ đƣợc Tổng cục Thống kê bố trí làm việc tại 1 phần tầng 4,
một phần tầng 5, tầng 6 và tầng 7 của nhà 7 tầng tại 54 Nguyễn Chí Thanh-
Hà Nội với diện tích xây dựng khoảng 1000 m2. Với diện tích mặt bằng này
theo chúng tôi đã đáp ứng đƣợc các yêu cầu lắp đặt thiết bị để phục vụ xử lý
kết quả tổng điều tra. Trung tâm Tin học khu vực II hiện chƣa xây dựng xong
trụ sở làm việc và đang phải đi thuê với diện tích rất hẹp. Đây là khó khăn rất
lớn khi tiếp nhận máy móc thiết bị. Hiện Trung tâm đang phối hợp chặt chẽ
với Tổng cục để thúc đẩy nhanh việc xây dựng trụ sở mới. Trung tâm Tin học
khu vực II có trụ sở làm việc đã đƣợc sửa chữa và nâng cấp đạt yêu cầu để
lắp đặt thiết bị phục vụ xử lý kết quả Tổng điều tra.
e) Kho chứa phiếu
Kho chứa phiếu điều tra là nơi tiếp nhận, lƣu giữ, bảo quản, luân
chuyển phiếu trong suốt thời gian xử lý và thời gian lƣu giữ cần thiết khi kết
thúc các quy trình xử lý. Kho chứa phiếu phải đạt các yêu cầu sau: Phải đủ
diện tích chứa phiếu ở từng khu vực theo tiêu chuẩn: Xếp riêng phiếu cho
từng tỉnh/huyện/xã để dễ tìm, không xếp cao quá để dễ lấy; Kho phải là nơi
cao ráo (không ẩm thấp không thấm dột); Phải có kệ kê (không để phiếu trực
tiếp trên sàn nhà, nền nhà); Phải có phƣơng tiện chống mối, mọt; chống trộm
cắp, chống cháy nổ; Phải là nơi thuận tiện cho việc vận chuyển (vào/ra)
Trong kỳ Tổng điều tra này, theo dự tính có khoảng 600 tấn phiếu. Nếu
mỗi m2 xếp đƣợc 500 kg thì cần khoảng 1200 m
2. Nhƣng để thuận tiện cho
khâu vận chuyển, tìm kiếm phải để lại lối ra/vào. Lối ra/vào chiếm khoảng
1/3 diện tích. Nhƣ vậy tổng diện tích kho cần thiết khoảng 1800m2. Diện tích
kho chứa phiếu ở từng TTTHTK là: Trung tâm Tin học thống kê: 792 m2;
Trung tâm Tin học khu vực II: 720 m2; Trung tâm khu vực III: 288m
2.
Việc thuê đƣợc kho đáp ứng đầy đủ các yêu cầu nêu ở mục 1 trên đây ở
3 thành phố lớn (Hà Nội, Đà Nẵng, TP HCM) là việc làm rất khó khăn và tốn
kém. Để có thể đáp ứng đƣợc yêu cầu có thể xem xét giải pháp sau: Do việc
xử lý thông tin thống kê nói chung và xử lý bằng công nghệ ICR nói riêng là
xử lý theo lô. Nghĩa là có thể dùng giải pháp xử lý theo kiểu “cuốn chiếu”
xong tỉnh này rồi chuyển sang tỉnh khác. Vì vậy kho chứa phiếu có thể để
phân tán ở 64 Cục Thống kê cấp tỉnh. Khi xử lý tới tỉnh nào thì sẽ yêu cầu
tỉnh đó mang phiếu về Trung tâm Tin học tƣơng ứng. Với giải pháp này sẽ
206
tiết kiệm 1/2 kho chứa phiếu và 1/2 thời gian lƣu kho (chỉ lƣu kho sau khi đã
quét xong).
2.2. Đề xuất, dự tính nguồn nhân lực
Nguồn nhân lực để xử lý thông tin tổng điều tra thống kê phụ thuộc vào
các công việc và các thao tác trong từng công việc. Để dự tính đƣợc số lao
động cần thiết cần phân tích rõ các công việc và các thao tác trong từng công
việc.
a) Các công việc xử lý và các thao tác trong từng công việc
+) Các công việc
Công việc xử lý thông tin bằng công nghệ ICR gồm: Viết các
chƣơng trình ứng dụng; Tiếp nhận và vận chuyển phiếu đến nơi xử lý; Chuẩn
bị phiếu điều tra cho khâu xử lý; Vuốt phiếu điều tra để không còn tờ phiếu
nào bị gấp, quăn mép; Cắt phiếu điều tra (đối với phiếu đƣợc đóng thành
quyển); Quét phiếu; Bảo trì bảo dƣỡng thiết bị; Verify; Sửa lỗi logic; Tổng
hợp kết quả điều tra.
+) Mô tả các thao tác trong từng công việc
- Viết các chương trình ứng dụng: Công việc này gồm: định dạng
phiếu điều tra trên máy, viết các chƣơng trình ứng dụng: quản lý thông tin,
verify, sửa lỗi logic, hiệu chỉnh, tổng hợp... các công việc này do kỹ sƣ tin
học thực hiện.
- Tiếp nhận, vận chuyển phiếu: Công việc này gồm: Tiếp nhận phiếu
điều tra từ các Cục Thống kê giao nộp, mở sổ ghi chép số lƣợng phiếu, số
lƣợng địa bàn, ký biên bản giao/nhận; xếp phiếu trên kệ kê theo đúng quy
định: tỉnh/huyện/xã để bảo đảm dễ tìm, dễ lấy. Xuất/ nhập phiếu cho ngƣời
vận chuyển tới khâu xử lý; Vận chuyển phiếu đã xử lý về kho theo đúng quy
định.
- Chuẩn bị phiếu điều tra cho khâu xử lý: Công việc này gồm: tiếp nhận
phiếu từ ngƣời vận chuyển phiếu; mở hòm phiếu; kiểm tra các cặp phiếu, đối
chiếu tên địa bàn ghi trên etiket với danh sách địa bàn điều tra, dán mã vạch;
cập nhật các thông tin về địa bàn điều tra vào chƣơng trình quản lý phiếu điều
tra.
- Vuốt, ép phiếu điều tra: Công việc này gồm: Mở cặp phiếu, kiểm tra
và vuốt các phiếu bị quăn mép, bị gấp để bảo đảm rằng phiếu hoàn toàn
phẳng sẵn sàng cho các công việc tiếp theo. Trong trƣờng hợp nghi ngờ phải
đếm lại số phiếu trong từng cặp.
207
- Cắt phiếu (đối với phiếu được đóng thành quyển)
Trong Tổng điều tra dân số kỳ này có 15% phiếu điều tra mẫu. Phiếu
điều tra mẫu gồm 12 trang khổ A4 đƣợc đóng thành quyển. Để đƣa vào máy
quét cần phải cắt rời thành các tờ A4. Việc cắt phiếu có các thao tác sau: Mở
cặp phiếu lấy phiếu, dỗ phiếu ngay ngắn và phân chia phiếu thành các tập
(mỗi tập khoảng 500 tờ, đƣa vào máy cắt đã đƣợc định vị sẵn và cắt rời phần
đóng ghim; sau khi cắt phải giũ lại phiếu để các tờ không dính nhau, giũ các
ghim còn sót trong tập phiếu; ghép các tập theo đúng thứ tự ban đầu của địa
bàn điều tra để sẵng sàng chuyển sang máy quét.
- Quét phiếu điều tra: Công việc này gồm: đƣa phiếu vào máy quét nhấn
nút điều khiển để máy quét làm việc; theo dõi quá trình làm việc của máy; xử
lý các trục trặc có thể xảy ra (kẹt giấy, phiếu lỗi do thừa hoặc thiếu trang…);
đƣa phiếu đã quét xong để đóng gói vào cặp ban đầu.
- Bảo trì bảo dưỡng máy quét: Theo kinh nghiệm của Cục Thống kê Öc,
khi máy chạy đƣợc 120 phút cần dừng máy để làm vệ sinh (hút hết bụi bẩn,
lau bánh xe kéo giấy, làm sạch máy bằng các loại khăn lau, dầu lau chuyên
dùng. Cán bộ làm công việc này phải đƣợc đào tạo để thao tác chuẩn xác.
- Verify: Verify là thao tác sửa lỗi do ngƣời ghi thông tin không rõ máy
không nhận dạng đƣợc. Ngƣời thực hiện Verify làm việc trực tiếp trên máy
tính làm chức năng verify. Phần mềm verify sẽ phóng to các ký tự máy chƣa
nhận dạng đƣợc để ngƣời verify xác định và sửa lại cho đúng.
- Sửa lỗi logic: Sau khi verify thông tin đƣợc chuyển đổi sang dạng text
và chạy qua chƣơng trình kiểm tra logic. Các lỗi logic in ra hoặc lƣu trong
máy tính cho từng địa bàn điều tra. Ngƣời có nhiệm vụ sửa lỗi logic căn cứ
vào các thông báo này để sửa cho tới khi hết lỗi. Số ngƣời tham gia sửa lỗi
logic phụ thuộc vào chất lƣợng ở khâu điều tra. Ngƣời tham gia sửa lỗi logic
là ngƣời phải đƣợc đào tạo kỹ lƣỡng về nghiệp vụ và đặc biệt phải nắm đƣợc
các quan hệ logic trong từng chỉ tiêu ghi trong phiếu.
- Tổng hợp kết quả điều tra: Đây là khâu cuối cùng của quá trình xử lý.
Thông tin sau khi sửa hết lỗi đƣợc ghép thành các file. Chƣơng trình tổng
hợp sẽ tổng hợp các thông tin này thành các bảng biểu thống kê.
b) Dự tính nguồn nhân lực
Từ các phân tích trên và qua thực tế thử nghiệm, yêu cầu về thời gian
xử lý có thể tính đƣợc nguồn nhân lực nhƣ sau:
208
+) Nhân lực có trình độ cao (kỹ sư tin học)
Nguồn nhân lực này sẽ đƣợc huy động ở 3 Trung tâm Tin học với
nhiệm vụ chính là: Phát triển các ứng dụng; xây dựng quy trình xử lý; theo
dõi, giám sát các thao tác ở từng quy trình; đào tạo, hƣớng dẫn về chuyên
môn, nghiệp vụ; quản lý thông tin; tổng hợp kết quả điều tra.
Do khả năng có hạn, theo dự tính sẽ huy động khoảng 20 kỹ sƣ tin học
ở 3 Trung tâm (Trung tâm Tin học thống kê 12 ngƣời, Trung tâm khu vực II
khoảng 5 ngƣời và Trung tâm khu vực III khoảng 3 ngƣời)
+) Các loại nhân lực khác
Căn cứ vào quy trình, các thao tác đã mô tả ở trên, việc dự tính số nhân
lực đƣợc tính theo đầu máy quét với các định mức sau: Khâu vận chuyển (ở
tất cả các công đoạn) 1/2 ngƣời; Khâu chuẩn bị số liệu 1 ngƣời; Cắt phiếu 1
ngƣời; Quét 1 ngƣời; Verify 4 ngƣời; Sửa lỗi logic 5 ngƣời; Bảo dƣỡng thiết
bị 1/2 ngƣời. Tổng cộng 13 ngƣời/1 máy quét
Để xử lý toàn bộ kết quả điều tra trong 6 tháng và làm việc 2 ca/ngày
với 11 máy quét thì số nhân lực cần sử dụng là:
11 máy quét x 13 ngƣời x 2 ca/ngày = 286 ngƣời
Trên đây là số liệu dự tính. Trong thực tế tùy chất lƣợng phiếu điều tra
số nhân lực có thể phải điều chuyển từ khâu này sang khâu khác để đạt hiệu
quả cao nhất.
3. Mô hình tổ chức thực hiện xử lý Tổng điều tra Dân số và Nhà ở
1/4/2009 áp dụng công nghệ ICR
3.1. Mô hình tổ chức thực hiện xử lý Tổng điều tra Dân số và Nhà ở
1/4/2009
a) Mô hình xử lý dữ liệu Tổng điều tra Dân số và Nhà ở 2009
Mô hình tổ chức xử lý thích hợp nhất cho TĐT DS năm 2009 là tổ chức
xử lý tại 3 Trung tâm Tin học: Trung tâm Tin học thống kê xử lý cho các tỉnh
miền Bắc (28 tỉnh/ thành phố miền Bắc); Trung tâm Tin họcThống kê khu
vực III xử lý cho các tỉnh miền Trung (16 tỉnh miền Trung và Tây nguyên) và
Trung tâm Tin học thống kê khu vực II xử lý cho các tỉnh miền Nam (20
tỉnh/thành phố). Mô hình xử lý dữ liệu TĐT DS 2008 nhƣ sau:
209
Trong mô hình này, việc xử lý tại tại mỗi Trung tâm Tin học đƣợc thực
hiện trong mạng cục bộ (LAN). Mỗi mạng có ít nhất 02 máy chủ, máy trạm,
thiết bị sao lƣu, firewall. Số lƣợng thiết bị cụ thể đƣợc tính toán trên cơ sở số
lƣợng phiếu sẽ đƣợc xử lý tại mỗi trung tâm. Cấu hình kỹ thuật của các thiết
bị có trong Phụ lục số 1. Các mạng LAN này kết nối với nhau qua Internet.
Việc truy nhập vào các mạng LAN xử lý đƣợc kiểm soát thông qua bức tƣờng
lửa (firewall).
Xử lý dữ liệu tại các Trung tâm thực hiện theo hình thức cuốn chiếu.
Trung tâm Tin học Thống kê khu vực II, Trung tâm Tin học Thống kê khu
vực III chỉ thực hiện đến công việc chuyển đổi dữ liệu. Kết quả xử lý sau
bƣớc chuyển đổi sẽ đƣợc truyền từ Trung tâm Tin học Khu vực II, Trung tâm
Tin học Khu vực III về Trung tâm Tin học Thống kê định kỳ thông qua
đƣờng kết nối Internet. Công việc kiểm tra, hiệu chỉnh tự động dữ liệu và
tổng hợp các biểu thống kê chỉ đƣợc thực hiện tại Trung tâm Tin học thống
kê.
210
b) Sơ đồ xử lý dữ liệu tại các Trung tâm Tin học
Khác với nhập tin bằng bàn phím truyền thống, việc xử lý dữ liệu sử
dụng công nghệ ICR nói chung sẽ phải lần lƣợt đi qua các bƣớc: Quét phiếu
(scanning); Nhận dạng (interpret); Sửa lỗi (verify); Chuyển đổi dữ liệu
(transfer). Các công việc chuyển ảnh (image) từ máy PC điều khiển máy quét
lên máy chủ và việc sao lƣu ảnh, sao lƣu dữ liệu sau khi chuyển đổi cũng là
những công việc trong quy trình xử lý dữ liệu. Sơ đồ dƣới đây chỉ ra các công
việc, trình tự thực hiện và luồng dữ liệu trong quá trình xử lý dữ liệu tại các
Trung tâm Tin học.
c ) Mạng xử lý dữ liệu (LAN) tại các Trung tâm Tin học
Xử lý dữ liệu TĐT DS 2009 tại mỗi Trung tâm đƣợc thực hiện trong
mạng LAN. Những thiết bị chính của mạng LAN bao gồm: Máy chủ, máy
trạm (PC), máy in, thiết bị dùng để lƣu trữ, máy quét tốc độ cao, quét 2 mặt,
tƣờng lửa (firewall),..Các thiết bị này đƣợc lắp đặt theo mô hình sau:
211
Ngoài các thiết bị nêu trên còn có các thiết bị khác nhƣ thiết bị mạng
(Switch, NIC, Cable, Patch Panell...), ổn áp (UPS), thiết bị chống sét,...Do
khối lƣợng dữ liệu (Image) luân chuyển trong mạng lớn nên yêu cầu mạng
phải có băng thông rộng. Ví dụ nhƣ Switch, NIC phải có tốc độ Gigabits
(1024MB).
Mạng LAN chạy hệ điều hành Windows server 2003, máy trạm chạy hệ
điều hành Windows XP hoặc Windows vista. Hệ quản trị CSDL MS SQL
server 2005 hoặc MS SQL server 2008. Ngoài ra, phần mềm ICR bao gồm
các module (Manager, Interpret, Verify và Transfer) đƣợc cài đặt tại các máy
thực hiện các công việc quản lý, nhận dạng, sửa lỗi, chuyển đổi. Số lƣợng
thiết bị cần dùng đã trình bày trong mục 2 của chƣơng này.
3.2. Dự kiến kế hoạch xử lý: Dự kiến kế hoạch xử lý trong Phụ lục số 1
KẾT LUẬN VÀ KIẾN NGHỊ
Kết quả nghiên cứu, thử nghiệm công nghệ ICR trong 1 năm 6 tháng
qua đã chỉ ra rằng công nghệ ICR là một công nghệ hiện đại, có thể sử
dụng trong xử lý điều tra thống kê nói chung và xử lý TĐT DS nói riêng.
Công nghệ này có những ƣu điểm nổi bật nhƣ chất lƣợng dữ liệu nhập đảm
bảo hơn rất nhiều so với nhập tin bằng bàn phím (ví dụ nhƣ nhập trùng, nhập
212
sót, nhập thiếu .. không thể xảy ra); dễ dàng tra cứu, lƣu giữ lâu dài phiếu
điều tra (ảnh sau khi quét); thời gian xử lý đƣợc rút ngắn; chi phí nhân công
nhập tin, chi phí bảo quản và thuê kho giảm đi rất nhiều; ngƣời lao động
tham gia xử lý làm việc trong môi trƣờng hiện đại, giảm căng thẳng, năng
suất làm việc cao do chuyên môn hóa theo từng khâu của quá trình xử lý.
Ngoài ƣu điểm trên, còn một ƣu điểm rất lớn của công nghệ ICR là có khả
năng cung cấp sớm kết quả điều tra theo từng phần. Ƣu điểm này không thể
có trong xử lý bằng phƣơng pháp nhập tin từ bàn phím vì khi nhập tin từ bàn
phím chỉ có thể lập biểu tổng hợp khi đã nhập tin xong. Còn trong xử lý áp
dụng công nghệ ICR, ngƣời ta có thể chia việc kiểm tra số liệu thành những
giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một số trƣờng nhất định, và
do đó có thể lập biểu tổng hợp ngay sau mỗi giai đoạn.
Trong xử lý số liệu điều tra bằng công nghệ ICR, nếu tỷ lệ quét, nhận
dạng đúng lớn hơn 95% thì việc áp dụng công nghệ ICR trong xử lý là thành
công. Nếu tỷ lệ quét, nhận dạng thấp thì thời gian, nhân lực để nhập phần
phiếu không quét đƣợc và hiệu chỉnh những dữ liệu đã quét nhƣng không
nhận dạng đƣợc là lớn. Khi đó, việc xử lý điều tra có thể phải kéo dài hơn
nhiều so với kế hoạch dự tính. Nhƣ vậy, việc áp dụng công nghệ này có thành
công hay không phụ thuộc vào nhiều yếu tố, trong đó có những yếu tố chính
nhƣ:
+) Chất lượng của phiếu điều tra. Chất lƣợng phiếu điều tra ở đây đƣợc
hiểu là phiếu sau khi điều tra có đảm bảo những yêu cầu của việc áp dụng
công nghệ quét, nhận dạng hay không. Trƣớc hết là việc thiết kế phiếu trong
xử lý điều tra áp dụng công nghệ ICR đòi hỏi phải theo những yêu cầu nhất
định, ví dụ nhƣ độ dài, rộng của các ô tƣơng ứng với từng loại trƣờng,
khoảng cách giữa các ô... Chất lƣợng giấy in phiếu cũng là một yếu tố ảnh
hƣởng đến phiếu điều tra. Giấy in quá mỏng gây ra tình trạng kẹt, rách giấy
khi quét. Giấy in quá bóng mà điền phiếu bằng bút chì dẫn đến tình trạng
phiếu mờ, không nhận dạng đƣợc. Chất lƣợng máy in phiếu cũng ảnh hƣởng
không nhỏ đến việc xử lý vì để quét, nhận dạng, mỗi loại phiếu điều tra đƣợc
định dạng một lần. Những phiếu điều tra in trên các máy in khác nhau nếu
không đảm bảo độ chính xác cũng dẫn đến tình trạng không nhận dạng đƣợc.
Chất lƣợng điền phiếu điều tra là yếu tố ảnh hƣởng rất lớn đến quá trình xử
lý. Nếu điều tra viên điền phiếu không theo mẫu chữ đã qui định, viết tràn ô,
viết mờ, tẩy xóa ... đều làm giảm tỷ lệ nhận dạng đúng.
+) Máy móc, thiết bị dùng cho xử lý (bao gồm máy quét, máy chủ, máy
trạm, thiết bị sao lƣu, thiết bị mạng ...).
213
- Về máy quét. Máy quét sử dụng trong xử lý áp dụng công nghệ ICR
phải là những máy có cấu hình tối thiểu tƣơng đƣơng với máy đã thử nghiệm
tại Trung tâm. Cụ thể, cấu hình tối thiểu ít nhất là: tốc độ 100 trang/phút (A4
portrait), khay chứa giấy: 500 tờ, công suất tối thiểu/ngày (Duty Cycle)
30.000 tờ/ngày. Nếu sử dụng máy quét cấu hình quá thấp thì rất tốn nhân
công thực hiện quét phiếu, thời gian quét kéo dài tốn kém thêm các chi phí
khác đi kèm, nếu vì thế phải tăng số máy quét thì lại thêm chi phí mua thêm
module phần mềm quét. Mặt khác các máy quét tốc độ cao có bộ phận cuốn
giấy tốt hơn để có thể làm việc với tốc độ cao lâu dài và ít kén giấy. Ngoài ra
nên yêu cầu đối với máy quét khả năng lựa chọn loại bỏ màu (dropout color).
- Về máy chủ, máy trạm, mạng. Máy chủ, máy trạm dùng trong xử lý áp
dụng công nghệ ICR đòi hỏi phải có cấu hình tƣơng đối cao. Cụ thể là:
Máy chủ:
Số CPU máy chủ nên để tối thiểu là 02
RAM tối thiểu là 16 GB
Dung lƣợng ổ cứng (Hard disk capacity) tối thiểu 3TB
Máy trạm:
RAM máy trạm 1GB cho nhập tin và 2GB cho máy trạm
thực hiện quét
Ổ cứng máy trạm tối thiểu 160 GB
Thiết bị mạng: đảm bảo tốc độ các cổng là Gigabits.
+) Phần mềm nhận dạng (ICR). Phần mềm nhận dạng là một thành phần
quan trọng nhất của hệ thống xử lý áp dụng công nghệ quét, nhận dạng. Trên
thế giới, số lƣợng phần mềm nhận dạng ký tự thông minh (ICR) không nhiều.
Một số phần mềm hay đƣợc nhắc tới nhƣ IFP (Intelligent Form Procesing –
Xử lý mẫu phiếu thông minh) của IBM, ABBYY của Nga, Document for
FORMS của ReadSoft, TIS (Top Image System) của Israel,... Do vậy khi lựa
chọn phần mềm nhận dạng ký tự thông minh (ICR) cần lựa chọn phần mềm
đáp ứng những yêu cầu sau:
- Phù hợp với việc xử lý điều tra/tổng điều tra thống kê, thể hiện qua
việc đã đƣợc các cơ quan thống kê quốc gia sử dụng thành công trong việc xử
lý các tổng điều tra lớn.
- Có thể xử lý khối lƣợng lớn phiếu điều tra trong thời gian ngắn nhất
với chi phí lao động thấp và chất lƣợng đảm bảo. Điều này đƣợc thể hiện qua
tốc độ dịch, xử lý và chuyển đổi số liệu cao và việc kiểm tra xác thực dữ liệu
214
có những chức năng, giao diện và tổ chức phù hợp, hiệu quả. Đặc biệt là phải
có chức năng xác thực dữ liệu theo loại ký tự kiểu nhƣ Mass verify trong
phần mềm ReadSoft, Tiling trong phần mềm TIS hay Smart key trong phần
mềm IBM.
- Có thể tổ chức, kiểm soát phiếu là một tập gồm nhiều tờ phiếu theo
đúng tuần tự và cho phép lập trình kiểm tra giữa các trƣờng trên các tờ phiếu
khác nhau trong một tập (Logic Set). Khi quét phiếu phải phát hiện các tập
phiếu không hợp lệ (thiếu, thừa tờ phiếu; tờ phiếu không nhận dạng đƣợc
trong tập; các tờ phiếu không đúng thứ tự) và máy quét phải dừng tại điểm
phát sinh để xử lý.
- Hệ thống mềm dẻo, cho phép cơ quan sử dụng có thể có thay đổi tùy
chọn phù hợp với từng loại phiếu. Đặc biệt phần mềm cần cho phép ngƣời sử
dụng dễ dàng lập trình bổ sung các yêu cầu về kiểm tra và quản lý dữ liệu
thông qua việc viết lệnh Scrip hoặc các chƣơng trình nhúng bổ sung (API).
- Hệ thống có thuộc tính nhận biết các trƣờng đã bị xóa bỏ trên phiếu
(Strike-out / Strikethrough); có thể lƣu ảnh theo nhiều định dạng trong đó có
dạng PDF.
- Hệ thống cho phép dễ dàng bổ sung thêm Engine nhận dạng để có thể
bổ sung Engine nhận dạng tiếng Việt sau này.
- Phần mềm không hạn chế bởi số lƣợng bản quét hay thời gian sử dụng
để đảm bảo có thể tiếp tục sử dụng trong xử lý các điều tra/ tổng điều tra khác
sau này.
+) Tổ chức thực hiện và nguồn nhân lực. Lựa chọn nhân lực và tổ chức
thực hiện xử lý cũng là một yếu tố ảnh hƣởng đến việc xử lý điều tra áp dụng
công nghệ ICR.
Để xử lý Tổng điều tra dân số và nhà ở 1/4/2009 bằng công nghệ ICR,
một khối lƣợng không nhỏ máy quét, máy chủ, máy trạm và các thiết bị khác
sẽ đƣợc trang bị. Những thiết bị này sẽ đƣợc sử dụng trong thời gian xử lý
Tổng điều tra dân số và nhà ở năm 2009, nhƣng nếu không tiếp tục sử dụng
thì sẽ gây ra những lãng phí lớn vì chu trình sống của máy tính và các thiết bị
điện tử thƣờng ngắn. Sau 2 hoặc 3 năm, những thiết bị đã trở nên lạc hậu, phụ
tùng thay thế không đƣợc sản xuất do các nhà sản xuất đã tập trung vào
những sản phẩm mới. Do vậy, một vấn đề đặt ra là tiếp tục sử dụng hệ thống
thiết bị nhƣ thế nào sau khi xử lý Tổng điều tra dân số và nhà ở 2009. Trên cơ
sở kết quả nghiên cứu, thử nghiệm công nghệ ICR trong thời gian qua và
kinh nghiệm của các nƣớc có thể khẳng định rằng công nghệ ICR có thể áp
dụng trong xử lý các cuộc điều tra, tổng điều tra khác, ví dụ nhƣ Tổng điều
215
tra nông thôn, nông nghiệp và thủy sản, Tổng điều tra các cơ sở kinh tế, hành
chính và sự nghiệp...
Trên cơ sở kinh nghiệm thử nghiệm trong thời gian qua, nhóm nghiên
cứu đề xuất một số kiến nghị nhƣ sau:
1. Về phần mềm nhận dạng
Trung tâm Tin học Thống kê đã có gần 2 năm nghiên cứu thử nghiệm
phần mềm ReadSoft FORMS của ReadSoft và nhận thấy phần mềm này có
thể sử dụng trong xử lý Tổng điều tra dân số và nhà ở năm 2009. Tuy nhiên,
có thể chọn những phần mềm khác trong số những phần mềm đã đƣợc sử
dụng thành công trong xử lý số liệu thống kê có khối lƣợng lớn ở các nƣớc
khác. Trong trƣờng hợp sử dụng phần mềm khác, cần có chuyên gia có kinh
nghiệm về phần mềm để chuyển giao công nghệ cho cán bộ kỹ thuật của
Trung tâm Tin học để kịp xây dựng hệ thống chƣơng trình xử lý trƣớc tháng
5/2009.
2. Về thời gian lắp đặt, kiểm tra thử thiết bị và phần mềm
Thời gian lắp đặt, kiểm tra thử thiết bị và phần mềm càng sớm càng tốt,
không nên để chậm hơn tháng 2/2009 vì thời gian từ lúc lắp đặt cho đến khi
bắt đầu xử lý chỉ khoảng 4 tháng là quá ngắn (một số nƣớc dành thời gian
cho công việc tƣơng tự là 12 tháng).
3. Về lựa chọn, tập huấn điều tra viên cho Tổng điều tra dân số và nhà
ở 2009
Do yêu cầu về chất lƣợng phiếu điều tra khi xử lý bằng công nghệ ICR
cao hơn các cuộc tổng điều tra khác nên khâu lựa chọn điều tra viên, tập huấn
điều tra viên, kiểm tra giám sát trong quá trình điều tra là một công việc rất
quan trọng. Khi tập huấn, tại mỗi lớp nên có đĩa VCD trình diễn những phiếu
điều tra không nhận dạng đƣợc do sai sót của điều tra viên. Kết thúc mỗi lớp
tập huấn cần phải kiểm tra để loại bỏ những điều tra viên không đáp ứng
đƣợc yêu cầu.
Những qui định dùng cho điều tra viên, tổ trƣởng, giám sát viên cần phải
chuẩn bị kỹ lƣỡng. Trong tập huấn phải đạt đƣợc yêu cầu là điều tra viên, tổ
trƣởng, giám sát phải nhận thức đƣợc tầm quan trọng của việc tuân thủ
nghiêm những qui định trong quá trình điều tra.
4. Về việc sử dụng thiết bị sau khi xử lý Tổng điều tra dân số và nhà ở
2009.
Sau khi xử lý Tổng điều tra dân số và nhà ở năm 2009, cần tiếp tục sử
dụng thiết bị và công nghệ ICR trong xử lý tổng điều tra sắp tới, ví dụ nhƣ
216
Tổng điều tra nông thôn, nông nghiệp và thủy sản 2011, Tổng điều tra cơ sở
kinh tế và hành chính sự nghiệp 2012 cũng nhƣ các điều tra khác nhƣ điều tra
biến động dân số và kế hoạch hóa gia đình, điều tra doanh nghiệp, điều tra
mức sống hộ gia đình... Để có thể áp dụng công nghệ ICR trong xử lý Tổng
điều tra nông thôn, nông nghiệp và thủy sản 2011, Tổng điều tra cơ sở kinh tế
và hành chính sự nghiệp 2012 cần phải thực hiện các khâu chuẩn bị ngay từ
bây giờ. Các bƣớc thử nghiệm cần thực hiện sớm vì các phiếu điều tra này
thƣờng phức tạp hơn phiếu điều tra dân số.
TÀI LIỆU THAM KHẢO
1. Eyes & Hand. FORMS the leading software solution for automatic
data capture. ReadSoft AB, 2002.
2. Báo cáo về công tác bản đồ và sử dụng công nghệ quét trong Tổng
điều tra dân số năm 2000 của Cơ quan Thống kê nhà nƣớc Thái Lan.
3. Báo cáo kết quả khảo sát kinh nghiệm sử dụng công nghệ nhận dạng
ký tự thông minh trong Tổng điều tra dân số và nhà ở tại Cơ quan Thống kê
nhà nƣớc Philippines.
4. Báo cáo kết quả của Đoàn khảo sát tại Cục Thống kê nhà nƣớc Trung
Quốc từ ngày 13 đến ngày 20 tháng 12 năm 2006.
5. Báo cáo kết quả khảo sát áp dụng công nghệ Scanning tại Trung tâm
Thống kê Quốc gia Lào.
Recommended