-
Hiện trạng số hóa
- Các ban ngành đã lưu trữ dữ liệu trong thời gian dài dưới dạng tài liệu giấy.
- Dữ liệu giấy không chỉ bao gồm chữ viết tay mà còn chứa các thuật ngữ chuyên ngành.
- Việc lưu giữ văn bản giấy trong thời gian dài đã dẫn đến tình trạng mờ đi và xuống cấp, gây khó khăn trong việc bảo quản và truy xuất dữ liệu.
- Các tài liệu giấy bao gồm cả bản vẽ hoặc thiết kế và do đã lưu trữ trong thời gian dài, việc số hóa chúng cũng trở nên khó khăn (phải chụp ảnh để chuyển thành dạng số).
- Số lượng tài liệu này rất lớn.
-
Giải pháp công nghệ
Scan khổ lớn
- Sử dụng hệ thống máy quét khổ lớn hiện đại, sắc nét để quét các hồ sơ bản vẽ có khổ lớn từ A2-A0 và các máy quét tốc độ cao cho các khổ A3-A4-A5
- Sử dụng công nghệ ảnh chụp sắc nét, độ phân giải cao (lên đến 1200 dpi), giúp cho việc hiển thị tối ưu trên tất cả các thiết bị
- Khổ rộng scan tối đa: 36in (91.4cm), cho phép scan linh hoạt các loại bản vẽ từ A2-A0
- Các máy scan A0 thông thường rất cồng kềnh, việc sử dụng các dòng máy scan như ColorTrack SmartLF Scan, cho phép cơ động mang đi hoặc đặt ở các vị trí thi công chật hẹp
Xử lí ảnh
- Sử dụng công nghệ xử lý ảnh, cho phép ảnh scan tăng độ nét và tương phản. Đặc biệt với các tài liệu khổ lớn, cũ, mờ
- Phần lớn các tài liệu khi scan sẽ có độ nghiêng nhất định hoặc bị xoay 90 độ, làm ảnh hưởng đến trải nghiệm sử dụng cũng như kết quả nhận dạng. Sử dụng các công cụ xoay ảnh tự động/bằng tay giúp xoay ảnh chính xác gần như tuyệt đối
Nhận dạng ký tự (OCR)
- Sử dụng công nghệ nhận dạng ký tự OCR tiên tiến, giúp chuyển đổi bản vẽ scan dạng ảnh thành định dạng PDF 2 lớp, tối ưu cho lưu trữ và khai thác dữ liệu
- Sử dụng AI tự động nhận dạng vùng chứa dữ liệu, từ đó trích xuất dữ liệu ra cho engine OCR
- Phân loại tự động một số loại dữ liệu
- Hỗ trợ nhiều loại ngôn ngữ, trong đó tiếng Việt là tốt nhất
- Độ chính xác kết quả nhận dạng lên đến 98%
- Hỗ trợ kết xuất ra nhiều định dạng như: XLS, CSV, JSON, XML, TXT hoặc API/CSDL cho phép kết nối với các phần mềm khác nhau
Nhập liệu bán tự động
- Các phần mềm nhận dạng ký tự có tỷ lệ sai sót nhất định, việc kết hợp cả con người trong nhập liệu các dữ liệu khó nhận dạng hoặc không thể nhận dạng
- Sử dụng engine VietOCR để bóc tách các dữ liệu cần thiết, kết quả bóc tách được lưu vào CSDL và được kết nối với màn hình nhập liệu
- Cán bộ nhập liệu kiểm tra các dữ liệu được nhận dạng tự động, chỉnh sửa các kết quả nhận dạng sai và nhập liệu mới với các dữ liệu mà AI không nhận dạng được
Kho lưu trữ
- Nền tảng Kho dữ liệu lớn đi kèm hệ thống định vị không gian, cung cấp bản đồ theo từng lớp đối tượng, giúp cho người dùng dễ dàng định hướng và tra cứu
- Số hóa đi kèm các loại biểu đồ lớp dữ liệu, tích hợp trên nền tảng bàn đổ số, phân tách thành các lớp thông tin dễ dàng tra cứu
- Các dữ liệu được phân loại thành các lớp thông tin, có thể hiển thị tùy biến theo nhu cầu sử dụng của người dùng
- Kho lưu trữ theo kiến trúc mô hình Lake house, tối ưu cho lưu trữ dữ liệu có cấu trúc và phi cấu trúc
Tìm kiếm thông minh
- Hỗ trợ tìm kiếm đa ngôn ngữ, bao gồm cả tìm kiếm theo trường thông tin và tìm kiếm thông minh
- Hỗ trợ tìm kiếm theo các trường thông tin
- Tốc độ tìm kiếm nhanh (~0,5s)
- Trình đánh chỉ mục (indexing) đánh chỉ mục toàn văn văn bản tiếng Anh/Việt
- Search Engine cho phép tìm kiếm như Google trong nội dung văn bản