MS10 – BÀI DỰ THI HTNM4: DỰ ÁN XÂY DỰNG CƠ SỞ DỮ LIỆU MỞ CHO VIỆT NAM – VIETDATA

Bài dự thi HTNM4 – Thể loại Bài Viết

Giới thiệu về dự án Xây dựng cơ sở dữ liệu mở cho Việt Nam – VietData

Tác giả: Nhóm VietData

Cùng với sự phát triển của khoa học kỹ thuật là nhu cầu về chia sẻ thông tin, chia sẻ dữ liệu. Điều này đã đặt ra một yêu cầu cấp thiết về quản lý dữ liệu, phát triển phần mềm để có thể chuyển hóa được một lượng dữ liệu lớn thành các thông tin hữu ích đáp ứng được nhu cầu người dùng. Từ những năm 60 của thế kỷ trước, cơ sở dữ liệu và quản lý thông tin đã được phát triển và được xem như là một trong những ngành khoa học thu hút được nhiều sự chú ý. Đến những năm 70, việc nghiên cứu và xây dựng hệ thống cơ sở dữ liệu đã đạt tới sự phát triển của hệ thống cơ sở dữ liệu quan hệ, xây dựng các công cụ, phần mềm mô hình hóa dữ liệu và lập ra các chỉ mục. Ngoài ra, các ngôn ngữ truy vấn để truy xuất, tìm kiếm dữ liệu bước đầu đã được ứng dụng.

Với sự phát triển của mô hình quản lý dữ liệu, ngày nay ở Việt Nam, các tổ chức, doanh nghiệp, các nhà khoa học, các nhà quản lý luôn chú trọng đến khả năng lưu trữ, xử lý, và khai thác thông tin giúp dự báo các khuynh hướng, phân tích rủi ro, và ra quyết định. Tuy nhiên, các nguồn dữ liệu ở Việt Nam hiện nay đang được phát triển một cách riêng lẻ, độc lập, không có sự kết nối. Hơn nữa, khái niệm chia sẻ dữ liệu dường như chưa được phổ biến, do đó rất khó cho người dùng có thể tiếp cận được với nguồn dữ liệu. Việc kiểm định chất lượng của dữ liệu cũng chưa được quan tâm đúng mức, nên dữ liệu có thể chứa các thông tin không chính xác.

Xuất phát từ mong muốn đóng góp một phần kiến thức và tâm huyết vào sự phát triển của đất nước, nhóm các nhà khoa học trẻ Việt Nam đang học tập và nghiên cứu tại Mỹ đã phát triển dự án Xây dựng hệ thống cơ sở dữ liệu mở cho Việt Nam với tên gọi VietData. VietData là hệ thống cơ sở dữ liệu mở sử dụng công nghệ tiên tiến cho phép người dùng dễ dàng tìm kiếm, hiển thị và tải về các bộ dữ liệu đa ngành được chia sẻ bởi các nhà khoa học từ nhiều ngành như môi trường, nông lâm ngư, tài nguyên nước, tài nguyên biển, khí tượng thuỷ văn, địa lý, sinh học, quản lý thiên tai, và khoa học xã hội. VietData còn có ý nghĩa góp phần vào phát triển kinh tế xã hội của đất nước cũng như bảo vệ chủ quyền quốc gia, đặc biệt là trên biển và hải đảo. Dữ liệu được xử lý và chuẩn hoá trước khi chia sẻ miễn phí đến người dùng qua trang web http://vietdata.org. Chúng tôi kêu gọi các bạn sinh viên và các nhà khoa học trong và ngoài nước cùng đóng góp phát triển dự án ý nghĩa này.

Thực trạng nghiên cứu khoa học ở Việt Nam

Thống kê của tổ chức SCImago Journal & Country Rank (2016) cho thấy lượng ấn phẩm khoa học của Việt Nam còn rất thấp, ngay cả so với các nước trong khu vực. Từ năm 1996 đến 2015, Việt Nam chỉ có 29.238 ấn phẩm khoa học so với Thái Lan (123.410), Malaysia (181.251) và Singapore (215.553). Điều này nói lên phần nào thực trạng nghiên cứu khoa học của Việt Nam còn rất khiêm tốn. Các hoạt động nghiên cứu khoa học trong các trường đại học ở Việt Nam còn nhiều hạn chế khi mà phần lớn các bài báo quốc tế được thực hiện từ các viện, trung tâm nghiên cứu. Một trong những nguyên nhân dẫn đến tình trạng yếu kém trong nghiên cứu khoa học ở Việt Nam là thiếu dữ liệu để thực hiện các nghiên cứu khoa học. Nếu như ở các nước tiên tiến hầu hết dữ liệu được chia sẻ miễn phí cho tất cả người dùng qua internet, thì ở Việt Nam việc tìm được bộ dữ liệu để thực hiện một nghiên cứu khoa học còn nhiều khó khăn. Điều này gây cản trở cho sự phát triển của nghiên cứu khoa học của Việt Nam nói chung và các hoạt động nghiên cứu khoa học của sinh viên trong trường đại học nói riêng.

Ý tưởng chia sẻ dữ liệu là cầu nối

Việc chia sẻ dữ liệu với cộng đồng sẽ khuyến khích các nhà nghiên cứu quản lý tốt hơn dữ liệu của họ và đảm bảo chất lượng của dữ liệu được chia sẻ. Chia sẻ dữ liệu sẽ giúp sử dụng nguồn lực của xã hội một cách hiệu quả hơn vì tăng số người tiếp cận và sử dụng dữ liệu, và tránh lặp lại những hoạt động thu thập, xử lý, quản lý dữ liệu thường rất tốn kém. Chia sẻ dữ liệu cũng sẽ giúp cho thông tin  về các vấn đề trong xã hội ngày càng minh bạch, giúp các nhà quản lý và hoạch định chính sách đưa ra các quyết định hợp lý và khoa học hơn.

Một cơ sở dữ liệu mở đa ngành, được phát triển nhằm mục đích chia sẻ dữ liệu với cộng đồng là bước đi cần thiết để  kết nối các nhà khoa học trong nước và ngoài nước, qua đó tạo được một môi trường phát triển nghiên cứu khoa học có tính kết nối. Các dữ liệu chia sẻ qua VietData có thể giúp các nhà khoa học người Việt đang công tác ở nước ngoài có thể cùng tham gia chia sẻ kinh nghiệm của bản thân về các vấn đề nghiên cứu trong nước, cũng như chia sẻ kiến thức, kinh nghiệm và các dữ liệu trong các dự án quốc tế.  Ngoài tính kết nối về dữ liệu, Cơ sở dữ liệu mở VietData còn định hướng phát triển hệ thống diễn đàn. Đây là nơi mà các nhà khoa học có thể trao đổi trực tiếp về các vấn đề nghiên cứu. Đây cũng là nơi người dùng có thể kết nối, cùng nhau tìm kiếm các giải pháp, sáng kiến khoa học mới đóng góp vào sự phát triển của Việt Nam.

Giới thiệu về VietData

Cơ sở dữ liệu mở VietData được phát triển trên nền Web với dữ liệu được thu thập và đóng góp từ nhiều nguồn khác nhau. Các dữ liệu rất đa dạng về cấu trúc, định dạng. Ví dụ như các dữ liệu về đo đạc tại hiện trường, các dữ liệu theo thời gian, hay phân bố theo không gian từ nhiều ngành như môi trường, nông lâm ngư, tài nguyên nước, khí tượng thuỷ văn, địa lý, sinh học, quản lý thiên tai, khoa học xã hội…bao phủ toàn Việt Nam cả trên đất liền cũng như biển đảo thuộc chủ quyền của Việt Nam. Một đặc điểm nổi bật của VietData là không chỉ cho người dùng lấy dữ liệu, mà còn khuyến khích người dùng chia sẻ dữ liệu. Các dữ liệu được chia sẻ từ người dùng sau đó sẽ được kiểm tra chất lượng (data quality control) và chuẩn hoá trước khi được hiển thị trên hệ thống dữ liệu của VietData. Cùng với tính năng kiểm soát chất lượng dữ liệu, VietData còn cung cấp một loạt các tính năng hỗ trợ người dùng bao gồm việc tìm kiếm dữ liệu, hiển thị dữ liệu theo không gian và thời gian. Việc tìm kiếm dữ liệu có thể được thực hiện qua công cụ tìm kiếm theo tên, hay nhóm loại dữ liệu, định dạng dữ liệu,… Chức năng hiển thị dữ liệu có thể cung cấp các dạng dữ liệu theo đồ thị hay theo dạng bản đồ theo không gian. Dữ liệu sau khi được lựa chọn sẽ được đóng gói và gửi đến người dùng thông qua email đăng nhập. Giao diện VietData được thể hiện như trong hình sau.

01Giao diện Cơ sở dữ liệu mở cho Việt Nam – VietData (http://vietdata.org, đang trong giai đoạn thử nghiệm)

VietData và tầm nhìn tương lai

Ý tưởng về cơ sở dữ liệu mở VietData đã nhận được sự ủng hộ rất lớn từ các nhà khoa học Mỹ. Nhóm thực hiện dự án VietData đã được phía Mỹ mời tham dự và trình bày về dự án tại hai hội thảo quốc tế ở Maryland Hoa Kỳ (9/2015) và Cần Thơ (11/2015). Tại hội thảo quốc tế về các vấn đề liên quan đến khu vực hạ nguồn sông Mekong tại Cần Thơ, các nhà khoa học đều cho rằng xây dựng một cơ sở dữ liệu mở, có tính chia sẻ, kế thừa và phát triển là một nhu cầu thực tế và là một bước đi cần thiết trong tương lai. Qua đó cũng kêu gọi các nhà khoa học cùng đóng góp chia sẻ dữ liệu vì sự phát triển bền vững của Việt Nam cũng như các nước hạ nguồn sông Mekong.

VietData đang  tìm kiếm sự ủng hộ và hợp tác của các nhà khoa học, tổ chức trong nước và ngoài nước nhằm thúc đẩy khả năng chia sẻ dữ liệu. Sự hợp tác với các cơ quan ban ngành trong nước về chia sẻ dữ liệu có ý nghĩa rất quan trọng đến sự thành công của dự án. Các nhà khoa học tại các viện nghiên cứu, các trường đại học, các nhà nghiên cứu, các giáo sư đã về hưu cũng là đối tượng mà dự án VietData hướng tới để tìm nguồn dữ liệu phong phú sẵn có để chia sẻ cho cộng đồng.

Sự thành công của dự án VietData sẽ góp phần vào việc thúc đẩy hoạt động nghiên cứu khoa học trong sinh viên các trường đại học. Việc tìm kiếm dữ liệu của các bạn sinh viên sẽ rất thuận lợi thông qua hệ thống VietData. Kết quả nghiên cứu khoa học không những giúp các bạn trẻ nâng cao trình độ mà còn tạo cơ hội cho họ kết nối với giới nghiên cứu ở nước ngoài, tìm cơ hội học bổng. Vì thế các bạn sinh viên trong nước cũng được mời tham gia phát triển dự án này.

VietData cũng sẽ là cầu nối để các nhà khoa học trẻ hiện đang học tập, nghiên cứu ở nước ngoài dễ dàng tiếp cận các nguồn dữ liệu phục vụ cho các nghiên cứu về Việt Nam. Việc kết nối mạng lưới các nhà khoa học cùng chuyên ngành sẽ tạo bước đệm thuận lợi để các nhà khoa học trẻ tự tin hơn khi quyết định về nước tiếp tục đi theo con đường nghiên cứu khoa học.

Nhóm phát triển VietData mong muốn nhận được sự tham gia và ủng hộ của các tổ chức, cá nhân trong và ngoài nước để dự án thành công, góp phần vào sự phát triển chung của đất nước cũng như mọi thành viên tham gia.

Nhóm phát triển dự án VietData

TS. Nguyễn Đình Phú – Nghiên cứu sau tiến sĩ tại Đại học California – Irvine, Hoa Kỳ.
TS. Trịnh Quang Toàn – Nghiên cứu sau tiến sĩ tại Đại học California – Davis, Hoa Kỳ.
Trần Việt Hoàng – Nghiên cứu sinh tại Đại học California – Irvine, Hoa Kỳ.
Phạm Đức Toàn – Kỹ sư Công nghệ thông tin tại TPHCM.
Châu Minh Thiện – Sinh viên Công nghệ thông tin tại Đại học Khoa học tự nhiên TPHCM.
Đinh Quốc Thái – Sinh viên Công nghệ thông tin tại Đại học Khoa học tự nhiên TPHCM.

Tác giả: Nhóm VietData

Comments

Comments Closed

Comments are closed. You will not be able to post a comment in this post.