Công nghệ AI giúp tìm kiếm và lựa chọn tài liệu về Covid-19

Đào Công
25/06/2020 11:16
NIICS

Các nhà phát triển đang hy vọng những công nghệ xử lý ngôn ngữ tự nhiên sẽ giúp các nhà nghiên cứu y sinh và lâm sàng tìm kiếm tài liệu nghiên cứu Covid-19 dễ dàng hơn.

Công nghệ AI đang giúp các nhà khoa học sàng lọc các bài báo nghiên cứu Covid-19 phù hợp để đẩy nhanh quá trình nghiên cứu của riêng mình. Chỉ trong một thời gian ngắn số lượng các bài nghiên cứu về Covid-19 đã tăng lên theo hàm mũ.

Theo ứng dụng “Covid-19 Portfolio” của NIH, trang web đang lưu trữ các nghiên cứu về virus SARS-CoV-2 và các bệnh lý liên quan thì đã có hơn 28.000 bài báo được xuất bản trong thời gian gần đây, một con số không dễ dàng để mỗi nhà nghiên cứu tìm thấy bài báo phù hợp cho mình, do đó một loạt các công cụ AI đã ra đời nhanh chóng để hỗ trợ giúp các nhà nghiên cứu và lâm sàng.

Các công cụ AI thường được xây dựng trên nhiều yếu tố, bao gồm khối lượng bài báo lớn và sẵn có, các tiến bộ trong công nghệ xử lý ngôn ngữ tự nhiên (natural-language processing NLP), và nhu cầu tìm kiếm các giải pháp phòng dịch hiện nay.

Các công này sẽ tìm kiếm ra những nghiên cứu phù hợp cho mỗi cá nhân nhà nghiên cứu, thậm chí một số có thể trích dẫn ra các kết quả nghiên cứu cụ thể trong đó.

Theo bà Amalie Trewartha, trưởng nhóm phụ trách tìm kiếm nghiên cứu bằng công cụ CovidScholar (Phòng thí nghiệm quốc gia Lawrence Berkeley tại Berkeley, California), các công cụ này không chỉ giúp ích cho nhu cầu ngăn ngừa dịch bệnh hiện tại mà còn giúp xác định đúng một giải pháp cho nhiều bài toán thuộc các hướng khác nhau, từ đó hỗ trợ cho những nghiên cứu đa ngành.

Tuy nhiên các công cụ AI hiện tại vẫn còn ở giai đoạn phát triển và hiệu quả của chúng chưa được chứng minh một cách rộng rãi. Chúng cũng chưa được dùng để ra các quyết định lâm sàng hay nghiên cứu.

Theo Oren Etzioni, giám đốc điều hành của Viện AI Allen  (AI2) tại Seattle, Mỹ, “AI chưa giúp tìm ra ngay vaccine” nhưng hy vọng công nghệ mới có thể giúp các nhà nghiên cứu tập trung vào đúng nơi cần tìm, qua đó hỗ trợ và mở rộng khả năng phát triển tri thức. 

Rút ngắn thời gian nhờ AI

Động lực cho những nỗ lực phát triển này là lời kêu gọi của văn phòng chính sách KH&CN của Nhà Trắng, mời gọi cộng đồng AI tìm kiếm và phát triển các công cụ khai thác dữ liệu khoa học Covid-19 vào ngày 16/3.

Để khởi động việc này, Nhà Trắng đã làm việc với một số tổ chức để cho ra Bộ dữ liệu nghiên cứu mở Covid-19 (Covid-19), bao gồm 13.000 bài báo nghiên cứu về virus SARS-CoV-2 và các virus corona khác.

Viện AI2 đã định dạng lại các tệp này để giúp cho các thuật toán truy vấn dễ dàng hơn, cập nhật các bài báo mới thường xuyên và đến nay số lượng đã lên đến 68.000 bài báo và 67.000 bản tóm tắt.

Theo đó cũng đã có hơn 10 công cụ ra đời. Anthony Goldbloom, giám đốc điều hành của trang Kaggle, một chi nhánh của Google tại San Francisco, California chuyên tổ chức các cuộc thi máy học, nhận định: “Bộ dữ liệu CORD-19 thật không ngờ đã rất hữu ích cho những bài thi thực tế.”


Sự gia tăng đột biến của các bài báo nghiên cứu về Covid-19.

Ngoài ra để định hướng cho các nhà nghiên cứu AI, Nhà trắng cũng đưa ra các câu hỏi ví dụ như: “Chúng ta đã hiểu gì về tính thích nghi (đột biến) của virus này”? Kaggle đã đưa hàng chục các câu hỏi này ra cho người dùng của họ và dành giải thưởng 1. 000 USD cho nhóm có câu trả lời tốt nhất.

Sau đó các sinh viên Y khoa tình nguyện sẽ xếp loại kết quả và xác định câu trả lời tốt nhất và một bảng trong trang chính được cập nhật liên tục. Hiện đã có trên 1.000 tài khoản gửi thuật toán lên. 

José Morey, trưởng bộ phận đổi mới sáng tạo của hãng nghiên cứu y khoa Liberty Biosecurity tại Arlington, Virginia đã dùng danh sách các tài liệu tham khảo mà công cụ đưa ra để chuẩn bị cho một bài báo tóm tắt những nhân tố rủi ro của Covid-19. “Bình thường chúng tôi cần vài tuần để tìm và tổng hợp lại, nay công cụ giúp chúng tôi làm trong vài ngày”, José cho biết. 

Goldbloom cũng tổng hợp lại rằng các thành viên của Kaggle sử dụng hai phương pháp AI. Thứ nhất là phương pháp truy xuất thông tin truyền thống bằng cách tìm các từ khóa chính và phân tích các đoạn văn gần chúng.

Phương pháp thứ hai là dùng trực tiếp các mạng nơ-ron học sâu (deep neural networks), một phương pháp học máy, để học trên một tập dữ liệu rất lớn và tìm ra các đoạn văn bản liên quan đến câu hỏi hay chủ đề nghiên cứu. 

Trong giai đoạn hai của cuộc thi (kết thúc ngày 16/6), các thành viên sẽ tập trung vào việc tự động hóa công cụ và tổng hợp bảng kết quả các nghiên cứu về những vấn đề khác nhau của Covid-19 như nhân tố rủi ro hay phương pháp trị liệu. 

Công cụ tìm kiếm

Cũng có rất nhiều công cụ khác ngoài Kaggle như Covid-19 Research Explorer của Google cho phép người dùng hỏi những câu hỏi như “Chẩn đoán phân tử nhanh của Covid-19 là gì?” Công cụ sẽ cho ra một danh sách các bài báo kèm với các đoạn văn liên quan.

Theo Keith Hall, một nhà khoa học máy tính trưởng dự án của thành phố New York thì “Covid-19 Research Explorer” đã được sử dụng như một công cụ nghiên cứu y sinh ngay cả trước khi dịch bệnh lan truyền.

Khi tình hình trở nên nghiêm trọng thì chúng ta có thể  hiểu và khẳng định rõ hơn sự hữu ích của các công cụ đó mà thôi. Tuy nhiên thì công cụ này chưa tích hợp hoàn toàn với các ứng dụng của Google khác. 

CovidScholar là một công cụ khác phát triển từ Phòng thí nghiệm Lawrence Berkeley với một ô tìm kiếm đơn giản. Kết quả từ các nghiên cứu Covid-19 sẽ được các ứng dụng AI gán nhãn của các bài báo nghiên cứu liên quan, cùng với từ khóa và chủ đề.

Ngoài ra còn có thêm chức năng lọc theo thuộc tính như chủ đề nghiên cứ, năm công bố, tình trạng duyệt bài và nguồn. Có nhiều bài báo nghiên cứu đã có trong bộ dữ liệu Covid-19 nhưng công cụ luôn tự dò và thu thập thêm tài liệu từ nhiều trang web khác nhau, Trewartha cho hay.

Oscar Whitney, một nghiên cứu sinh sinh học tại University of California, Berkeley, sử dụng CovidScholar để viết bài nghiên cứu về thử nghiệm axit-nucleic cho Covid-19.

Công cụ giúp anh tóm lược các tìm kiếm tốt hơn là Google Scholar hay PubMed, đôi khi chỉ ra được những bài báo mà anh chưa hề nghe nói đến. “Đây rõ ràng là công cụ tìm kiếm tài liệu nghiên cứu tốt nhất tôi từng dùng”, Oscar cho hay. 

Một công cụ tìm kiếm khác từ AI2 là SPIKE-CORD không chỉ tìm kiếm bài báo nghiên cứu mà còn trích xuất thông tin trong đó. Công cụ này sử dụng ngôn ngữ truy vấn thông dụng, ví dụ như “thời gian ủ bệnh … từ ngày … đến ngày …” sẽ cho ra câu trả lời như “thời gian ủ bệnh kéo dài từ 3 đến 28 ngày”.

Công cụ cũng cho phép tải về bảng số với những giá trị được tách cột riêng. Yoav Goldberg, giám đốc nghiên cứu tại AI2 Israel, cho biết  những câu truy vấn như vậy không đơn giản.

Thông thường cần có chuyên gia ngồi viết code, nhưng với SPIKE-CORD thì mọi việc đã dễ dàng cho những người không thạo code nhờ công nghệ xử lý ngôn ngữ tự nhiên NLP. 

Các công cụ khác

Nhưng công cụ khác có chức năng đa dạng hơn, ví dụ SciSight do AI2 hợp tác cùng Đại học Washington ở Seattle phát triển tích hợp đến 4 chức năng. Chức năng ‘tìm kiếm chủ đề’ cho ra một danh sách các bài báo theo 8 nhóm chủ đề như Can thiệp (ví dụ: vaccine), Kết quả (ví dụ phản ứng kháng thể), Tác giả và tạp chí.

Chức năng ‘Mạng lưới khoa học’ lại tìm ra các nhóm nghiên cứu (hay đang cộng tác) về chủ đề tìm kiếm. Các chức năng khác lại cho ra mối quan hệ giữa bệnh lý và thuốc điều trị, giữa gene và các protein.

Tất cả các chứng năng đều có giao diện hình ảnh và tương tác cao, có đường dẫn ẩn trong những từ khóa,... “Công cụ thực sự hiểu người dùng và cải tiến theo tương tác, rất hữu ích khi mà bạn chưa biết rõ bạn cần làm gì”, Tom Hope, trưởng dự án SciSight ở Seattle, cho biết.

Sravanthi Parasa, một nhà nghiên cứu lâm sàng và tiêu hóa tại Trung tâm Y khoa Thụy Điển tại Seattle, cho rằng chức năng ‘Mạng lưới bệnh lý – thuốc điều trị’ của SciSight thực sự là một “ý tưởng đột phá”.

Bà cho rằng nó không chỉ phục vụ cho đợt dịch này mà với mỗi loại bệnh, công cụ có thể tìm ra những tương tác với thuốc bất thường mà bác sỹ không dễ nhận biết. Bà Parasa thường tìm kiếm điều này trên PubMed nhưng mất đến 10 đến 15 phút, giờ đây kết quả hiện ra trong nháy mắt. 

Joseph Hearnshaw, một nhà khoa học y sinh của Rothamsted, sử dụng công cụ này để hiểu rõ hơn vì sao Covid-19 lại nguy hiểm với đàn ông hơn là với phụ nữ. Bà cho rằng công cụ đã tìm ra các mối quan hệ giữa các bệnh lý, hóc-môn và gene theo một cách khám phá thông minh. “Và chỉ cần vài phút tôi đã có thể đưa ra các giả thuyết và chia sẻ chúng với các nhà lâm sàng khác”, bà cho biết.

Công cụ Covid-19 Primer phát triển bởi Primer, một công ty phát triển công nghệ AI có trụ sở tại San Francisco, thì lại bổ sung thêm vào dữ liệu Covid-19 các nguồn dữ liệu khác bao gồm cả các trang tin và Twitter.

Trang này cũng theo dõi các bài báo được thảo luận nhiều nhất, các chủ đề mới nổi và các trích dẫn xu hướng từ các nguồn tin tức, bao gồm Đài phát thanh công cộng quốc gia và FOXnews.com.

Chúng sử dụng mô hình mạng neuron kết hợp với các mô hình truy xuất thông tin truyền thống. Nó cũng cho ra những danh sách nên đọc theo tổng thể hoặc theo 11 hướng nghiên cứu khác nhau.

John Bohannon, giám đốc khoa học tại Primer, nói rằng: “Người dùng hướng đến sẽ là những người trong giới nghiên cứu khoa học, tức là biết khá rõ tình trạng hiện thời của hướng nghiên cứu”.

Khá bất ngờ, trang web đã thu hút những nhà nghiên cứu hàng đầu bao gồm Madeline Grade, một bác sĩ và nhà nghiên cứu y học khẩn cấp tại Đại học California, San Francisco.

Bà Grade thấy Covid-19 Primer đặc biệt hữu ích ngay từ đầu cơn dịch khi mà mọi thông tin liên quan đến việc chăm sóc thay đổi hàng ngày. Vì có quá nhiều thông tin, bà cần có công cụ hỗ trợ cập nhật thông tin một cách có hệ thống mỗi ngày cho bệnh viện của Đại học. Trong bối cảnh “hỗn loạn” đó, ứng dụng Primer thực sự là một cứu cánh tuyệt vời để tìm ra thông tin thực sự cần thiết, bà cho biết.

Tiếp tục chiến đấu

Hiện giờ thì những công cụ/trang web này vẫn chỉ thu hút lượng truy cập không lớn lắm. Ví dụ như vào cuối tháng 5, Covid-19 Primer có 14,000 lượt view duy nhất hàng tháng, SciSight thì có 11,000 lượt view kể từ khi xuất hiện.

CovidScholar có 500 lượt view mỗi ngày còn Covid-19 KnetMiner thì có tổng cộng con số tương đương. Cuộc thi của Kaggle là nơi có nhiều view nhất với 1.7 triệu lượt kể từ khi khởi động vào giữa tháng 3 2020.

Trong số các nhà nghiên cứu Covid-19 chúng tôi đã liên hệ hầu hết đều không nghe nói về phần lớn các công cụ này. Và vẫn còn nhiều công cụ như vậy đang được phát triển trên khắp thế giới, bao gồm Vilokana ở Ấn Độ và CovidAsk ở Hàn Quốc.

Thật sự mà nói thì mọi thứ vẫn còn đang trong quá trình phát triển. “Mọi người cho rằng đây chính là xu hướng, bởi khoảng 5 năm nữa thì nhu cầu mới  thực sự bùng nổ”, Etzioni, một nhà phát triển công cụ cho biết. “Tôi không nói ngay đây là thị trường mà là một thử nghiệm. Chúng tôi chưa hoàn toàn sẵn sàng cho sự bùng nổ nhưng chúng tôi đã có mặt và ‘chiến đấu’ để làm tốt nhất có thể”.

Theo Tia Sáng

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Bốn xu hướng AI quan trọng năm 2021 là gì?

Bốn xu hướng AI quan trọng năm 2021 là gì?

Việt Nam thành trung tâm sản xuất chip lớn nhất toàn cầu của Intel

Việt Nam thành trung tâm sản xuất chip lớn nhất toàn cầu của Intel

Sở hữu trí tuệ nên là nền tảng của sản phẩm Make in Vietnam

Sở hữu trí tuệ nên là nền tảng của sản phẩm Make in Vietnam

Ngành công nghiệp bán dẫn toàn cầu sẽ tăng trưởng mạnh trong năm 2021

Ngành công nghiệp bán dẫn toàn cầu sẽ tăng trưởng mạnh trong năm 2021

Không chỉ 5G, thời đại của Wi-Fi 6E đã đến

Không chỉ 5G, thời đại của Wi-Fi 6E đã đến

Luật pháp EU tăng cường giám sát kỹ thuật số

Luật pháp EU tăng cường giám sát kỹ thuật số

Conversations và Moments - Một nền tảng đa tác vụ cho doanh nghiệp chuyển đổi số

Conversations và Moments - Một nền tảng đa tác vụ cho doanh nghiệp chuyển đổi số

Facebook vào cuộc xử lý các tài khoản lừa gắn tag, nhắc tên

Facebook vào cuộc xử lý các tài khoản lừa gắn tag, nhắc tên

Draytek liên tục dính lỗ hổng bảo mật nghiêm trọng

Draytek liên tục dính lỗ hổng bảo mật nghiêm trọng

Công nghệ mở tạo ra niềm tin số

Công nghệ mở tạo ra niềm tin số

Phát triển hệ sinh thái IoT là điều kiện đủ để phát triển mạng 5G

Phát triển hệ sinh thái IoT là điều kiện đủ để phát triển mạng 5G

Tấn công phần cứng: hành vi tội phạm mạng thế hệ tiếp theo

Tấn công phần cứng: hành vi tội phạm mạng thế hệ tiếp theo

Tin mới cập nhật

Việt Nam tăng bậc về chỉ số tích hợp phát triển bưu chính

Việt Nam tăng bậc về chỉ số tích hợp phát triển bưu chính

Viện Chiến lược phải nâng tầm, “tổng chỉ huy” công tác chiến lược của Bộ TT&TT

Viện Chiến lược phải nâng tầm, “tổng chỉ huy” công tác chiến lược của Bộ TT&TT

THÔNG CÁO BÁO CHÍ: HỘI NGHỊ CÔNG BỐ QUY HOẠCH HẠ TẦNG THÔNG TIN VÀ TRUYỀN THÔNG THỜI KỲ 2021 – 2030, TẦM NHÌN ĐẾN NĂM 2050

THÔNG CÁO BÁO CHÍ: HỘI NGHỊ CÔNG BỐ QUY HOẠCH HẠ TẦNG THÔNG TIN VÀ TRUYỀN THÔNG THỜI KỲ 2021 – 2030, TẦM NHÌN ĐẾN NĂM 2050

Việt Nam đặt mục tiêu vào top 10 nước dẫn đầu châu Á về tên miền

Việt Nam đặt mục tiêu vào top 10 nước dẫn đầu châu Á về tên miền

Quy hoạch hạ tầng TT&TT sẽ thúc đẩy chuyển đổi số quốc gia

Quy hoạch hạ tầng TT&TT sẽ thúc đẩy chuyển đổi số quốc gia

Kiến tạo hạ tầng TT&TT để mở không gian mới cho phát triển kinh tế xã hội

Kiến tạo hạ tầng TT&TT để mở không gian mới cho phát triển kinh tế xã hội

QUYẾT ĐỊNH: Phê duyệt Chiến lược dữ liệu quốc gia đến năm 2030

QUYẾT ĐỊNH: Phê duyệt Chiến lược dữ liệu quốc gia đến năm 2030

QUYẾT ĐỊNH: Phê duyệt Quy hoạch hạ tầng thông tin và truyền thông thời kỳ 2021 - 2030, tầm nhìn đến năm 2050

QUYẾT ĐỊNH: Phê duyệt Quy hoạch hạ tầng thông tin và truyền thông thời kỳ 2021 - 2030, tầm nhìn đến năm 2050

THÔNG BÁO: Kết quả thi tuyển viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

THÔNG BÁO: Kết quả thi tuyển viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

 Viện Chiến lược Thông tin và Truyền thông đón Xuân Giáp Thìn năm 2024

Viện Chiến lược Thông tin và Truyền thông đón Xuân Giáp Thìn năm 2024

THÔNG BÁO: Kết quả thi Vòng 2 kỳ thi tuyển dụng viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

THÔNG BÁO: Kết quả thi Vòng 2 kỳ thi tuyển dụng viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

THÔNG BÁO: Thời gian và nội dung ôn tập Vòng 2 kỳ thi tuyển dụng viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

THÔNG BÁO: Thời gian và nội dung ôn tập Vòng 2 kỳ thi tuyển dụng viên chức của Viện Chiến lược Thông tin và Truyền thông năm 2023

Tin đọc nhiều

Việt Nam thành trung tâm sản xuất chip lớn nhất toàn cầu của Intel

Việt Nam thành trung tâm sản xuất chip lớn nhất toàn cầu của Intel

Người dùng phải tuân thủ quy trình bảo mật khi lưu trữ dữ liệu trên Cloud

Người dùng phải tuân thủ quy trình bảo mật khi lưu trữ dữ liệu trên Cloud

Nhật Bản lần đầu có siêu máy tính nhanh nhất thế giới

Nhật Bản lần đầu có siêu máy tính nhanh nhất thế giới

COVID-19 "thổi bay" nỗ lực xây dựng sắc thuế kỹ thuật số chung cho cả thế giới

COVID-19 "thổi bay" nỗ lực xây dựng sắc thuế kỹ thuật số chung cho cả thế giới

Các di sản văn hoá ASEAN sẽ được lan tỏa thông qua lưu trữ kỹ thuật số

Các di sản văn hoá ASEAN sẽ được lan tỏa thông qua lưu trữ kỹ thuật số

Ông Nguyễn Trọng Đường: Mỗi giờ Việt Nam đang chịu hơn 1 cuộc tấn công mạng

Ông Nguyễn Trọng Đường: Mỗi giờ Việt Nam đang chịu hơn 1 cuộc tấn công mạng

Doanh nghiệp ‘mở cửa’ chuyển đổi số với điện toán đám mây

Doanh nghiệp ‘mở cửa’ chuyển đổi số với điện toán đám mây

Sẽ công bố Chỉ số an toàn thông tin mạng Việt Nam 2019 vào đầu năm tới

Sẽ công bố Chỉ số an toàn thông tin mạng Việt Nam 2019 vào đầu năm tới

Bộ trưởng Nguyễn Mạnh Hùng: Đã hết thời giấu kín sự cố tấn công mạng

Bộ trưởng Nguyễn Mạnh Hùng: Đã hết thời giấu kín sự cố tấn công mạng

Thế nào là xác thực SCA?

Thế nào là xác thực SCA?

Video xem nhiều

Khởi động nền tảng SMEdx hỗ trợ doanh nghiệp vừa và nhỏ chuyển đổi số

Khởi động nền tảng SMEdx hỗ trợ doanh nghiệp vừa và nhỏ chuyển đổi số

IoT với các số ứng dụng và tiềm năng phát triển

IoT với các số ứng dụng và tiềm năng phát triển

Việt Nam thử nghiệm thành công cuộc gọi 5G đầu tiên trên thiết bị Make in Việt nam

Việt Nam thử nghiệm thành công cuộc gọi 5G đầu tiên trên thiết bị Make in Việt nam

Toàn cảnh Hội nghị Quốc gia lần thứ XXII về Điện tử, Truyền thông và Công nghệ Thông tin REV-ECIT 2019

Toàn cảnh Hội nghị Quốc gia lần thứ XXII về Điện tử, Truyền thông và Công nghệ Thông tin REV-ECIT 2019

5G - Mạng truyền tải di động tốc độ cao của tương lai

5G - Mạng truyền tải di động tốc độ cao của tương lai

Kinh tế số và tiềm năng phát triển tại Việt Nam
15/06/2021
Phương pháp đo lường đô thị thông minh
11/06/2021
Triển vọng 5G và 6G trong tương lai ở Nhật Bản
11/06/2021
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Các yếu tố cơ bản của chuyển đổi số
08/04/2020
Phát huy tinh thần Make in Vietnam, sẵn sàng công nghệ, thiết bị để thương mại 5G
07/12/2019
REV-ECIT 2019: Thúc đẩy phát triển thông tin di động 5G và ứng dụng
07/12/2019