Phuocmaster

Bàn về công nghệ 4.0

Phuocmaster

Bàn về công nghệ 4.0

Danh mục coding

AI, coding

Cách AI hiểu bối cảnh 1M token

Đến 2025, LLM có ngữ cảnh triệu token, nhưng hiệu quả thực tế thường chỉ bằng một nửa. Bài viết đi sâu vào cách các kiến trúc attention, positional encoding và bộ nhớ khác nhau ảnh hưởng đến khả năng truy hồi, suy luận và lỗi của mô hình. Chọn mô hình đúng là chọn cách nó thành công và thất bại.

admin
Tháng 10 9, 2025

coding

Benchmark docling OCR cho văn bản tiếng Việt

Mấy ngày trước IBM ra mắt mô hình mở Granite Docling VLM tích hợp vào thư viện Docling với kỳ vọng OCR “hiểu” được cấu trúc văn bản. Nhân dịp đó mình thử benchmark ba pipeline để xem tốc độ và độ phù hợp khi xử lý tài liệu pháp lý tiếng Việt.

admin
Tháng 9 22, 2025

AI, coding, data

ChatGPT Plus $20/tháng có đáng tiền không? Phân tích dữ liệu thực tế

ChatGPT Plus $20/tháng có đáng tiền không? Mình phân tích dữ liệu sử dụng thực tế, so sánh với API, kèm công cụ miễn phí để bạn tự kiểm chứng

admin
Tháng 9 5, 2025

coding

Tăng tốc OCR hàng loạt cùng paraOCR

Từ một nhu cầu đơn giản, mình đã tạo ra một công cụ OCR đa luồng, có cả giao diện web, và nhận về một cú "vỡ mộng" đầy bất ngờ.

admin
Tháng 8 13, 2025

coding

LocalTabula: Truy Vấn Dữ Liệu Bảng Bằng Ngôn Ngữ Tự Nhiên

Khám phá sức mạnh phân tích dữ liệu AI bảo mật với LocalTabula—ứng dụng Streamlit chạy offline, biến file Excel và CSV Google Sheet thành cơ sở dữ liệu trò chuyện. Tận dụng LLM cục bộ để sinh SQL bằng ngôn ngữ tự nhiên, tìm kiếm ngữ nghĩa và tùy chỉnh prompt engineering trên phần cứng giá rẻ. Hoàn hảo cho quản trị dữ liệu, triển khai tiết kiệm chi phí và hỗ trợ truy vấn đa ngôn ngữ.

admin
Tháng 5 14, 2025

coding

Xây dựng app OCR hóa đơn với Gemini 2.5 Pro

Thử nghiệm Gemini 2.5 Pro qua một dự án “thực chiến”: xây dựng webapp Streamlit trên Colab để tự động trích xuất và xử lý hóa đơn (OCR tiếng Việt, prompt LLM, xác thực dữ liệu và lưu về Google Sheet). Kết quả ban đầu là bộ khung mã Python rõ ràng, đầy đủ, tiết kiệm hàng giờ thiết lập, chỉ còn việc debug vài vấn đề về ngôn ngữ và API. Nếu bạn đang tìm kiếm công cụ hỗ trợ tạo mẫu nhanh chóng cho các ứng dụng phức tạp, trải nghiệm với Gemini 2.5 Pro này chắc chắn đáng để khám phá!

admin
Tháng 3 27, 2025

AI, coding, data, law, privacy

Hiểu về differential privacy

Giải thích khái niệm differential privacy bằng ngôn ngữ dễ hiểu, không nặng tính toán học. Phân tích cách thức tích hợp DP vào các mô hình học sâu (deep learning) và LLM. Đề xuất mối liên hệ giữa DP và các quy định tại Nghị định 13, từ đó làm cơ sở cho những khuyến nghị pháp luật khả thi, hỗ trợ phát triển AI tôn trọng quyền riêng tư tại Việt Nam.

admin
Tháng 7 10, 2024

AI, coding, data

Lãng quên máy học (Machine Unlearning) năm 2024 (P.1)

Đây là bài viết của Ken Liu, xuất bản bởi Standford về những cập nhật mới nhất về machine learning tính đến thời điểm tháng 5 Nội dung này đã được dịch và hiệu đính bởi mình. Khi các mô…

admin
Tháng 6 8, 2024

coding

Phân tích dữ liệu việc làm ngành Data ở Việt Nam (07/2023)

Mức lương bình quân của toàn ngành: $2400, với mức dao động rất lớn giữa Junior và Senior

Phuoc Nguyen
Tháng 10 25, 2023