Lời mở đầu
🎯 Mục tiêu học tập
Sau khi hoàn thành chương này, bạn sẽ có thể:
- Hiểu được các loại dữ liệu cơ bản trong tài chính
- Áp dụng phương pháp KYD (Know Your Data) để thấu hiểu dữ liệu tài chính
- Đánh giá chất lượng dữ liệu theo 4 nguyên tắc cơ bản
- Xử lý và phân tích dữ liệu tài chính với Python
- Xây dựng mô hình học máy cho bài toán tài chính thực tế
📖 Giới thiệu
Ở những chương trước, chúng ta đã làm quen với các công cụ phục vụ phân tích dữ liệu, như Pandas, Numpy, Matplotlib, Scikit-learn, và các thư viện khác. Đồng thời, chúng ta đã có cái nhìn tổng quan về những thuật toán cơ bản trong học máy như Logistic Regression, Decision Tree, Random Forest, SVM, Neural Network và thực hành các phương pháp này trên một số tập dữ liệu mẫu. Tuy nhiên, chúng ta chưa thực sự áp dụng các kiến thức này vào một mảng hay bài toán thực tế cần kết hợp với kiến thức chuyên môn.
Chương này được xây dựng nhằm mục tiêu giúp cho các bạn có thể tiếp cận với một mảng thực tế, đó là phân tích dữ liệu trong ngành tài chính. Chúng ta sẽ thực hành các bài toán phân tích dữ liệu trong ngành tài chính, như phân tích tương quan, phân tích cổ phiếu hay phân tích chuỗi thời gian. Đồng thời, chúng ta sẽ áp dụng các kiến thức về học máy để xây dựng một mô hình dự đoán giá cổ phiếu.
📚 Cấu trúc chương
Chương này được chia thành các phần chính:
- Dữ liệu tài chính: Tìm hiểu các loại dữ liệu trong tài chính và cách phân loại chúng
- Thấu hiểu dữ liệu (KYD): 9 câu hỏi cơ bản để hiểu rõ dữ liệu của bạn
- Đánh giá chất lượng dữ liệu: 4 nguyên tắc cơ bản (Accuracy, Completeness, Consistency, Timeliness)
- Case study thực tế: Xác suất vỡ nợ (Probability of Default)
🔑 Kiến thức cần có
Để làm được điều này, chúng ta cần nắm được hai mảng kiến thức chính:
- Kiến thức chuyên môn về ngành tài chính: Hiểu các khái niệm cơ bản như cổ phiếu, trái phiếu, lợi nhuận, rủi ro, v.v.
- Kiến thức về học máy: Các thuật toán cơ bản và cách áp dụng chúng
Tài chính là một mảng kiến thức rất rộng lớn mà ta không thể tìm hiểu hết toàn bộ chỉ trong trong vỏn vẹn một chương học. Do đó, chúng ta sẽ tập trung vào một số kiến thức cơ bản nhất, nhưng đủ để có thể thực hành được các bài toán phân tích dữ liệu trong ngành tài chính, bao gồm:
- Các loại dữ liệu cơ bản trong tài chính
- Một số vấn đề khi làm việc với dữ liệu tài chính
- Phương pháp đánh giá dữ liệu từ góc nhìn tài chính tới học máy
🛠️ Công cụ và kỹ thuật
Bên cạnh đó, chúng ta sẽ cùng nhau tiếp cận các kỹ thuật cơ bản trong Python bao gồm:
- Thu thập dữ liệu: Nhập dữ liệu từ các nguồn khác nhau (CSV, API, Database)
- Xử lý dữ liệu: Lọc, làm sạch, và chuẩn hóa dữ liệu
- Phân tích dữ liệu: Trực quan hóa, tóm tắt, và phân tích dữ liệu giao dịch
- Xây dựng mô hình: Chuẩn bị dữ liệu và xây dựng mô hình học máy
Từ đó có thể đưa ra những quyết định đúng đắn cho doanh nghiệp.
💡 Ví dụ ứng dụng thực tế
Trong chương này, chúng ta sẽ làm việc với các bài toán thực tế như:
- Phân tích cổ phiếu: Dự đoán giá cổ phiếu dựa trên dữ liệu lịch sử
- Xác suất vỡ nợ: Tính toán xác suất một công ty không thể trả nợ
- Phân tích rủi ro: Đánh giá rủi ro tín dụng của khách hàng
- Phân tích chuỗi thời gian: Dự đoán xu hướng tài chính
➡️ Bước tiếp theo
Hãy bắt đầu với Bài 1: Dữ liệu tài chính để tìm hiểu về các loại dữ liệu trong ngành tài chính!
Chúc các bạn học tập vui vẻ!