Lời mở đầu
Ở những chương trước, chúng ta đã làm quen với các công cụ phục vụ phân tích dữ liệu, như Pandas, Numpy, Matplotlib, Scikit-learn, và các thư viện khác. Đồng thời, chúng ta đã có cái nhìn tổng quan về những thuật toán cơ bản trong học máy như Logistic Regression, Decision Tree, Random Forest, SVM, Neural Network và thực hành các phương pháp này trên một số tập dữ liệu mẫu. Tuy nhiên, chúng ta chưa thực sự áp dụng các kiến thức này vào một mảng hay bài toán thực tế cần kết hợp với kiến thức chuyên môn.
Chương này được xây dựng nhằm mục tiêu giúp cho các bạn có thể tiếp cận với một mảng thực tế, đó là phân tích dữ liệu trong ngành tài chính. Chúng ta sẽ thực hành các bài toán phân tích dữ liệu trong ngành tài chính, như phân tích tương quan, phân tích cổ phiếu hay phân tích chuỗi thời gian. Đồng thời, chúng ta sẽ áp dụng các kiến thức về học máy để xây dựng một mô hình dự đoán giá cổ phiếu.
Để làm được điều này, chúng ta cần nắm được hai mảng kiến thức chính:
- Kiến thức chuyên môn về ngành tài chính
- Kiến thức về học máy
Tài chính là một mảng kiến thức rất rộng lớn mà ta không thể tìm hiểu hết toàn bộ chỉ trong trong vỏn vẹn một chương học. Do đó, chúng ta sẽ tập trung vào một số kiến thức cơ bản nhất, nhưng đủ để có thể thực hành được các bài toán phân tích dữ liệu trong ngành tài chính, bao gồm:
- Các loại dữ liệu cơ bản trong tài chính
- Một số vấn đề khi làm việc với dữ liệu tài chính
- Phương pháp đánh giá dữ liệu từ góc nhìn tài chính tới học máy
Bên cạnh đó, chúng ta sẽ cùng nhau tiếp cận các kỹ thuật cơ bản trong Python bao gồm nhập, lọc, trực quan hóa, tóm tắt, phân tích dữ liệu giao dịch và chuẩn bị dữ liệu để sử dụng trong các mô hình, từ đó có thể đưa ra những quyết định đúng đắn cho doanh nghiệp.
Chúc các bạn học tập vui vẻ!