Bài 1: Dữ liệu tài chính
1. Các kiểu dữ liệu dưới góc nhìn tài chính
Trong phần đầu tiên này, chúng ta sẽ cùng nhau tổng hợp các loại dữ liệu liên quan đến thị trường tài chính và chứng khoán.
1.1. Vốn chủ sở hữu
Để giúp các bạn làm quen với các khái niệm trong tài chính, chúng ta sẽ cùng nhau đi qua một số khái niệm dữ liệu cơ bản được tổng hợp dưới đây.
Dữ liệu | Ý nghĩa | Mô tả |
---|---|---|
Industry Classification | Phân loại ngành | Dữ liệu này phần lớn mang tính phân loại và không thay đổi theo thời gian, trừ khi công ty tham gia vào một ngành mới. |
Index Membership | Chỉ số thành viên | Dữ liệu nhị phân (trong hoặc ngoài tư cách thành viên) và phần lớn là bất biến theo thời gian giữa các lần cân bằng lại chỉ số. |
Returns | Lợi nhuận | Lợi nhuận thu được từ các mức giá liên tiếp. |
Votality | Biến động | Biến động của một công ty, mang giá trị dương. |
Skew | Độ lệch | Độ lệch theo dõi mục tiêu di chuyển của tiền và các biến động quyền chọn ở các mức khác nhau. Đây là một thông số khó đo lường vì, khi giá cổ phiếu thay đổi, các tác động cụ thể đến tiền và ngoài tiền cũng thay đổi theo. |
Financing costs | Chi phí tài chính | Một cổ phiếu nhất định hoặc một trái phiếu cụ thể từ một tổ chức phát hành có thể có chi phí tài chính rất cao do nguồn cung khá hạn chế. Khi các mặt hàng trở nên "đặc biệt", chúng trở nên rất đắt tiền. |
Porfolio Fees | Phí đầu tư | Các khoản phí có thể dựa trên cả hoạt động giao dịch và tài sản được quản lý. Đây là một ví dụ về dữ liệu có thể chứa dữ liệu kết hợp. |
... | ... | ... |
1.2. Trái phiếu và các tài sản khác
Tương tự với dữ liệu liên quan đến vốn chủ sở hữu, có rất nhiều dữ liệu khác nhau có thể thu thập từ thị trường trái phiếu, ví dụ như:
Tên dữ liệu | Dịch | Mô tả |
---|---|---|
Bond Yields | Lợi suất trái phiếu | Lợi suất trái phiếu phản ánh tỷ lệ lợi nhuận mà nhà đầu tư thu được trên mệnh giá trái phiếu. |
Bond Financing | Tài trợ trái phiếu | Đây là một loại hình vay dài hạn mà chính quyền tiểu bang và địa phương thường sử dụng để huy động tiền, chủ yếu cho các tài sản cơ sở hạ tầng tồn tại lâu dài. |
Bond Issuance | Phát hành trái phiếu | Đây là một cách để huy động tiền bằng cách phát hành một số lượng trái phiếu có chức năng như một khoản vay giữa nhà đầu tư và công ty. |
Bond Spreads | Chênh lệch tín dụng | Đây là mức chênh lệch giữa lợi suất của trái phiếu chính phủ với chứng khoán nợ có thời gian đáo hạn giống nhau tuy nhiên lại khác biệt về chất lượng tín dụng. |
Issuer | Công ty phát hành | Công ty phát hành trái phiếu. |
Credit Ratings | Xếp hạng tín dụng | Xếp hạng tín dụng của một công ty, biến động theo thời gian. |
Default Probabilities | Xác suất mặc nợ | Xác suất mặc nợ của một công ty. |
Recovery Rates | Tỷ lệ phục hồi | Tỷ lệ phục hồi của một công ty. |
Default Correlations | Tương quan mặc nợ | Tương quan mặc nợ của một công ty. |
... | ... | ... |
1.3. Dữ liệu khác
Với bất kỳ loại tài sản nào, khi thu thập dữ liệu, chúng ta cũng có thể thu thập được rất nhiều dữ liệu khác nhau với hàng trăm yếu tố cơ bản và kỹ thuật khác nhau, ví dụ như: tỷ lệ giá trên thu nhập, dải trên Bollinger, v.v. Để có thể kể hết hàng trăm yếu tố này có lẻ một bài viết là không đủ.
Ngoài ra, chúng ta không thể không kể đến những dữ liệu ngoài có sẵn như các thông tin truyền thông như: tin tức, báo cáo tài chính, khuyến nghị của nhà phân tích, nội dung mạng xã hội, v.v. Thông thường, những nhóm dữ liệu này có xu hướng không phải là số, và cần được tiền xử lý trước khi có thể trở thành thông tin hữu ích.
2. Các kiểu dữ liệu dưới góc nhìn học máy
Trong học máy, dữ liệu tài chính có thể được chia thành ba loại chính dựa trên cấu trúc dự liệu, bao gồm: dữ liệu có cấu trúc, phi câu trúc, và bán cấu trúc.
2.1. Dữ liệu có cấu trúc
Dữ liệu có cấu trúc là dữ liệu có thể được tổ chức dưới dạng bảng bao gồm các hàng và cột, trong đó hàng phản ánh thời gian quan sát và cột tương ứng với các biến (đặc trưng). Kiểu dữ liệu này thường được lưu trữ dưới dạng các file có đuôi .csv, .json, .xml, v.v.
Dễ giúp các bạn dễ hình dung hơn về dữ liệu có cấu trúc trong tài chính, ta sẽ xem xét một ví dụ về dữ liệu tài chính. Ví dụ, bạn có thể có một ma trận 1000 x 100 giá cổ phiếu. Khi đó, 1000 hàng đại diện cho số lần đóng giao dịch hàng ngày (theo ngày làm việc) trong khoảng 4 năm. 100 cột đại diện cho 100 cổ phiếu trong một quỹ giao dịch trao đổi với mỗi phần tử trong ma trận là giá cổ phiếu của một cổ phiếu tại một thời điểm.
Trong Python, dữ liệu có cấu trúc có thể dễ dàng được thu thập, phân tích, và xử lý với các thư viện quen thuộc như: Pandas, Numpy, Scipy, v.v. Các thư viện này cung cấp cho bạn các công cụ để xử lý dữ liệu có cấu trúc, như: đọc, ghi, lọc, sắp xếp, thống kê, v.v.
2.2. Dữ liệu phi cấu trúc
Trong thực tế, hầu hết dữ liệu tài chính là dạng số, nhưng tất nhiên cũng có dữ liệu phi số, có thể kể đến như các bài đăng trên mạng xã hội, các trang web đánh giá, hình ảnh, âm thanh và tệp video.
Ví dụ, nếu bạn đang quan tâm đến cổ phiếu một công ty cụ thể, có lẽ bạn sẽ quan tâm đến các bài đăng từ Facebook, Twitter hoặc các trang mạng xã hội khác phản ánh sự lạc quan hay tiêu cực ngắn hạn về cổ phiếu của công ty đó. Hay bạn cũng có thể quan tâm đến các bài đánh giá của các nhà đầu tư chuyên nghiệp về cổ phiếu của công ty. Các bài đánh giá này có thể được lưu trữ dưới dạng văn bản (.txt, .pdf, .doc), hình ảnh (.jpg, .png), âm thanh (.mp3), tệp video (.mp4, .mov), v.v.
Không như dữ liệu có cấu trúc, dữ liệu phi cấu trúc không dễ lưu trữ do định dạng độc đáo, không tuân theo bất kì định dạng, quy tắc cụ thể nào.Trong Python, dữ liệu phi cấu trúc có thể được xử lý dưới dạng từ điển và danh sách, có thể cho phép xử lý linh hoạt các kiểu dữ liệu và độ dài dữ liệu khác nhau. Tuy nhiên, việc xử lý dữ liệu phi cấu trúc vẫn còn khó khăn, đặc biệt là khi dữ liệu có nhiều chiều và có nhiều dạng dữ liệu khác nhau.
2.3. Dữ liệu bán cấu trúc
Dữ liệu bán cấu trúc là sự kết hợp của dữ liệu có cấu trúc và phi cấu trúc. Ví dụ, bạn có thể có một bảng dữ liệu về các cổ phiếu, trong đó mỗi cột là một thuộc tính của cổ phiếu, và mỗi hàng là một cổ phiếu. Tuy nhiên, một số cột có thể là dữ liệu phi cấu trúc, ví dụ như các bài đánh giá về cổ phiếu. Các thuộc tính này có thể được lưu trữ dưới dạng văn bản, hình ảnh, âm thanh, tệp video, v.v.
Trong Python, dữ liệu bán cấu trúc có thể được xử lý bằng sự kết hợp của các cấu trúc dữ liệu. Rất khó để đưa ra một quy tắc cụ thể, nhưng Python chắc chắn có nhiều cấu trúc dữ liệu khác nhau để xử lý điều này.
3. Tổng kết
Vậy là trong phần này, chúng ta đã cùng nhau tìm hiểu về các kiểu dữ liệu dưới góc nhìn tài chính thuần và học máy thuần. Nếu trong lĩnh vực tài chính thuần, ta đã quen thuộc với khái niệm "thấu hiểu khách hàng" (KYC, viết tắt của Know Your Customer), thì dưới góc nhìn kĩ thuật, khi xử lý dữ liệu tài chính, ta có một thuật ngữ tương tự, đó là "thấu hiểu dữ liệu" (KYD, viết tắt của Know Your Data). Vậy làm thế nào để chúng ta có thể thấu hiểu dữ liệu? Hẹn các bạn trong bài viết tiếp theo.
Chúc các bạn học tập vui vẻ!
Một số tài liệu tham khảo:
- Machine Learning for Financial Risk Management with Python, Abdullah Karasan, 7 December 2021.
- WoldQuant University. “MscFe 600 Financial Data.” WoldQuant University, https://learn.wqu.edu/my-path/courses/financial-data/. Accessed 22 August 2022.