Bài 1: Hướng dẫn cài đặt
1. Github & Github Desktop
GitHub là sự kết hợp giữa 2 từ:
Git – hệ thống quản lý dự án và phiên bản code.
Hub – nơi biến những dòng lệnh trên Git thành mạng xã hội cho lập trình viên.
Khi chúng ta tham gia các dự án công nghệ, ta thường làm việc theo nhóm. Github được sinh ra như một nơi lưu trữ các tài nguyên chung của nhóm, nơi quản lý các phiên bản giúp các thành viên trong nhóm có thể giám sát toàn bộ thay đổi của dự án, từ đó tăng sự hiệu quả làm việc.
Một thuật ngữ cần nhớ:
Repository: kho lưu trữ, chứa toàn bộ dữ liệu thông tin, hình ảnh, video, bảng biểu… và các thay đổi trong quá trình thực hiện dự án.
Push: lệnh đưa nội dung mà bạn commit từ kho lưu trữ ở local lên kho lưu trữ server.
Fetch: lệnh lấy dữ liệu trên kho lưu trữ server để tích hợp vào branch.
Pull/rebase: lệnh sử dụng trên kho lưu trữ server, giúp bạn di chuyển toàn bộ dữ liệu trên kho này về máy tính để tích hợp dữ liệu vào branch.
Commit: thao tác ghi lại việc thêm/thay đổi file hay thư mục vào kho lưu trữ.
Với những bạn mới bắt đầu tìm hiểu và chưa quen sử dụng những câu lệnh trên Terminal/Prompt máy tính, Github Desktop là một công cụ trực quan quản lý kho lưu trữ local, cũng như giải pháp giúp cho các bạn làm quen với Github dễ dàng hơn khi thực hiện các thao tác, dòng lệch Git cơ bản thông qua những button có thể dễ dàng click chuột trên giao diện.
Tham khảo:
2. Anaconda
Anaconda là 1 nền tảng phân phối các thư viện Python với hơn 25 triệu người dùng, giúp bạn có thể dễ dàng quản lý các môi trường ảo. Mình khuyến khích các bạn mới bắt đầu học làm quen và dùng Anaconda bởi những lí do sau:
- Anaconda đơn giản, dễ sử dụng với 1 hệ sinh thái nguồn mở, đáp ứng nhu cầu về khoa học dữ liệu với Python.
- Mình khuyến khích mọi người dùng môi trường ảo và cài những thư viện cần thiết cho 1 dự án của bạn trên 1 môi trường ảo.
- Khi ta làm nhiều dự án và cài hết các thư viện cần thiết từ các dự án khác nhau về 1 nơi thì các thư viện, tài nguyên dễ bị xung đột phiên bản, ảnh hưởng đến việc thực thi mã nguồn của bạn. Với Anaconda, mỗi dự án ta có thể dễ dàng tạo 1 môi trường ảo riêng, sau khi kết thúc dự án ta chỉ cần xoá cái môi trường ảo là xong, đơn giản và nhanh gọn.
- Khi làm theo nhóm, việc sử dụng môi trường ảo cũng giúp các bạn chia sẻ các thư viện đúng phiên bản được cài đặt với người khác, đảm bảo sự đồng nhất trong phiên bản giữa các bạn trong nhóm.
Thông thường, khi bạn cài Anaconda thì nó sẽ tự động cài thêm cho bạn Python và 1 số thư viện Python hữu ích như Matplotlib, NumPy và SciPy. Ta có thể làm quen với Terminal/Anaconda Prompt bằng 1 số câu lệnh cơ bản:
python --version
: kiểm tra phiên bản của Python, phiên bản mới nhất hiện tại là 3.9.6
where conda
: tìm xem vị trí conda được lưu tại đâu trong máy
pwd
(print working directory): vị trí hiện tại đang trỏ đến, đang làm việc
open folder-name
: mở thư mục
Một số câu lệnh cơ bản với Anaconda:
conda create -n zootopi python=3.8
: tạo môi trường ảo với python phiên bản 3.8
conda install packagename
: cài đặt thư viện vớipackagename
là tên của thư viện, ví dụpandas
,seaborn
, ...
conda env remove -n zootopi
: xoá môi trường ảo
conda env list
: liệt kê các môi trường ảo đã tạo
Tham khảo:
- Tải Anaconda tại đây.
3. Jupyter vs Colab
3.1. Jupyter, Jupyter Notebook, Jupyter Lab
Jupyter là một nền tảng tính toán khoa học mã nguồn mở cho phép tương tác trực tiếp với từng dòng code, hỗ trợ hơn 40 ngôn ngữ lập trình, trong đó tập trung vào 3 ngôn ngữ là Julia, Python và R và cái tên Jupyter bắt nguồn từ cách chơi chữ Jupyter = Julia + Python + R. Trước đây là nó có tên là IPython, đến năm 2014 lại đổi tên thành Jupyter.
Là môi trường làm việc phổ biến nhất cho phân tích Khoa học dữ liệu bằng Python
Jupyter Notebook >> Jupyter Lab
Các file Python gốc sẽ có đuôi
.py
. và file jupyter sẽ có đuôi là.ipynb
.Jupyter cung cấp môi trường làm việc:
- Đa ngôn ngữ
Jupyter = Julia + Python + R
- Đa nền tảng:
Windows
,Ubuntu
,MacOS
- Nền web
- Tích hợp hiển thị kết quả lập trình và trực quan hoá dữ liệu
- Đa ngôn ngữ
Để chạy notebook, ta sử dụng câu lệnh jupyter lab
hoặc jupyter notebook
.
3.2. Trình quản lý thử viện PIP
PIP
pip
viết tắt củaPackage Installer for Python
, là trình quản lý giúp người dùng cài đặt, gỡ bỏ và cập nhật các gói thư viện trên Python.Để cài đặt, ta sử dụng câu lệnh
pip install <tên_thư_viện> tử Anaconda Prompt
vàpip
sẽ tự động tải xuống và cài đặt theo yêu cầu của người dùng, ví dụ:
!pip install scikit-learn
3.3. Google Colab (optional)
Môi trường
colab
là 1 nền tảng được cung cấp miễn phí bởi Google và chạy trên nền Jupyter, giúp người dùng có thể dễ dàng mở và chạyJupyter notebook
từ bất kỳ đâu mà không cần cài đặt bất kỳ thứ gì.Truy cập
colab
tại địa chỉ https://colab.research.google.com/ và bắt đầu viết code.Giao diện
colab
gần như giống y hệt vớiJupyter notebook
. Tuy nhiên tính năng thì vô vàn! Ví dụ khả năng kết nối tới Google Drive hay khả năng chia sẽ notebook ...
Ở trong bài tiếp theo, chúng ta sẽ làm quen với những thành phần cơ bản của Python.