R for Lean Six Sigma

Phân Tích Định Lượng với R

Spread the love

Lean Help hân hạnh giới thiệu đôi lời về quyển sách “PHÂN TÍCH ĐỊNH LƯỢNG VỚI HÀM VÀ THÔNG SỐ TRONG R”. Quyển sách này được thiết kế với khổ in như là một cuốn cẩm nang với bề ngoài nhỏ gọn và nội dung được tối giản hóa nhằm giúp bạn đọc tham khảo nhanh các lệnh thực thi cũng như ví dụ minh họa cho 7 nội dung thống kê phổ biến trong công việc hằng ngày bằng R:

  • Xử lý dữ liệu cơ bản
  • Các biểu đồ thông dụng
  • Kiểm định thống kê
  • Phân tích phương sai
  • Phân tích hồi quy
  • Một số công cụ Six Sigma
  • Khai thác dữ liệu văn bản (text mining)

Bạn có thể tải dữ liệu đính kèm theo sách bằng link sau:

Tập tin thực hành R

Tại thời điểm mà bài chia sẽ này được đăng thì đã có tới 10,019 (01/02/2017) các gói chức năng (package) được sử dụng trong môi trường R. Mỗi một package như vậy được lập trình để xử lý một hoặc một vài vấn đề nào đó liên quan tới thống kê hoặc phân tích dữ liệu. Ví dụ package có tên là SixSigma sẽ cung cấp một số công cụ phân tích dữ liệu quá trình như Gage R&R. Theo bạn 10,019 package có gọi là khủng không và không những thế theo mô hình xu hướng sau thì cuối năm 2017 sẽ hơn 14,000 package!

Thống kê nói chung và phân tích dữ liệu nói riêng với R chính là xu hướng chung của thời đại nguồn mở (open source) này. Chính vì vậy, học sinh, sinh viên, các nhà nghiên cứu và chuyên gia nên biết cách sử dụng R cho phân tích và đồ thị thống kê với các lợi ích được tóm tắt như sau:

  • Mã nguồn mở và hoàn toàn miễn phí
  • Đa dạng và liên tục cập nhật các kỹ thuật phân tích và đồ thị thống kê
  • Cộng đồng người dùng lớn mạnh và phong phú các tài liệu tham khảo
  • Phù hợp với các hệ điều hành UNIX, FreeBDS, Linux, Windows và MacOS

Tuy nhiên, vì R là một ngôn ngữ lập trình nên người dùng cần biết sử dụng mã nguồn (package) nào, hàm nào, và viết cú pháp đúng trong R để phục vụ cho việc phân tích, điều này làm cho R kém thân thiện. Một số các trở ngại phổ biến trong khi sử dụng R có thể kể đến như:

  1. Cần phải biết và nhớ cú pháp, hàm phục vụ cho phân tích. Ví dụ, để thực hiện thống kê mô tả cho biến SAS trong tập dữ liệu đính kèm theo sách có tên là softwares® thì người dùng cần nhập vào R như sau:
    1. setwd("C:/Tap tin thuc hanh R/Muc 1-Gioi thieu") #thiết lập đường dẫn tới tập tin
    2. softwares <- read.csv ("softwares.csv", header=TRUE) #gán dữ liệu vào đối tượng 
    3. summary(softwares$SAS) #tóm tắt dữ liệu
    1. ##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    2. ##    8620   12500   32100   34320   52800   64400
  2. Nhiều cú pháp, hàm và các thông số. Ví dụ, nếu người dùng muốn vẽ biểu đồ 3 biến như hình sau thì người dùng nhập hàm matplot và các thông số như sau:
    1. setwd("C:/Tap tin thuc hanh R/Muc 1-Gioi thieu") #thiết lập đường dẫn tới tập tin
    2. softwares <- read.csv ("softwares.csv", header=TRUE) #gán dữ liệu vào đối tượng
    3. matplot(x=softwares$Year, softwares[,2:4], type = c("b"), pch=1:3,col = 1:3, 
    4.     main="Comparison of Statistical software", xlab="Year", 
    5.     ylab="Publications on Google Scholar") # vẽ đồ thị
    6. legend("topleft", legend = c("R", "SAS", "SPSS"), col=1:3, pch=1:3) #chèn chú thích

  3. Bởi vì là một ngôn ngữ lập trình nên người dùng cần phải nhập chính xác mã cú pháp, hàm và các thông số yêu cầu. Ví dụ, để thực hiện thống kê mô tả cho biến SAS trong tập dữ liệu có tên là softwares® như đã đề cập từ trước nhưng lần này người dùng nhập sai Summary (chữ S viết hoa) thay vì nhập đúng là summary (chữ s viết thường), thì R báo lỗi như sau:
    1. Summary(softwares$SAS)
    1. #Error in (function (classes, fdef, mtable): unable to find an inherited method for function ‘Summary’ for signature ‘"integer"

Chính vì các trở ngại kể trên, cuốn “PHÂN TÍCH ĐỊNH LƯỢNG VỚI HÀM VÀ THÔNG SỐ TRONG R” này được viết nhằm hỗ trợ người đọc sử dụng R dễ dàng thông qua việc liệt kê các cú pháp, hàm và mã nguồn thông dụng trong xử lý dữ liệu cơ bản, các biểu đồ thông dụng, kiểm định thống kê, phân tích phương sai, phân tích hồi quy, một số công cụ Six Sigma, và khai thác dữ liệu văn bản (text mining) cùng với các ví dụ đã được kiểm chứng trên phần mềm R.

Lean Helper khuyến khích bạn tìm đến quyển sách này và gặt hái thành công!

Leave a Reply

Your email address will not be published. Required fields are marked *

fifteen + ten =