Cross-sectional là gì

     

Một trong số những điều độc đáo nhất khi thao tác cùng với tài liệu là tính muôn hình vạn trạng của nó. Mặc dù thống kê với học sản phẩm công nghệ là 2 siêng ngành chính phân tích về dữ liệu, tất cả rất nhiều phương pháp phân tích dữ liệu được thành lập và hoạt động từ những yêu cầu phân tích của các ngành không giống – nhất là trường đoản cú tính đặc điểm trong tài liệu của ngành đó. Ví dụ nổi bật là tài chính lượng (econometrics), gần như một ngành học thành lập để phân tích những dữ liệu trong tởm tế, khi dữ liệu đa phần được thu thập dưới dạng bảng (panel data). Nội dung bài viết sau đây của bản thân mình sẽ ra mắt với chúng ta những kiểu biến chuyển số, đặc điểm dữ liệu phổ biến, từ đơn giản và dễ dàng đến tinh vi và các dạng mô hình tương ứng với đều kiểu dạng và đặc điểm đó.

Trong bài bác này, tài liệu được phát âm là processed data, tức là những gì chúng ta có trong tay trước lúc xây dựng tế bào hình. Lúc đó những biến (cả features với response) đông đảo ở bên dưới dạng các con số (numeric); ví dụ, dữ liệu thô có thể là một bức hình ảnh 800*600, thì processed data bao gồm các numeric features của 480,000 điểm ảnh. Hay nếu như một feature bên dưới dạng binary (như Yes/No), nó được chuyển về dạng 0-1. Hay nếu bạn phân tích text data, “dữ liệu” trong bài bác này được gọi là những term frequency. Trong bài xích này, các mô hình mình nói tới hay là những supervised model, với các features (X) và biến đổi response (y).

Bạn đang xem: Cross-sectional là gì

A. Phân một số loại theo cực hiếm mà biến được nhận

Continuous/Interval Variable – biến hóa liên tục

Đây là dạng hình dữ liệu thông dụng và đơn giản và dễ dàng nhất, khi biến đổi số rất có thể nhận tài liệu tại bất cứ điểm làm sao trên trục số, hoặc bất cứ điểm như thế nào trong một khoảng. Ví dụ, độ cao và khối lượng của một tín đồ bất kì rất có thể nhận bất cứ giá trị lớn hơn 0 nào, doanh thu của một doanh nghiệp lớn trong một năm cũng tương tự vậy. Tất yếu trên thực tế, bạn luôn luôn luôn có một niềm tin về ngưỡng tối đa hoặc tối thiểu của giá bán trị, nhưng điểm lưu ý đặc trưng duy nhất của loại trở thành này là nó hoàn toàn có thể nhận bất cứ giá trị như thế nào trong ngưỡng đó. Đồng thời, các giá trị của nó tất cả tính đồ vật tự (ordered), ví dụ chúng ta cũng có thể so sánh cân nặng 160 kg nhỏ dại hơn 170 kg. Dữ liệu liên tiếp kiểu này chất nhận được bạn quy mô bằng đầy đủ phân phối thường xuyên rất thân quen thuộc, như triển lẵm chuẩn, phân phối đều, etc. Tuyệt như khi chúng ta sử dụng các mô hình hồi quy tuyến tính, một điều kiện tiên quyết là đổi thay response y là 1 trong biến liên tục. Mặc dù vậy, kiểu biến tiếp tục này có nhiều tình huống đặc biệt, dưới đó là một số thứ hạng như thế:

Các biến đổi về tỉ trọng (Rate/ratio): những biến này luôn luôn ở trong khoảng từ 0 đến 1, tự conversion rate trong marketing tính đến tỉ lệ tử vong vào một dịch bệnh. Không ít nghiên cứu vãn vẫn sử dụng những biến này như những biến liên tục với bày bán chuẩn, nhưng mà nếu muốn kiểm soát điều hành điều khiếu nại từ 0 đến 1 sinh sống trên, một mô hình phổ biến đổi là hồi quy beta (beta regression).

Xem thêm: Tìm Kiếm Với Từ Khóa "Bán Nhà Cấp 4 Sổ Đỏ Chính Chủ", Bán Nhà Hẻm Xe Hơi, Nhà Trong Ngõ Giá Rẻ Tại Tp

Circular/Directional variable: các biến về giá trị góc bên trên một đường tròn. Trong các ngành như địa hóa học học, sinh học, đôi khi hướng (directional) là một trong những mối quan lại tâm; ví dụ, khám phá về điều hướng (navigation) của các loài chim, hay được dùng hướng gió để tham gia đoán độ đậm đặc ozone trong không khí. Circular variable ghi bên dưới dạng những góc của một cung tròn, từ bỏ 0 độ đến 360 độ, nên không ít các phép tính thông thường như trong trở nên liên tục có thể không tất cả ý nghĩa; ví dụ, quan liêu sát trước tiên là 10 độ, với quan liền kề thứ hai là 350 độ – 2 góc nằm ở góc phần tư trước tiên và máy 4 của con đường tròn. Mặc dù vậy nếu bạn lấy vừa phải 2 góc là 180 độ, nó gần như là nằm tại 1 vị trí rất khác. Bởi thế, điểm chủ yếu khi làm việc với circular variable là việc sử dụng những toạ độ cực (polar coordinates).

Xem thêm: Cách Làm Bánh Ngọt Từ Bột Mì, Tổng Hợp 38 Cách Làm Bánh Làm Từ Bột Mì

2. Binary variable – những biến nhị phân

Biến nhị phân là trở nên mà chỉ có thể nhận 2 cực hiếm là 0 và 1 – khớp ứng với những đo lường trong một phân nhiều loại (category) chỉ có 2 quý hiếm (levels) mang đến phép, như Có/Không, Đúng/Sai, etc. Khi những biến này lộ diện trong mô hình dưới dạng là vươn lên là response, việc trở thành câu hỏi phân lớp (classification) với rất nhiều thuật toán phổ biến như logistic regression, SVM, etc. Khác với đổi mới liên tục, vươn lên là nhị phân không có tính đồ vật tự. Ở đây 0 và 1 chỉ thay mặt đại diện cho 2 nhóm, chứ KHÔNG gồm tính đối chiếu như là 030, phụ nữ >30, nam

*

Các trở thành multinomial variable là 1 sự không ngừng mở rộng của các biến nhị phân, lúc phân loại (category) có tương đối nhiều hơn 2 phân lớp (levels). Ví dụ như một phân nhiều loại về xu hướng chính trị sống Mỹ có thể có Democrats/Republican/Neutral, etc. Lúc được code vào trong sản phẩm công nghệ tính, những levels cũng tốt được khắc số như 1, 2, 3. Mặc dù vậy, điều nhấn mạnh đặc trưng ở đây là các levels này không có tính thiết bị tự (unordered), tức là bạn thiết yếu lấy tổng giỏi hiệu của các con số này, với đừng khi nào quên đọc biểu lộ về chân thành và ý nghĩa của những biến trước lúc phân tích.

Khi các biến multinomial variable mở ra là những biến response, vấn đề thường trở thành việc phân lớp nhiều tầng (multilevel classification). Khi các biến này xuất hiện dưới dạng những features, chúng thường được represented vì một vài trở nên nhị phân; ví dụ, trong lấy ví dụ như về xu thế chính trị nghỉ ngơi trên, cùng với 3 lớp Democrats/Republican/Neutral, thay bởi vì được represented là 1,2,hay 3, nó có thể được represented vày 2 vươn lên là nhị phân X1 = Democrats/Not Democrats cùng X2 = Republican/Not Republican. Theo phong cách này, một fan Democrats sẽ được code là (1,0), một tín đồ Republican được code là (0,1), và một bạn Neutral được code là (0,0). Bởi vì thế, những phân tích như trong biến chuyển binary variable (ANOVA/ANCOVA) hoàn toàn có thể được áp dụng.

Một tình huống hay gặp mặt khi làm việc với những biến nhị phân với multinomial variable là câu hỏi extremely unbalanced data giữa những phân lớp, tức là số lượng dữ liệu ở những level khôn xiết khác nhau. Ví dụ, khi mong xây dựng quy mô dự đoán liệu một người dân có ý định mua ô tô trong 3 tháng chuẩn bị tới, con số biến response nhận giá trị No (không mua) chỉ chiếm đại phần nhiều (một dataset mình đã nhận thức thấy tỉ lệ này khoảng chừng 95%). Trường hợp một quy mô phân lớp được xây dựng với cục bộ dataset này, nếu khách hàng không xem xét hiện tượng này, các bạn sẽ thấy độ đúng mực (accuracy rate) khôn xiết cao, nhưng thực ra lại không có rất nhiều ý nghĩa. Do vì, kể cả chẳng làm mô hình gì, chỉ còn việc quan cạnh bên dữ liệu, nếu như một fan dự đoán tất cả đều là No, độ đúng đắn đã lên tới 95%. Điều đặc trưng trong các quy mô này không phải là độ thiết yếu xác, cơ mà là false negative rate – tỉ lệ thành phần số tín đồ bạn dự kiến không cài đặt xe mà họ đã mua xe thực sự. Một kĩ thuật thông dụng với các extremely unbalanced data là việc thực hiện undersampling và oversampling để làm cho data mix trở bắt buộc balanced. Ví dụ chúng ta có 1000 quan tiếp giáp với 950 No và 50 Yes, undersampling chọn ra ngẫu nhiên 50 quan sát No, cùng ghép lại với 50 Yes để tạo thành một balance dataset với 50 quan giáp ở từng phân lớp. Ngược lại oversampling thì replicate mỗi 50 quan cạnh bên Yes 19 lần, tạo thành một balance cùng với 950 quan sát ở mỗi phân lớp. Các mô hình phân lớp trên những oversampled/undersampled dataset mang đến ta một bức tranh giỏi hơn về năng lực dự đoán của những mô hình.

Tuy vậy, những phương pháp under/over sampling này cũng có tương đối nhiều điểm yếu, như làm biến đổi phân phối của dữ liệu và chi tiêu cho vấn đề làm này quan trọng đặc biệt lớn trong big data; một số trong những cách làm khác, như theo phản hồi của bạn Nguyễn Tiến Đức, mang tính kĩ thuật hơn, đó là việc chuyển đổi các thông số của hàm mất đuối (loss function), hay được sử dụng area under the curve (AUC) của ROC để kiểm soát và điều chỉnh precision/recall của classification. Hoặc một bí quyết khác, đó là bài toán sử dụng các algorithm cơ mà work well cùng với unbalanced data – như tư vấn vector machine (SVM). Nắm lại, các bạn sẽ luôn cần cảnh giác với bài toán chọn algorithm cùng criteria để đánh giá các algorithm khi tất cả unbalanced data.

4. Count variable (Biến đếm)

Một tình huống phổ biến khác là chúng ta có tài liệu về số lần/số lượng một sự kiện xảy ra trong một khoảng thời gian nhất định, ví dụ số lượng tai nạn giao thông trong một năm, con số ca mắc bệnh dịch mới, etc. Đó là ví dụ về count data (biến đếm).

Khi đổi mới đếm lộ diện dưới dạng các features, thông thường nó được áp dụng như một biến chuyển liên tục. Chính vì mặc dù những giá trị của nó luôn luôn là số nguyên, nó luôn luôn có tính lắp thêm tự và bao gồm tính so sánh (một sự khiếu nại xảy ra gấp đôi thì ít hơn 3 lần). Trong số mô hình đơn giản và dễ dàng như quy mô hồi quy tuyến tính, ý nghĩa sâu sắc của thông số với những biến count rất có thể được diễn giải như với những biến liên tục trọn vẹn hợp lí. Ví dụ, khi bạn có nhu cầu hồi quy về độ đậm đặc CO2 trong không khí và con số cây xanh trong vùng, bạn hoàn toàn nói theo một cách khác cứ thêm một cây xanh nồng độ CO2 tăng/giảm một lượng độc nhất định.

Tuy nhiên, khi đổi mới đếm xuất hiện là một response variable, đk biến đếm đề nghị là số nguyên ko âm là một trong điều kiện ràng buộc. Ví dụ, trong nghành nghề bảo hiểm, bạn có nhu cầu mô hình số lượng tai nạn giao thông của một tín đồ dựa trên các yếu tố như thu nhập, nghề nghiệp, tuổi tác, giới tính, etc. Nếu như bạn sử dụng những quy mô cho biến liên tiếp như mô hình hồi quy con đường tính, dự đoán của bạn có thể dự đoán con số tai nạn giao thông vận tải là số âm. Không chỉ có thế các đổi thay count data thường hay bị lệch không hề ít – có nghĩa là số lượng các giá trị thấp như 0,1,2 chỉ chiếm phần lớn, cơ mà cũng có một ít các giá trị cao (như 15,16,…) – vào khi quy mô hồi quy tuyến đường tính thông thường với phân phối chuẩn giả định những response tương đối đối xứng.

Mô hình thịnh hành cho những biến count data nghỉ ngơi response variable là Poisson regression (mô hình hồi quy Poisson), negative binomial regression, và những phiên bạn dạng của 2 mô hình này để kiểm soát và điều chỉnh cho overdispersion. Một trường đúng theo cũng hay chạm chán là quy mô của những sự kiện thảng hoặc hoặc rất hiếm (rare sự kiện – extremely rare event) – phần đa sự khiếu nại này thường được đon đả lớn vị tuy nó ít khi xảy ra, dẫu vậy khi xảy ra, túi tiền hoặc loss thường hết sức cao, chính vì như thế đòi hỏi quy mô có độ đúng đắn lớn. Lấy ví dụ như nếu bạn muốn mô hình số lượng tai nạn máy cất cánh nghiêm trọng xảy ra trong một năm, bạn sẽ cần sử dụng các rare event models.

5. Ordinal variable

Trường hợp phổ biến của biến hóa kiểu này là các likert scale, khi dữ liệu thu được theo kiểu các thắc mắc “Đánh giá bán mức độ chấp nhận với sản phẩm trên thang điểm từ 1 đến 10”. Nếu các biến này xuất hiên dưới dạng các features, thông thường hoàn toàn có thể sử dụng nó như một phát triển thành liên tục.Tuy vậy, nếu những biến này là những response, các biến này hoàn toàn có thể xem như 1 sự lai tạp giữa các biến multinomial và đổi mới liên tục. Chú ý qua, những biến này có vẻ gần giống với biến multinomial làm việc chỗ, các chúng ta có thể xem như mỗi mức thang (từ 1 cho 10) như một level; mặc dù vậy, không giống như các đổi thay multinomial, những levels này có tính thứ tự. Ngược lại, nó không hoàn toàn như phát triển thành liên tục, vì những giá trị của nó luôn là số nguyên, và các scale của nó rất có thể hơi tuỳ một thể (lúc thì thang điểm từ là 1 đến 5, lúc thang điểm lại từ 5 cho 10, v.v). Kiểu dữ liệu này mang lại những quy mô trung gian thân hồi quy (regression) và phân lớp (classification).

Một quy mô phổ phát triển thành của trường hợp này là các quy mô với biến đổi ẩn (latent variable model). Quay lại với ví dụ sống trên về cường độ hài lòng. Mô hình biến ẩn này mang đến rằng, mức độ chuộng thật là một trong biến thường xuyên từ 0 cho 10, và những giá trị số nguyên vào likert scale sẽ tương xứng với một khoảng của biến liên tục này. Ví dụ, nếu biến thường xuyên có cực hiếm từ 0 đến 1.8, trên likert scale đã là 1, từ bỏ 1.8 cho 2.9, bên trên likert scale đang là 2. Bài toán trở thành tìm những điểm giới hạn cho mỗi likert score trên các biến tiếp tục (như những số 1.8 tuyệt 2.9 vào ví dụ sinh sống trên). Rõ ràng, biến tiếp tục này không quan giáp được, nên được gọi là biến hóa ẩn.

Phần nghỉ ngơi trên mình nói tới các kiểu dữ liệu thường gặp phân loại theo các giá trị nó hoàn toàn có thể nhận, tiếp sau đây sẽ là các đặc điểm dữ liệu thông qua tính chất của quy trình thu thập.

B. Phân nhiều loại theo tính chất của quá trình thu thập

Cross-sectional data (Dữ liệu cắt ngang)

Cross-sectional data là mẫu mã dữ liệu đơn giản nhất, khi các biến số chỉ được thu thập tại một thời điểm độc nhất định, hoặc giá chỉ trị của những biến số gần như là không thay đổi theo thời gian hay không gian trong phạm vi của nghiên cứu. Mục đích chính của việc sử dụng cross-sectional data là khi bạn quan tâm nhiều hơn tới các biến số và mối quan hệ giữa bọn chúng dựa trên bản chất của nó, chứ không niềm nở tới liệu những biến số và những mối quan liêu hệ biến đổi theo thời gian/không gian như thế nào. Ví dụ, bạn sẽ sử dụng một cross-sectional data nếu như muốn tò mò mối quan hệ giới tính giữa các khoản thu nhập và trình độ chuyên môn học vấn nói chung, không nói tơi bài toán thu nhập với học vấn thay đổi theo thời gian như thế nào.

Đặc điểm đặc trưng nhất của những quan liền kề trong cross-sectional data là hoàn toàn có thể coi nó tự do (independent), và chính vì như thế các quan liêu sát rất có thể exchangable (trong ví dụ nói trên, bạn thu thập thu nhập và học vấn của fan 1 hay fan thứ 1000 trước ko quan trọng, và định danh của fan 1 hay tín đồ thứ 1000 is indistinguishable). Thừa nhận dạng cross-sectional data tương đối đơn giản và dễ dàng bằng việc bạn không thấy yếu tố thời gian được hỗ trợ trong những biến số. Các mô hình cho cross-sectional data là các quy mô cơ bản nhất.

2. Time series data cùng Panel data: (Dữ liệu theo chuỗi thời hạn và dữ liệu mảng)