CHƯƠNG 2. CẤU TRÚC DỮ LIỆU HƯỚNG ĐỐI TƯỢNG
2.1.3. Tổ chức theo hướng dữ liệu-DDO
Trong ngành công nghiệp hiện đại ngày nay, dữ liệu là thành phần quan trọng trong chiến lược của mọi công ty. Hầu hết các công ty, đặc biệt là các doanh nghiệp lớn, đang đầu tư rất nhiều vào việc thu thập, lưu trữ và phân tích dữ liệu. Một tổ chức tuân theo các thông lệ này được gọi là Tổ chức theo hướng dữ liệu.
Thuật ngữ “Tổ chức theo hướng dữ liệu” không phải là một khái niệm mới. Đơn giản là bất kỳ doanh nghiệp nào đưa ra quyết định dựa trên sự thật thay vì dựa trên ý kiến, cảm xúc và cảm xúc. Trong một tổ chức như vậy, việc ra quyết định theo hướng dữ liệu không chỉ xảy ra ở cấp quản lý cấp cao mà ở tất cả các cấp của tổ chức. Tổ chức theo hướng dữ liệu đưa ra các quyết định đúng đắn trong một chu kỳ kinh doanh liên tục theo hướng dữ liệu
Các tổ chức định hướng dữ liệu nổi tiếng nhất là các công ty Internet tiêu dùng:
Google, Amazon, Facebook và LinkedIn. Tuy nhiên, hướng dữ liệu không chỉ giới hạn ở Internet. Walmart đã đi tiên phong trong việc sử dụng dữ liệu từ những năm 1970.
Đây là một trong những tổ chức đầu tiên xây dựng kho dữ liệu lớn để quản lý hàng tồn kho trong toàn bộ hoạt động kinh doanh của mình. Điều này giúp nó trở thành công ty đầu tiên có doanh thu hơn 1 tỷ đô la trong 17 năm đầu tiên. Và sự đổi mới không dừng lại ở đó. Vào những năm 1980, Walmart nhận ra rằng chất lượng dữ liệu của mình không đủ, vì vậy để có được dữ liệu tốt hơn, Walmart đã trở thành công ty đầu tiên sử dụng máy quét mã vạch tại máy tính tiền. Công ty muốn biết những sản phẩm đang bán và vị trí của những sản phẩm đó trong cửa hàng ảnh hưởng như thế nào đến doanh số bán
hàng. Nó cũng cần phải hiểu các xu hướng theo mùa và sự khác biệt giữa các khu vực đã ảnh hưởng đến khách hàng của mình như thế nào. Khi số lượng cửa hàng và khối lượng hàng hóa tăng lên, sự phức tạp trong quản lý hàng tồn kho của nó cũng tăng lên.
Nhờ vào dữ liệu lịch sử, kết hợp với mô hình dự đoán nhanh, công ty có thể quản lý đường cong tăng trưởng của mình. Để giảm thêm thời gian đưa dữ liệu của mình thành quyết định, nó đã trở thành công ty lớn đầu tiên đầu tư vào công nghệ RFID. Gần đây, nó đã nỗ lực đằng sau các công nghệ xử lý dữ liệu tiên tiến như Hadoop và Cassandra.
Điều gì về các tổ chức dựa trên dữ liệu này cho phép họ sử dụng dữ liệu để đạt được lợi thế cạnh tranh? Thu thập, xử lý và tận dụng dữ liệu kịp thời để tạo ra hiệu quả, lặp lại và phát triển các sản phẩm mới cũng như điều hướng bối cảnh cạnh tranh.
Các bước đầu tiên khi làm việc với dữ liệu là thu thập và xử lý. Nhưng không rõ phải làm những việc này thường xuyên là gì. Các tổ chức dựa trên dữ liệu tốt nhất tập trung không ngừng vào việc giữ cho dữ liệu của họ sạch sẽ. Dữ liệu phải được sắp xếp, ghi chép tốt, định dạng nhất quán và không có lỗi. Làm sạch dữ liệu thường là phần quan trọng nhất của khoa học dữ liệu và thường là 80% công việc. Việc thiết lập quy trình làm sạch dữ liệu trên quy mô lớn thêm phức tạp hơn. Các tổ chức thành công đầu tư rất nhiều vào công cụ, quy trình và đánh giá thường xuyên. Họ đã phát triển một nền văn hóa hiểu được tầm quan trọng của chất lượng dữ liệu; nếu không, như câu ngạn ngữ, rác vào, rác ra.
Một số lượng đáng ngạc nhiên là các tổ chức đầu tư rất nhiều vào việc xử lý dữ liệu, với hy vọng rằng mọi người sẽ đơn giản bắt đầu tạo ra giá trị từ nó. Kết quả là chi phí hoạt động và vốn lớn để tạo ra một kho dữ liệu hiếm khi được sử dụng. Các tổ chức tốt nhất sử dụng dữ liệu của họ. Họ sử dụng dữ liệu để hiểu khách hàng và các sắc thái kinh doanh của họ. Họ phát triển các thí nghiệm cho phép họ kiểm tra các giả thuyết cải thiện tổ chức và quy trình của họ. Và họ sử dụng dữ liệu để xây dựng sản phẩm mới.
Phần tiếp theo giải thích cách họ làm điều đó.
Dân chủ hóa dữ liệu
Dân chủ hóa dữ liệu là một trong những ý tưởng mạnh mẽ nhất của khoa học dữ liệu. Mọi người trong một tổ chức phải có quyền truy cập vào càng nhiều dữ liệu hợp pháp càng tốt.
Trong khi quyền truy cập rộng rãi vào dữ liệu đã trở nên phổ biến hơn trong ngành khoa học (ví dụ, có thể truy cập dữ liệu thô từ Dịch vụ Thời tiết Quốc gia hoặc Viện Y tế Quốc gia), Facebook là một trong những công ty đầu tiên cấp cho nhân viên của mình quyền truy cập vào dữ liệu ở quy mô. Ngay từ sớm, Facebook đã nhận ra rằng việc cho phép mọi người truy cập vào dữ liệu là một điều tốt. Nhân viên không phải đưa ra yêu cầu, chờ mức độ ưu tiên và nhận dữ liệu có thể đã lỗi thời. Ý tưởng này là cấp tiến bởi vì niềm tin phổ biến là nhân viên sẽ không biết cách truy cập dữ liệu, dữ liệu không chính xác sẽ được sử dụng để đưa ra các quyết định kinh doanh kém và chi phí kỹ thuật sẽ trở nên nghiêm trọng. Mặc dù chắc chắn có những thách thức, nhưng
Facebook nhận thấy rằng lợi ích vượt xa chi phí; nó trở thành một công ty linh hoạt hơn có thể phát triển các sản phẩm mới và phản ứng nhanh chóng với những thay đổi của thị trường. Quyền truy cập vào dữ liệu đã trở thành một phần quan trọng trong thành công của Facebook và vẫn là thứ mà Facebook tích cực đầu tư vào.
Tất cả các công ty web lớn đã sớm làm theo. Có thể truy cập dữ liệu thông qua SQL đã trở thành một kỹ năng bắt buộc đối với những người trong các chức năng kinh doanh tại các tổ chức như Google và LinkedIn. Và làn sóng vẫn chưa dừng lại với các công ty Internet tiêu dùng. Các tổ chức phi lợi nhuận đang thấy những lợi ích thực sự từ việc khuyến khích truy cập vào dữ liệu của họ - đến nỗi nhiều tổ chức đang công khai dữ liệu của họ. Họ đã nhận ra rằng các chuyên gia bên ngoài tổ chức có thể đưa ra những khám phá quan trọng mà có thể đã bị bỏ lỡ. Ví dụ, Ngân hàng Thế giới hiện công khai dữ liệu của mình để các nhóm tình nguyện viên có thể cùng nhau làm sạch và giải thích dữ liệu đó. Nó nhận được nhiều giá trị đến nỗi nó đã tiến thêm một bước nữa và có một trang web đặc biệt dành riêng cho dữ liệu công khai.
Tổ chức theo hướng dữ liệu làm tốt điều gì? Hầu như không có gì thú vị hơn việc được truy cập vào một tập dữ liệu mới và tưởng tượng những gì nó có thể cho bạn biết về thế giới. Các nhà khoa học dữ liệu có thể có một quy trình phương pháp và chính xác để tiếp cận một tập dữ liệu mới, nhưng trong khi họ đang tìm kiếm rõ ràng những điều cụ thể trong dữ liệu, họ cũng đang phát triển trực giác về độ tin cậy của tập dữ liệu và cách nó có thể được sử dụng.
Tóm lại công việc của DDO làm những việc sau:
• Thu thập dữ liệu
• Đưa ra quyết định dựa trên dữ liệu chứ không phải trực giác
• Sử dụng dữ liệu để thúc đẩy các ứng dụng
Mô hình tham chiếu cho cho giải pháp tổ chức theo hướng dữ liệu Mục đích của mô hình tham chiếu
• Cung cấp một framework cho: việc hiểu nhu cầu của bạn, so sánh các giải pháp
• Nó chưa hoàn chỉnh nhưng đưa ra được cách tiếp cận hiểu về các hệ thống phân tích dữ liệu
Hình 2. 3: Cấu trúc truyền thống