LỜI CẢM ƠN Đầu tiên xin cảm ơn thầy Vương Xuân Chí bộ môn Lập trình Web đã dẫn dắt và hướng dẫn, trang bị cho sinh viên chúng em những kiến thức, những kinh nghiệm quý báu mà các thầy đã trải qua và truyền đạt lại trong suốt kỳ vừa qua. Và chúng em cũng cảm ơn Trường Đại học Nguyễn Tất Thành đã đưa bộ môn Lập trình Web này vào chương trình giảng dạy. Có thể những kiến thức và kỹ năng của chúng em không được tốt và đồ án làm ra không được như mong muốn và có nhiều sai sót nên mong các thầy cô xem xét và góp ý để giúp cho báo cáo của chúng em ngày càng được hoàn thiện và tốt hơn Em xin cảm ơn rất nhiều ạ LỜI MỞ ĐẦU Chúng ta đang sống trong một thời đại mới, thời đại phát triển rực rỡ của Công nghệ thông tin. CNTT đã ở một bước phát triển cao đó là số hóa tất cả các dữ liệu thông tin, luân chuyển mạnh mẽ và kết nối tất cả chúng ta lại với nhau. Mọi loại thông tin, số liệu âm thanh, hình ảnh có thể được đưa về dạng kỹ thuật số để bất kỳ máy tính nào cũng có thể lưu trữ, xử lý và chuyển tiếp cho nhiều người. Nhu cầu lưu trữ ngày càng tăng lên thêm vào đó là sự phát triển mạnh mẽ về lưu lượng ổ cứng. Hằng ngày lượng thông tin được lưu trữ tăng lên một cách chóng mặt. Vấn đề đặt ra là với một khối lượng dữ liệu lớn như thế làm sao chúng ta có thể khai thác và nó có thực sự cần thiết? Và tháng 8 năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới
GIỚI THIỆU BIG DATA
Định nghĩa về Big Data
Trên thế giới có nhiều định nghĩa về Big Data Vào năm 2001, nhà phân tích Doug
Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều “3V”: tăng về số lượng lưu trữ (volume), tăng về tốc độ xử lý (velocity) và tăng về chủng loại (variety) Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải
“cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”
Hình 1: Mô hình về Big Data
Sau đây là khái niệm mới về Big Data trong thời đại ngày nay, dựa trên biểu đồ ta thấy ở trên có thể chia ra năm tính chất quan trọng nói về Big Data:
1.1 Volume (Số lượng lưu trữ)
Big Data (Dữ liệu lớn) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm đương của những ứng dụng và công cụ truyền thống Kích cỡ của Big Data đang từng ngày tăng lên, và nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte), thậm chí cao hơn nhất nhiều, chỉ cho một tập hợp dữ liệu.
1.2 Velocity (Tốc độ xử lý)
Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real - time Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn được xử lý ở thời gian thực Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu
1.3 Veriety (Đa dạng chủng loại)
Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn Trước đây chúng ta hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.) Công nghệ Big Data cho phép chúng ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như comments/post của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
Một trong những tính chất phức tạp nhất của Big Data là độ chính xác của dữ liệu Với xu hướng Social Media và Social Network ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng di động làm cho bức tranh xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.
1.5 Value (Giá trị thông tin)
Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của Big Data cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình Có thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.
Những nguồn chính tạo ra big data
- Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay
- Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+
- Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng
- Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng
- Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông
- Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
- Một chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh sách 20 nguồn
Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web Dưới đây là một số ví dụ:
Data.gov – nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của
Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm đang giam giữ
Data.gov.uk – nơi tương tự của Chính phủ Anh Tại đây, mọi người có thể tập hợp được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950
Ngoài ra còn có Cục Điều tra Dân số Mỹ, bao gồm các thông tin có giá trị như dân số, địa lý và dữ liệu khác Tương tự là kho dữ liệu mở Liên minh châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức Liên minh châu Âu
Và một thứ yêu thích của chúng ta đó là Facebook Những biểu đồ của FB cung cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các thông tin công khai được cung cấp bởi người sử dụng
Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin chăm sóc Y tế và xã hội NHS, từ Anh.
Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công nghệ thông tin
- Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng Amazon sử dụng một hệ thống
Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB
- Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan
- Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày.
- Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
Nhu cầu xử lý, tìm kiếm, khai thác thông tin, đánh giá, tiên đoán một cách khách quan xu thế thị trường từ đó đưa ra chiến lược đúng đắn.
SỨC MẠNH BIG DATA
Big Data quan trọng như thế nào?
- Big data là công nghệ thu thập thông tin quy mô lớn từ các website Các doanh nghiệp thường vận dụng công cụ này nhằm phục vụ công việc dự đoán xu hướng thị trường, nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra sản phẩm mới hoặc tìm hiểu về hành vi khách hàng
- Phân tích dữ liệu cũng có thể giúp các doanh nghiệp thích nghi, tạo ra nội dung website thu hút nhiều khách hàng hơn, có được cái nhìn sâu sắc vào hành vi mua hàng
Dữ liệu càng nhiều thì càng tốt cho công ty Để làm được như vậy, doanh nghiệp nên cung cấp nội dung trên nhiều nền tảng Social media, nhằm thu thập được nhiều thông tin từ những điểm tiếp xúc với khách hàng
- Bằng cách tìm hiểu qua hệ thống cơ sở dữ liệu, công ty có thể tạo ra nội dung có liên quan hơn với người đọc.
Ứng dụng Big Data trong đời sống
2.1 Ứng dụng của Big Data trong khoa học va nghiên cứu như :
- Khoa học và nghiên cứu hiện đang biến đổi rất nhanh bởi các khả năng mới mà dữ liệu lớn mang lại Lấy ví dụ, CERN, phòng thí nghiệm vật lý hạt nhân Thụy Sĩ với chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới, Large Hadron Collider Với những thí nghiệm để mở khóa những bí mật của vũ trụ, cách hình thành và vận hành ra sao, đã tạo ra một lượng lớn dữ liệu
- Trong Y học: giải mã gen
- Trong vật lý: các dụng cụ giám sát khoa học như máy gia tốc hạt lớn của CERN(tổ chức nghiên cứu nguyên tử châu Âu) tạo ra 40 terabyte dữ liệu trong 1 gây
- Trong toán học : chế tạo các siêu máy tính để giải quyết các bài toán mà con người không thể giải quyết được
==> Trong Y học: Big Data đã ghi điểm trong lĩnh vực Y học vào năm 2009 khi Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 Dịch vụ này có tên là Google Flu Trends Với sự phát triển của công nghệ thông tin giúp mọi người chúng ta tiếp xúc được với những sự tiên tiến của khoa học nhằm nâng cao sức khỏe con người
- Nhưng đó chưa phải tất cả, tiềm năng lớn nhất của Big Data đối với y học chính là là khả năng áp dụng vào quá trình phân tích gen, giúp phân tích trình tự bộ gen người trong một vài giờ, thay vì tới hàng tuần như trước kia
- Big Data chính là sự bổ sung cần thiết cho nền y học hiện đại và chúng ta đang chứng kiến sự thay đổi bước ngoặt Giải mã trình tự gen là một cách rất tốt để theo dõi một dải rộng gen để từ đó đưa ra những nhận định về nguyên nhân từng loại bệnh và tiến hành đánh giá rủi ro, phát hiện sớm hoặc dự đoán khả năng tái phát Công nghệ này cũng có thể được sử dụng để đưa ra những phương pháp trị liệu và hướng điều trị phù hợp với từng bệnh nhân
==> Trong vật lý: Máy gia tốc hạt lớn được chế tạo bởi Tổ chức nghiên cứu hạt nhân châu Âu (CERN), nằm bên dưới mặt đất tại biên giới Pháp - Thụy Sĩ giữa núi Jura và dãy Alps gần Genève , Thụy Sĩ
Hình 2: Máy gia tốc hạt lớn của Pháp-Thụy Sĩ
- Các trung tâm của CERN có 65.000 bộ vi xử lý để phân tích 30 petabyte dữ liệu Tuy nhiên nó sử dụng quyền tính toán của hàng ngàn máy tính phân phối tại 150 trung tâm dữ liệu trên toàn thế giới để phân tích Quyền hạn tính toán như vậy có thể được thừa hưởng và làm thay đổi nhiều lĩnh vực khoa học nghiên cứu
- Trong toán học: Siêu máy tính giúp con người chúng ta thực hiện được các bài toán khó mà con người không thể nào làm được
- Siêu máy tính hiện nay có tốc độ xử lý hàng nghìn teraflop (một teraflop tương đương với hiệu suất một nghìn tỷ phép tính/giây) hay bằng tổng hiệu suất của 6.000 chiếc máy tính hiện đại nhất hiện nay gộp lại (một máy có tốc độ khoảng từ 3-3,8 gigaflop)
Hình 3: Siêu máy tính Teraflop
2.2 Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị:
- Phân tích dữ liệu lớn giúp máy móc và thiết bị trở nên thông minh và độc lập hơn Ví dụ, các công cụ dữ liệu lớn được sử dụng để vận hành xe hơi tự lái của Google Toyota Prius được trang bị máy ảnh, GPS cũng như các máy tính mạnh mẽ và bộ cảm biến để lái xe an toàn trên đường mà không có sự can thiệp của con người Công cụ dữ liệu lớn cũng được sử dụng để tối ưu hóa lưới điện năng lượng sử dụng dữ liệu từ công-tơ thông minh Chúng ta thậm chí có thể sử dụng công cụ dữ liệu lớn để tối ưu hóa hiệu suất của máy tính và các kho dữ liệu
- Big Data trong tối ưu hóa hiệu suất và thiết bị :
+ Việc tối ưu hóa hiệu suất giúp các thiết bị có thể hoạt động nhanh và hiệu quả hơn trước kia rất nhiều.Điều này nhằm giúp các thiết bị có thể đáp ứng được các yêu cầu của con người ngày càng một cao hơn so với trước kia
+ Trong máy tính việc tối ưu hóa hiệu suất giúp máy tính hoạt động cách trơn tru để đảm bảo độ ổn định và nhanh nhạy trong việc ngày nay đang diễn ra bùng nổ dữ liệu.Trong thời đại bùng nổ dữ liệu như ngày nay thì việc tối ưu hóa hiệu suất máy tính và kho dữ liệu là một thách thức đối với con người chúng ta
+ Việc tối ưu hóa hiệu suất và thiết bị giúp con người chúng ta có thể tận dụng tối đa nguồn nguyên liệu để phục vụ đời sống con người nhằm đảm bảo nhu cầu ngày một tăng cao trong thách thức về vấn đề khang hiếm nguyên liệu hiện nay
+ Các lĩnh vực mà Big Data trong tối ưu hóa hiếu suất và thiết bị ứng dụng như: Giao thông vận tải, điện lực, sản xuất, công nghiệp, công nghệ thông tin,…
2.3 Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:
- Dữ liệu lớn được áp dụng rất nhiều trong việc cải thiện an ninh và cho phép thực thi pháp luật Cơ quan An ninh Quốc gia Mỹ (NSA) sử dụng phân tích dữ liệu lớn để chống âm mưu khủng bố (và có thể gián điệp trên tất cả chúng ta) Các đơn vị khác sử dụng kỹ thuật dữ liệu lớn để phát hiện và ngăn chặn các cuộc tấn công không gian mạng Lực lượng cảnh sát sử dụng các công cụ dữ liệu lớn để bắt tội phạm và thậm chí dự đoán hoạt động tội phạm, và những công ty thẻ tín dụng sử dụng dữ liệu lớn dùng nó để phát hiện các giao dịch gian lận
- Các ứng dụng của Big Data trong lĩnh vực cải thiện an ninh và thực thi pháp luật:
+ Phân tích tâm lý tội phạm: Tổng hợp dữ liệu từ các tâm lý phạm tội để đưa ra kết luận chính xác từ các hành vi tâm lý khác nhau trong từng trường hợp khác nhau
+ Tội phạm công nghệ cao: Ứng dụng phân lớp và phân cụm dữ liệu trong công tác phòng chống tội phạm trong lĩnh vực này
+ Khủng bố: Phân tích dữ liệu lớn để phòng chống các âm mưu khủng bố
+ Anh ninh mạng:Phân tích tấn công mạng nhằm ứng phó kịp thời trong các cuộc tấn công mạng
2.4 Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc gia:
SỞ HẠ TẦNG HỖ TRỢ BIG DATA VÀ CƠ HỘI NGHỀ NGHIỆP 23 I Cơ sở hạ tầng IT để hỗ trợ big data
Cơ hội nghề nghiệp với Big Data
Hình 8: Nghề nghiệp đối với lĩnh vực Big Data
So với nghề Developer nói chung thì tất nhiên là số việc làm liên quan đến Big Data(hay còn gọi là Data Scientist) sẽ ít hơn nhiều Tuy nhiên, bởi vì ít, hiếm nên mức thu nhập khá ổn Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm mà bạn đang theo làm.
Nghề “làm” Big Data là gì? Là Data Scientist!
Công việc hằng ngày của một Data Scientist
Những “bước” trong công việc hằng ngày của một Data Scientist:
Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
Thu thập và xử lý dữ liệu
Xây dựng các mô hình, thuật toán để đưa ra kết quả
Test, đánh giá kết quả
Đưa vào triển khai Ở bước triển khai, công ty sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing như anh Vũ đã nhắc ở phần chia sẻ trên.
+ Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.
Có rất nhiều kỹ năng và kiến thức bạn cần trau dồi, tất nhiên khi bắt đầu có thể hơi khó khăn nhưng bạn có thể vừa làm vừa học. Để trở thành một Data Scientist và các kỹ năng cần có:
Kỹ năng đầu tiên mà bạn cần đương nhiên phải là lập trình Bạn nên học ngôn ngữ lập trình Python
Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
Hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala
Ngoài kỹ năng cứng về chuyên môn, bạn còn cần kỹ năng mềm nữa Nghề này cần tư duy rõ ràng, mạch lạc và bạn phải biết cách làm việc với Data Engineer.
Những nguồn tài liệu tham khảo Big Data:
Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi
Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.
Data Scientist trong ngành nói gì?
- Data Scientist chia sẻ về một nhận định sai lầm, một hiểu lầm, đã từng nghe trong quá trình làm việc với Big Data nói chung, làm Data Scientist nói riêng.
Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.
- Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.
- Có thể vì chữ Scientist này mà nhiều người cho rằng đây là một ngành nghề đòi hỏi nhiều sự mạo hiểm, đánh đổi Thật ra là không Data Scientist không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.
CÁC CÔNG NGHỆ ĐẶC BIỆT DÀNH CHO BIG DATA
Hệ sinh thái Hadoop
Hadoop là một trong những công nghệ liên quan chặt chẽ nhất với big data Dự án
Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả năng mở rộng và phân tán.
Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán các bộ dữ liệu lớn trên các nhóm máy tính sử dụng các mô hình lập trình đơn giản Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy khác, mỗi máy cung cấp tính toán và lưu trữ cục bộ.
Dự án bao gồm rất nhiều phần:
Hadoop Common, các tiện ích phổ biến hỗ trợ các phần Hadoop khác
Hadoop Distributed File System, cung cấp khả năng truy cập dữ liệu ứng dụng cao
Hadoop YARN, một khuôn mẫu cho kế hoạch làm việc và quản lý tài nguyên cụm
Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn.
Apache Spark
Một phần của hệ sinh thái Hadoop, Apache Spark là một khuôn mẫu tính toán cụm nguồn mở được sử dụng làm công cụ xử lý big data trong Hadoop.
Spark đã trở thành một trong những khuôn mẫu xử lý big data quan trọng, và có thể được triển khai theo nhiều cách khác nhau Nó cung cấp các phương thức hỗ trợ đối với Java, Scala, Python (đặc biệt là Anaconda Python distro ), và ngôn ngữ lập trình R ( R đặc biệt phù hợp với big data ) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.
Apache Storm
Apache Storm là hệ thống tính toán phân tán mã nguồn mở thời gian thực miễn phí Nếu như Hadoop xử lý dữ liệu hàng loạt (Batch Processing) thì Apache Storm thực hiện xử lý dữ liệu luồng (Unbounded streams of data) một cách đáng tin cậy. Ưu điểm lớn nhất của Apache Storm là dễ triển khai và có thể tương tác với bất kỳ ngôn ngữ lập trình nào.
Mặt khác, nó đảm bảo việc xử lý từng bộ dữ liệu Tốc độ xử lý của nó rất nhanh và một tiêu chuẩn có thể quan sát được là tới một triệu tuple được xử lý mỗi giây trên mỗi nút.
Apache Cassandra
Apache Cassandra là hệ cơ sở dữ liệu phân tán, kết hợp những gì tinh tuý nhất của
Google Bigtable và Amazon DynamoDB Ngôn ngữ phát triển Cassandra là Java Đây là một trong những công cụ dữ liệu lớn tốt nhất có thể chứa tất cả các loại tập dữ liệu cụ thể có cấu trúc, bán cấu trúc và không cấu trúc.
Cassandra được thiết kế có thể chạy trong phần cứng giá rẻ, và cung cấp write throughput khá là cao (latency tầm 0.5ms), trong khi read throughput thì thấp hơn (latency tầm
MongoDB
- MongoDB là một công cụ phân tích dữ liệu nguồn mở, cơ sở dữ liệu NoQuery cung cấp các khả năng đa nền tảng Đây là công cụ dành cho doanh nghiệp cần dữ liệu nhanh chóng và thời gian thực để đưa ra quyết định.
- MongoDB là công cụ hoàn hảo cho những người muốn các giải pháp dựa trên dữ liệu
Nó thân thiện với người dùng vì nó cung cấp cài đặt và bảo trì dễ dàng hơn MongoDB là công cụ đáng tin cậy và tiết kiệm chi phí.
- Nó được viết bằng C, C ++ và JavaScript Đây là một trong những cơ sở dữ liệu phổ biến nhất cho Big Data vì nó tạo điều kiện thuận lợi cho việc quản lý dữ liệu phi cấu trúc hoặc dữ liệu thay đổi thường xuyên.
- MongoDB sử dụng các lược đồ động Do đó, bạn có thể chuẩn bị dữ liệu nhanh chóng Điều này cho phép giảm chi phí tổng thể Nó thực thi trên ngăn xếp phần mềm MEAN, các ứng dụng NET và, nền tảng Java Nó cũng linh hoạt trong cơ sở hạ tầng đám mây.
R Programming
R là một ngôn ngữ lập trình nguồn mở và là một trong những ngôn ngữ phân tích thống kê toàn diện nhất Nó là một ngôn ngữ lập trình đa mô hình cung cấp một môi trường phát triển năng động.
Ngôn ngữ R là mã nguồn mở nên ai trong chúng ta cũng có thể phân tích source code để hiểu được chính xác cách R vận hành Bất kỳ ai cũng có thể thêm tính năng và fix bug mà không cần chờ nhà phát hành ra bản vá Đồng thời, R có thể tích hợp được với ngôn ngữ khác (C,C++) Nó cũng cho phép chúng ta tương tác với nhiều nguồn dữ liệu và các gói thống kê (SAS, SPSS).
Kafka
Kafka là dự án mã nguồn mở, đã được đóng gói hoàn chỉnh, khả năng chịu lỗi cao và là hệ thống nhắn tin nhanh Vì tính đáng tin cậy của nó, Kafka đang dần được thay thế cho hệ thống nhắn tin truyền thống Nó được sử dụng cho các hệ thống nhắn tin thông thường trong các ngữ cảnh khác nhau. Đây là hệ quả khi khả năng mở rộng ngang và chuyển giao dữ liệu đáng tin cậy, là những yêu cầu quan trọng nhất Một vài ứng dựng hữu ích của Kafka:
Website Activity Monitoring: theo dõi hoạt động của website
Stream Processing: xử lý stream
Log Aggregation: tổng hợp log
Metrics Collection: thu thập dữ liệu
RapidMiner
Rapid Miner là một nền tảng phần mềm khoa học dữ liệu cung cấp một môi trường tích hợp để chuẩn bị dữ liệu, học máy, học sâu, khai thác văn bản và phân tích dự đoán Đây là một trong những hệ thống mã nguồn mở hàng đầu cho khai thác dữ liệu.
Chương trình được viết hoàn toàn bằng ngôn ngữ lập trình Java Chương trình cung cấp một tùy chọn để thử xung quanh với một số lượng lớn các toán tử tùy ý có thể lồng được chi tiết trong các tệp XML và được thực hiện với sự can thiệp của người dùng đồ họa của người khai thác nhanh.
Những công cụ Big Data kể trên không chỉ giúp bạn lưu trữ số lượng lớn dữ liệu mà còn giúp xử lý dữ liệu được lưu trữ một cách nhanh hơn và cung cấp cho bạn kết quả tốt hơn Đa số các công cụ Big Data đã có sẵn trên thị trường Bạn chỉ cần chọn công cụ phù hợp với dự án của bạn.
Data lakes
Data lakes là các kho lưu trữ chứa khối lượng dữ liệu thô rất lớn ở định dạng gốc của nó cho đến khi những người dùng doanh nghiệp cần dữ liệu.
Các yếu tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.
NoSQL Databases
các truy vấn ngẫu nhiên.
Nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không phù hợp với một số loại ứng dụng Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời.
Nhiều cơ sở dữ liệu đã được phát triển bởi các công ty để tìm cách tốt hơn để lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn Không giống như các cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ.
In-memory databases
Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính (Ram), thay vì HDD, để lưu trữ dữ liệu Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho dữ liệu và các siêu dữ liệu Đọc thêm Redis là gì?
Các kĩ năng Big data
Big data và các nỗ lực phân tích big data yêu cầu kĩ năng cụ thể, dù là từ bên trong tổ chức hay thông qua các chuyên gia bên ngoài.
Nhiều kĩ năng có liên quan đến các thành phần công nghệ dữ liệu quan trọng như
Hadoop, Spark, NoSQL, cơ sở dữ liệu trong bộ nhớ và phần mềm phân tích.
Với độ phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực về các kĩ năng trên, việc tìm kiếm các chuyên gia có kinh nghiệm có thể là một trong những thách thức lớn nhất đối với các tổ chức.