Data Lake gì là? Ứng dụng của Data Lake

Mã tin: 2531800 - Lượt xem: 69 - Trả lời: 0
Đặt tin VIP ngày: Soạn CV3 2531800 gửi 8777 (15k/sms. Mỗi tin + 24 giờ)
Đặt tin VIP tháng? Bấm vào đây
  1. Linh vattubk
    Thành viên mới Tham gia: 04/05/2016 Bài viết: 1.793 Điện thoại: 0963237535
    Data Lake là gì?

    Data lake đóng vai trò như một kho lưu trữ trung tâm được lạm dụng để lưu trữ một trong những loại hung liệu bên trên quy mô lớn. Ví dụ: chúng ta có thể lưu trữ hung liệu phi kết cấu, tương tự như dữ liệu có kết cấu, trong data lake của bạn.

    Data lake ko nhu yếu bất kỳ upfront work nào trên hung tàn liệu. Bạn chỉ cần kết hợp & lưu trữ tàn ác liệu lúc hung liệu truyền vào từ khá nhiều nguồn. Tùy theo kinh nghiệm của hệ thống bạn đang lạm dụng quá, bạn có thể thiết đặt chu trình nhập hung ác liệu theo khoảng thời gian thực.

    các tổ chức tầm thường lạm dụng các data lake để lưu trữ hung ác liệu cho các nghiên cứu và phân tích sau đây hoặc khoảng thời gian thực. Việc này xoàng yêu cầu lạm dụng những dụng cụ & khuôn khổ phân tích, như Google BigQuery, Amazon Athena hoặc Apache Spark.

    phong cách thiết kế của Data Lake

    Một data lake có thể sở hữu đa dạng kiểu loại kiến trúc vật lý cơ khác biệt vì nó mà thậm chí đc triển khai bằng nhiều công nghệ khác biệt. Mặc dù thế, mang ba nguyên tắc chính giúp nhận biết data lake có những biện pháp lưu trữ hung ác liệu lớn khác:

    • toàn bộ hung ác liệu đc gật đầu đồng ý vào data lake: các hung liệu được nhập và lưu trữ từ nhiều nguồn, bao gồm ác nghiệt liệu với cấu tạo, không tồn tại cấu tạo, thô và đã cách xử lý.
    • dữ liệu đc lưu trữ ở dạng gốc: sau khoản thời gian nhận độc ác liệu từ nguồn, dữ liệu được lưu trữ mà tránh bị đổi khác hoặc được cách xử trí tối thiểu.
    • hung liệu được thay đổi theo yêu cầu: tàn ác liệu đc biến đổi và cấu trúc theo những nhu cầu nghiên cứu và truy cập đang đc thực hiện.
    hầu như hung tàn liệu trong data lake là không tồn tại kết cấu & ko được thiết kế để trả lời những thắc mắc cụ thể, nhưng nó được lưu trữ theo bí quyết tạo điều kiện cho việc truy vấn & nghiên cứu và phân tích động.

    >>> Xem thêm: mua máy hp ml110



    bất kì bạn chọn lựa cách thực hiện data lake ra làm sao, các thời gian làm việc sau sẽ khiến cho bạn duy trì hoạt động và lạm dụng quá tốt tàn ác liệu phi cấu trúc của nó:

    • Phân dòng hung liệu & lập hồ sơ hung tàn liệu — data lake sẽ giúp bạn phân dòng ác nghiệt liệu theo mẫu hung liệu, nội dung, trường hợp lạm dụng quá & những nhóm người tiêu dùng có thể mang. Nó nên được thứ công nghệ cấu hình hung tàn liệu, để cung cấp những hiểu biết sâu sắc về quality hung tàn liệu.
    • những quy ước — data lake nên thực thi những chiếc file đã nhất quán và các quy ước đặt tên.
    • truy cập ác nghiệt liệu — cần phải có một công đoạn truy cập hung tàn liệu chuẩn chỉnh hóa đc lạm dụng bởi cả người dùng và các khối hệ thống kết hợp, có thể chấp nhận được theo dõi việc truy cập & lạm dụng quá ác nghiệt liệu.
    • Danh mục ác nghiệt liệu — data lake phải cung ứng danh mục tàn ác liệu cho phép search & truy xuất tàn ác liệu theo kiểu dữ liệu hoặc kịch bản lạm dụng quá.
    • đảm bảo an toàn ác ôn liệu — phải áp dụng những biện pháp khống chế bảo mật, mã hóa ác ôn liệu và đo lường tự động hóa, đồng thời nên tìm ra cảnh báo lúc những bên phi pháp truy cập vào hung ác liệu hoặc khi người tiêu dùng được ủy quyền tiến hành những vận động đáng ngờ.
    • quản lý ác ôn liệu — cần phải có các chính sách ví dụ, được thông báo cho cả các nhân viên có tương quan, về phong thái điều phối và sử dụng tàn ác liệu, cách đẩy mạnh chất lượng tàn ác liệu & lạm dụng quá tàn ác liệu nhạy cảm một cách hài hòa và hợp lý.
    nghiên cứu Data Lake

    nghiên cứu và phân tích data lake được cho phép nghiên cứu theo nhu cầu trên cân nặng lớn tàn ác liệu. Chúng ta có thể tạo thông tin chi tiết với lạnh lẽo trị từ hung liệu mà dường như không nhu yếu cơ sở hạ tầng phức tạp để cách xử lý trước & sắp xếp dữ liệu của bạn.

    một vài cách dùng phổ biến của phân tích data lake là:

    • nghiên cứu và phân tích liên hệ — lấy thông tin cụ thể chi tiết từ Ác liệu, mật thiết từ data lake, lạm dụng quá dụng cụ truy cập hiệu quả như Google BigQuery hoặc Amazon Athena.
    • cách xử lý hung tàn liệu lớn— nghiên cứu và phân tích cân nặng lớn hung tàn liệu bằng các dụng cụ như Spark hoặc Hadoop.
    • nghiên cứu và phân tích thời gian thực — xử trí các stream ác ôn liệu khi chúng chảy vào data lake trong thời gian thực, bằng cách sử dụng những dụng cụ cách xử trí stream như Apache Kafka.
    • phân tích vận động — search, lọc & trực quan hóa Ác liệu từ nhật ký & hung ác liệu hoạt động, chẳng hạn như phân tích trang web hoặc internet vạn vật (IoT), lạm dụng những công cụ như Elasticsearch.
    >>> Xem thêm: nơi bán hp ml110 gen10 giá rẻ



    so sánh Data Warehouse & Data Lake

    Data Warehouselà một kho dữ liệu đc tích lũy & sản sinh bởi những ứng dụng buôn bán. Data Warehouseáp dụng một lược đồ định vị trước cho hung ác liệu trước khi lưu trữ nó. Bạn buộc phải bố trí & tổ chức độc ác liệu trước khi lưu trữ vào kho.

    Data Warehouseđược lạm dụng để lưu trữ một lượng lớn hung liệu mang cấu tạo từ những khối hệ thống bào chế, cần phải nghiên cứu và phân tích thường xuyên hoặc được sử dụng quá để lập các report theo chu kỳ. Data Warehousethường là “source of truth” của tổ chức vì chúng lưu trữ hung ác liệu lịch sử dân tộc đc tổ chức và phân dòng.

    những data lake lưu trữ dữ liệu từ không ít nguồn, bao hàm những nguồn không có cấu tạo như hung liệu nhật ký, cảm biến Internet vạn vật (IoT) & nguồn cấp hung liệu media xã hội. Về chủ yếu, nền tảng gốc rễ data lake là tập hợp những gia sản hung tàn liệu đến từ hoạt động kinh doanh của tổ chức & những nguồn khác, cả nội bộ và bên phía ngoài.

    hung ác liệu trong data lake siêu ko nhất quán và có thể nhu cầu cách xử lý bổ sung, điều đó khiến nó không khớp có người dùng nghiên cứu và phân tích kinh doanh trung bình. Mặc dù vậy, những data lake thậm chí cực kỳ hữu dụng cho người dùng trình độ hơn, chẳng hạn như các nhà khoa học hung tàn liệu & các nhà nghiên cứu và phân tích ác ôn liệu hiện đại.

    tác dụng của Data Lake

    điểm mạnh của data lake là khả năng khai quật rộng rãi độc ác liệu hơn, từ khá nhiều nguồn hơn, trong thời gian ngắn lại hơn & trao quyền cho người tiêu dùng cùng tác & nghiên cứu ác ôn liệu theo những bí quyết khác biệt dẫn theo việc đưa ra quyết định xuất sắc hơn, nhanh hơn. Những rõ ràng trong số đó các data lake sở hữu giá buốt trị ngày càng tăng bao gồm:

    contact với quý khách hàng được cải thiện

    Data Lake có thể kết hợp data khách hàng từ căn cơ CRM có nghiên cứu phương tiện truyền thông cộng đồng, một căn cơ tiếp thị bao gồm lịch sử mua hàng & phiếu sự cố để trao quyền cho doanh nghiệp hiểu được nhóm người tiêu dùng sinh lời tối đa, Vì Sao khiến người tiêu dùng bỏ cuộc và những chương trình khuyến mãi hoặc thưởng. Điều ấy sẽ làm tăng trưởng lòng trung thành của bạn so với doanh nghiệp.

    cải thiện những chọn lọc đổi mới R&D

    Data lake có thể giúp nhóm R&D kiểm tra nhái thuyết của họ, tinh chỉnh và điều khiển các fake định & bình chọn công dụng, chẳng hạn như tìm chất liệu thích nghi trong thiết kế dòng sản phẩm, kéo theo hiệu suất mau hơn, triển khai phân tích bộ gen kéo theo thuốc tác dụng hơn hoặc hiểu đc mức độ hài lòng của bạn cho các thuộc tính không giống nhau.

    Tăng tác dụng vận động

    Internet of Things (IoT) trình làng nhiều cách hơn để thu thập hung tàn liệu về các công đoạn như bào chế, với tàn ác liệu khoảng thời gian thực tới từ các dòng thiết bị được kết nối internet. Data lake giúp thuận lợi lưu trữ & chạy nghiên cứu và phân tích bên trên Ác liệu IoT do máy sinh ra để tìm hiểu các phương pháp giảm chi phí chuyển động & tăng quality.

    >>> Xem thêm: mua máy chủ hpml 350 gen 10
    #1
backtop