Review Đọc tệp CSV từ lưu trữ Azure blob python

Thủ Thuật Hướng dẫn Đọc tệp CSV từ tàng trữ Azure blob python 2022

Bùi Văn Quân đang tìm kiếm từ khóa Đọc tệp CSV từ tàng trữ Azure blob python được Cập Nhật vào lúc : 2022-12-23 02:20:08 . Với phương châm chia sẻ Mẹo về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Admin lý giải và hướng dẫn lại nha.

Giả sử bạn có tệp csv, bộ chứa blob và quyền truy cập vào không khí thao tác của DataBricks. Mục đích của blog nhỏ này là để đã cho tất cả chúng ta biết quy trình từ việc có một tệp trên máy tính cục bộ của bạn đến việc đọc tài liệu vào databricks thuận tiện và đơn giản ra làm sao. Tôi sẽ thực hiện quá trình tải tệp csv lên một vùng chứa blob màu xanh theo cách thủ công và sau đó đọc nó trong DataBricks bằng mã python

Nội dung chính Show
    hồng ngọcĐang tải tài liệu CSV vào bảng sử dụng phân vùng thời gian nhờ vào cộtThêm vào hoặc ghi đè lên bảng bằng tài liệu CSVBảng điều khiểnĐang tải tài liệu CSV được phân vùng tổ ongChi tiết tải tài liệu CSVDấu phân cách trườngLoại dữ liệuTự động phát hiện lược đồtùy chọn CSV

Bước 1. Tải tệp lên vùng chứa blob của bạn

Điều này hoàn toàn có thể được thực hiện đơn giản bằng phương pháp điều hướng tới vùng chứa blob của bạn. Từ đó, bạn hoàn toàn có thể nhấp vào nút tải lên và chọn tệp bạn quan tâm. Sau khi được chọn, bạn cần nhấp vào nút tải lên trong thanh tải lên. Xem ảnh chụp màn hình hiển thị phía dưới

Đọc tệp CSV từ lưu trữ Azure blob python

Sau khi tải lên, bạn sẽ hoàn toàn có thể xem tệp có sẵn trong vùng chứa blob của tớ như hình phía dưới

Đọc tệp CSV từ lưu trữ Azure blob python

Bước 2. Nhận thông tin đăng nhập thiết yếu cho databricks để link với bộ chứa blob của bạn

Từ cổng thông tin Azure của bạn, bạn cần điều hướng tới tất cả những tài nguyên, sau đó chọn tài khoản tàng trữ blob của tớ và từ phía dưới setup, chọn khóa tài khoản. Khi đã có, hãy sao chép khóa phía dưới Key1 vào notepad cục bộ

Đọc tệp CSV từ lưu trữ Azure blob python

Bước 3. Định thông số kỹ thuật DataBricks để đọc tệp

Tại đây, bạn cần điều hướng tới không khí thao tác của databricks (tạo một chiếc nếu bạn chưa tồn tại) và khởi chạy nó. Sau khi khởi chạy, hãy chuyển đến không khí thao tác và tạo sổ ghi chép python mới

Để khởi đầu đọc tài liệu, trước tiên, bạn cần định thông số kỹ thuật phiên spark của tớ để sử dụng thông tin đăng nhập cho vùng chứa blob của bạn. Điều này đơn giản hoàn toàn có thể được thực hiện thông qua tia lửa. conf. đặt lệnh. Chính xác hơn, chúng tôi khởi đầu với những điều sau đây

storage_account_name="nameofyourstorageaccount" storage_account_access_key = 'thekeyfortheblobcontainer' spark.conf.set('fs.azure.account.key.' + storage_account_name + '.blob.core.windows', storage_account_access_key)

Sau khi hoàn tất, tất cả chúng ta cần xây dựng đường dẫn tệp trong vùng chứa blob và đọc tệp dưới dạng khung tài liệu tia lửa

blob_container="yourblobcontainername" filePath = "wasbs://" + blob_container + "@" + storage_account_name + ".blob.core.windows/Sales/SalesFile.csv" salesDf = spark.read.format("csv").load(filePath, inferSchema = True, header = True)

Và chúc mừng, tất cả chúng ta đã hoàn thành xong. Bạn hoàn toàn có thể sử dụng lệnh hiển thị để xem tài liệu của chúng tôi như hình phía dưới

Trong blog này, tất cả chúng ta sẽ tìm hiểu cách đọc tệp CSV từ bộ nhớ blob và đẩy tài liệu vào bảng nhóm SQL khớp thần kinh bằng tập lệnh python Azure Databricks. Trong phần 1, tất cả chúng ta đã tạo không khí thao tác phân tích khớp thần kinh Azure, nhóm SQL chuyên được dùng, trong phần này, tất cả chúng ta đã thấy cách tạo nhóm SQL chuyên được dùng. Trong blog này, chúng tôi sẽ sử dụng chuỗi link JDBC để link nhóm SQL

Bước 1. Đăng nhập vào cổng Azure. Mở Azure Databricks và nhấp vào không khí thao tác ăn trưa để tạo Notebook mới

Đọc tệp CSV từ lưu trữ Azure blob pythonĐối với Định dạng tệp, hãy lựa chọn CSVTrong phần Đích, chỉ định những cụ ông cụ bà thể sauĐối với Tập tài liệu, hãy lựa chọn tập tài liệu mà bạn muốn tạo bảngTrong trường Bảng, nhập tên của bảng mà bạn muốn tạoXác minh rằng trường Loại bảng được đặt thành Bảng gốcTrong phần Lược đồ, nhập định nghĩa lược đồ. Để bật tính năng tự động phát hiện lược đồ, hãy lựa chọn Tự động phát hiện. Bạn hoàn toàn có thể nhập thông tin lược đồ theo cách thủ công minh phương pháp sử dụng một trong những phương pháp sau
    lựa chọn một. Nhấp vào Chỉnh sửa dưới dạng văn bản và dán lược đồ ở dạng mảng JSON. Khi bạn sử dụng một mảng JSON, bạn tạo lược đồ bằng quy trình tương tự như tạo tệp lược đồ JSON. Bạn hoàn toàn có thể xem lược đồ của một bảng hiện có ở định dạng JSON bằng phương pháp nhập lệnh sau. bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 7Tùy chọn 2. Nhấp vào add_box Thêm trường và nhập lược đồ bảng. Chỉ định Tên, Loại và Chế độ của từng trường.
Không bắt buộc. Chỉ định setup phân vùng và cụm. Để biết thêm thông tin, hãy xem Tạo những bảng được phân vùng và Tạo và sử dụng những bảng được phân cụmNhấp vào Tùy chọn nâng cao và thực hiện những thao tác sau
    Đối với tùy chọn Viết, hãy để Viết nếu chọn trống. Tùy chọn này tạo một bảng mới và tải tài liệu của bạn vào đóĐối với Số lượng lỗi được phép, hãy đồng ý giá trị mặc định của bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 hoặc nhập số hàng tối đa chứa lỗi hoàn toàn có thể bỏ qua. Nếu số lượng hàng có lỗi vượt quá giá trị này, việc làm sẽ dẫn đến thông báo bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 18 và không thành công. Tùy chọn này chỉ áp dụng cho những tệp CSV và JSONNếu bạn muốn bỏ qua những giá trị trong một hàng không còn trong lược đồ của bảng, hãy lựa chọn Giá trị không xác địnhĐối với Dấu phân cách trường, hãy lựa chọn ký tự phân tách những ô trong tệp CSV của bạn. Dấu phẩy, Tab, Ống hoặc Tùy chỉnh. Nếu chọn Custom thì điền dấu phân cách vào ô Custom field delimiter. Giá trị mặc định là Dấu phẩyĐể bỏ qua những hàng Tiêu đề, hãy nhập số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17Đối với những dòng mới được trích dẫn, hãy kiểm tra Cho phép những dòng mới được trích dẫn để được cho phép những phần tài liệu được trích dẫn có chứa những ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10Đối với những hàng có răng cưa, hãy lựa chọn Cho phép những hàng có răng cưa đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10Đối với Mã hóa, hãy nhấp vào Khóa do người tiêu dùng quản lý để sử dụng khóa Dịch Vụ TM quản lý khóa đám mây. Nếu bạn rời khỏi tùy chọn setup khóa do Google quản lý, thì BigQuery sẽ mã hóa tài liệu ở trạng thái tàng trữ
Nhấp vào Tạo bảngGhi chú. Khi bạn tải tài liệu vào một bảng trống bằng phương pháp sử dụng bảng điều khiển Google Cloud, bạn không thể thêm nhãn, mô tả, hết hạn bảng hoặc hết hạn phân vùng.

Sau khi bảng được tạo, bạn hoàn toàn có thể update ngày hết hạn, mô tả và nhãn của bảng nhưng bạn không thể thêm ngày hết hạn của phân vùng sau khi bảng được tạo bằng Google Cloud console. Để biết thêm thông tin, hãy xem Quản lý bảng.

SQL

Sử dụng câu lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 12 DDL. Ví dụ sau tải tệp CSV vào bảng mới bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13

Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery

Truy cập BigQuery

Trong trình sửa đổi truy vấn, hãy nhập câu lệnh sau

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5

Nhấp vào play_circle Chạy.

Để biết thêm thông tin về cách chạy truy vấn, hãy xem Chạy truy vấn tương tác

bq

Sử dụng lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, chỉ định bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15 bằng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 16 và gồm có URI tàng trữ đám mây. Bạn hoàn toàn có thể gồm có một URI, list URI được phân tách bằng dấu phẩy hoặc URI chứa ký tự đại diện. Cung cấp lược đồ nội tuyến, trong tệp định nghĩa lược đồ hoặc sử dụng tính năng tự động phát hiện lược đồ. Nếu bạn không riêng gì có định lược đồ và bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 và bảng đích tồn tại, thì lược đồ của bảng đích sẽ được sử dụng

(Tùy chọn) Cung cấp cờ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 và đặt giá trị cho vị trí của bạn

Các cờ tùy chọn khác gồm có

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 20. Khi được chỉ định, hãy đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 22. Khi được chỉ định, được cho phép những phần tài liệu được trích dẫn có chứa ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 24. Ký tự chỉ ranh giới Một trong những cột trong tài liệu. Cả bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 25 và bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 26 đều được phép sử dụng dấu phân cách tab. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 27 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 28. Chuỗi tùy chỉnh tùy chọn đại diện cho giá trị NULL trong tài liệu CSV bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29. Chỉ định số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 31. Ký tự trích dẫn được sử dụng để đính kèm bản ghi. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 32. Để biểu thị không còn ký tự trích dẫn, hãy sử dụng một chuỗi rỗng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 33. Một số nguyên xác định số bản ghi lỗi tối đa được phép trước khi toàn bộ việc làm không thành công. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17. Nhiều nhất, năm lỗi thuộc bất kỳ loại nào được trả về bất kể giá trị bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 33 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 36. Khi được chỉ định, được cho phép và bỏ qua những giá trị tương hỗ update, không được nhận dạng trong tài liệu CSV hoặc JSON bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17. Khi được chỉ định, hãy bật tính năng tự động phát hiện lược đồ cho tài liệu CSV và JSON bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 38. Cho phép phân vùng nhờ vào thời gian trên bảng và đặt loại phân vùng. Các giá trị hoàn toàn có thể là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 39, bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 20, bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 21 và bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 22. Cờ này là tùy chọn khi bạn tạo bảng được phân vùng trên cột bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 3, bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 24 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 6. Loại phân vùng mặc định cho phân vùng nhờ vào thời gian là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 20. Bạn không thể thay đổi đặc tả phân vùng trên một bảng hiện có bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 27. Một số nguyên chỉ định (tính bằng giây) lúc nào nên xóa phân vùng nhờ vào thời gian. Thời gian hết hạn ước tính theo ngày UTC của phân vùng cộng với giá trị số nguyên bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 28. Cột bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 3 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 6 được sử dụng để tạo bảng được phân vùng. Nếu phân vùng nhờ vào thời gian được bật mà không còn mức giá trị này, thì một bảng được phân vùng theo thời gian nhập sẽ được tạo bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 501. Khi được bật, tùy chọn này yêu cầu người tiêu dùng gồm có mệnh đề bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 502 chỉ định những phân vùng để truy vấn. Yêu cầu bộ lọc phân vùng hoàn toàn có thể giảm ngân sách và cải tổ hiệu suất. Để biết thêm thông tin, hãy xem Truy vấn những bảng được phân vùng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 503. Danh sách được phân tách bằng dấu phẩy gồm tối đa bốn tên cột được sử dụng để tạo bảng nhóm

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 504. Khóa Cloud KMS để mã hóa tài liệu bảng

    Để biết thêm thông tin về lệnh

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, hãy xem
      Tham chiếu dòng lệnh

    Để biết thêm thông tin về những bảng được phân vùng, hãy xem

      Tạo những bảng được phân vùng

    Để biết thêm thông tin về những bảng nhóm, hãy xem

      Tạo và sử dụng những bảng nhóm

    Để biết thêm thông tin về mã hóa bảng, hãy xem

      Bảo vệ tài liệu bằng khóa Cloud KMS

Để tải tài liệu CSV vào BigQuery, hãy nhập lệnh sau

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 8

Ở đâu

    vị trí là vị trí của bạn. Cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 là tùy chọn. Ví dụ: nếu bạn đang sử dụng BigQuery ở khu vực Tokyo, thì bạn hoàn toàn có thể đặt giá trị của cờ thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 507. Bạn hoàn toàn có thể đặt giá trị mặc định cho vị trí bằng phương pháp sử dụng. tập tin bigqueryrcđịnh dạng là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15tập tài liệu là một tập tài liệu hiện cóbảng là tên gọi của bảng mà bạn đang tải tài liệu vàopath_to_source là URI tàng trữ đám mây đủ điều kiện hoặc list URI được phân tách bằng dấu phẩy. Ký tự đại diện cũng khá được hỗ trợlược đồ là một lược đồ hợp lệ. Lược đồ hoàn toàn có thể là tệp JSON cục bộ hoặc hoàn toàn có thể được nhập nội tuyến như một phần của lệnh. Bạn cũng hoàn toàn có thể sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 thay vì đáp ứng định nghĩa lược đồ

ví dụ

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513. Tệp CSV gồm có hai hàng tiêu đề. Nếu bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29 không được chỉ định, hành vi mặc định là giả sử tệp không chứa tiêu đềblob_container="yourblobcontainername" filePath = "wasbs://" + blob_container + "@" + storage_account_name + ".blob.core.windows/Sales/SalesFile.csv" salesDf = spark.read.format("csv").load(filePath, inferSchema = True, header = True) 0

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào bảng được phân vùng theo thời gian nhập mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng được phân vùng mới mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Bảng được phân vùng trên cột bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 526. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được tự động phát hiện bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 2

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định nội tuyến ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 534______53Ghi chú. Khi bạn chỉ định lược đồ bằng công cụ dòng lệnh bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535, bạn không thể gồm có loại bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 536 ( bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 537), bạn không thể gồm có mô tả trường và bạn không thể chỉ định chính sách trường. Tất cả những chính sách trường mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 538. Để gồm có những mô tả trường, chính sách và loại bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 536, hãy đáp ứng tệp lược đồ JSON thay thế.

Lệnh sau tải tài liệu từ nhiều tệp trong

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 540 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. URI tàng trữ đám mây sử dụng ký tự đại diện. Lược đồ được tự động phát hiện bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 2

Lệnh sau tải tài liệu từ nhiều tệp trong

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 540 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lệnh gồm có một list những URI tàng trữ đám mây được phân tách bằng dấu phẩy với những ký tự đại diện. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 50

API

Tạo việc làm

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 547 trỏ đến tài liệu nguồn trong Lưu trữ đám mây

(Tùy chọn) Chỉ định vị trí của bạn trong thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 548 trong phần bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 549 của tài nguyên việc làm

Thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 550 phải đủ điều kiện, ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 551. Mỗi URI hoàn toàn có thể chứa một ký tự đại diện '*'

Chỉ định định dạng tài liệu CSV bằng phương pháp đặt thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 552 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15

Để kiểm tra trạng thái việc làm, hãy gọi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 554, trong đó job_id là ID của việc làm được yêu cầu ban đầu trả về
    Nếu bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 555, việc làm đã hoàn thành xong thành côngNếu có thuộc tính bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 556, yêu cầu không thành công và đối tượng đó sẽ gồm có thông tin mô tả những gì đã xảy ra. Khi yêu cầu không thành công, không còn bảng nào được tạo và không còn tài liệu nào được tảiNếu không còn bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 556, việc làm đã hoàn tất thành công, tuy nhiên hoàn toàn có thể có một số trong những lỗi không nghiêm trọng, ví dụ như sự cố khi nhập một vài hàng. Các lỗi không nghiêm trọng được liệt kê trong thuộc tính bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 558 của đối tượng việc làm được trả lại

ghi chú API

    Công việc tải là nguyên tử và nhất quán;

    Cách tốt nhất là tạo một ID duy nhất và chuyển ID đó thành

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 559 khi gọi bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 560 để tạo việc làm tải. Cách tiếp cận này hiệu suất cao hơn đối với sự cố mạng vì người tiêu dùng hoàn toàn có thể thăm dò hoặc thử lại trên ID việc làm đã biết

    Gọi

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 560 trên ID việc làm nhất định là idempotent. Bạn hoàn toàn có thể thử lại bao nhiêu lần tùy thích trên cùng một ID việc làm và nhiều nhất một trong những thao tác đó sẽ thành công

C#

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập C# trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery C# .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 51

Đi

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 52

Java

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 53

Nút. js

Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 54

PHP

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập PHP trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery PHP .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 55

con trăn

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .

Sử dụng ứng dụng khách. phương thức load_table_from_uri() để tải tài liệu từ tệp CSV trong Cloud Storage. Cung cấp định nghĩa lược đồ rõ ràng bằng phương pháp đặt LoadJobConfig. thuộc tính lược đồ vào list những đối tượng SchemaField

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 56

hồng ngọc

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Ruby trong phần khởi đầu nhanh BigQuery bằng phương pháp sử dụng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Ruby .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 57

Đang tải tài liệu CSV vào bảng sử dụng phân vùng thời gian nhờ vào cột

Để tải tài liệu CSV từ Cloud Storage vào bảng BigQuery sử dụng phân vùng thời gian nhờ vào cột

Đi

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 58

Java

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 59

Nút. js

Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 80

con trăn

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 81

Thêm vào hoặc ghi đè lên bảng bằng tài liệu CSV

Bạn hoàn toàn có thể tải tài liệu tương hỗ update vào bảng từ tệp nguồn hoặc bằng phương pháp nối thêm kết quả truy vấn

Trong bảng điều khiển Google Cloud, hãy sử dụng tùy chọn Tùy chọn ghi để chỉ định hành vi cần thực hiện khi bạn tải tài liệu từ tệp nguồn hoặc từ kết quả truy vấn

Bạn có những tùy chọn sau khi tải thêm tài liệu vào bảng

Tùy chọn bảng điều khiển bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535 cờ công cụ Thuộc tính API BigQueryMô tảGhi nếu trốngKhông được tương hỗ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 563Chỉ ghi tài liệu nếu bảng trống. Nối vào bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 564 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 565; . Ghi đè lên bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 568 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 569 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570Xóa tất cả tài liệu hiện có trong một bảng trước khi ghi tài liệu mới. Hành động này cũng xóa lược đồ bảng và xóa mọi khóa Cloud KMS

Nếu bạn tải tài liệu vào một bảng hiện có, tác vụ tải hoàn toàn có thể nối thêm tài liệu hoặc ghi đè lên bảng

Ghi chú. Trang này sẽ không đề cập đến việc nối thêm hoặc ghi đè lên những bảng được phân vùng. Để biết thông tin về nối thêm và ghi đè những bảng được phân vùng, hãy xem. Thêm vào và ghi đè lên tài liệu bảng được phân vùng.

Bảng điều khiển

Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery

Truy cập BigQuery

Trong ngăn Explorer, hãy mở rộng dự án công trình bất Động sản của bạn rồi chọn một tập dữ liệuTrong phần tin tức tập tài liệu, hãy nhấp vào add_box Tạo bảng. Trong bảng Tạo bảng, chỉ định những cụ ông cụ bà thể sauTrong phần Nguồn, chọn Google Cloud Storage trong list Tạo bảng từ. Sau đó, làm như sauChọn một tệp từ nhóm Lưu trữ đám mây hoặc nhập URI tàng trữ đám mây. Bạn không thể gồm có nhiều URI trong bảng điều khiển Google Cloud, nhưng những ký tự đại diện được tương hỗ. Bộ chứa Lưu trữ đám mây phải ở cùng vị trí với tập tài liệu chứa bảng mà bạn muốn tạo, nối thêm hoặc ghi đè. Đọc tệp CSV từ lưu trữ Azure blob pythonĐối với Định dạng tệp, hãy lựa chọn CSVGhi chú. Có thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình hoạt động và sinh hoạt giải trí tải, hãy xem Sửa đổi lược đồ bảngTrong phần Đích, chỉ định những cụ ông cụ bà thể sauĐối với Tập tài liệu, hãy lựa chọn tập tài liệu mà bạn muốn tạo bảngTrong trường Bảng, nhập tên của bảng mà bạn muốn tạoXác minh rằng trường Loại bảng được đặt thành Bảng gốcTrong phần Lược đồ, nhập định nghĩa lược đồ. Để bật tính năng tự động phát hiện lược đồ, hãy lựa chọn Tự động phát hiện. Bạn hoàn toàn có thể nhập thông tin lược đồ theo cách thủ công minh phương pháp sử dụng một trong những phương pháp sau
    lựa chọn một. Nhấp vào Chỉnh sửa dưới dạng văn bản và dán lược đồ ở dạng mảng JSON. Khi bạn sử dụng một mảng JSON, bạn tạo lược đồ bằng quy trình tương tự như tạo tệp lược đồ JSON. Bạn hoàn toàn có thể xem lược đồ của một bảng hiện có ở định dạng JSON bằng phương pháp nhập lệnh sau. bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 7Tùy chọn 2. Nhấp vào add_box Thêm trường và nhập lược đồ bảng. Chỉ định Tên, Loại và Chế độ của từng trường. Ghi chú. Có thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình hoạt động và sinh hoạt giải trí tải, hãy xem Sửa đổi lược đồ bảng
Không bắt buộc. Chỉ định setup phân vùng và cụm. Để biết thêm thông tin, hãy xem Tạo những bảng được phân vùng và Tạo và sử dụng những bảng được phân cụm. Bạn không thể quy đổi bảng thành bảng được phân vùng hoặc nhóm bằng phương pháp nối thêm hoặc ghi đè lên bảng đó. Bảng điều khiển Google Cloud không tương hỗ nối thêm hoặc ghi đè lên những bảng được phân vùng hoặc nhóm trong một tác vụ tảiNhấp vào Tùy chọn nâng cao và thực hiện những thao tác sau
    Đối với tùy chọn Viết, hãy lựa chọn Thêm vào bảng hoặc Ghi đè lên bảngĐối với Số lượng lỗi được phép, hãy đồng ý giá trị mặc định của bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 hoặc nhập số hàng tối đa chứa lỗi hoàn toàn có thể bỏ qua. Nếu số lượng hàng có lỗi vượt quá giá trị này, việc làm sẽ dẫn đến thông báo bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 18 và không thành công. Tùy chọn này chỉ áp dụng cho những tệp CSV và JSONNếu bạn muốn bỏ qua những giá trị trong một hàng không còn trong lược đồ của bảng, hãy lựa chọn Giá trị không xác địnhĐối với Dấu phân cách trường, hãy lựa chọn ký tự phân tách những ô trong tệp CSV của bạn. Dấu phẩy, Tab, Ống hoặc Tùy chỉnh. Nếu chọn Custom thì điền dấu phân cách vào ô Custom field delimiter. Giá trị mặc định là Dấu phẩyĐể bỏ qua những hàng Tiêu đề, hãy nhập số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17Đối với những dòng mới được trích dẫn, hãy kiểm tra Cho phép những dòng mới được trích dẫn để được cho phép những phần tài liệu được trích dẫn có chứa những ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10Đối với những hàng có răng cưa, hãy lựa chọn Cho phép những hàng có răng cưa đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10Đối với Mã hóa, hãy nhấp vào Khóa do người tiêu dùng quản lý để sử dụng khóa Dịch Vụ TM quản lý khóa đám mây. Nếu bạn rời khỏi tùy chọn setup khóa do Google quản lý, thì BigQuery sẽ mã hóa tài liệu ở trạng thái tàng trữ
Nhấp vào Tạo bảng

SQL

Sử dụng câu lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 12 DDL. Ví dụ sau nối tệp CSV vào bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13

Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery

Truy cập BigQuery

Trong trình sửa đổi truy vấn, hãy nhập câu lệnh sau

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 83

Nhấp vào play_circle Chạy.

Để biết thêm thông tin về cách chạy truy vấn, hãy xem Chạy truy vấn tương tác

bq

Sử dụng lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, chỉ định bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15 bằng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 16 và gồm có URI tàng trữ đám mây. Bạn hoàn toàn có thể gồm có một URI, list URI được phân tách bằng dấu phẩy hoặc URI chứa ký tự đại diện

Cung cấp lược đồ nội tuyến, trong tệp định nghĩa lược đồ hoặc sử dụng tính năng tự động phát hiện lược đồ. Nếu bạn không riêng gì có định lược đồ và

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 và bảng đích tồn tại, thì lược đồ của bảng đích sẽ được sử dụng

Chỉ định cờ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 568 để ghi đè lên bảng. Sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 564 để thêm tài liệu vào bảng. Nếu không còn cờ nào được chỉ định, mặc định là nối thêm tài liệu

Có thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình vận hành tải, hãy xem Sửa đổi lược đồ bảng

(Tùy chọn) Cung cấp cờ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 và đặt giá trị cho vị trí của bạn

Các cờ tùy chọn khác gồm có

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 20. Khi được chỉ định, hãy đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 22. Khi được chỉ định, được cho phép những phần tài liệu được trích dẫn có chứa ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 24. Ký tự chỉ ranh giới Một trong những cột trong tài liệu. Cả bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 25 và bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 26 đều được phép sử dụng dấu phân cách tab. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 27 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 28. Chuỗi tùy chỉnh tùy chọn đại diện cho giá trị NULL trong tài liệu CSV bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29. Chỉ định số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 31. Ký tự trích dẫn được sử dụng để đính kèm bản ghi. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 32. Để biểu thị không còn ký tự trích dẫn, hãy sử dụng một chuỗi rỗng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 33. Một số nguyên xác định số bản ghi lỗi tối đa được phép trước khi toàn bộ việc làm không thành công. Giá trị mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17. Nhiều nhất, năm lỗi thuộc bất kỳ loại nào được trả về bất kể giá trị bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 33 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 36. Khi được chỉ định, được cho phép và bỏ qua những giá trị tương hỗ update, không được nhận dạng trong tài liệu CSV hoặc JSON bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17. Khi được chỉ định, hãy bật tính năng tự động phát hiện lược đồ cho tài liệu CSV và JSON bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 504. Khóa Cloud KMS để mã hóa tài liệu bảng
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 84

ở đâu

    vị trí là vị trí của bạn. Cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 là tùy chọn. Bạn hoàn toàn có thể đặt giá trị mặc định cho vị trí bằng phương pháp sử dụng. tập tin bigqueryrcđịnh dạng là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15tập tài liệu là một tập tài liệu hiện cóbảng là tên gọi của bảng mà bạn đang tải tài liệu vàopath_to_source là URI tàng trữ đám mây đủ điều kiện hoặc list URI được phân tách bằng dấu phẩy. Ký tự đại diện cũng khá được hỗ trợlược đồ là một lược đồ hợp lệ. Lược đồ hoàn toàn có thể là tệp JSON cục bộ hoặc hoàn toàn có thể được nhập nội tuyến như một phần của lệnh. Bạn cũng hoàn toàn có thể sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 thay vì đáp ứng định nghĩa lược đồ

ví dụ

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 và ghi đè lên bảng mang tên bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định bằng tính năng tự động phát hiện lược đồ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 85

Lệnh sau tải tài liệu từ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 và nối thêm tài liệu vào bảng mang tên bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định bằng tệp lược đồ JSON — bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 86

API

Tạo việc làm

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 547 trỏ đến tài liệu nguồn trong Lưu trữ đám mây

(Tùy chọn) Chỉ định vị trí của bạn trong thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 548 trong phần bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 549 của tài nguyên việc làm

Thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 550 phải đủ điều kiện, ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 551. Bạn hoàn toàn có thể gồm có nhiều URI dưới dạng list được phân tách bằng dấu phẩy. Lưu ý rằng ký tự đại diện cũng khá được tương hỗ

Chỉ định định dạng tài liệu bằng phương pháp đặt thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 820 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15

Chỉ định tùy chọn ghi bằng phương pháp đặt thuộc tính

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 822 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 567

Đi

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 87

Java

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 88

Nút. js

Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.

Để thay thế những hàng trong một bảng hiện có, hãy đặt giá trị

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 825 trong tham số bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 826 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 827

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 89

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập PHP trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery PHP .

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 0

con trăn

Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .

Để thay thế những hàng trong một bảng hiện có, hãy đặt LoadJobConfig. write_disposition vào hằng số SourceFormat

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570

Xem trên GitHub Phản hồi

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1

Đang tải tài liệu CSV được phân vùng tổ ong

BigQuery tương hỗ tải tài liệu CSV được phân vùng tổ ong được tàng trữ trên Cloud Storage và sẽ điền những cột phân vùng tổ ong dưới dạng những cột trong bảng đích do BigQuery quản lý. Để biết thêm thông tin, hãy xem Tải tài liệu được phân vùng bên phía ngoài từ bộ nhớ đám mây

Chi tiết tải tài liệu CSV

Phần này mô tả cách BigQuery xử lý những tùy chọn định dạng CSV rất khác nhau

mã hóa

BigQuery dự kiến ​​tài liệu CSV sẽ được mã hóa UTF-8. Nếu bạn có tệp CSV với tài liệu được mã hóa ở định dạng ISO-8859-1 (còn được gọi là Latin-1), thì bạn nên chỉ có thể định rõ ràng mã hóa để BigQuery hoàn toàn có thể quy đổi tài liệu thành UTF-8 một cách đúng chuẩn

Nếu bạn không riêng gì có định mã hóa hoặc nếu bạn chỉ định mã hóa UTF-8 khi tệp CSV không được mã hóa UTF-8, thì BigQuery sẽ nỗ lực quy đổi tài liệu thành UTF-8. Nói chung, tài liệu của bạn sẽ được tải thành công, nhưng nó hoàn toàn có thể không khớp với từng byte như bạn mong đợi. Để tránh điều này, hãy chỉ định mã hóa đúng chuẩn bằng phương pháp sử dụng cờ

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 829Ghi chú. Theo mặc định, nếu tệp CSV chứa ký tự ASCII bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 (NULL), thì bạn không thể tải tài liệu vào BigQuery. Nếu bạn muốn được cho phép ASCII bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 và những ký tự điều khiển ASCII khác, hãy đặt bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 832 cho việc làm tải của bạn.

Nếu BigQuery không thể quy đổi một ký tự không phải ký tự ASCII

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17, thì BigQuery sẽ quy đổi ký tự đó thành ký tự thay thế Unicode tiêu chuẩn. �

Dấu phân cách trường

Dấu phân cách trong tệp CSV hoàn toàn có thể là bất kỳ ký tự byte đơn nào. Nếu tệp nguồn sử dụng mã hóa ISO-8859-1, bất kỳ ký tự nào thì cũng hoàn toàn có thể là dấu phân cách. Nếu tệp nguồn sử dụng mã hóa UTF-8, bất kỳ ký tự nào trong phạm vi thập phân 1-127 (U+0001-U+007F) đều hoàn toàn có thể được sử dụng mà không cần sửa đổi. Bạn hoàn toàn có thể chèn một ký tự ISO-8859-1 bên phía ngoài phạm vi này làm dấu phân cách và BigQuery sẽ diễn giải đúng chuẩn ký tự đó. Tuy nhiên, nếu bạn sử dụng ký tự nhiều byte làm dấu phân cách, một số trong những byte sẽ được diễn giải không đúng chuẩn như một phần của giá trị trường

Nói chung, cách tốt nhất là sử dụng dấu phân cách chuẩn, ví dụ như tab, dấu gạch ngang hoặc dấu phẩy. Mặc định là dấu phẩy

Loại tài liệu

Boolean. BigQuery hoàn toàn có thể phân tích cú pháp bất kỳ cặp nào sau đây cho tài liệu Boolean. 1 hoặc 0, đúng hoặc sai, t hoặc f, có hoặc không, hoặc y hoặc n (tất cả đều không phân biệt chữ hoa chữ thường). Tự động phát hiện sơ đồ tự động phát hiện bất kỳ trong số này ngoại trừ 0 và 1

byte. Các cột có loại BYTES phải được mã hóa dưới dạng Base64

Ngày tháng. Các cột có loại NGÀY phải ở định dạng

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5

Ngày giờ. Các cột có loại DATETIME phải ở định dạng

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 835

Môn Địa lý. Các cột có loại ĐỊA LÝ phải chứa những chuỗi ở một trong những định dạng sau

    Văn bản nổi tiếng (WKT)Nhị phân nổi tiếng (WKB)GeoJSON

Nếu bạn sử dụng WKB, giá trị phải được mã hóa hex

Danh sách sau đây đã cho tất cả chúng ta biết những ví dụ về tài liệu hợp lệ

    WKT. bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 836GeoJSON. bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 837WKB được mã hóa hex. bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 838

Trước khi tải tài liệu ĐỊA LÝ, hãy tham khảo thêm Đang tải tài liệu không khí địa lý

khoảng chừng thời gian. Các cột có loại

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 839 phải ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 840, trong đó
    Y = Năm. Phạm vi được tương hỗ là 0-10.000M = Tháng. Phạm vi được tương hỗ là một trong-12Đ = Ngày. Phạm vi được tương hỗ là một trong-[ngày cuối cùng của tháng được chỉ định]H = GiờM = PhútS = Thứ hai[. F] = Phân số của một giây lên đến mức sáu chữ số, với độ đúng chuẩn micro giây

Bạn hoàn toàn có thể chỉ ra giá trị âm bằng phương pháp thêm trước dấu gạch ngang (-)

Danh sách sau đây đã cho tất cả chúng ta biết những ví dụ về tài liệu hợp lệ

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 841 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 842 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 843

Để tải tài liệu INTERVAL, bạn phải sử dụng lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14 và sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 845 để chỉ định lược đồ. Bạn không thể tải lên tài liệu INTERVAL bằng phương pháp sử dụng bảng điều khiển

JSON. Dấu ngoặc kép được thoát ra bằng phương pháp sử dụng chuỗi hai ký tự

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 846. Để biết thêm thông tin, hãy xem ví dụ về tải tài liệu JSON từ tệp CSV

Thời gian. Các cột có loại THỜI GIAN phải ở định dạng

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 847

Dấu thời gian. BigQuery đồng ý những định dạng dấu thời gian rất khác nhau. Dấu thời gian phải gồm có phần ngày và phần thời gian

    Phần ngày hoàn toàn có thể được định dạng là

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 849

    Phần dấu thời gian phải được định dạng là

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 850 (giây và phân số của giây là tùy chọn)

    Ngày và giờ phải được phân tách bằng dấu cách hoặc 'T'

    Theo tùy chọn, ngày và giờ hoàn toàn có thể được theo sau bởi phần bù UTC hoặc bộ chỉ định vùng UTC (

    bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 851). Để biết thêm thông tin, xem Múi giờ

Ví dụ: bất kỳ giá trị nào sau đây là giá trị dấu thời gian hợp lệ

    2022-08-19 12. 112018-08-19 12. 11. 352018-08-19 12. 11. 35. 222018/08/19 12. 112018-07-05 12. 54. 00 UTC2018-08-19 07. 11. 35. 220 -05. 002018-08-19T12. 11. 35. 220Z

Nếu bạn đáp ứng một giản đồ, thì BigQuery cũng đồng ý thời gian Unix epoch cho những giá trị dấu thời gian. Tuy nhiên, tính năng tự động phát hiện lược đồ không phát hiện trường hợp này và thay vào đó xử lý giá trị dưới dạng số hoặc loại chuỗi

Ví dụ về giá trị dấu thời gian Unix epoch

    15346806951. 534680695e11

Tự động phát hiện lược đồ

Phần này mô tả hành vi tự động phát hiện lược đồ khi tải tệp CSV

dấu phân cách CSV

BigQuery phát hiện những dấu phân cách sau

    dấu phẩy ( , )đường ống (. )tab ( t )
tiêu đề CSV

BigQuery phỏng đoán những tiêu đề bằng phương pháp so sánh số 1 tiên của tệp với những hàng khác trong tệp. Nếu dòng đầu tiên chỉ chứa chuỗi và những dòng khác chứa nhiều chủng loại tài liệu khác, BigQuery sẽ giả định rằng số 1 tiên là hàng tiêu đề. Trong trường hợp đó, BigQuery chỉ định tên cột nhờ vào tên trường trong hàng tiêu đề. Tên hoàn toàn có thể được sửa đổi để đáp ứng quy tắc đặt tên cho những cột trong BigQuery. Ví dụ: khoảng chừng trắng sẽ được thay thế bằng dấu gạch dưới

Mặt khác, BigQuery giả định số 1 tiên là hàng tài liệu và gán những tên cột chung, ví dụ như

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 852. Lưu ý rằng sau khi tạo bảng, không thể update tên cột trong lược đồ, tuy nhiên bạn hoàn toàn có thể thay đổi tên theo cách thủ công sau khi tạo bảng. Một tùy chọn khác là đáp ứng lược đồ rõ ràng thay vì sử dụng tính năng tự động phát hiện

Bạn hoàn toàn có thể có tệp CSV có hàng tiêu đề, trong đó tất cả những trường tài liệu đều là chuỗi. Trong trường hợp đó, BigQuery sẽ không tự động phát hiện số 1 tiên là tiêu đề. Sử dụng tùy chọn

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29 để bỏ qua hàng tiêu đề. Nếu không, tiêu đề sẽ được nhập dưới dạng tài liệu. Ngoài ra, hãy xem xét việc đáp ứng một lược đồ rõ ràng trong trường hợp này để bạn hoàn toàn có thể gán tên cộtCSV trích dẫn dòng mới

BigQuery phát hiện những ký tự dòng mới được trích dẫn trong trường CSV và không diễn giải ký tự dòng mới được trích dẫn dưới dạng ranh giới hàng

tùy chọn CSV

Để thay đổi cách BigQuery phân tích cú pháp tài liệu CSV, hãy chỉ định những tùy chọn tương hỗ update trong bảng điều khiển Google Cloud, công cụ dòng lệnh

bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535 hoặc API Tải thêm tài liệu liên quan đến nội dung bài viết Đọc tệp CSV từ tàng trữ Azure blob python programming python

Clip Đọc tệp CSV từ tàng trữ Azure blob python ?

Bạn vừa đọc nội dung bài viết Với Một số hướng dẫn một cách rõ ràng hơn về Clip Đọc tệp CSV từ tàng trữ Azure blob python tiên tiến nhất

Chia Sẻ Link Down Đọc tệp CSV từ tàng trữ Azure blob python miễn phí

Bạn đang tìm một số trong những ShareLink Tải Đọc tệp CSV từ tàng trữ Azure blob python miễn phí.

Thảo Luận thắc mắc về Đọc tệp CSV từ tàng trữ Azure blob python

Nếu sau khi đọc nội dung bài viết Đọc tệp CSV từ tàng trữ Azure blob python vẫn chưa hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Ad lý giải và hướng dẫn lại nha #Đọc #tệp #CSV #từ #lưu #trữ #Azure #blob #python