1 MySQL簡介
MySQL是最流行的開放源碼SQL數據庫管理系統,相對於Oracle,DB2等大型數據庫系統,MySQL由於其開源性、易用性、穩定性等特點,受到個人使用者、中小型企業甚至一些大型企業的廣泛歡迎,MySQL具有以下特點:
l MySQL是一種關聯數據庫管理系統,關聯數據庫將數據保存在不同的表中,而不是將所有數據放在一個大的倉庫內,這樣就增加了速度並提高了靈活性。
l MySQL軟件是一種開放源碼軟件。
l MySQL數據庫服務器具有快速、可靠和易於使用的特點。
l MySQL服務器工作在客戶端/服務器模式下,或嵌入式系統中。
l 有大量可用的共享MySQL軟件。
2 MySQL內置函數
使用過MySQL的人都知道,MySQL有很多內置函數提供給使用者,包括字符串函數、數值函數、日期和時間函數等,給開發人員和使用者帶來了很多方便。下面給幾個例子:
l 字符串函數
mysql> select ASCII('2');
+------------+
| ASCII('2') |
+------------+
| 50 |
+------------+
打印字符的ASCII編碼。
l 數值函數
mysql> SELECT LOG(10,100);
+-------------+
| LOG(10,100) |
+-------------+
| 2 |
+-------------+
打印以10為底,100的對數值。
l 日期和時間函數
mysql> SELECT CURDATE();
+------------+
| CURDATE() |
+------------+
| 2011-11-11 |
+------------+
打印當前的日期。
這里簡單舉幾個例子,如果想了解MySQL函數的全貌,請訪問Mysql官方手冊http://dev.mysql.com/doc/#manual.
3 擴展MySQL函數------ UDF
MySQL的內置函數雖然豐富,但畢竟不能滿足所有人的需要,有時候我們需要對表中的數據進行一些處理而內置函數不能滿足需要的時候,就需要對MySQL進行一些擴展,幸運的是,MySQL給使用者提供了添加新函數的機制,這種使用者自行添加的MySQL函數就稱為UDF(User Define Function)。其實除了UDF外,使用者還可以將函數添加為MySQL的固有(內建)函數,固有函數被編譯進mysqld服務器中,稱為永久可用的,不過這種方式較添加UDF
復雜,升級維護都較為麻煩,這里我們不做討論。
無論你使用哪種方法去添加新函數,它們都可以被SQL聲明調用,就像 ABS()或SUM()這樣的固有函數一樣。
3.1 UDF的特性
l 函數能返回字符串,整數或實數。
l 你可以定義一次作用於一行的簡單函數,或作用於多行的組的集合函數。
l 提供給函數的信息使得函數可以檢查傳遞給它們的參量的數目和類型。
l 你可以讓MySQL在將某參量傳遞給函數之前強制其為某一類型。
l 你可以表示函數返回NULL 或發生錯誤。
3.2 CREATE FUNCTION/DROP FUNCTION語法
CREATE [AGGREGATE] FUNCTION function_name RETURNS {STRING|INTEGER|REAL}
SONAME shared_library_name
DROP FUNCTION function_name
一個自定義函數 (UDF) 就是用一個象ABS()或SUM()這樣的固有(內建)函數一樣作用的新函數去擴展MySQL。
function_name 是用在SQL聲明中以備調用的函數名字。RETURNS 子句說明函數返回值的類型。shared_library_name 是共享目標文件的基本名,共享目標文件含有實現函數的代碼。該文件必須位於一個能被你系統的動態連接者搜索的目錄里。
你必須有mysql 數據庫的INSERT 權限才能創建一個函數,你必須有mysql 數據庫的DELETE權限才能撤銷一個函數。這是因為CREATE FUNCTION 往記錄函數名字,類型和共享名的mysql.func系統表里添加了一行,而DROP FUNCTION則是從表中刪掉這一行。
值得注意的是,要使得UDF機制能夠起作用,必須使用C或者C++編寫函數,你的系統必須支持動態加載,而且你必須是動態編譯的mysqld(非靜態)。
3.3 定義UDF
對於每個你想要使用在SQL聲明中的函數,你應該定義相應的C(或C++)函數。
你為xxx()編寫來實現接口的C/C++函數如下:
l xxx() (必有)
主函數。這是函數結果被計算的地方。SQL函數數據類型與C/C++函數返回類型的對應關系如下:
SQL 類型 |
C/C++ 類型 |
STRING |
char * |
INTEGER |
long long |
REAL |
double |
l xxx_init() (可選)
對xxx()的初始化函數。它可以被用來:
檢查傳遞給xxx()的參量數目。
檢查參量是否為必需的類型,或者,除此之外,在主函數被調用的時候告訴MySQL將參量強制為想要的類型。
分配主函數需要的內存。
指定結果的最大長度。
指定(對於REAL 函數)小數的最多位數。
指定結果是否可以為 NULL。
l xxx_deinit() (可選)
對xxx()的去初始化函數。它釋放初始化函數分配的內存。
當SQL聲明調用XXX()時,MySQL調用初始化函數xxx_init(),讓它執行必要的設置,比如,檢查參量或分配內存。如果xxx_init()返回一個錯誤,SQL聲明會退出並給出錯誤信息,而主函數和去初始化函數並沒有被調用。否則,主函數xxx()對每一行都被調用一次。所有行都處理完之后,調用去初始化函數xxx_deinit()執行必要的清除。
對於象SUM()一樣工作的集合函數,你也必須提供如下的函數:
l xxx_clear()(在5.1版本中必須)
對一個新組重置當前集合值為初試集合值,但不插入任何參量。
l xxx_add()(必須)
添加參量到當前集合值。
MySQL按下列操作來處理集合UDF:
1. 調用 xxx_init() 讓集合函數分配它需要用來存儲結果的內存。
2. 按照GROUP BY表達式來排序表。
3. 為每個新組中的第一行調用xxx_clear()函數。
4. 為屬於同組的每一個新行調用xxx_add()函數。
5. 當組改變時或每組的最后一行被處理完之后,調用xxx()來獲取集合結果。
6. 重復,以上3步直到所有行被處理完。
7. 調用xxx_deinit() 函數去釋放UDF分配的內存。
所有函數必須時線程安全的,這不僅對主函數,對初始化和去初始化函數也一樣,也包括集合函數要求的附加函數。這個要求的一個結果就是,你不能分配任何變化的全局或靜態變量。如果你需要內存,你可以在xxx_init()函數分配內存,然后在xxx_deinit()函數釋放掉。
3.3.1 主要數據結構
UDF_INIT
typedef struct st_udf_init
{
my_bool maybe_null; /* 1 if function can return NULL */
unsigned int decimals; /* for real functions */
unsigned long max_length; /* For string functions */
char *ptr; /* free pointer for function data */
my_bool const_item; /* 0 if result is independent of arguments */
} UDF_INIT;
l my_bool maybe_null
如果xxx()能返回NULL,xxx_init()應使maybe_null為1。其默認值是1。
l unsigned int decimals
小數位數。默認值是傳到主函數的參量里小數的最大位數。(例如,如果函數傳遞 1.34, 1.345, 和1.3, 那么默認值為3,因為1.345 有3位小數。
l unsigned int max_length
結果的最大長度。max_length的默認值因函數的結果類型而異。對字符串函數,默認值是結果的最大長度。對整型函數,默認是21位。對實型函數,默認是13再加上initid->decimals指示的小數位數。(對數字函數,長度包含正負號或者小數點符)。
如果想返回團值,你可以把max_length 設為從65KB到16MB。這個內存不會被分配,但是如果有臨時數據需要存儲,這個設置了的值被用來決定使用哪種列的類型。
l char *ptr
函數可以用作本身目的的指針。比如,函數可以用initid->ptr來在分配了的內存內部通訊。 xxx_init()應該分配內存,並指派給這個指針:
initid->ptr = allocated_memory;
在 xxx() 和 xxx_deinit()中,借用initid->ptr來使用或釋放內存。
UDF_ARGS
enum Item_result /* 返回結果類型 */
{
STRING_RESULT=0,
REAL_RESULT,
INT_RESULT,
ROW_RESULT,
DECIMAL_RESULT
};
typedef struct st_udf_args
{
unsigned int arg_count; /* Number of arguments */
enum Item_result *arg_type; /* Pointer to item_results */
char **args; /* Pointer to argument */
unsigned long *lengths; /* Length of string arguments */
char *maybe_null; /* Set to 1 for all maybe_null args */
char **attributes; /* Pointer to attribute name */
unsigned long *attribute_lengths;/* Length of attribute arguments */
} UDF_ARGS;
l unsigned int arg_count
參數個數。如果你需要你的函數帶着某個數目的參量被調用,在初始化函數檢查這個值,例如:
if (args->arg_count != 2)
{
strcpy(message,"XXX() requires two arguments");
return 1;
}
l enum Item_result *arg_type
參數類型列表。要確信一個參量是給定類型的,並且如果不是的話就返回一個錯誤,請檢查初始化函數中的arg_type數列。比如:
if (args->arg_type[0] != STRING_RESULT ||
args->arg_type[1] != INT_RESULT)
{
strcpy(message,"XXX() requires a string and an integer");
return 1;
}
要求你函數的參量是某一類型的另一方法是,使用初始化函數設置arg_type元素為你想要的類型。對所有對xxx()的調用而言,這會導致MySQL強制參量為這些類型。比如,要指定頭兩個參量強制成字符串和整數,在xxx_init()中分別:
args->arg_type[0] = STRING_RESULT;
args->arg_type[1] = INT_RESULT;
l char **args 參數列表
對主函數的每次調用,args->args 包含為每個當前處理的行傳遞的實際參量。
如下使用參量i的函數:
給一個STRING_RESULT 型的參量作為一個字符串加一個長度,可以允許所有二進制數或任意長度的數處理。字符串內容作為args->args[i],而字符串長度為args->lengths[i]。你不能采用null結尾的字符串。
對一個INT_RESULT型的參量,你必須轉換args->args[i]為一個long long值:
long long int_val;
int_val = *((long long*) args->args[i]);
對一個REAL_RESULT型參量,你必須轉換args->args[i]為一個雙精度值:
double real_val;
real_val = *((double*) args->args[i]);
l unsigned long *lengths
對初始化函數,lengths數列表示對每個參量的最大字符串長度。你不要改變它。對主函數的每次調用,lengths包含了對當前處理行傳遞的任何字符串參量的實際長度。對於INT_RESULT 或 REAL_RESULT類型的參量,lengths仍包含參量的最大長度(對初始化函數)。
3.3.2 簡單函數
這里說明簡單SQL函數的C/C++主函數xxx()的編寫,注意返回值和參數會有所不同,這取決於你說明的SQL函數xxx()在CREATE FUNCTION聲明中返回的是STRING,INTEGER類型還是REAL類型。
對於STRING型函數:
char *xxx(UDF_INIT *initid, UDF_ARGS *args,
char *result, unsigned long *length,
char *is_null, char *error);
對於INTEGER型函數:
long long xxx(UDF_INIT *initid, UDF_ARGS *args,
char *is_null, char *error);
對於REAL型函數:
double xxx(UDF_INIT *initid, UDF_ARGS *args,
char *is_null, char *error);
初始化和去初始化函數如下說明:
my_bool xxx_init(UDF_INIT *initid, UDF_ARGS *args, char *message);
void xxx_deinit(UDF_INIT *initid);
initid參數被傳遞給所有的三個函數。它指向UDF_INIT結構,這個結構被用來在函數之間交換信息。
3.3.3 集合函數
這里介紹創建集合UDF之時需要定義的不同函數。
l xxx_reset()
當MySQL在一個新組中發現第一行時調用這個函數。它對這個組重置任何內部總和變量,然后使用給定的UDF_ARGS參量作為內部總和值的第一個值。如下說明 xxx_reset() 函數:
char *xxx_reset(UDF_INIT *initid, UDF_ARGS *args,
char *is_null, char *error);
在MySQL5.1版中UDF接口不需要或不使用xxx_reset()函數,而是使用xxx_clear()函數作為替代。但是如果你想讓UDF也能在老版本的服務器上運行,你也可以定義 xxx_reset() 和 xxx_clear() 函數。(如果你使用了這兩個函數,xxx_reset()函數在很多情況下可以通過調用函數來內部實現,即調用xxx_clear()函數重置所有變量,然后添加UDF_ARGS參量作為組的第一個值。)
l xxx_clear()
當MySQL需要重置總和結果時調用此函數。對每一個新組,在開始之時調用它,但是它也可以被調用來為一個沒有匹配行在其中的查詢重置值。如下說明xxx_clear():
char *xxx_clear(UDF_INIT *initid, char *is_null, char *error);
在調用xxx_clear()之前is_null被設置指向CHAR(0)。
如果發生錯誤,你可以存儲一個值在error參量指向的變量中。error指向一單字節變量,而不是一個字符串緩沖區。
xxx_clear()是MySQL 5.1必須的。
l xxx_add()
為同組所有的行調用這個函數。你應該用它在UDF_ARGS參量中向內部總和變量加值。
char *xxx_add(UDF_INIT *initid, UDF_ARGS *args,
char *is_null, char *error);
對集合UDF而言xxx() 函數應該用與非集合UDF一樣的方法來說明。
對一個集合UDF,MySQL在組內所有行被處理之后調用xxx()函數。這里你應該一般不會接觸到它的UDF_ARGS參量,但是取而代之地根據內部總和變量返回給你值。
is_null和error的指針參量和所有到xxx_reset(), xxx_clear(), xxx_add() 和 xxx()調用一樣。你可以用這個來提醒你獲取一個錯誤或無論xxx()是否返回NULL的一個結果。你不能把一個字符串存到error!error指向單字節變量而不是字符串緩沖區。
*is_null 對每一個組都重置(調用xxx_clear()前),*error 從不重置。
如果xxx()返回時,*is_null或*error被設置,MySQL返回NULL作為組函數的結果。
3.3.4 錯誤處理
如果沒有錯誤發生,初始化函數應該返回0,否則就返回1。如果有錯誤發生,xxx_init() 應該在message 參數存儲一個以null結尾的錯誤消息。該消息被返回給客戶端。消息緩沖區是 MYSQL_ERRMSG_SIZE 字符長度,但你應該試着把消息保持在少於80個字符,以便它能適合標准終端屏幕的寬度。
對於long long 和 double 類型的函數,主函數 xxx()的返回值是函數值。字符函數返回一個指向結果的指針,並且設置 *result 和 *length 為返回值的內容和長度。例如:
memcpy(result, "result string", 13);
*length = 13;
被傳給 xxx() 函數的結果緩沖區是 255 字節長。如果你的結果適合這個長度,你就不需要擔心對結果的內存分配。
如果字符串函數需要返回一個超過255字節的字符串,你必須用 malloc() 在你的 xxx_init() 函數或者xxx()函數里為字符串分配空間,並且在 xxx_deinit() 函數里釋放此空間。你可以將已分配內存存儲在UDF_INIT 結構里的ptr位置以備將來 xxx() 調用。
要在主函數中指明一個NULL的返回值,設置*is_null為1:
*is_null = 1;
要在主函數中指明錯誤返回,設置 *error 為 1:
*error = 1;
如果xxx()對任意行設置*error為1 ,對於任何 XXX()被調用的語句處理的當前行和隨后的任意行,該函數值為NULL(甚至都不為隨后的行調用 xxx())。
4 范例
4.1 編譯安裝
安裝mysql開發包
[root@rocket mysql_udf]# yum -y install mysql-devel
編譯udf鏈接庫
代碼:udf_str.cpp
#include <mysql.h> #include <mysql_com.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <algorithm> extern "C" { // str_reverse my_bool str_reverse_init(UDF_INIT* initid, UDF_ARGS* args, char* message); void str_reverse_deinit(UDF_INIT* initid); char* str_reverse(UDF_INIT* initid, UDF_ARGS* args, char* result, unsigned long* length, char* is_null, char *error); // LengthAll my_bool mysum_init(UDF_INIT* initid, UDF_ARGS* args, char* message); void mysum_deinit(UDF_INIT* initid); void mysum_reset(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error); void mysum_clear(UDF_INIT *initid, char *is_null, char *error); void mysum_add(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error); long long mysum(UDF_INIT *initid, UDF_ARGS *args, char *result, unsigned long *length, char *is_null, char *error); } char* StrData = 0; int gSum = 0; // str_reverse ================================================== my_bool str_reverse_init(UDF_INIT* initid, UDF_ARGS* args, char* message) { if (args->arg_count != 1) { strcpy(message,"wrong number of arguments: str_reverse() requires one argument"); return 1; } if (args->arg_type[0] != STRING_RESULT) { strcpy(message,"str_reverse() requires a string as parameter"); return 1; } StrData = (char*)malloc(4096); memset(StrData, 0, 4096); initid->maybe_null = 1; initid->max_length = 32; initid->ptr = StrData; return 0; } void str_reverse_deinit(UDF_INIT* initid) { free(StrData); } char* str_reverse(UDF_INIT* initid, UDF_ARGS* args, char* result, unsigned long* length, char* is_null, char *error) { if (args->arg_type[0] == STRING_RESULT) { if (strlen(args->args[0]) > 256) { strncpy(StrData, args->args[0], 4096); StrData[4096-1] = 0; std::reverse(StrData, StrData + strlen(StrData)); return StrData; } else { strncpy(result, args->args[0], 256); result[256-1] = 0; std::reverse(result, result + strlen(result)); *length = (unsigned long)strlen(result); return result; } } return NULL; } // LengthAll ================================================== my_bool mysum_init(UDF_INIT* initid, UDF_ARGS* args, char* message) { if (args->arg_count != 1) { strcpy(message,"wrong number of arguments: mysum() requires one argument"); return 1; } if (args->arg_type[0] != INT_RESULT) { strcpy(message,"wrong argument type of arguments: mysum() requires int"); return 1; } gSum = 0; return 0; } void mysum_deinit(UDF_INIT* initid) { } void mysum_reset(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error) { gSum = 0; } void mysum_clear(UDF_INIT *initid, char *is_null, char *error) { gSum = 0; } void mysum_add(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error) { gSum += *(int*)(args->args[0]); } long long mysum(UDF_INIT *initid, UDF_ARGS *args, char *result, unsigned long *length, char *is_null, char *error) { return gSum; }
[root@rocket mysql_udf]# g++ -I/usr/include/mysql -shared -fPIC -o udf_str.so udf_str.cpp
查找插件路徑
安裝插件函數
DROP FUNCTION IF EXISTS str_reverse;
DROP FUNCTION IF EXISTS mysum;
CREATE FUNCTION str_reverse RETURNS string SONAME 'udf_str.so';
CREATE AGGREGATE FUNCTION mysum RETURNS INTEGER SONAME 'udf_str.so';
注意這里的返回值不能寫錯,不然運行的時候mysql服務器會崩潰!
查看安裝結果
4.2 運行
運行str_reverse
運行mysum,先創建一些數據
mysql> create database test;
mysql> use test;
mysql> CREATE TABLE salary( name varchar(64) NOT NULL DEFAULT '' COMMENT 'name', salary int(11) NOT NULL DEFAULT 0 COMMENT 'salary', primary key(name) )ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT 'test';
mysql> insert into salary values ('zhangsan', 11380), ('lisi', 12000), ('wangwu', 8789);
mysql> select mysum(name) from salary;
ERROR 1123 (HY000): Can't initialize function 'mysum'; wrong argument type of arguments: mysum() requires int
這里故意使用name為參數,可以看到我們在程序里打印的錯誤信息。
執行正確的語句
可以看到mysum實現了和內置函數sum一樣的功能。